京都大学のJ.B.Brown講師は、ヒートマップ(可視化グラフ)を用いた統計学的分析によって、AIの性能評価指標そのものの有効性を網羅的に検証し、分野を問わず正確にAIの性能を評価できる手法を世界で初めて開発した。信頼性の高いAIの開発に加えて、ビッグデータを用いた創薬研究や治療法の創出などに貢献することが期待される。
AIによるビッグデータ解析はさまざまな分野で活用され、創薬研究などでも分子モデルの有効性予測での重要な検証手段とされる。しかし、例えば特定分子の検出の場合に、実験での検出成功率がコンピューターモデルによる事前予測を大きく下回る事例がしばしば報告されている。その根本的な原因は、コンピューターモデルすなわちAIの性能を過大評価した統計的指標にあるとされた。これまでは、AIの性能評価指標としてTPR(True Positive Rate:真陽性率)とACC(Accuracy:正確率)など数種類の指標が用いられてきたが、これらの指標が本当にAIの性能を正しく評価できていたのが検討された。
今回の研究では、AIの性能を統計的指標によって正確に評価する手法を開発。この手法は、TPRやACCなど各指標の特性と有効性を、分布関数(iCDF)を使った統計学的な解析によって検証するものだ。検証の結果は、AI技術に関わらずに、TPRやACCなどでの高評価値を得られる確率が高く、実応用の有効性につながらない可能性が高いことを示した。さらに、AIの開発と評価実験を行う前に、新手法によって評価指標そのものの特性を十分に吟味すべきことが分かった。
今回開発した手法はどの分野のAIに対しても適用可能だ。どのようなデータセットに対しても、実証実験で正確な分類ができる「堅牢な」AIの開発に貢献することが期待される。
論文情報:【Molecular Informatics】Classifiers and their Metrics Quantified