大阪公立大学大学院の田北大昂講師、植田大樹准教授らの研究グループは、生成AIと非専門医の診断能力を統計学的に比較したところ有意差がないことを明らかにした。
近年、ChatGPTなど生成AIの活用が医療分野でも注目されており、これまでに生成AIの診断能力に関する研究論文が多数発表されている。しかし、それぞれ評価基準が違うため、実際の医療現場で利用できる診断能力がどの程度あるのか、医師との比較においてどのような特徴があるのかなど、包括的な分析が必要だった。
そこで研究グループは、医療に関する生成AIの診断能力について2018年6月から2024年6月までに発表された83報の研究論文を用いてメタ解析(複数研究結果の統計的解析)を実施した。その中で数多く評価されていたのはGPT-4(54件)とGPT-3.5(40件)で、その他にはGPT-4o、Claude 3、Gemini 1.5 pro、Llama 3 70B などの最新モデルも含まれていた。評価された医療分野は一般内科が27件で最多、次いで放射線科16件、眼科11件、救急医療8件など多岐にわたる。
分析の結果、生成AIの平均診断精度は52.1%であり、医師全体と有意差がなかった(医師全体の方が9.9%高い)。特に非専門医と生成AIの診断精度の差はわずかで、両者の有意差はなかった(非専門医の方が0.6%高い)。一方で、専門医は生成AIよりも診断精度が15.8%高く、有意差があった。ただし、GPT-4、GPT-4o、Claude 3、Gemini 1.5 pro、Llama 3 70Bなどの最新モデルは、非専門医と同等かそれ以上の診断精度を示した。
今回の研究により、生成AIは専門医の完全な代替とはならないが、医学教育での活用や非専門医の診断支援、医療資源の限られた地域での診断補助などでの活用が期待できるとしている。