生成AIによる医療面接の評価が、人間(教員)による評価と同程度に信頼できる可能性があることを、順天堂大学の研究グループが明らかにした。
医療面接とは、医師が患者の症状や既往歴、生活状況などを聞き取り、問題を整理して診断や治療方針につなげるための対話を指す。医師には知識だけでなく、限られた時間の中で適切に面接を行う力が求められるため、医学生の面接力を客観的に評価・育成する教育が重要だ。
一方で、医療面接の評価やフィードバックには、模擬患者の確保や面接機会の提供など、教育者の負担が大きい。また、評価者による採点のばらつきも懸念される。
そこで本研究では、生成AIによる医療面接記録の自動採点の妥当性を検証した。ChatGPTのカスタムGPTで構築した生成AI模擬患者(27歳男性の下肢筋力低下症例)を相手に、医学生・研修医・指導医の計7名が実施した医療面接の文字起こしデータを対象とした。
同一の評価基準でAIと臨床指導医5名が採点した結果、AIと人間の採点差は平均0.43~1.54点と小さく、高い一致が認められた。また、同一の会話記録をAIに繰り返し採点させた場合の得点のばらつきも小さく、安定した評価が可能であることが示された。
採点時間は、人間が1件あたり平均10分16秒を要したのに対し、AIは3分20秒~4分19秒で、58~67.6%の短縮が確認された。
これらの結果から、「AIが一次採点を行い、教員がその内容を確認する評価モデル」など、生成AIの活用により医療面接教育の省力化と、迅速かつ標準化されたフィードバックの実現が期待される。
今後は、多症例・多施設での検証を進めることで、医療面接教育においてAIが担える領域と人間同士の対話が不可欠な領域との切り分けも進めていくとしている。
