東京大学大学院の研究グループは、ChatGPTに搭載されている人工知能モデルGPTの日本獣医師国家試験における解答性能を検証し、GPTが合格最低点を大幅に上回る解答性能を持つことを明らかにした。
これまで、医師国家試験におけるGPTの解答性能の検証は日本など様々な国で行われ、英語に翻訳することで合格最低点を超えることが報告されていた。一方、日本語で出題される日本獣医師国家試験でのGPTの回答性能は未検証で、獣医学という特殊な知識を必要とする分野でのGPTの性能は不明だった。
そこで研究グループは、過去3年分の日本獣医師国家試験問題を用いて、各GPTのモデル性能比較や入力プロンプト・言語翻訳による解答性能への影響を評価した。
その結果、GPT-4oモデルに比べ最新のo3モデルが、最も高い正答率を示し、事前学習量やパラメータ数の増加により、獣医学分野でも解答性能が向上。さらに、検証実験では日本語原文の問題文のまま、特別なプロンプトの最適化を行わずに、全セクションで合格点(60〜70%)を大幅に上回り、全体合計で92.9%という高得点を示した。GPTが日本の獣医学部卒業レベル以上の知識を持っていることが示唆された。
また、不正解問題の分析を行い、国内法規に基づく法律問題や画像問題、情報統合と論理的思考を要する臨床問題では正答率が低下することが分かった。GPTには問題に対し強い分野と弱い分野があり、今後はこの結果に基づいたGPT活用のための検証が必要と考えられた。
これにより、GPTが国内の獣医学教育や実務現場で、学習支援や業務支援などの補助的な用途で活用できることが示され、今後の獣医学領域におけるGPTの安全で効率的な活用が期待されるとしている。

