東北大学大学院の舟山弘晃研究員(博士後期課程)らの研究グループは、人工知能(AI)による記述式答案の自動採点に関し、人間の採点者とAIの分担による採点品質保証のために構築した実践的フレームワークにより採点品質を適切にコントロールできることを明らかにした。
深層学習を用いた機械学習手法の登場により、AIによる記述式答案の自動採点精度は著しく向上している。特に、数十字程度の記述答案を対象とした短答式記述問題の自動採点では、一部の問題において人間の採点者と同等レベルの採点品質を実現できる。しかし、採点AIは学習データ中に存在しない未知の表現を含む答案に対する適切な採点は難しく、AIによる自動採点実用化の大きな妨げとなっている。
そこで、研究グループは自動採点システムと人間が協調的に採点を行う採点フレームワークを構築。この枠組みでは、採点AIによる採点結果の信頼性を表す尺度である確信度を活用する。各答案に対して自動採点結果の確信度を確認し、確信度が低い場合は人間の採点者による再採点を行う。
まず少量の採点済み答案データをもとに、所望の採点品質を実現するための確信度の下限を推定。実際の自動採点の際に確信度がその下限値を下回った場合に人間が再採点を行い、所望の採点品質の実現を図る。
今回、国内と英語圏の記述式問題のデータセットを用いて、期待通りの効果を確認するシミュレーションを行ったところ、その実現性を明らかにした。また、人間の採点者間の採点結果の一致率が高い問題ほど、高品質な採点を低コストで実現可能であることが分かった。これらの知見により、今後自動採点実用化の進展が期待されるとしている。