筑波大学の研究グループは、日本語母語話者が英文を読解した際の総計41万語以上に対する眼球運動データセットを収集し、Tsukuba Eye-tracking Corpus(TECO)として構築・公開した。
文章読解中の眼球運動データは、人間が書き言葉を処理・理解する過程を明らかにするのに有用であることが明らかとなっている。そのため近年、視線計測と呼ばれる方法で収集された母語や外国語での読解における大規模な眼球運動データを、体系的に整理して視線計測コーパス(eye-tracking corpus)として公開する取り組みが進められている。しかし、英語学習者のデータはヨーロッパやその周辺地域で収集されたものが中心で、アジア圏のデータが不足していた。
そこで本研究グループは、日本語を母語とする英語学習者の大学生・大学院生41名を協力者として、英検準2級~準1級に相当する英語の文章を読解した際の、1人あたり約1万語(総計約41万語以上)に対する眼球運動データを収集した。
本データセットには、文章に含まれる各単語について、注視の合計回数、注視の合計継続時間、最初に起こった注視の継続時間、次の単語を読むまでの注視の継続時間、読み戻りを含めて次の単語を読むまでの注視の継続時間、読み飛ばしの有無、後続の単語からの読み戻りの有無、2回目の注視の有無、2回目の読みの有無の、合計9つの指標が含まれている。これらを分析した結果、収集した眼球運動データの信頼性、妥当性が保たれていることが確認された。
収集したデータは、Tsukuba Eye-tracking Corpus(TECO)としてオープンサイエンスのプラットフォームにて公開しており、文章理解や言語習得の研究に活用されることが期待される。また、自然言語処理やAI研究などを含めた幅広い学術分野への波及効果も考えられるとしている。