東京大学の佐藤洋一教授らの研究グループは、頭部装着型カメラにより記録された「一人称視点映像」から、人の視線の動きをこれまでにない精度で予測する手法を開発した。伝統技能の伝承や医療など、幅広い分野で活用が期待される。
人の詳細な行動の理解には、人がいつ何に注意を向けているのかを知ることが重要だ。映像から人の視線がどう動くかを予測できれば、視線計測デバイスなどの特殊な装置を用いることなく人が何をどう見ているのかを知ることが可能となる。一方、人の視線の動きはその人物が行っている作業に強く依存することが知られていたが、既存の一人称視点映像(頭部装着型カメラにより記録される映像)からの視線予測手法では、この作業依存性が考慮されていなかった。
今回の研究では、深層学習を用いた画像解析におけるアテンションモデルに着想を得て、作業に依存する視線移動のパターンを考慮することにより、一人称視点映像から高い精度で視線位置を予測できる手法を開発した。これにより、人がキッチンで料理をする中で、どのタイミングでどのような物からどのような物へ視線を動かすのかを予測することに成功した。
一人称視点映像解析の研究で用いられている標準ベンチマークデータセットを利用した評価実験を行ったところ、最新の既存の視線予測手法と比較して、提案手法が最大約40%高い精度で視線位置を予測できることが確認された。
今回開発した技術は、ものづくりの現場における技能の伝承や、自閉症スペクトラム障害の早期スクリーニング、自動車運転時の運転手の視認行動分析など、広く人の行動のセンシングと解析に関わるさまざまな分野での活用が期待される。