京都大学大学院情報学研究科河原達也教授、放送大学広瀬洋子教授らの研究グループは、講演・講義を対象とした自動音声認識の研究開発を進め、最新の深層学習を用いることで、放送大学の講義に対しても概ね90%の認識率を実現した。人手で書き起こすよりも効率的に字幕付与できるため、放送大学ではオンライン授業の字幕作成に活用している。組織的にこのシステムが活用されているのは初の事例。
2016年度から施行されている障害者差別解消法では、障害者の社会的障壁の除去について「必要かつ合理的な配慮」を行うことが義務づけられており、聴覚障害者に対しては手話や字幕付与などの情報保障を行う必要がある。近年、さまざまな講義コンテンツがインターネット配信されているが、字幕が付与されているものはほとんどないのが現状。人的・金銭的なコストも課題となっている。
日本で最大のメディアを利用した高等教育機関、放送大学でも、約300の科目の講義がテレビやラジオ、インターネットで配信されているが、現在、字幕が付与されているのはテレビ講義番組の半数程度にとどまっている。そこで本研究グループは、放送大学の講義を対象とした音声認識・字幕付与に関して研究開発を進め、大規模な講演・講義のデータベースを用いて最新の深層学習を導入し、さらに教科書テキストから専門用語などの表現を自動的に登録することで、概ね90%の認識率を実現した。
また、約30の講義を対象に音声認識結果を編集する場合と人手ですべて書き起こす場合とを比較した結果、システムの認識率が87%以上を超えると優位性が見られ、93%になると1/3以上の作業時間の短縮効果が確認できた。開発したシステムは、放送大学で2016年度から開始されたオンライン授業の字幕作成に活用されているほか、インターネット配信によるラジオ講義に字幕と静止画を付与したコンテンツも実験的に配信されている。今後、他の教育機関で作成されるさまざまな講義コンテンツに対する字幕付与にも展開されることが期待される。
研究成果は、2016年12月2日に情報処理学会アクセシビリティ研究会(SIG-AAC)にて発表された。