筑波大学生命領域学際研究センターの牧野昭二教授と国立情報学研究所情報学プリンシプル研究系の小野順貴准教授らの研究グループは、複数の機器で録音した複数の人の重なり合った音声から1人ひとりの声を分離し、複数音声を同時認識できるようにする音声信号処理技術を開発した。会議録の自動作成などで活用が期待されている。

 筑波大学によると、研究グループは、別々の機器で録音され、同期がとれていない複数の録音信号を録音後に同期させる新しい信号処理技術を開発した。これに国立情報学研究所の小野研究室が開発した高速ブラインド音源分離の技術を組み合わせることで、複数話者の音声が混ざり合った会話を個々の音声に分離したあと、音声認識を適用、認識性能を大幅に向上させることに成功した。
この技術を応用すれば、会議の参加者が個々のスマートフォンで会議内容を録音していれば、議事録を自動作成することも可能になる。

 音声認識機能は近年大幅に向上してきたが、複数人の言葉が重なる会話や会議に利用すると、機能が低下することが問題になっていた。
国立情報学研究所はウェブ上のシステムにこの技術を実装する研究も進めている。研究成果は9月8日から米国カリフォルニア州サンフランシスコで開かれた音声分野の国際会議で発表された。

筑波大学

学際融合・国際化への挑戦を続け、知性と人間性を備えた人材を育成

学問文化の薫り高い国際都市、筑波サイエンス・シティの中核となる緑あふれる筑波大学。現在の教育体制は9学群・23学類、全ての分野から専門導入的な科目を履修することができ、創造的な知性と豊かな人間性を備えることをめざしています。師魂理才をもって、地球規模課題の解決[…]

大学ジャーナルオンライン編集部

大学ジャーナルオンライン編集部です。
大学や教育に対する知見・関心の高い編集スタッフにより記事執筆しています。