筑波大学生命領域学際研究センターの牧野昭二教授と国立情報学研究所情報学プリンシプル研究系の小野順貴准教授らの研究グループは、複数の機器で録音した複数の人の重なり合った音声から1人ひとりの声を分離し、複数音声を同時認識できるようにする音声信号処理技術を開発した。会議録の自動作成などで活用が期待されている。
筑波大学によると、研究グループは、別々の機器で録音され、同期がとれていない複数の録音信号を録音後に同期させる新しい信号処理技術を開発した。これに国立情報学研究所の小野研究室が開発した高速ブラインド音源分離の技術を組み合わせることで、複数話者の音声が混ざり合った会話を個々の音声に分離したあと、音声認識を適用、認識性能を大幅に向上させることに成功した。
この技術を応用すれば、会議の参加者が個々のスマートフォンで会議内容を録音していれば、議事録を自動作成することも可能になる。
音声認識機能は近年大幅に向上してきたが、複数人の言葉が重なる会話や会議に利用すると、機能が低下することが問題になっていた。
国立情報学研究所はウェブ上のシステムにこの技術を実装する研究も進めている。研究成果は9月8日から米国カリフォルニア州サンフランシスコで開かれた音声分野の国際会議で発表された。