大阪大学産業科学研究所の武田龍助教らの研究グループは、音声対話システムに必要な「会話に含まれる未知語の特定」技術に、知っている単語の発音構成パターンに基づく「音表現の単位」を用いる機構を導入した。
近年、音声応答を行うロボットやアプリが数多く公開されているが、基本的に事前に登録された単語のみを認識する仕組だ。それ以外の単語(未知語)が発話に含まれると、知っている単語群で置き換えられてしまい、「単語」として正しく認識できない。もし、「知らない単語」の部分を正しく認識できれば、人に聞いてその意味を学習することも可能になる。
研究では、自然言語処理技術における「教師なし単語分割」手法に着目し、発話中の未知語の特定に応用した。この手法では通常書き言葉を対象とし、切り出しの単位は「文字」になるが、音声へ適用する場合は「音表現の単位」として何を使うべきか、何が有効かは自明ではない。その単位として音素(発音記号)や音節(ひらがな)などの表現がある。
開発された手法では、「単語らしさ」を用いて計算された「発音とその構成パターンに基づく単位」を「音表現の単位」として用いている。このパターンは、複数の単語に現れる共通の発音と出現位置から計算されており、知っている単語と近い発音構成の未知語をより特定しやすくなる。音素の認識は正しくできたと仮定し、日本語・英語の会話コーパスで未知語の特定率を各単位で検証している。
この成果は、開発者が事前に用意したり更新したりしたやりとりができるだけでなく、人間と話すにつれて自ら学んで次第に賢くなっていく音声対話システムの実現に必要な技術という。