未来の音声対話システムは、どう進化するのだろう?
案内ロボットはどう声を聞き分ける?
ショッピングモールなどの施設に、音声案内システムが置かれるようになってきました。話しかけると目的の場所などを音声で案内してくれます。これはどうやって質問の声と、関係のない声とを聞き分けるのでしょうか。普通には声の大きさで判断しますが、よりよい1つの方法は、声がどの距離から届いているかを推定することです。遠くからの声は室内の反響があり、音声が不明瞭になるので、関係のない声だと判断できます。また、顔がカメラに向いていたら質問者、横や後ろを向いていたら関係のない人だと、画像認識で判別する方法もあります。
音声の特徴を見つけて学習する音声認識のスゴ技
スマホなどにも利用されている音声認識には、3つの技術が活用されています。1つは話者の音声を「あ」「い」のように短く切って周波数を分析し、それが50音のどれに近いかを識別する「音声モデル」。2つ目は単語の並びのパターンから、次にどの単語がくるかを予測する「言語モデル」。3つ目は、適切な単語列(=文)を効率的に見つける「探索」です。
これらを用いた音声認識の精度を上げるために、コンピュータが、多人数かつ大量の音声データを基に音声の特徴を見つけ、的確に識別できるよう、自動で学習し、認識する仕組み、深層学習と呼ばれる「ディープニューラルネットワーク」技術が役立っています。
会話のようで、会話じゃない?
現在の音声対話システムは、持っている情報を返すだけで、まだ「会話」になっていません。なんの話をしているかを理解して自分から話題をふったり、周囲の状況を考慮してどの質問に返答するかを判断したりすることはできないのです。そこで有益な会話をするために、環境音、例えば足音や何か物が動くときの音、笑い声なども的確に認識し、会話に役立てることに着目する研究が始まろうとしています。返答に笑いがおこったら「変なことを言ったかな」と反省する音声対話システムも、やがて登場するでしょう。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
愛知工科大学 工学部 情報メディア学科 教授 實廣 貴敏 先生
興味が湧いてきたら、この学問がオススメ!
情報処理学、人工知能学、音声情報処理学先生が目指すSDGs
先生への質問
- 先生の学問へのきっかけは?
- 先輩たちはどんな仕事に携わっているの?