聖徳太子のように10人の話を聞き分けるには?
音声認識は雑音の中では難しい
AI技術の進歩により、スマホでも実用レベルの音声認識が可能になりました。しかし、周囲にさまざまな音がある環境、例えば、にぎわうファストフード店では、音声認識はとても難しくなります。店員さんの声、ほかのお客さん同士の声、BGMなどが混じりあって聞こえてくるからです。一方人間は、こうした雑音が多い環境でも、特定の音声を聞き分ることができ、カクテルパーティー効果と呼ばれています。
聞きたい音を聞き分ける音の分離技術
雑音の中で特定の音だけを聞きたいときに用いられる機器としては、指向性マイクロホンがあります。あなたもテレビの収録現場などで、長く大きなマイクロホンが使われているのを見たことがあるでしょう。こうした指向性マイクロホンは、雑音の中でも特定方向の音を収録することができますが、逆にいえば、あらかじめどの方向に聞きたい音の発生源があるかを知らなければならず、さらにその方向にマイクロホンを向ける必要があります。これに対し、音の発生位置を事前に知らなくても、複数のマイクロホンを並べ、録音された混ざった音を処理してそれぞれの音を分離する、いわば音を聞き分ける技術を音源分離といいます。人間の耳は2つですが、マイクロホンは2つに限らず、もっとたくさん使うことができます。人間とは異なる仕組みですが、最新の音源分離技術を使えば、聖徳太子のように、10人が同時に話をしてもそれぞれの人の話を聞き分けることが可能になりつつあります。
音源分離の広がる応用
音源分離は音声認識に限らず、幅広い応用が期待されています。例えば補聴器が、さまざまな音の中から聞きたい声だけを増幅してくれたら、聴こえは大幅に改善するでしょう。音楽演奏を個々の楽器パートや歌声に分離することができたら、耳コピしたり、弾き間違いを修正したりすることが、より簡単にできるようになるでしょう。未来のスマートスピーカーは、複数の人が同時に話しかけても、ちゃんと聞き分けて対応してくれるようになるかもしれません。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
東京都立大学 システムデザイン学部 情報科学科 教授 小野 順貴 先生
興味が湧いてきたら、この学問がオススメ!
音響工学、情報科学先生への質問
- 先生の学問へのきっかけは?