聖徳太子のように10人の話を聞き分けるには？

音声認識は雑音の中では難しい

AI技術の進歩により、スマホでも実用レベルの音声認識が可能になりました。しかし、周囲にさまざまな音がある環境、例えば、にぎわうファストフード店では、音声認識はとても難しくなります。店員さんの声、ほかのお客さん同士の声、BGMなどが混じりあって聞こえてくるからです。一方人間は、こうした雑音が多い環境でも、特定の音声を聞き分ることができ、カクテルパーティー効果と呼ばれています。

聞きたい音を聞き分ける音の分離技術

雑音の中で特定の音だけを聞きたいときに用いられる機器としては、指向性マイクロホンがあります。あなたもテレビの収録現場などで、長く大きなマイクロホンが使われているのを見たことがあるでしょう。こうした指向性マイクロホンは、雑音の中でも特定方向の音を収録することができますが、逆にいえば、あらかじめどの方向に聞きたい音の発生源があるかを知らなければならず、さらにその方向にマイクロホンを向ける必要があります。これに対し、音の発生位置を事前に知らなくても、複数のマイクロホンを並べ、録音された混ざった音を処理してそれぞれの音を分離する、いわば音を聞き分ける技術を音源分離といいます。人間の耳は2つですが、マイクロホンは2つに限らず、もっとたくさん使うことができます。人間とは異なる仕組みですが、最新の音源分離技術を使えば、聖徳太子のように、10人が同時に話をしてもそれぞれの人の話を聞き分けることが可能になりつつあります。

音源分離の広がる応用

音源分離は音声認識に限らず、幅広い応用が期待されています。例えば補聴器が、さまざまな音の中から聞きたい声だけを増幅してくれたら、聴こえは大幅に改善するでしょう。音楽演奏を個々の楽器パートや歌声に分離することができたら、耳コピしたり、弾き間違いを修正したりすることが、より簡単にできるようになるでしょう。未来のスマートスピーカーは、複数の人が同時に話しかけても、ちゃんと聞き分けて対応してくれるようになるかもしれません。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

東京都立大学システムデザイン学部情報科学科教授小野順貴先生

興味が湧いてきたら、この学問がオススメ！

音響工学、情報科学

メッセージ

人間にとって「音」はコミュニケーションの道具であると同時に、外界を認識する重要なメディアでもあります。人間は音声で意志を伝達しあい、音楽を楽しみ、音で周囲のさまざまな状況を知覚しています。人間のように高度な音情報処理の実現のため、これまで多数の研究が進められ、近年のAI技術により音声認識はついに実用レベルに達しました。次のステージでは音楽、そしてあらゆる音の認識へと移っていくでしょう。PCが音楽演奏を手伝ってくれたり、スマホが周囲の音を聞き、危険があれば教えてくれたりする日も近いかもしれません。

先生への質問

先生の学問へのきっかけは？

東京都立大学に関心を持ったあなたは

東京都立大学は「大都市における人間社会の理想像の追求」を使命とし、東京都が設置している公立の総合大学です。人文社会学部、法学部、経済経営学部、理学部、都市環境学部、システムデザイン学部、健康福祉学部の7学部23学科で広範な学問領域を網羅。学部、領域を越え自由に学ぶカリキュラムやインターンシップなどの特色あるプログラムや、各分野の高度な専門教育が、充実した環境の中で受けられます。