音声や音楽だけじゃない 身の回りのすべての音を認識・合成するAI
環境音からも情報を収集
音声や音楽を認識するアプリを使ったことがある人は多いでしょう。しかし私たちの身の回りにあるのは音声や音楽だけではありません。たとえばノックの音やパトカーのサイレンなど、さまざまな音が私たちに情報を与えて周囲を認識する手助けをしています。「環境音」と呼ばれるこれらの音についても、分析したり合成したりする研究が行われています。
環境音も認識する「人の耳」
「キッチンでお皿を割ってしまったら、その音を聞きつけて片付けてくれる」、そんな人に近いロボットを作るためには、環境音も認識できる「人の耳」が必要です。家庭用ロボット以外にも、例えば現在の自動運転はカメラや赤外線センサで周囲を認識していますが、環境音の認識技術を使えばカメラでは見えない曲がり角の向こうの様子もわかります。また、道路の騒音など不要な音は拾わずに自転車のベルは伝える賢い補聴器や、工場の機械の異常検知などさまざまな用途への応用が可能です。
環境音の認識にはAIに大量の音のデータを学習させる必要がありますが、データは現状では欧米のものが多いため、アフリカの国のサイレンは認識されづらいといった偏りをどう防ぐかが課題です。
効果音を自由自在に作り出す
一方で、環境音を自動的に生成するAIの開発が進められています。映画やゲームの効果音はCDなどに集められた音の素材を加工して作られるのが一般的ですが、環境音の生成AIを使えば自動的に効果音を作れます。またメタバースでの体験もよりリアルになるでしょう。
環境音の合成で難しいのは、作りたい音をどのようにAIに伝えるのかという入力の問題です。オノマトペを使ったり、音声で音をまねたりする方法が検討されています。また、現段階ではかなり本物に近い音の合成に成功していますが、実際に映画などで使われる効果音は、シーンを引き立てるために誇張した表現がなされています。そうした表現をどのようにAIで作っていくのかも今後の課題です。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。