なぜ人間は合成音声を聞き分けられるのだろう？

同じ音でも微妙に違う！

さまざまな場面で、機械の合成音声が使われることが増えましたが、明らかに合成とわかる音声が大半です。実は自然に聞こえる合成音声を作るのはとても難しいのです。音声は五十音の単純な組み合わせではありません。例えば、実際に発音してみてください。「アイウ」の中の「イ」と、「アイエ」の中の「イ」は厳密には違う音です。「アイウ」の「イ」には「ア」の余韻と「ウ」を発声する準備が表れています。人間は無意識にその違いを聞き分けるため、音声を合成するには「イ」の音を何パターンも用意する必要があります。また分野が異なれば使われる言葉や、音やイントネーションも変わるので、ほかの用途で集めた音声を流用することは困難です。

合成音声を作るための多大な労力

株式市況や気象情報などの合成音声は比較的自然に聞こえますが、それは分野が限定されているからです。ただし、例えば交通情報の合成音声を作ろうとしたらデータ量は膨大で、過去の交通情報のテキスト（文字）情報を何千万も集め、それを分類するシステムを構築し、使う音声の要素を整理する必要があります。そうやって抽出された最小限のテキストを読み上げ収録することで、ようやく基礎的な音声が集められるのです。

ロボットが人間のように話せる日は来る？

現在のロボットの言葉は合成音声であることが、誰にでもわかります。対話型ロボットに自然な発音やイントネーションで任意の会話をさせることはとても難しいのです。ただし初音ミクのようなボーカロイドは歌なので成立しています。歌は一音が長く、前後の音の影響を受けにくいからです。また背後に音楽が流れ、発声の不自然さが気になりにくいこともあります。一方、対話型ロボットはビジュアルがいかにもロボット然としているため、合成音声を受け入れやすいのです。しかし人間のようなヒューマノイドが開発されつつある中では、人工知能だけでなく発声の仕組みも考えていく必要があるでしょう。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

成蹊大学理工学部理工学科教授世木寛之先生

興味が湧いてきたら、この学問がオススメ！

音声情報学

メッセージ

一次元の情報しかない音声の研究は、画像と違って見た目の派手さはありません。しかしシンプルだからこそ奥深く、研究しがいのある分野だと言えます。これは音声や画像に限らず、すべての学問に言えることですが、大学では中身を本質的に理解することを心掛けてください。
目先の結果だけを求めて小手先のテクニックに走ると、いずれ行き詰まります。わからないことがあったら一度立ち止まって、何が問題なのかを整理してください。遠回りに見えても、それが大きな目標を達成するための近道なのです。

先生への質問

先生の学問へのきっかけは？

成蹊大学に関心を持ったあなたは

成蹊大学は経済学部・経営学部・法学部・文学部・国際共創学部（仮称）※・理工学部からなる総合大学です。文系・理系のすべての学生が4年間、緑豊かな吉祥寺のキャンパスで過ごすので、所属学部以外の友人との交流や学年を越えたネットワークづくりも可能。また先生との距離が近く学生一人ひとりの個性を尊重する少人数教育やキャリア教育が充実しています。さらに2020年度より、各自が自分の興味関心やニーズに沿った学習を進められるよう副専攻制度を設けました。詳細は大学公式サイトをご確認ください。※2026年4月開設予定