なぜ人間は合成音声を聞き分けられるのだろう?
同じ音でも微妙に違う!
さまざまな場面で、機械の合成音声が使われることが増えましたが、明らかに合成とわかる音声が大半です。実は自然に聞こえる合成音声を作るのはとても難しいのです。音声は五十音の単純な組み合わせではありません。例えば、実際に発音してみてください。「アイウ」の中の「イ」と、「アイエ」の中の「イ」は厳密には違う音です。「アイウ」の「イ」には「ア」の余韻と「ウ」を発声する準備が表れています。人間は無意識にその違いを聞き分けるため、音声を合成するには「イ」の音を何パターンも用意する必要があります。また分野が異なれば使われる言葉や、音やイントネーションも変わるので、ほかの用途で集めた音声を流用することは困難です。
合成音声を作るための多大な労力
株式市況や気象情報などの合成音声は比較的自然に聞こえますが、それは分野が限定されているからです。ただし、例えば交通情報の合成音声を作ろうとしたらデータ量は膨大で、過去の交通情報のテキスト(文字)情報を何千万も集め、それを分類するシステムを構築し、使う音声の要素を整理する必要があります。そうやって抽出された最小限のテキストを読み上げ収録することで、ようやく基礎的な音声が集められるのです。
ロボットが人間のように話せる日は来る?
現在のロボットの言葉は合成音声であることが、誰にでもわかります。対話型ロボットに自然な発音やイントネーションで任意の会話をさせることはとても難しいのです。ただし初音ミクのようなボーカロイドは歌なので成立しています。歌は一音が長く、前後の音の影響を受けにくいからです。また背後に音楽が流れ、発声の不自然さが気になりにくいこともあります。一方、対話型ロボットはビジュアルがいかにもロボット然としているため、合成音声を受け入れやすいのです。しかし人間のようなヒューマノイドが開発されつつある中では、人工知能だけでなく発声の仕組みも考えていく必要があるでしょう。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
成蹊大学 理工学部 理工学科 教授 世木 寛之 先生
興味が湧いてきたら、この学問がオススメ!
音声情報学先生への質問
- 先生の学問へのきっかけは?