発話の仕組みを模擬して音声を作り出す「音声生成」

発話の仕組みを模擬して音声を作り出す「音声生成」

音声認識、音声合成、そして音声生成

現在、スマートフォンやパソコンには、話すだけで文章を入力できる「音声認識」の機能が搭載されています。また、あらかじめ録音しておいた音声を切り貼りすることで文章を読み上げさせる「音声合成」の機能も搭載されています。その一方、研究途上にある技術として、人間の発話と同じ原理で音声を作り出す「音声生成」があります。つまり、人間が口を動かして話す仕組みをそっくりシミュレーションすることで音声を作ろうとしています。

音声生成の仕組みとは

例えば、母音は、声帯で生じた空気の振動が口の中の空間(声道)で共鳴して口唇から放射されることで生成されます。舌の形などが変化すると、声道の形と共鳴が変化し、母音が変化します。人間が発話しているとき、声道の形は目まぐるしく変化します。しかし、これらは体内で起こる現象であるため、観測が困難です。しかし、MRI(磁気共鳴画像法)などの技術の進歩によって、これらの現象をとらえることができるようになり、音声生成の研究も大きく進みました。
母音発声中の声道をMRIで計測し、その形状を忠実に再現したものが声道模型です。この声道模型を、声帯振動の音を出力しているホーンドライバという装置の上にのせると、母音の生成過程を模擬できます。声帯振動はブザーのような音ですが、声道模型をのせるとはっきりした人間の母音に変化します。

音声生成の奥深さ

このような研究によって、音声の生成過程はかなり解明されました。しかし、音声生成に重要なのは口の中だけではありません。例えば、鼻の中(鼻腔)の共鳴については、まだあまりわかっていません。また、俗に「滑舌が悪い」などと言いますが、その要因は複合的で、一概には説明できないのが現状です。
しかし、さらに研究を進めて、より完成度の高い音声生成の技術が実現すれば、好みの声質で滑らかな音声が作れるようになり、駅のアナウンスなどの情報伝達やエンターテインメントの分野で幅広く活用されるようになるでしょう。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

千葉工業大学 先進工学部 知能メディア工学科 教授 竹本 浩典 先生

千葉工業大学 先進工学部 知能メディア工学科 教授 竹本 浩典 先生

興味が湧いてきたら、この学問がオススメ!

音響学

メッセージ

私たちの身のまわりには、たくさんの「なぜ」や「どうして」があります。その中には、一見すると素朴で単純でも、とても難しい問題があります。その1つが、「なぜ人間だけが話し言葉を持っているのか」ということです。
私はこの問題に約20年間取り組んでいますが、まだ答えは出せていません。しかし、取り組む過程で、たくさんの発見をしてきました。これらは音声を作り出す技術の基礎として役に立っています。あなたも身の回りの「なぜ」や「どうして」を大切にしてください。そして、大学に入って、これらを追究してみてください。

先生への質問

  • 先生の学問へのきっかけは?

千葉工業大学に関心を持ったあなたは

芸の上達には、向き不向きというより、好きか嫌いかが大きく影響すると言われます。学問の道もそれに違わず、まずは興味・関心を持てることが大切です。そしてそれができたら、あとはちょっぴり努力とともに創造力を働かせればいいのです。いま「できない」ことはまったく問題ではありませんし、気にすることもありません。本学では、基礎から学べるカリキュラムが充実していますので、安心してあなたの未来が築けることでしょう。