コンピュータで自由自在に人の声を聞いたり作り出せたら……
スマホやパソコンで音声検索をする技術
コンピュータを使って音声の処理をする技術を、「音声情報処理技術」と言います。例えば、スマートフォンに向かって「今日の天気は?」と話しかけると、コンピュータが検索をするなどして、正しい情報を人の声で答えてくれる音声検索機能は、かなり一般的になってきました。
ただ、長い文章や話し言葉をコンピュータが正しくとらえるのは、まだ難しい段階です。なぜなら、話す人になまりがあったり、文法的に違っていたり、滑舌が悪かったりするからです。そこで、その精度をさらに上げていくことが求められています。
より精度の高い認識を実現するためには?
コンピュータは、聞こえてきた人の声をテキストに置き換えることができますが、そのためには膨大な量の人の声のデータが必要となります。そこで活躍するのが、「ニューラルネットワーク」です。これは、脳内でさまざまな情報処理を行う神経細胞の仕組みをシミュレーションし、まねたもので、音声や画像の分野で大きな力を発揮しています。
このニューラルネットワークにデータ処理を行うGPU(グラフィックス プロセッシング ユニット)という高性能な演算装置を使って、1000人以上の膨大な人の声のデータを読み込ませます。これによりネットワークの学習ができ、音声認識の精度を上げられるのです。
音声情報処理技術が秘めた可能性
音声情報処理技術が高度になり、さまざまな声を自由に出せるようになると、どんなことが可能になるのでしょうか?例えば、病気や事故で声をなくした人でも、過去に録音した元の声のデータがあれば、元と同じ声を作り出すことができるかもしれません。また、人気アニメの主役の声を、永遠に変えないということも可能になるでしょう。このように音声情報処理技術が進歩すると、さまざまな可能性が広がっているのです。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
山形大学 工学部 情報・エレクトロニクス学科 教授 小坂 哲夫 先生
興味が湧いてきたら、この学問がオススメ!
情報エレクトロニクス学先生が目指すSDGs
先生への質問
- 先生の学問へのきっかけは?
- 先輩たちはどんな仕事に携わっているの?