音声を認識するコンピュータ～でも、新しい言葉は苦手～

統計的な手法で音声を認識するコンピュータ

スマートフォンでの音声検索などの技術が発達してきましたが、コンピュータはどのようにして音声を認識するのでしょうか。現在主流なのは、統計的な手法です。五十音のような、意味を形成する音の最小単位である音素の音響モデルをコンピュータに機械学習させ、音の特徴を理解させます。一方で、動詞や名詞、助詞などの単語と単語の並びのルールを一緒に学習させます。例えば、「私」という言葉の後には、「は」や「の」、「が」などの格助詞が続きやすい傾向があります。このような並びのルールを統計的な手法で学習させることで、音声認識をさせています。

音声はコンピュータでどう表現されるか

ただ、人間の声は性別、年齢、地域によって違います。また、ハキハキしゃべる人もいれば、もぞもぞしゃべる人もいます。同じ人でも、文章を読み上げる声と会話するときの声は違います。そこで、数千人の音声データを複数のしゃべり方で採集し、音響モデルに幅を持たせています。コンピュータが音声を理解するときは、まず周波数成分に分解します。周波数成分とは、音質に対する指標です。この指標を2次元で表示すると、例えば「あ」の音が占めるエリアと「い」の音が占めるエリアは異なります。それぞれの平均値と分散（広がり）を決めれば、この音は「あ」だと認識できます。音声モデルに幅を持たせると、それだけ誤る確率も増えますが、語順のルールを一緒に考えることで誤りを少なくしています。

新しい単語をいかに収集するかが今後の課題

この方法によってかなりの精度で音声を認識することができるようになりました。しかし、コンピュータは新しい単語が苦手です。毎日のニュースには、固有名詞など新しい言葉が出現します。また、収集されていない言葉も数多くあります。統計的な手法では、覚えていない言葉が出てくると認識が難しくなります。そこで、新しい言葉をどのように収集していくかが今後の課題なのです。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

広島市立大学情報科学部知能工学科教授竹澤寿幸先生

興味が湧いてきたら、この学問がオススメ！

情報科学

先生が目指すSDGs

メッセージ

私は「コンピュータが人間の言語を理解すること」に興味があって、音声認識や機械翻訳の研究をしてきました。最近は、スマートフォンでの音声検索やWebページの自動翻訳も可能になっています。しかし、音声認識も機械翻訳も毎日新しい事件が起こるたびに現れる地名や人名をはじめとする新しい単語をどう扱うかなど、課題がまだまだたくさんあります。ぜひ、国語、英語にも興味を持って、さらに数学のような論理的なものの考え方も身につけて、情報科学に興味を持ってほしいと思っています。

広島市立大学に関心を持ったあなたは

広島市立大学は、広島市の都市像である「国際平和文化都市」にふさわしい大学づくりをめざして、1994年に「科学と芸術を軸に世界平和と地域に貢献する国際的な大学」を建学の理念として開学しました。
世界と地域が求める新しい時代の要請に応えるため、「国際、情報、芸術、平和」をキーワードに、特色ある教育研究活動を通じ、学術の振興と感性豊かな創造力、実践力を備えた人材を養成し、教育研究の成果を地域に還元するとともに広く世界に発信しています。