音声を認識するコンピュータ~でも、新しい言葉は苦手~
統計的な手法で音声を認識するコンピュータ
スマートフォンでの音声検索などの技術が発達してきましたが、コンピュータはどのようにして音声を認識するのでしょうか。現在主流なのは、統計的な手法です。五十音のような、意味を形成する音の最小単位である音素の音響モデルをコンピュータに機械学習させ、音の特徴を理解させます。一方で、動詞や名詞、助詞などの単語と単語の並びのルールを一緒に学習させます。例えば、「私」という言葉の後には、「は」や「の」、「が」などの格助詞が続きやすい傾向があります。このような並びのルールを統計的な手法で学習させることで、音声認識をさせています。
音声はコンピュータでどう表現されるか
ただ、人間の声は性別、年齢、地域によって違います。また、ハキハキしゃべる人もいれば、もぞもぞしゃべる人もいます。同じ人でも、文章を読み上げる声と会話するときの声は違います。そこで、数千人の音声データを複数のしゃべり方で採集し、音響モデルに幅を持たせています。コンピュータが音声を理解するときは、まず周波数成分に分解します。周波数成分とは、音質に対する指標です。この指標を2次元で表示すると、例えば「あ」の音が占めるエリアと「い」の音が占めるエリアは異なります。それぞれの平均値と分散(広がり)を決めれば、この音は「あ」だと認識できます。音声モデルに幅を持たせると、それだけ誤る確率も増えますが、語順のルールを一緒に考えることで誤りを少なくしています。
新しい単語をいかに収集するかが今後の課題
この方法によってかなりの精度で音声を認識することができるようになりました。しかし、コンピュータは新しい単語が苦手です。毎日のニュースには、固有名詞など新しい言葉が出現します。また、収集されていない言葉も数多くあります。統計的な手法では、覚えていない言葉が出てくると認識が難しくなります。そこで、新しい言葉をどのように収集していくかが今後の課題なのです。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。