コンピュータは人間と自然に会話できるようになるか？

すっかり身近になった音声合成技術

スマートスピーカーやスマートフォン、電車の車内アナウンスなどで使われている音声合成技術は、私たちにとって身近な存在になっています。少し前までは、音素と呼ばれる音の要素1つひとつをパーツのように組み合わせて、コンピュータで音声を合成する手法が用いられていました。しかし、テキストデータから音声を合成する際、高さや音色といったパラメータから波形を作って音声を表現しようとすると、自然とは言えない機械的な発音になってしまうことが多くありました。

自然な会話に必要な、心理学からの分析

ディープラーニングを用いたAI（人工知能）技術を用いて、蓄積した膨大なデータ量を活用して直接波形を作り出し、人間とほぼ変わらない自然で安定した音声を合成することが、2016年に提案された技術により可能となりました。しかし、これは音声合成研究がめざす目的の一部でしかありません。コンピュータと人間が雑談するかのように自然な会話ができるレベルには達していないのです。
そうした自然な会話を実現するためには、音声を聞いた時に人間が何を感じているのか、心理学の側面からも分析していく必要が出てきます。喜怒哀楽も含めて表情豊かな会話を実現するには何が必要か、相手に良い印象を与える声とはどのようなものか、性別や声の高低、イントネーションなどで人が受ける印象はどのように変わるのか。検証の必要な要素は数多く存在します。

音声合成技術の発展がもたらす未来

音声合成技術の発展は、これからの社会に、さらなる恩恵をもたらしてくれる可能性があります。発話やソーシャルスキルのトレーニング支援アプリなどに活用することもできますし、咽頭がんの手術などで発声できなくなった人の声のデータを事前に保存しておいて、手術後のコミュニケーションツールに活用するといったアイデアも実用化されています。人間と音声の関わりの仕組みをひもといた先の未来に、大きな期待が寄せられています。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

明治大学総合数理学部先端メディアサイエンス学科教授森勢将雅先生

興味が湧いてきたら、この学問がオススメ！

音声情報学

先生が目指すSDGs

メッセージ

あなたはテレビや動画投稿サイトなどを見ている時、さまざまな声に触れています。その声をなんとなく聞き流すのではなく、声から自分が何を感じているのかを意識してみましょう。
キャラクターの顔と声が連動している時、あるいは声だけ聴くと優しい印象なのにキャラクターの表情がびっくりしていたりすると、声の印象も変わってくるはずです。普段何気なく通り過ぎている声を再生して聴いてみて、なぜ自分はその感情を感じたのかを考えて、それを言語化してみましょう。音声知覚の新たな研究に繋がるかもしれません。

先生への質問

先生の学問へのきっかけは？
先輩たちはどんな仕事に携わっているの？

明治大学に関心を持ったあなたは

明治大学は、10学部28学科で「個」を強くする大学です。みなさんの知への好奇心に応える学びが、きっとこの中にあります。
トライするチャンスは3つ。
①学部別入試、②全学部統一入試、③大学入学共通テスト利用入試。
入学後のキャンパスライフを経済面からサポートする奨学金制度も16種類を用意しており、約3万人の学生のうち、1万人以上が利用しています。就職キャリア支援も、4年生向けに学内採用選考会・面接会を実施しています。
ぜひ「メイジ」に入学し、「個」を強くしてみませんか。