「キャラの声」を科学する 音声合成の新領域

声の雰囲気を自在に操る
音声合成技術は、単に人間らしい声を再現するだけではありません。特に日本では、アニメやゲームのキャラクターボイスとして利用するために、「泣きそうに聞こえる声」や「お姉さん風の語り」などの「発話スタイル」ごとの音声の需要があります。こうした声のスタイルは、聞けばすぐに違いがわかっても、音の高さや抑揚などの数値で表しにくく、科学的に分析するのは難しいとされています。それでも、声とキャラクターの組み合わせが作品の印象を左右することから、声のスタイルをどう分類し、どう設計するかが重要な研究テーマとなっています。
オープンなデータセット
発話の音声を合成するためには、元となる音声データが必要です。これを用意するためには、十分な文章データを集めて、それを声優が読んで「音声データセット」をつくらなければなりません。これ自体、大変な作業ですが、さらに文章の著作権と声優の声の権利に適切に対応することも必要です。これを個々の開発者やクリエイターが行うのは現実的ではありません。
そこで、誰もが自由に使えるように権利処理を行った「文章データセット」が作成され、パブリックドメインで公開されました。さらに、声優の声をどこまで利用してよいのかを明確にした契約を交わし、さまざまな発話スタイルで収録された音声データを公開する仕組みも整えられています。著作権などの権利を丁寧に整理した上でデータを公開することにより、開発者やクリエイターが安心して利用できる環境が実現されているのです。
さらなる普及へ
どのような発話スタイルが人気を集めるかは、予測が困難です。公開当初は人気がなかったスタイルが、動画などで使われて初めて評価されることもあります。そのため、複数の発話スタイルを収録して、実際にどれが支持されるかを見ながら改良が進められています。また、声優、開発者、クリエイターそれぞれが持続的に活動できるよう、音声の利用に応じた報酬の仕組みづくりも研究されています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報

明治大学総合数理学部 先端メディアサイエンス学科 教授森勢 将雅 先生
興味が湧いてきたら、この学問がオススメ!
音声情報処理、感性情報学、認知科学先生が目指すSDGs
先生への質問
- 先生の学問へのきっかけは?
- 先輩たちはどんな仕事に携わっているの?