生成AIで写真を笑顔に 表情の転写技術が開く世界
画像処理が身近な時代に
最近の画像処理はとても進歩しています。背景に写った余分なものを消すなどの高度な処理が、今ではスマホで簡単にできるようになりました。しかし、自分のイメージ通りに画像を加工することはいまだに簡単とはいえません。画像処理ソフトの高度な機能を使いこなすにはかなり専門的な知識が必要とされるからです。
これに対し、文章で「こういう画像を作ってください」と入力すると、その内容に従って画像を作成する生成AIのサービスが2022年に登場して話題になっています。この技術により、例えば、証明写真の顔画像について、「もう少し明るい表情で」とか、「少し笑って」といったイメージを言葉で伝えると、コンピュータがそれを適切に理解して写真を修整してくれるようになります。
自分の表情をアバターに転写する
生成AIの技術を使えば、表情を言葉で指定するだけでなく、カメラで写した顔画像の表情を、別の写真やイラスト、CGで作ったキャラクターなどに転写することも可能です。例えば、Webカメラに映った自分が笑ったらメタバース空間のアバターが同じように笑うといった使い方もできるでしょう。技術的には、顔の3Dメッシュ構造を推定することなく、2次元の写真だけで表情の転写を可能にする点に長所があります。
機械読唇の訓練画像作成への応用
上で述べた技術は、人の唇の動きから話した言葉を推定する「読唇」システムにも応用できます。読唇は一般に聴覚障害者のコミュニケーションや犯罪捜査に利用されるものですが、コンピュータでこれを実現することを機械読唇と呼んでいます。
日本語の機械読唇は、英語に比べると、まだ難しい状況とされています。原因の一つに、いろいろな人が話している訓練画像の入手が難しく、その数が少ないために認識率が上がらないことが挙げられます。これに対し、先に述べた表情転写技術を利用すれば、少ないサンプル画像からさまざまなパターンの画像を作成することで、十分な訓練画像が得ることができるようになります。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。