視覚と言葉で人間と会話! マルチモーダルAIの応用研究
視覚と言葉を兼ね備えたAI
画像に写っている内容を理解して、その結果を言葉で人間に伝える「マルチモーダルAI」の研究が世界中で行われています。技術の進歩により、「画像に写っているのは誰か」などの質問に対してAIが回答するようなことも可能になりつつあります。特に日常の何気ない場面が写った画像に対する、AIの回答精度は上がってきました。こうしたマルチモーダルAIをさまざまな場面に応用しようと、研究が行われています。
橋の点検にAIが活躍?
例えば橋の点検への応用です。従来の方法では、点検員が橋を直接観察して修理が必要な部分を見つけてきました。しかし橋やトンネルなどのインフラ設備は急速に老朽化が進んでおり、点検が追いついていません。点検や修理の予算不足により通行禁止になっている道もたくさんあります。もしマルチモーダルAIが橋の写真を理解して点検ができれば、人手不足や予算不足の解消につながるでしょう。
そこで医師の問診のように、点検員がAIに点検項目を質問し、AIが画像から読み取った結果を言葉で返すアプリの開発が進行中です。対話を重ねるとAIも人間もお互いに思い至らなかった部分に気づけるため、ベテランの域に達していない新人の点検員も、橋の点検をより正確に行えると期待されています。
専門知をどう学ばせるか
ChatGPTなどの生成AIは、人々が日々アップロードしている写真や説明文から学習しているため、日常場面への理解力は高いです。しかし橋の点検などにAIを活用する場合は専門のデータが必要です。専門家でなければわからない知識、つまり「専門知」をAIに学習させる方法を確立しなければなりません。AIの言語モデルが発達したことで、文章と画像を組み合わせて学習する、といった人間のような学び方も可能になりつつあります。日々進歩していく技術も考慮しながら、専門知を持つマルチモーダルAIを実現するために最適な学習方法や学習用データのあり方の検討が続けられています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
東北大学 工学部 機械知能・航空工学科 教授 岡谷 貴之 先生
興味が湧いてきたら、この学問がオススメ!
コンピュータビジョン先生への質問
- 先生の学問へのきっかけは?
- 先輩たちはどんな仕事に携わっているの?