視覚と言葉で人間と会話! マルチモーダルAIの応用研究

視覚と言葉で人間と会話! マルチモーダルAIの応用研究

視覚と言葉を兼ね備えたAI

画像に写っている内容を理解して、その結果を言葉で人間に伝える「マルチモーダルAI」の研究が世界中で行われています。技術の進歩により、「画像に写っているのは誰か」などの質問に対してAIが回答するようなことも可能になりつつあります。特に日常の何気ない場面が写った画像に対する、AIの回答精度は上がってきました。こうしたマルチモーダルAIをさまざまな場面に応用しようと、研究が行われています。

橋の点検にAIが活躍?

例えば橋の点検への応用です。従来の方法では、点検員が橋を直接観察して修理が必要な部分を見つけてきました。しかし橋やトンネルなどのインフラ設備は急速に老朽化が進んでおり、点検が追いついていません。点検や修理の予算不足により通行禁止になっている道もたくさんあります。もしマルチモーダルAIが橋の写真を理解して点検ができれば、人手不足や予算不足の解消につながるでしょう。
そこで医師の問診のように、点検員がAIに点検項目を質問し、AIが画像から読み取った結果を言葉で返すアプリの開発が進行中です。対話を重ねるとAIも人間もお互いに思い至らなかった部分に気づけるため、ベテランの域に達していない新人の点検員も、橋の点検をより正確に行えると期待されています。

専門知をどう学ばせるか

ChatGPTなどの生成AIは、人々が日々アップロードしている写真や説明文から学習しているため、日常場面への理解力は高いです。しかし橋の点検などにAIを活用する場合は専門のデータが必要です。専門家でなければわからない知識、つまり「専門知」をAIに学習させる方法を確立しなければなりません。AIの言語モデルが発達したことで、文章と画像を組み合わせて学習する、といった人間のような学び方も可能になりつつあります。日々進歩していく技術も考慮しながら、専門知を持つマルチモーダルAIを実現するために最適な学習方法や学習用データのあり方の検討が続けられています。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

東北大学 工学部 機械知能・航空工学科 教授 岡谷 貴之 先生

東北大学 工学部 機械知能・航空工学科 教授 岡谷 貴之 先生

興味が湧いてきたら、この学問がオススメ!

コンピュータビジョン

メッセージ

競争心や目的意識だけでなく、純粋な学問への探究心も大切にして大学に入ってきてほしいです。国内の学生は、高い給料がもらえる職業に就くために学ぶというよりも、純粋に興味があることについて勉強したいと感じている傾向が見られます。その興味を糧に、いい論文を残してきた学生もたくさんいました。海外からの学生のように明確な目標を持って進学することも素晴らしいと思いますが、「自分の興味や関心は何か」という疑問を純粋に磨くことも忘れずに、大学や研究室を選んでもらえると嬉しいです。

先生への質問

  • 先生の学問へのきっかけは?
  • 先輩たちはどんな仕事に携わっているの?

東北大学に関心を持ったあなたは

建学以来の伝統である「研究第一」と「門戸開放」の理念を掲げ、世界最高水準の研究・教育を創造しています。また、研究の成果を社会が直面する諸問題の解決に役立て、指導的人材を育成することによって、平和で公正な人類社会の実現に貢献して行きます。社会から知の拠点として人類社会への貢献を委託されている東北大学の教職員、学生、同窓生が一丸となって、「Challenge」、「Creation」、「Innovation」を合言葉として、価値ある研究・教育を創造して、世界の人々の期待に応えていきたいと考えます。