動画から学習データを自動生成 数学が切り開く機械学習の新手法

AIの弱点は?
画像や動画の中から特定の事柄を認識するAIを作るには、通常、膨大な量の「教師データ」が必要です。例えば工場で動くフォークリフトを認識させるには、「これがフォークリフトだ」と人間が一枚一枚ラベルを付けた何千枚もの写真を用意し、AIに学習させなければなりません。しかし実際の現場では、そのようなデータを大量に準備することは時間的にも費用的にも大きな負担です。この課題を数学の力で乗り越える研究が進められています。
数学で動体を切り出す
動画は、フレーム(静止画)の連続です。各フレームは画素(ピクセル)の集まりなので、動画は「フレーム数×ピクセル数」の巨大な行列(数値の表)として扱えます。工場の中でフォークリフトが動くところを監視カメラで撮影した動画の場合、工場の壁や床はどのフレームでもほぼ同じ数値で変化しません。一方、画面の中でフォークリフトが占める割合は常にわずかです。動画を表す行列に対して、この2つの性質を同時に満たすよう数学的な最適化を行うと、動体と背景が自動的に分離され、「動体の位置情報」が大量のフレームに自動付与されます。これにより、形状や動きなどを学習するAIのための教師データを機械的に生成できます。この手法は、「静止した背景の中を小さな物体が移動する」タイプの動画に対して汎用的に使えるので、幅広い分野への応用が期待されます。
現場から社会の課題を解決
この手法を活用して、監視カメラの映像を流し込むだけでフォークリフトの動きを自動認識し、安全運転かどうかを判定するシステムが開発されています。
この研究は、「工場の安全監視システムを作りたいが、AIにうまく学習させられない」という現場の悩みから始まりました。個別具体的な問題に潜む構造的な課題を見つけ、数学を活用してそれを解決することが、汎用的な手法の開発につながったのです。同様のアプローチで、地域の人口動態分析といった、一見すると文科系の課題への取り組みも進められています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報

山陽小野田市立山口東京理科大学 工学部 数理情報科学科 准教授 高田 寛之 先生
興味が湧いてきたら、この学問がオススメ!
応用確率論、機械学習先生が目指すSDGs
先生への質問
- 先生の学問へのきっかけは?
![選択:[SDGsアイコン目標9]](https://telemail.jp/shingaku/requestren/img/data/SDGs-9-active.png )
