大量の画像や動画から必要なものだけを取り出す画像認識技術最前線
大量の画像と動画に囲まれて……
現在インターネット上にはホームページやブログが無数に存在し、それぞれに大量の画像がアップされています。同様に動画も大量にあります。テレビでも日々たくさんの映像が制作され流されています。
これらの大量の画像と動画から、必要なシーンだけをピックアップすることができれば、新たな価値のある情報源として活用できるようになります。サッカーのゴールシーンだけ集めてプレーを分析するとか、「滝」や「火山」など特定の景色だけを集めて、有用な情報を導き出すことも考えられます。
根底にあるのは「画像認識」の技術
大量の画像や動画から特定のシーンをピックアップするシステムの要は、コンピュータにその画像や映像が何であるかを認識させる技術にあります。例えば、草原の中のライオンの画像が、緑と黄色の抽象画でなく、キリンやほかの動物でもなく、ライオンであることをコンピュータが認識するには、それなりのシステムが必要です。それが「画像認識技術」なのです。
この画像認識の精度が低ければ、キリンなども間違ってピックアップしてしまう可能性がありますから、画像認識の精度をいかに上げるかが、重要なポイントになります。
「画像認識」の手法とは
では、どうやってコンピュータに画像を認識させるのでしょうか。さまざまな方法がありますが、そのひとつに、コンピュータに特定の画像を「学習」させる手法があります。ライオンを認識させるために、ライオンの画像を大量に集めて記憶させ、記憶したデータと対比してコンピュータがライオン画像を認識できるようにするのです。この場合、「ライオン度の高い」画像を学習データとしてそろえることが重要です。そして何が「ライオン度の高さ」につながるかの考察も必要になります。
これと併用する形で、画像にリンクしているテキスト(文字データ)、そして画像が撮影されたときの角度や位置の情報などを手がかりに、画像認識プログラムをつくっていくのです。その精度をいかに上げるかが、いま世界中で競われています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。