コンピュータの画像認識能力は、人間の能力を超えた？

何の画像かをコンピュータが言い当てる

人間の言葉をコンピュータに理解させたり、処理させたりする技術を「自然言語処理」と言います。それは、機械翻訳や検索エンジン、日本語入力、文書要約など、データの入出力にテキスト（文字データ）が関係する、あらゆる領域で使用されています。また、AI（人工知能）開発とも関連する分野です。
例えば、翻訳の場合は入力も出力もテキストですが、画像を認識してその内容に合ったテキストを出力する、つまり「何についての画像かを言語化する」技術も自然言語処理の一種です。この場合、画像を入力すると、テキストが出力されます。自然言語処理は、入出力のどちらかにテキストが関わっている時には必ず用いられる技術なのです。

コンピュータは苦手を克服した？

これまで画像認識はコンピュータにとって苦手分野でしたが、コンピュータが自ら学習する機械学習「マシンラーニング」が可能になったり、計算処理速度が上がったり、扱えるデータ量が大幅に増えたりなどの技術革新を経て、次第にその精度が上がっていきました。特に、生物の神経回路を模倣したニューラルネットワークを発展させた「深層学習（ディープラーニング）」が可能になってからは、コンピュータの画像認識能力が飛躍的に伸びています。2015年には、写真に写されたものを当てる問題で、人間の成績を超えることに成功したというデータもあります。

関係性がわからない？

コンピュータは画像内のオブジェクト（対象）を認識することは得意になりましたが、その画像から読み取れる状況、すなわちオブジェクト同士の関係性を認識することはまだあまり得意ではありません。
例えば、少年が犬とボールで遊んでいる画像を認識させたとしても、「少年」「犬」「ボール」といった各オブジェクトを正確に認識することはできますが、それらが何をしているか、各オブジェクトがどんな関係にあるのかを認識するのは苦手なのです。また、連続した画像である動画を認識することもまだまだ不得意であり、今後の課題と言えます。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

東京都立大学システムデザイン学部情報科学科准教授小町守先生

興味が湧いてきたら、この学問がオススメ！

人工知能学

メッセージ

私は文系の学部から理系の大学院に進学し、両方の分野を経験しました。その上で必要な知識を振り返ると、必須スキルは「読み、書き、そろばん」ではなく「英語、数学、プログラミング」です。理系分野は文系以上に英語が国際語で、実際に仕事で英語をバリバリ使うのは文系ではなく理系です。文系分野は数学の知識の有無で統計的な嘘にだまされるかに決定的な差がつきます。どちらの分野でも、繰り返し作業をしたり漏れなく処理したりするにはプログラミングが必須です。これらのスキルを身につけて、大きく活躍してください。

先生への質問

先生の学問へのきっかけは？
先輩たちはどんな仕事に携わっているの？

東京都立大学に関心を持ったあなたは

東京都立大学は「大都市における人間社会の理想像の追求」を使命とし、東京都が設置している公立の総合大学です。人文社会学部、法学部、経済経営学部、理学部、都市環境学部、システムデザイン学部、健康福祉学部の7学部23学科で広範な学問領域を網羅。学部、領域を越え自由に学ぶカリキュラムやインターンシップなどの特色あるプログラムや、各分野の高度な専門教育が、充実した環境の中で受けられます。