統計データの偏りをなくせ! 人とAIの力で質と量を両立
AIに正しい判断をさせるには?
統計データの分析に、AI(人工知能)が活用され始めています。しかしAIに学習させるデータは、人の手によって正しく整備する必要があります。もし猫の画像に「これは犬です」という違うラベルを付けて学習させると、その後、誤った答えを出してしまうからです。また、きれいなデータをつくるためには、内容の正確さのほかに、可能な限り偏りをなくすことも求められます。
入口と出口の工夫
例えばアンケートのデータをきれいに整えるには、調査の入口と出口で工夫が必要です。入口では、誤解のない文章で質問する、答え方の例を示すなどの工夫で回答者から正確な情報を集めます。世論調査のように意識を尋ねる場面では質問の順番も考えなければなりません。人は直前の質問に影響を受けることがあるからです。もし政策の短所を強調する内容を直前で尋ねた場合、その後の質問にも政策を支持しないと答える可能性が高くなります。また、回答者によっては誤字や誤った欄への回答なども見られます。集めた回答を最大限利用するために、出口では人手をかけてデータの修正も行われます。
ビッグデータで量を補う
人手をかけることにより統計の質は上がりますが、費用もかかるため、量を多くすることは難しくなります。そこでビッグデータを組み合わせて、量を補うことが考えられます。しかしビッグデータには一般に偏りがあり、そこから問題が生じることがあります。そうした事例のひとつに、企業が開発した就職試験の合否判定AIが挙げられます。過去の採用データを学習させたところ、これまで採用した人材に男性が多かったために性別も採用基準だととらえてしまい、合格者が男性に偏ったのです。
偏りをなくすためには、政府統計などの正確なデータと照らし合わせて年代や性別の比率を現実社会に沿うよう補正するなどの工夫が必要です。量の多いビッグデータに正確な政府統計のデータを組み合わせて質を上げることで、従来は難しかった大規模で正確な統計データを作ることが可能になるのです。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
立正大学 データサイエンス学部 データサイエンス学科 教授 高部 勲 先生
興味が湧いてきたら、この学問がオススメ!
統計学、データサイエンス学先生が目指すSDGs
先生への質問
- 先生の学問へのきっかけは?