統計データの偏りをなくせ! 人とAIの力で質と量を両立

統計データの偏りをなくせ! 人とAIの力で質と量を両立

AIに正しい判断をさせるには?

統計データの分析に、AI(人工知能)が活用され始めています。しかしAIに学習させるデータは、人の手によって正しく整備する必要があります。もし猫の画像に「これは犬です」という違うラベルを付けて学習させると、その後、誤った答えを出してしまうからです。また、きれいなデータをつくるためには、内容の正確さのほかに、可能な限り偏りをなくすことも求められます。

入口と出口の工夫

例えばアンケートのデータをきれいに整えるには、調査の入口と出口で工夫が必要です。入口では、誤解のない文章で質問する、答え方の例を示すなどの工夫で回答者から正確な情報を集めます。世論調査のように意識を尋ねる場面では質問の順番も考えなければなりません。人は直前の質問に影響を受けることがあるからです。もし政策の短所を強調する内容を直前で尋ねた場合、その後の質問にも政策を支持しないと答える可能性が高くなります。また、回答者によっては誤字や誤った欄への回答なども見られます。集めた回答を最大限利用するために、出口では人手をかけてデータの修正も行われます。

ビッグデータで量を補う

人手をかけることにより統計の質は上がりますが、費用もかかるため、量を多くすることは難しくなります。そこでビッグデータを組み合わせて、量を補うことが考えられます。しかしビッグデータには一般に偏りがあり、そこから問題が生じることがあります。そうした事例のひとつに、企業が開発した就職試験の合否判定AIが挙げられます。過去の採用データを学習させたところ、これまで採用した人材に男性が多かったために性別も採用基準だととらえてしまい、合格者が男性に偏ったのです。
偏りをなくすためには、政府統計などの正確なデータと照らし合わせて年代や性別の比率を現実社会に沿うよう補正するなどの工夫が必要です。量の多いビッグデータに正確な政府統計のデータを組み合わせて質を上げることで、従来は難しかった大規模で正確な統計データを作ることが可能になるのです。

※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。

※夢ナビ講義の内容に関するお問い合わせには対応しておりません。

先生情報 / 大学情報

立正大学 データサイエンス学部 データサイエンス学科 教授 高部 勲 先生

立正大学 データサイエンス学部 データサイエンス学科 教授 高部 勲 先生

興味が湧いてきたら、この学問がオススメ!

統計学、データサイエンス学

先生が目指すSDGs

メッセージ

ビッグデータというと、扱い方が難しそうというハードルの高さを感じるかもしれません。しかし初心者でも使いやすいソフトウェアなどが増えたことで、社会で実際に利用されている本物のデータの分析がしやすくなりました。最初はうまくいかなくても、データをきれいに整えたりモデルを工夫したりすると良い結果が出るようになります。
また、民間企業でも複数のデータを組み合わせて分析するケースが増えています。さまざまな業界に通用するデータ分析の知識や考え方が身につくと思うので、おもしろさを感じながら勉強してほしいです。

先生への質問

  • 先生の学問へのきっかけは?

立正大学に関心を持ったあなたは

立正大学は、9学部16学科を有し、多彩な学問分野において広く深く学ぶことができます。加えて充実したキャリア形成支援により、社会の多方面で活躍する優れた人材を輩出しています。本学は1872年(明治5年)東京・芝に開校の起点となる小教院を設立し、2022年で開校150周年を迎えました。品川キャンパスは山手線2駅から徒歩5分の都市型キャンパス、熊谷キャンパスは東京ドーム約8個分の広大な自然環境型キャンパスをもつ、学生数1万人を超える総合大学です。