ビッグデータ時代を乗りこなす新しい統計学をつくる!

情報化の時代に求められる統計
情報技術の進歩により、さまざまな分野で大量の情報が蓄積される時代になりました。SNSのつながりの情報や、買い物をしたときに商品や価格、買った日時などが記録されるPOSデータなどもその例です。こうした「ビッグデータ」の分析には、従来の統計学や計量経済学では対応できません。従来の統計学や計量経済学は、はるかに少ない数のデータを対象としているためです。そこで、ビッグデータを扱えるような新しい統計学が求められています。
ビッグデータから得る新しい知見
データ分析の方法には、「検証的データ分析」と「探索的データ分析」の2つがあります。検証的データ分析とは、まず各分野の理論(モデル)があり、それを検証するのに適切なデータを持ってきて、理論の妥当性を見るというものです。従来の統計学はこの検証的データ分析を目的としています。これに対して探索的データ分析とは、まずビッグデータがあって、そこからデータ同士の関係性などを調べ、新しい理論を見つけ出していくものです。これからの時代は、探索的データ分析がより重要になっていくと考えられ、探索的データ分析の手法の開発が進められています。
大量のデータから重要なものを選ぶ
探索的データ分析の一つに、大量のデータの中から目的にかなった変数をいかに選び出すかという「変数選択の問題」があります。変数選択の問題では、「不要なものを選んでしまう誤り(偽発見)」と「重要なものを選ばない誤り」が考えられますが、この二つは同時にコントロールできません。そこで偽発見の確率をできるだけ低く抑えつつ、正しいものが選べるような手法を作っていきます。
経済データなど実社会のデータは、そのときに実際に集められた1セットしかなく、自然科学のように実験をやり直すようなことができません。そのため、あるデータセットから得られた探索的データ分析の結果については、数学的な証明を用いて、それが妥当であるかを理論的に保証しています。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報
