一つのデータだけ見るのは危ない? 統計学で事実を解明

データの落とし穴
病気の人が100人いて、ある薬を飲んだら99人が治ったとします。この結果だけを見ると、とても効果がある薬のように感じるかもしれません。しかし同じ病気にかかっている別の100人のうち、98人は薬を飲まなくても自然に治った、というデータがあったらどうでしょうか。薬のおかげで病気が治った人は1人だけとわかり、薬の効果に対する印象は変わるでしょう。このように複数のデータを組み合わせると、本当に知りたいことがわかってきます。
分割表で問題を可視化
またこの場合、薬を飲んだ・飲んでいない、病気が治った・治っていないという2項目ずつの条件を表にまとめると、結果をとらえやすくなります。表の縦の列は、薬を飲んだ・飲んでいない、横の行は、病気が治った・治っていない、で人の数を分けます。交わるマスに両方の条件が当てはまる人数を書くとすると、「薬を飲んでいない・病気が治った」のマスの数字は、98になります。このように2×2項目以上で構成される表を統計学では「分割表」といいます。分割表は、複数の項目の関連性を知りたいときに使われることが多く、薬の効果に関する調査やアンケートの集計など、さまざまな場面で活用されます。
重要な理論研究
実際のデータはもっと複雑です。膨大で複雑なデータを解析するときは、プログラミングの知識が必要です。そこでは知りたい内容に応じて、複数の解析手法から適切なものを選ぶ力も必要です。しかし専門知識がない人にとって、データの最適な解析手法を選ぶのはハードルが高いものです。そこで集計データを読み込ませるだけで簡単に使える統計解析ソフトウエアも開発されています。
ただ、そうした解析技術が進んでも、ソフトウェアで使う解析手法の理論の正しさを保証するため、専門家が事前に検証しておく必要があります。統計学を幅広い分野で役立てるには、統計解析手法の理論研究が必要不可欠なのです。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。
先生情報 / 大学情報

![選択:[SDGsアイコン目標9]](https://telemail.jp/shingaku/requestren/img/data/SDGs-9-active.png )
![選択:[SDGsアイコン目標12]](https://telemail.jp/shingaku/requestren/img/data/SDGs-12-active.png )