現象を理解し未来を予測するために、最適なモデルを選ぶ
現象の「モデル」を選ぶ
私たちが何かの事象を理解しようとするとき、データを集めて分析することが重要です。統計学では、そのデータの背後にある法則や原理を数式で表現します。その数式のことを「モデル」と呼びます。しかし、一つのデータセットに対して、考えられるモデルは多数あります。その中から一つを選ぶことを「モデル選択」と言います。例を挙げると、「目的変数」と「説明変数」のセットがあり、横軸に説明変数、縦軸に目的変数を取って散布図を描いたときに、目的変数と説明変数の関係を直線とみなすか、2次関数や3次関数、あるいはもっと複雑な関数のどれかとみなすのか、ということです。
目的に合ったモデルを選ぶには?
モデル選択においては、多数の候補モデルの中から、「将来のデータを予測する」といった目的に応じて、最も「適切な」モデルを選ぶことが必要です。モデルを選ぶ基準として、モデルがデータをどれだけ説明できているかという「当てはまりの良さ」と、モデルの複雑さのバランスを取ることが重要です。複雑過ぎるモデルは、かえって精度が下がったり、解釈が難しかったりするからです。モデル選択のための尺度や手法は、数理統計学の重要なテーマです。1970年代に代表的な研究が発表されており、現在も多くの研究者がこの問題に取り組んでいます。
時代は高次元データ解析へ
近年、コンピュータの性能向上により、非常に多くの変数を持つ数式を扱うことが可能になってきました。説明変数や目的変数の次元が高い場合のデータ解析を「高次元データ解析」と呼びます。高次元データ解析では変数間の複雑な関係を考慮する必要があり、モデル選択の従来の手法では対応が難しくなるため、新しい尺度や手法が必要です。また、高次元データ解析では膨大な計算量になるため、計算の効率化も重要な課題です。これらの課題解決は、データという資産を生かした社会の発展に大きく寄与します。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。