二つの確率分布の距離 ― 2つのサイコロは同じかどうか ―
統計的な推定の確からしさを測る物差し
統計学は、様々なデータから、有益な情報を得るための学問です。データの背後に、そのデータを生み出す仕組みが隠れていると考え、それを推測しようとします。残念ながら私たちは、その仕組みそのものを直接知ることはできません。さらに、どんなにたくさんのデータを集めても、背後にある仕組みを100%正しく推測することはできないのです。ただ、100%正しくはないにしても、ある程度信頼できる推測であれば、現実世界の様々な局面で十分役に立ちます。ここで重要なのは、推測の信頼性、すなわち、どれくらい真の仕組みに近いかを測る物差しです。
カルバックライブラーダイバージェンス
コインを複数回投げて、表が出る確率を推定する実験を考えてみましょう。10回投げて5回表が出たら表が出る確率は1/2、1回しか表が出なかったときは1/10と推定します。二つのケースの信頼性は同じでしょうか? 「カルバックライブラーダイバージェンス」と呼ばれる物差しを使うと、コインの表裏の偏りが大きいほど、一定の信頼性を確保するにはたくさんの試行回数が必要なことがわかります。この例に限らず、確率分布を推定する場合には、実際の確率分布と推定した確率分布の差を測る物差しとして、ダイバージェンスを使うのが適切であることが、数学的に証明されています。別の物差しを使うと違う結果になってしまうので、注意が必要です。
現代社会を支えるデータサイエンス
現代では、情報を扱う能力がとても重要です。そのことを踏まえて、2022年から高校で「情報I」が必修になりました。その目的の一つは「データを収集、整理、分析する方法について理解し技能を身につけること」とされています。統計学はデータ分析に欠かせないものであり、情報科学と共に、データサイエンスの基礎学問です。データサイエンスの研究領域は、上記のような数学に近い基礎的な研究から、医学や天文学などの特定の分野での応用まで広範にわたっています。情報化社会を支える重要な分野なのです。
※夢ナビ講義は各講師の見解にもとづく講義内容としてご理解ください。
※夢ナビ講義の内容に関するお問い合わせには対応しておりません。