こんにちは。Daddyです。
今回は、統計に関するキホンの内容を勉強していきます。
数学というよりも、覚えること中心の単元になりますが、将来テクノロジを活用して仕事をするためには、欠かせないものとなりますので、ぜひ最後まで読んでください。
それでは、いきましょう!
スマホでこの記事を閲覧している場合、数式や表が枠内に入りきっていないことがあります。スクロールをお試しください。
中央値って?
まずはキホン中のキホンである中央値を覚えましょう。
中央値とは、データを小さい順に並べたとき、真ん中にくるデータのこと。
数学で扱うデータは、身長、体重、体力測定の記録など、数字で表せるもののことを普通指します。
ここで、平均値との違いを見てみましょう。
平均値には、平均値を求めるための数式が存在します。
データを全て足して、個数で割るというものですね。
ところが、中央値を求める計算式は存在せず、
また、1つのとんでもなく値の大きなデータや欠損したデータが含まれる場合でも、中央値はその悪影響を受けづらいという性質があります。
次の例を見てみましょう。
ほとんどのデータは25くらいの値ですが、最後だけ跳ね上がってます。
平均値と中央値の最大の違いは、このように傾向から外れた値である外れ値に影響されるかどうかというところにあります。
平均値は、極端な外れ値の影響を大きく受けてしまいます。
実際に、先ほどの例題では平均点がとんでもなく大きな数になってしまっています。
一方で中央値は、極端な外れ値があっても、全体的な傾向をそのまま反映させることができます。
覚えなければならない性質ではありませんが、『なぜ平均値ではなく中央値を使うのだろう』という場面が来たときは、これで納得してください。
四分位数とは?
ただ、中央値だけを扱っていても、正確なデータの分析はできません。
もう少しデータの範囲を細かく区切って、その中で何種類か中央値を求めたい場面が存在します。
数学では、3つの数を使ってデータを4分割していきます。
この『3つの数』のことを四分位数と言います。
3つ数が存在するので、第1四分位数、第2四分位数、第3四分位数という言い方をします。
とはいえ、これらの数の定義を、問題演習なしに理解するのは至難の業。
データが偶数個のときの中央値の扱いなどは複雑です。
例題を通して、具体的に学んでいきましょう!
ここで新たな統計量である最小値、最大値が出てきたので紹介します。
最小値、最大値はデータを小さい順に並び替えたときにそれぞれ最も小さいデータと最も大きいデータの値のことを指します。
名前の通りなので、あまり深掘りする必要もありませんね。
四分位範囲とは?
まず、データの範囲とは、\((最大値)-(最小値)\) のことです。
データがどの広さで分布しているかを示します。
しかし、データの範囲だけでは少しデータが足りません。
データの範囲が同じでも、中央値にぎゅっと集まったデータと、全体的にバラバラなデータでは、分析結果が変わっているべきです。
このように、どれくらいデータがバラついているかを示すのが四分位範囲です。
データのばらつきの示し方は様々ですが、四分位範囲は \((第3四分位数)-(第1四分位数)\) で表現することになっています。
3種類の中央値の最大・最小の差を比べるイメージです。
ちなみに、これらのデータは前回の例題で扱ったものと完全に同じものです。
四分位数などは、前問で求めたものをそのまま使ってしまいましょう。
箱ひげ図
箱ひげ図は、四分位範囲を箱で表し、最大値と最小値をひげで表現する図のことです。
詳しい作り方は、次の記事で紹介していますので、ぜひ読んでください。
まとめ
いかがだったでしょうか?
今回は覚えることばかりで大変でしたね。
しかし、今回の内容は全て箱ひげ図を作成するための前準備に他なりません。
多少知識が曖昧でも、次の箱ひげ図のセクションに進んで全体像を掴み、そこで理解するのがおすすめです。
一度で理解しようとしなくて大丈夫。
次の記事でお会いしましょう!
コメント