データの代表値
度数分布表をつくることで、そのデータがどのような傾向があることが把握できることがあります。
しかし、あくまでデータを整理しただけで、2つ以上のデータ群を比べるのに不向きであることもあります。
たとえば、以下の2つの度数分布表で、どちらが暑かったかがすぐにわかるでしょうか
(もちろん、暑さの指標はいろいろありますし、人によっても変わります)。
| A市の気温の階級 | 度数 |
| 15℃以上17℃未満 | 4 |
| 17℃以上19℃未満 | 10 |
| 19℃以上21℃未満 | 4 |
| 21℃以上23℃未満 | 3 |
| 23℃以上25℃未満 | 4 |
| 25℃以上27℃未満 | 2 |
| 27℃以上29℃未満 | 3 |
| 29℃以上31度未満 | 1 |
| 計 | 31 |
| B市の気温の階級 | 度数 |
| 15℃以上17℃未満 | 6 |
| 17℃以上19℃未満 | 5 |
| 19℃以上21℃未満 | 7 |
| 21℃以上23℃未満 | 3 |
| 23℃以上25℃未満 | 3 |
| 25℃以上27℃未満 | 2 |
| 27℃以上29℃未満 | 4 |
| 29℃以上31度未満 | 1 |
| 計 | 31 |
よく見れば、わかるかもしれません。
しかし、すぐにどちらが暑いと判断することは難しいはずです。
そこで、データの特徴を一目で表す「代表値」という数値を決めておけば便利です。
代表値にはいくつかの種類があり、シチュエーションによって最適なものを選びます。
有名なのは、平均値でしょう。
次のようなn個のデータがあったとき、そのn個のデータの総和をそのデータの個数で割った値を、平均値と言います。
x1, x2, x3,……xn
データxの平均値は、

で表します。
先のデータであれば、
26.8 21.4 26.8 23.5 24.3 19.9 23.5 28.4 29.0 28.5
28.8 22.7 19.5 21.2 18.9 16.2 16.6 20.2 16.4 18.7
18.2 17.6 18.9 18.2 20.4 22.7 24.0 18.0 18.9 15.7 18.2

となります。
しかし、度数分布表では、元のデータがありません。
度数分布表を与えられた場合に平均値を求めるには、階級値と度数の積をすべて足してから、データの数で割ります。
| A市の気温の階級 | 階級値 | 度数 | 階級値×度数 |
| 15℃以上17℃未満 | 16 | 4 | 64 |
| 17℃以上19℃未満 | 18 | 10 | 180 |
| 19℃以上21℃未満 | 20 | 4 | 80 |
| 21℃以上23℃未満 | 22 | 3 | 66 |
| 23℃以上25℃未満 | 24 | 4 | 96 |
| 25℃以上27℃未満 | 26 | 2 | 52 |
| 27℃以上29℃未満 | 28 | 3 | 84 |
| 29℃以上31度未満 | 30 | 1 | 30 |
| 計 | ――― | 31 | 652 |
度数分布表による平均値 = 652 ÷ 31 ≒ 21.03 となります。
もちろん元々のデータを使ったわけではありませんから、厳密な値ではありません。
先の平均値と比べても多少のずれがあることがわかります。
また、平均値以外のデータの代表値として「中央値(メジアン)」と「最頻値(モード)」を紹介します。
中央値とは、データを小さい順番に並び替えたときに、ちょうど真ん中にある値のことです。
先ほどのデータを並び替えると、
15.7 16.2 16.4 16.6 17.6 18.0 18.2 18.2 18.2 18.7
18.9 18.9 18.9 19.5 19.9 20.2 20.4 21.2 21.4 22.7
22.7 23.5 23.5 24.0 24.3 26.8 26.8 28.4 28.5 28.8 29.0
となります。
31個のデータがありますので、ちょうど真ん中のデータは

となります。
31個のデータがありますので、ちょうど真ん中のデータは
個目のデータである「20.2」が中央値です。
ここで、もしもデータの個数が
15.7 16.2 16.4 16.6 17.6 18.0 18.2 18.2 18.2 18.7
18.9 18.9 18.9 19.5 19.9 20.2 20.4 21.2 21.4 22.7
22.7 23.5 23.5 24.0 24.3 26.8 26.8 28.4 28.5 28.8
のように偶数個であれば、真ん中にあたるデータが2つあります。
14個目のデータ「19.5」と15個目のデータ「19.9」です。
このような場合の中央値は、その2つの平均値
となります。
中央値は、メジアンともいいます。
続いて、最頻値とはその名の通り、最もよく表れる数値です。モードともいいます。
上のデータであれば、「18.2」と「18.9」が3回と最もよく表れているので、この2つが最頻値となります。
聞きなれない言葉がたくさん出てきますが、単語の意味さえ覚えてしまえば簡単な単元です。
繰り返し問題を解いて、単語の意味をしっかり把握しましょう。
関連記事








コメント