石田修二研究室 > データ統計処理 >

代表値

キーワード:平均(算術平均、mean)、中央値(メディアン、メジアン、median)、最頻値(モード、mode)

平均値(算術平均)

資料が与えらられた時、最初に求める値は平均です(p.36)。ここでは、その意味と求め方を勉強する。

意味

「分布の重心」

物理学的には「分布のバランスの中心」、すなわち重心なのです。

求め方

資料全体の数値の和を度数全体で割る。

(例題1)3人の体重が61kg, 57kg, 62kgのとき、平均を計算せよ。

【解答】 (61 + 57 + 62) / 3 = 60 kg

この〜という値は、〜の近似値なのです。統計学で扱う数は、ほとんど、四捨五入などによる近似値だと考えましょう。

(補足)平均はなぜ人気の代表値なのか

この平均がデータの代表値として最もよく使われる理由は何でしょうか?小寺先生は次の3つを挙げられています。

  1. 平均の意味が分かりやすい。
  2. データのすべての値が計算に使用される。
  3. その計算が単純である。

みなさんはどうですか。

Excelで算術平均を求める

AVERAGE関数を使うのが一般的である。

Rで算術平均を求める

mean関数で求める。

度数分布表から平均を求める

(問題)

50人のクラスの身長の度数分布が表 1 のようであった。測定精度は無限小であるとして,平均値を求めよ。

表1
以上 (cm)
未満 (cm)
度数(人)
140
145
2
145
150
1
150
155
10
155
160
17
160
165
12
165
170
7
170
175
1

(注意)度数分布は、生のデータの“要約”ですから、度数分布から計算した平均は、生のデータからの結果から多少ズレています。

中央値(メディアン, Median)

このように極端な値が混入しているときなどに、中央値(メディアン)が使われる。

中央の値、すなわちデータを大きさの順に並べた時に中央に位置する観測値の取る値のこと。

(例題)35, 46, 52, 67, 77 の5つの観測値がある時 Me = 52

(例題)35, 46, 52, 56, 67, 77 の6つの観測値がある時 Me = (52+56) / 2 =54

Excelでは、標準偏差を求める機能として、MEDIAN関数が用意されている。

(例題)3人の身長と体重を測った。身長のメディアンと体重のメディアンはいくつか。

名前
身長(cm)
体重(kg)
A
170
60
B
150
30
C
160
90

【解答】

身長のデータを並び替えると、150cm、160cm、170cm である。そこでちょうど真ん中の位置にくるのは 160cm、体重のデータを小さい順に並べると、30kg、60kg、90kg である。そこでちょうど真ん中にくるのは 60kg。

Ans. 身長のメディアンは 160cm、体重のメディアンは 60kg

最頻値(モード、Mode)

世帯人数のように離散変数の場合にはその定義は明確ですが、エネルギー量のような連続変数の場合には同じ値を取ることは少ないので、度数分布表を作成し、もっとも度数の大きな階級の代表値を最頻値とすることが多いです。

Excelで最頻値を求めるには、Mode関数を使う。しかし、最頻値が複数ある場合には使えない。したがって、最頻値は目視して求めたほうがよい。

あるグループ(10人所属)の体重をはかってデータを集めたら、次のようになった。

48kg, 60kg, 64kg, 38kg, 40kg, 52kg, 38kg, 53kg, 56kg,  51kg

このグループの平均ならびにメディアンを計算せよ。なお、計算の結果、小数が出たら、小数点2位を四捨五入して第1位で表示せよ(例:50.16→50.2)

この3つの代表値は、それぞれ特徴があります。どの代表値が一番というものではありません。採用はケース・バイ・ケースです。オリンピックの器械体操の得点の決め方は、一番高い点数と一番低い点数とを除外し、残る審判員の点数の平均を得点にします。これは、上の3つの代表値を上手に組み合わせた工夫です。


【石田修二研究室】 【石田修二】