キーワード:
箱ひげ図はヒストグラムと異なり、複数の山をもつ分布を適切に表すことはできない。
Rでは要約表示として summary()
、箱ひげ図の作成に boxplot
が用意されています。
ソフトでは異なる手法が用いられることもありますが、ここでは、求め方よりも意味を理解することが重要です。なお、最小値、第1四分位数、第2四分位数(中央値)、第3四分位数、最大値のことをまとめて、5数要約といい、分布の対称性を判断するために用いられます。
対称な分布では、Q1, Q3 から M までの距離はほぼ等しくなります。また、極端な外れ値が存在しなければ最大値と最小値も中央値 M に関して対称に近い位置にあることが期待されます。もし、Q3-M がM-Q1よりも大きければ、右の裾が長いことが予想されます。
ある村で成人28人の体重を測ったところ以下の結果が得られた。
50.5, 58.0, 47.5, 53.0, 54.5, 61.0, 56.5, 65.5, 56.0, 53.0, 54.0, 56.0, 51.0, 59.0, 44.0, 53.0, 62.5, 55.0, 64.5, 55.0, 67.0, 70.5, 46.5, 63.0, 51.0, 44.5, 57.5, 64.0
このデータから、四分位範囲と四分位偏差を求めよ。
(元データ(weight28.csv)をここからダウンロードできます。)
Rでの計算結果
fivenum()
関数を使うと、Q1=52.00, Q2=55.50, Q3=61.75 とわかります。
したがって、四分位範囲は Q3-Q1=9.75, 四分位偏差はそれを2で割って、4.975 となります。
quantile()
関数を使うと、Q1=52.500, Q2=55.500, Q3=61.375 となります。
したがって、四分位範囲は、Q3-Q1=8.875, 四分位偏差はそれを2で割って、4.4375 となります。
gretlでの計算結果
Q1=51.500, Q3=62.125 とわかります。よって、四分位範囲は Q3-Q1=, 四分位偏差はそれを2で割って となります。
Numerical summary mean min Q1 median Q3 max weight 56.196 44.000 51.500 55.500 62.125 70.500
gretl で箱ひげ図を描いてみました。
Rでは要約表示として summary()
、箱ひげ図の作成に boxplot
が用意されています。
表計算ソフトにおいても、Gnumeric ではグラフメニューの中に箱ひげ図が入っている。
工事中
工事中
リンクはご自由にどうぞ。