石田修二研究室 > データ統計処理 >

5数要約と箱ひげ図

キーワード:

箱ひげ図はヒストグラムと異なり、複数の山をもつ分布を適切に表すことはできない。

分位数と5数要約

Rでは要約表示として summary()、箱ひげ図の作成に boxplot が用意されています。

ソフトでは異なる手法が用いられることもありますが、ここでは、求め方よりも意味を理解することが重要です。なお、最小値、第1四分位数、第2四分位数(中央値)、第3四分位数、最大値のことをまとめて、5数要約といい、分布の対称性を判断するために用いられます。

対称な分布では、Q1, Q3 から M までの距離はほぼ等しくなります。また、極端な外れ値が存在しなければ最大値と最小値も中央値 M に関して対称に近い位置にあることが期待されます。もし、Q3-M がM-Q1よりも大きければ、右の裾が長いことが予想されます。

ある村で成人28人の体重を測ったところ以下の結果が得られた。

50.5, 58.0, 47.5, 53.0, 54.5, 61.0, 56.5, 65.5, 56.0, 53.0, 54.0, 56.0, 51.0, 59.0, 44.0, 53.0, 62.5, 55.0, 64.5, 55.0, 67.0, 70.5, 46.5, 63.0, 51.0, 44.5, 57.5, 64.0

このデータから、四分位範囲と四分位偏差を求めよ。

元データ(weight28.csv)をここからダウンロードできます。)

Rでの計算結果

fivenum() 関数を使うと、Q1=52.00, Q2=55.50, Q3=61.75 とわかります。

したがって、四分位範囲は Q3-Q1=9.75, 四分位偏差はそれを2で割って、4.975 となります。

quantile() 関数を使うと、Q1=52.500, Q2=55.500, Q3=61.375 となります。

したがって、四分位範囲は、Q3-Q1=8.875, 四分位偏差はそれを2で割って、4.4375 となります。

gretlでの計算結果

Q1=51.500, Q3=62.125 とわかります。よって、四分位範囲は Q3-Q1=, 四分位偏差はそれを2で割って となります。

Numerical summary

             mean      min       Q1   median       Q3      max
weight     56.196   44.000   51.500   55.500   62.125   70.500

gretl で箱ひげ図を描いてみました。

boxplot

Rでは要約表示として summary()、箱ひげ図の作成に boxplot が用意されています。

表計算ソフトにおいても、Gnumeric ではグラフメニューの中に箱ひげ図が入っている。

データのちらばりを考える

工事中

複数のデータの分布を比較する

工事中


リンクはご自由にどうぞ。

【石田修二研究室】 【データ統計処理】