分布では、代表値だけでなく、散らばりも重要な情報である。
変数を $x$ と表すとき $i$番目の観測値については
偏差 = 観測値 − 平均値 = $x_i - \bar{x}$
$\displaystyle \frac{1}{n} \sum _{i=1}^{n}{(x_i - \bar{x})^{2}}$
最大値と最小値の差を求める統計量を範囲という。
R = Max - Min
n-1で割ったほうが統計量として良い性質を持っている。
var関数を使う
なお、var関数は不偏分散を求める関数であって、標本分散(普通の分散、ExcelでいうVARP関数)を求める関数ではないことに注意しよう。すなわち、データ x のデータ数を n とすると、var(x)
は以下の値を求めています。
$$ var(x) = \frac{1}{n-1} $$
したがって、標本分散を求めるには、var()
の結果を $(n-1) / n$ 倍する必要があります。
分散では距離を2乗したので、これを平方根をとって元の単位に戻したものを標準偏差という。
小さいサンプルから大きい母集団について推定しようとするときはSTDEVを使う。学校の先生がクラス全員の点数の標準偏差を求めるときは、 STDEVPを使う。最後のPは母集団 (population) の頭文字である。後者の場合、クラス全員が母集団になる。
sd関数を使う。
“集中度”を記述するのがチェビシェフの定理です。
チェビシェフの定理は、どんな度数分布のデータについても成立することに価値があるのです。そのために、$1-(1/k)^{k}$以上という評価は、一般にはかなりアマイものです。
平均が極端に異なる値をとるような場合には、データのバラツキを平均値との比で見たほうがよい場合がある。そのための標準偏差を平均で割った統計量 を変動係数という。
CV= s / x