石田修二研究室 > データ統計処理 >

正規分布

練習問題は以下に用意しています。

連続的な変量 X の確率分布を考えます。ここで学習する正規分布は、連続分布の代表的なものです。

表計算ソフトで計算してみる

ここでは次のような例題を考えます。

(例題)
同じ製品を製造しているA工場とB工場があります。A工場、B工場の製品の平均値と標準偏差は次の通りです。

A工場B工場
平均内容量45 g55 g
標準偏差10 g15 g

A工場、B工場の製品の誤差の分布を表す正規分布を描きましょう。また、正規分布の面積、すなわち、確率の合計が「1」になることを確かめましょう。(日花弘子『仕事に役立つExcel統計解析 改訂版』ソフトバンククリエイティブ, 2008年, p.169

教材ファイルをダウンロードできます(normdist.xlsx)。(解答ファイルはこちら

各内容量に対する確率を求める

(1)次のようなシートを用意します。

(2)セル B9 を選択して、=NORMDIST($A9,B$4,B$5,0) と式を設定します。

各内容量に対する累積確率を求める

(1)累積確率を表示する以下のようなシートを用意します。

(2)セル D9 を選択して、=NORMDIST($A9,B$4,B$5,1) と式を設定します。

関数形式を 1 (または TRUE )とすることを忘れないように。0ではない!

正規分布をグラフに描く

内容量 (X) を横軸、A工場とB工場のその内容量になる確率を縦軸とする正規分布を描きます。横軸、縦軸ともに数値なので散布図を使うと楽に描くことができます。

結果の読み取り

1. 累積確率

累積確率をは、正規分布の山の面積を表す部分の確率です。正規分布の左端から指定した x の値までの確率の合計を求めています。よって、指定する x の値が大きければ正規分布全体を網羅し、確率の全合計になります。つまり、確率の合計はA工場もB工場も「1」(100%) であることがわかります。

2. 正規分布

A工場とB工場の正規分布はいずれも平均を中心とする左右対称の山の形になります。しかし違いもあります。違いをまとめてみます。

山の傾斜
B工場はA工場の標準偏差より大きく、データが散らばっているため、A工場よりも山の傾斜が低く左右にデータが広がっています。
山の中心
A工場の山の中心より、B工場の山の中心が右に「10」(平均内容量の差)平行移動しています。

このように、正規分布では平均値や標準偏差の値によって、山の傾斜や中心の位置が変化します。統計学では平均値「μ」(ミュー)、標準偏差「σ」(シグマ)の正規分布を N (μ, σ) と書きます。

今回は、同じ製品(同じ単位)について考えているので、正規分布同士の大まかな比較をすることができます。例えば内容量が 60g の場合、A工場の製品は、山の中心から右に外れていますが、B工場の製品は、平均値に近いところにあると判断できます。

以上のように大まかな比較はできますが、山の位置や高さが違っているため、今回のグラフでは、A工場の 60g とB工場の 60g を厳密に比較することができません。そこで厳密に比較するために「位置も高さも同じ正規分布」を用意して、A工場の製品の 60g とB工場の製品の 60g を比較することになります。これは後述の標準正規分布になります。


リンクはご自由にどうぞ。

【データ統計処理】