石田修二研究室 > データ統計処理 >

標本調査

キーワード:偏り, 悉皆調査(しっかいちょうさ)、全数調査, 任意抽出法, 任意標本, 標本, 標本調査, 母集団, 無作為抽出法, ランダム・サンプリング

全数調査と標本調査

日本で最も大きな調査は、国勢調査 です。国勢調査では、日本の国民全員のひとりひとりについて、その性別・年齢・職業などを調べることになっています。このように調査の対象全部について、もれなく調べる方法を 全数調査 あるいは 悉皆調査(しっかいちょうさ)といいます。

これに対して、調査対象の一部だけ調べて全体の特徴や性質を推定する調査を、標本調査 といいます。実際には、対象とする集団が大きくなると全数調査は難しく、標本調査が行われることが多いです。全数調査ではなく、標本調査が行われる理由としては次のようなことが挙げられます。

  1. 製品の寿命調査のように、調査を実施するとその製品が使えなくなる
  2. 全数調査の場合、調査結果の整理や分析に時間がかかるため、時間的な変化の大きなものについては、調査結果の価値がなくなる
  3. 全数調査を実施するには、多くの費用がかかる

国が実施する調査を例に標本調査と全数調査に分けると次のようになります。

標本調査たとえば、家計消費状況調査社会生活基本調査 etc
全数調査たとえば、経済センサス、学校基本調査 etc

(例題)あるミカン箱の中のミカンの糖度を調べる場合に、標本調査が行われる理由を答えなさい。

(答)ミカンの糖度を調べると、そのミカンは商品として使えなくなるため、全数調査を行うことはできない。

(例題)次の調査をするとき、全数調査ではよくないもの、または不可能なものはどれか。(『中学数学自由自在』, p.418)

  1. 学校で行う健康診断の視力検査
  2. テレビ番組の視聴率調査
  3. 学校で行う入学検査の学力調査
  4. ある会社の製品の電球の寿命調査

(解説)1つずつ検討していきます。

  1. 視力検査は全員行わなければ意味がありません。
  2. テレビ番組の視聴率は、およその傾向が判断できればいいので、全数調査をする必要はありません。
  3. 全員行わなければ意味がありません
  4. 電球の寿命検査に製品の全部をテストしたのでは、売る製品が無くなってしまいます

したがって、答えは2 と 4 です。

次の調査をするとき、標本調査であるものはどれか。次から選びなさい。(『中学数学自由自在』, p.419)

  1. 学校で行う身長・体重の検査
  2. ある会社の製品のかんづめの品質調査
  3. ある養鶏場でできた卵の成分の分析調査
  4. 日本の中学校の1ヶ月のこづかいの平均
  5. ある中学校の3年生全体の100mを走る時間

答えは 2 と 3 と 4 です。

母集団と標本

こちらに移転しました。

任意抽出(ランダム・サンプリング)

標本を偏りなく選ぶことは意外に難しく、調査者が無作為に選んだつもりでも、何らかの偏りが生じることがあります。そのため、確率的な現象を用いて、母集団に含まれている個体が同じ確率で標本として選ばれるような抽出方法が取られます。具体的には、母集団に含まれる個体に全く異なる番号をつけて、その番号を確率的に抽出することになります。この方法を単純無作為抽出法といいます。番号を確率的に選ぶ方法としては次のようなものがあります。

(1)サイコロやくじ引きを用いる
たとえば、0から99までの番号をついたくじを準備して、その中から1つ選ぶ方法や正二十面体の各面に0から9の数字のうち1つを書いて、0から9までの数字が2面あるサイコロを使って、数字を選ぶ方法などがあります
(2)乱数表を用いる
あらかじめ (1) のような方法で作成した数字の表を準備します。この表を乱数表といいます(乱数に関する日本工業規格JIS Z 9031 参照)。この乱数表の数字の中から1つ選んで、その場所をスタートとして、ある方向に数字を順番に選んでいく方法が用いられます
(3)コンピュータで乱数を発生させる
(1)や(2)の方法では、数多くの番号を抽出するのは大変です。このような場合には、乱数とよく似た傾向を持つ数字の列を発生させるコンピュータの関数を使うことがあります。例えば、Excel では 0以上1未満の実数値を発生させる RAND 関数が準備されています。これは、乱数とよく似た傾向を持つののの、実際には発生された数の間にはある数学的な関係があるため、疑似乱数と呼ばれることがあります

(例題)
ある中学校3年生全員について、あるテストの成績を調べるのに、全部で3学級、120名の中から標本を選んで調べることにした。標本の選び方として、次の中からどれがよいか。

  1. ある組全員を選ぶ。
  2. くじびきで30人を選ぶ。
  3. 出席番号が5の倍数の人だけ選ぶ。
  4. 女子だけ選ぶ。

(考え方)主観が入らないように、無作為に抽出し、標本が母集団の正しい縮図になっているように選びます。

(解答)任意抽出になっている 2, 3 がよい。

あるクラスの成績を、標本を選んで調べることにしました。次の選び方のうちどれが適当か。

  1. 早くできたもの10名を選ぶ
  2. 前回のテストの得点の高い方から10名を選ぶ
  3. 名前で(あいうえお順)10名を選ぶ

(答え)3

ある中学校の教師はこれまで用いていた標準的な問題集に対して,新たに発売されたコンピュータを利用した問題集がより教育効果があるか知りたいと考えている。そこで,教師は担当のクラスの生徒に新しい問題集を渡して,効果を測定することとした。問題集を渡す生徒の決め方として,次のうちから最も適切なものを選びなさい。(『統計学II』p145)

  1. クラスの全員に新しい問題集を渡す。
  2. 女子生徒に問題集を渡す。
  3. 誕生月が偶数の生徒に問題集を渡す。
  4. 家でパソコンをよく使う生徒に問題集を渡す。

(答え)3

(解説)

  1. クラス全員に問題集を渡すのでは,これまでの標準的な問題集との比較ができません。
  2. 女子生徒だけに問題集を渡すと,女子と男子を比較しているのか,新しい問題集とこれまでの問題集を比較しているのか,の区別がつけられません。
  3. 完全な無作為抽出ではありませんが,誕生月の偶数奇数と学習効果は関係がないと考えられるので,無作為抽出と同等の効果があると考えられます。したがって,これが正解です。
  4. 家でパソコンを使っている生徒は新しい問題集のやり方に慣れていると予想されるので,標準的な問題集の効果との比較が公平ではありません。

小学校のクラスで、代表として挨拶する生徒を一人選ぶときに、無作為に選ぶやり方として最も適切なものを、次のa.〜d.のうちから一つ選びなさい。ただし、同順位が出た時にはじゃんけんで決めるものとする。(gacco「統計学II」week1 問題2)

  1. あいうえお順の名簿の先頭の生徒を選ぶ
  2. 一番早生まれの生徒を選ぶ
  3. 一番背の高い生徒を選ぶ
  4. コインを10回投げて一番表の回数が多かった生徒を選ぶ

(答え)4

Excelでの操作

Excelでは RANDBETWEEN 関数が用意されています。こちらに移転しました。

R での操作

Rでは sample 関数が用意されています。


【石田修二研究室】 【データ統計処理】