2つのデータの関係を見る
性別や所属クラスのような質的データ同士の関係を考える場合には、クロス集計表を使います。Excelであればピボットテーブルが活躍する場面です。
(例題)あるクラスでうどんとそばのどちらが好きかの調査を行った。その結果のクロス集計表が次の通りである。
うどん | そば | 合計 | |
---|---|---|---|
男性 | 34 | 43 | 77 |
女性 | 23 | 17 | 40 |
合計 | 57 | 60 | 117 |
このとき、男性でうどんを選んだ人の回答者全員における割合、およびそばを選んだ人の男性全体における割合はどのように求められますか。(日本統計学会編『データの分析』東京図書, p.101)
(解答)次の通り。
統計学の授業で、2つの変数関係のテーマでよく取り上げられるのは量的関係の場合です。
2つの変数の場合は、x軸とy軸に2つの変数の数値を対応させて図で描くことができます。これを散布図 (Scatter plot) と呼びます。量的変数では必須の技法です。散布図を描くことで、2つの量的変数間のおおよその関係が視覚的にわかります。
散布図において、1つの変数の値が増えた時に、他方の変数の値も増える傾向にある時、2つの変数の間には正の相関関係があるといいます。逆に1つの変数の値が増えた時に、他方の変数の値が減る傾向にある時は、負の相関関係があるといいます。また、それらの関係が見られなかったときは相関関係がない、もしくは無相関といいます。
通常の相関関係では直線的な関係に着目します。直線に近い時は、強い相関関係、そうでないとき、弱い相関関係といいます。
散布図で相関関係を見ることができますが、グループの情報が得られるときにはグループごとの散布図を描くことがあります。
1つの散布図で複数のグループを描き分けた散布図を層別散布図といいます。
Rでは不偏共分散を求める関数として var()
関数が用意されている。
var(x, y)
標本共分散を求めるには、結果を $(n-1) / n$ 倍する必要がある。
相関係数 r は x と y を標準化した u, v の共分散であることから、x や y を何倍かしたり、定数を加えて単位を変換しても、相関係数は変化しない。
Excelには相関係数を求めるためのCORREL関数が用意されている。
Rでは関数 cor(x, y)
が用意されている。
(例題)2つの得点 X, Y の相関係数は -0.79 であった。X と Yの関係に関してもっとも適切なものはどれですか。次の 1〜5 のうちから1つ選んで下さい。(統計検定2級サンプル問題, Q3-02)
(答え)5
ある調査によると魚 A の摂取量と血中のある成分の量の散布図は右上がりの直線上に近く分布し、(工事中)
(答え)工事中
(例題)2つの変量 x と y の相関係数を r とする。このときの記述として誤っているものを、次の 1〜5 のうちから1つ選べ。(統計検定3級、第1回問4)
(答え)「誤っているもの」を選ぶことに注意すること。答えは 4
(例題)2つの変数 x, y の相関係数が 0.67 であった。このとき、x のすべての値に 0.02 ずつ加えた。続いて y のすべての値を 0.3 倍にした。このとき相関係数の値はどう変化したか。次の 1〜4 のうちから最も適切なものを選びなさい。(日本統計学会編『データの分析』東京図書, p.111)
(答え)1
相関係数に関する次の2つの記述で正しい組み合わせはどれか。次の 1〜4 のうちから最も適切なものを1つ選んで下さい。(日本統計学会編『データの分析』p.112)
(答え)4