石田修二研究室 > データ統計処理 >

相関係数

2つのデータの関係を見る

質的変数の場合

性別や所属クラスのような質的データ同士の関係を考える場合には、クロス集計表を使います。Excelであればピボットテーブルが活躍する場面です。

(例題)あるクラスでうどんとそばのどちらが好きかの調査を行った。その結果のクロス集計表が次の通りである。

うどんそば合計
男性344377
女性231740
合計5760117

このとき、男性でうどんを選んだ人の回答者全員における割合、およびそばを選んだ人の男性全体における割合はどのように求められますか。(日本統計学会編『データの分析』東京図書, p.101)

(解答)次の通り。

量的変数の場合

統計学の授業で、2つの変数関係のテーマでよく取り上げられるのは量的関係の場合です。

2つの変数の場合は、x軸とy軸に2つの変数の数値を対応させて図で描くことができます。これを散布図 (Scatter plot) と呼びます。量的変数では必須の技法です。散布図を描くことで、2つの量的変数間のおおよその関係が視覚的にわかります。

散布図において、1つの変数の値が増えた時に、他方の変数の値も増える傾向にある時、2つの変数の間には正の相関関係があるといいます。逆に1つの変数の値が増えた時に、他方の変数の値が減る傾向にある時は、負の相関関係があるといいます。また、それらの関係が見られなかったときは相関関係がない、もしくは無相関といいます。

通常の相関関係では直線的な関係に着目します。直線に近い時は、強い相関関係、そうでないとき、弱い相関関係といいます。

層別散布図

散布図で相関関係を見ることができますが、グループの情報が得られるときにはグループごとの散布図を描くことがあります。

1つの散布図で複数のグループを描き分けた散布図を層別散布図といいます。

共分散

Rでは不偏共分散を求める関数として var() 関数が用意されている。

var(x, y)

標本共分散を求めるには、結果を $(n-1) / n$ 倍する必要がある。

相関係数

相関係数 r は x と y を標準化した u, v の共分散であることから、x や y を何倍かしたり、定数を加えて単位を変換しても、相関係数は変化しない。

Excelには相関係数を求めるためのCORREL関数が用意されている。

Rでは関数 cor(x, y) が用意されている。

(例題)2つの得点 X, Y の相関係数は -0.79 であった。X と Yの関係に関してもっとも適切なものはどれですか。次の 1〜5 のうちから1つ選んで下さい。(統計検定2級サンプル問題, Q3-02)

  1. Y の変動の約 64% を Y にもとづく X への最小2乗直線で説明できる
  2. X の増加と Y の増加が対応している
  3. X の減少と Y の減少が対応している
  4. X の減少が Y を増加させる
  5. X の増加と Y の減少が対応している

(答え)5

  1. 誤り。変動の64%を説明するものとして、因果関係を仮定する最小2乗直線で説明できるとしている点がバツ
  2. 誤り。相関係数は負であるからありえない
  3. 誤り。相関係数は負であるからありえない
  4. 誤り。適切に見えるがそうでないことに注意すること(私は最初引っかかった)。選択肢を読むと、因果関係を想定しており、相関係数では必ずしもそれは意味していない。したがって、不適。
  5. 正しい。

ある調査によると魚 A の摂取量と血中のある成分の量の散布図は右上がりの直線上に近く分布し、(工事中)

  1. (工事中

(答え)工事中

(例題)2つの変量 x と y の相関係数を r とする。このときの記述として誤っているものを、次の 1〜5 のうちから1つ選べ。(統計検定3級、第1回問4)

  1. x をすべて2倍してできる変量 z と変量 y の相関係数は r と等しい
  2. x にすべて 10 を加えてできる変量 z と変量 y の相関係数は r と等しい
  3. r は -1 以上 1 以下の値を必ず取る
  4. 変量 y と変量 x の相関係数は -r となる
  5. 2つの変量 x と y が右下がりの直線近くに分布しているとき、相関係数 r は -1 に近い値となる

(答え)「誤っているもの」を選ぶことに注意すること。答えは 4

  1. 不適。相関係数 r は x と y を標準化した共分散なので、x( y も)を何倍かしても相関係数は変化しない。『データの分析』106ページ参照。
  2. 不適。1同様、相関係数 r は x と y を標準化した共分散なので、x( y も)にいくらか加えても相関係数は変化しない。『データの分析』106ページ参照。
  3. 不適。言っていることは正しい。
  4. 正解。
  5. 不適。言っていることは正しい。

(例題)2つの変数 x, y の相関係数が 0.67 であった。このとき、x のすべての値に 0.02 ずつ加えた。続いて y のすべての値を 0.3 倍にした。このとき相関係数の値はどう変化したか。次の 1〜4 のうちから最も適切なものを選びなさい。(日本統計学会編『データの分析』東京図書, p.111)

  1. この変化では相関係数は常に 0.67 である。
  2. 相関係数の値は 0.67 から 0.67 + 0.02 = 0.69 となり、次の変化では変わらず 0.69 のまま。
  3. 相関係数の値は 0.67 から 0.67 + 0.02 = 0.69 となり、次の変化で 0.69 × 0.3 = 0.207 となる。
  4. この情報だけでは求められない。

(答え)1

相関係数に関する次の2つの記述で正しい組み合わせはどれか。次の 1〜4 のうちから最も適切なものを1つ選んで下さい。(日本統計学会編『データの分析』p.112)

  1. 相関係数は測定した際の単位の影響を受け、たとえば身長の場合、cm と m で測ったときで相関係数の値は変わる。
  2. 相関係数は2つの変数のどちらかを散布図の横軸にするか縦軸にするかで値が変わる。
  1. I のみ正しい
  2. II のみ正しい
  3. 両方とも正しい
  4. 両方とも正しくない

(答え)4


【石田修二研究室】 【データ統計処理】