このページでは,多重クロス集計表の問題として広く知られている,ここではシンプソンのパラドックスを紹介します。
以下の例はいずれも表の書き方が異なりますが,クロス集計をしているという点で,どれも同じです。
新しく開発されたダイエット食品の効果を試すために,関西地区では46人のモニターから19人が新製品を,27人が従来品を一定期間食べ続けました。同様に,関東地区では41人のモニターの中から,27人が新製品を,14人が従来品の実験を担当しました。
その結果,効果のあった人の比率を地区ごとに計算したのが下の表です。この表からは,関西でも関東でも新製品の効果ありの比率が従来品のそれを上回っているので,新製品の開発は成功したように思えます。
しかし,関西と関東を合計した数で比率を求めると,新製品の効果ありが 54.3%,従来品が 58.5% となり,従来品の方が効果があったという結果になります。
このように,複数の集団に分けて調査をするとき,それぞれの比率を計算してしまうと,このようなパラドックスが生じることもあるということです。これをシンプソンのパラドックス (Simpson's paradox) といいます。
(次の例は,日本統計協会編『統計学I:データ分析の基礎』p36に出ていたものです)
ある結婚会社が10歳代から20歳代までの若者に対して,結婚したいか否かを調査しました。その性差をクロス集計表を表した結果が次の通りです。
男性の結婚希望の比率は 0.517 であり,女性は 0.456 です。この結果より,結婚願望の比率は,男性の方が女性より高いことがわかります。
次にこれを10歳代と20歳代で層化したもとで多重クロス集計を作成します。
10歳代,20歳代のいずれにおいても女性のほうが男性に比べて結婚願望が高いという結果になります。
一般に,結婚願望は年齢層で異なると考えられますので,3重クロス集計表を用いて,それぞれの年齢層で解釈することが推奨されます。
上のスプレッドシート (simpsons_paradox2.xlsx, 作成者:ishidashuji) はこちらでも公開しています。
広田すみれ『読む統計学 使う統計学』(慶應義塾大学出版会,2005年)の pp.58 - pp.59 に出ていたものです。
ある製薬会社が薬A,薬Bの効果について調査をしました。その結果は次の通りになりました。
薬A が 0.667 であり,薬B は 0.333 です。この結果より,薬A の方が効果が高いといえます。
次にこれを若年層と高齢者層で層化して,多重クロス集計表を作成します。その結果は次の通りです。
若年層は薬Aが0.833,薬Bも0.833 と同じ評価になりました。高齢者層も同様に 0.167 と同じ評価になりました。
薬の場合も,年齢で効果が異なると考えられますので,3重クロス集計表を用いて,それぞれの年齢層で解釈することが求められます。
上のスプレッドシート(simpsons_paradox3.xlsx, 作成者:ishidashuji)はこちらでも公開しています。
リンクはご自由にどうぞ。
Last modified: 2016-05-15 13:46:33