クロス表とχ2検定
記述統計と推測統計の違い 記述統計 サンプルデータそのものの集計 推測統計 サンプルデータから母集団の傾向を推測する
クロス表を作成しよう クロス表とは 文系 理系 男 120 280 女 240 160 クロス表を作成しよう クロス表とは 質的変数同士を組み合わせて、度数を集計するのに使う表(この集計をクロス集計ともいう) 文系 理系 男 120 280 女 240 160 ※セルに入っているのは度数(平均値ではないことに注意) ※要素の数に合わせて2×2のクロス表とかのように呼ぶ
χ2検定 各セルの期待度数に偏りがあるかを調べる 文系 理系 男 200 120 280 女 240 160 (偏りなし) 観測度数 (実際のデータ) 文系 理系 男 200 120 280 女 240 160 比較 比較 各セルの期待度数に偏りがあるかを調べる →2×2のクロス表の場合には…..
推測統計と検定 (目的)仮説を検証すること 検定の考え方:帰無仮説を立てて、仮説とどちらが支持される可能性が高いかを考える 仮説は、傾向に基本的に違いがあるということ サンプルから計算する差だけで、母集団にも差があると言えるかどうかを決める 検定の考え方:帰無仮説を立てて、仮説とどちらが支持される可能性が高いかを考える 帰無仮説は逆方向の仮説であることに注意
仮説と帰無仮説 先の例の場合は 結論は、仮説を選択するのか、帰無仮説を選択する(仮説を棄却する)のか、どちらか(二択) 帰無仮説 :男女の間で[ ] 仮説 結論は、仮説を選択するのか、帰無仮説を選択する(仮説を棄却する)のか、どちらか(二択) 文系か理系かを選択する割合に差はない 文系か理系かを選択する割合に差がある
有罪 無罪 検定の基本的な考え方 有罪 無罪 ある事件 の裁判 「彼が犯人である可能性が 「彼が犯人である」 非常に高い」 「彼が犯人である可能性は ゼロではないが、非常に低い」 「彼が犯人である可能性が 非常に高い」 有罪 ある事件 の裁判 「彼が犯人である」 無罪 「彼は犯人ではない」
検定の基本的な考え方 仮説 帰無仮説 どちらの可能性(確率)が高いかで決める 仮説の支持 仮説の棄却 結果は 二択 (※帰無仮説の支持とは書かない) 仮説 帰無仮説 結果は 二択 「男性と女性には差がある」 「男女間には差がある とは言えない」 どちらの可能性(確率)が高いかで決める
χ2検定の手順 1. 帰無仮説を立てる 2.χ2値を計算する ※2×2のクロス表の場合
χ2検定の手順 3.χ2分布の表を見ながら臨界値を算出する 表のどこを見ればよいか:自由度と有意水準の交叉した値を臨界値(基準)とする 自由度(df)=[セル数-1]×[セル数-1] 2×2のクロス表ではdf =1
χ2分布の表 自由度
χ2分布表で見てみると… 72.7 95%(偶然に生じる誤差の範囲) 5%(偏りがある) 帰無仮説を棄却 0 2.71 10% 3.84 帰無仮説を採用 5%(偏りがある) 帰無仮説を棄却 =仮説を採用 0 (理論値とのズレが 全くない場合) 2.71 10% 3.84 5% 6.63 1% 72.7 有意水準
χ2検定の手順 有意水準の意味 帰無仮説を棄却するかどうかを決める基準(偶然に生起する確率がどの程度あるか。危険率とも呼ぶ) χ2値が大きくなる →偶然に生起するという可能性が小さくなる (たまたまの結果ではなく、偏りが偶然ではない) →帰無仮説が支持される可能性は非常に小さいので、 仮説の方を採用する 「χ2値が大きい」では基準があいまいなので、一定の基準(全体の5%や1%)を設けておく(これが有意水準。p<.05やp<.01と書く)
4. 結果の解釈 χ2値が表の値よりも大きい場合には、帰無仮説の棄却(仮説の支持) χ2値が表よりも小さければ帰無仮説の支持(仮説の不支持) χ2値が表の値よりも大きい場合には、帰無仮説の棄却(仮説の支持) χ2値が表よりも小さければ帰無仮説の支持(仮説の不支持) 有意水準を5%とした場合には、調査を行うと、仮説は95%の確率で支持される可能性があることになる 100名中95名ではなく、100回中95回程度支持される
おまけ1 どこに差があるか ~残差分析 タテかヨコかが3セル以上の場合には全体で偏りがあることは分かっても、どこが偏っているのかは分からない どこに差があるか ~残差分析 タテかヨコかが3セル以上の場合には全体で偏りがあることは分かっても、どこが偏っているのかは分からない どの程度偏りがあるかを示す値
おまけ2 効果サイズとクラマーのV 社会調査などではサンプル数が多いので、分析結果は有意になりやすい