統計学勉強会 ~カイ二乗検定~ 地理生態学研究室 3 年 髙田裕之
カイ二乗検定とは 期待値・理論値が存在するときに用いる。 一般的にはピアソンのカイ二乗検定のことを指す。 ノンパラメトリックな検定である。 適合度検定と独立性検定がある。
適合度検定の例 東邦大学の学生の男女比は [1:1] と言えるか。 独立性検定の例 東邦大学の理学部と薬学部で男女比に差があると 言 えるか。
カイ二乗値 観測値と期待値の差の 2 乗を期待値で割った値の総 和。 χ2 =χ2 = Σ n i=1 (Oi-Ei)2(Oi-Ei)2 EiEi O :観測値 E :期待値 期待値と観測値の差が小さいほど 0 に近付く。 期待値と観測値の差が大きいほど大きくなる。
カイ二乗分布 カイ二乗値をプロットした曲線。 自由度により異なる。 自由度 =1 自由度 =3 自由度 =
カイ二乗分布のイメージ(自由度 1 の場 合) 赤と白のボールが 100 個ずつ入った箱から、無作為に 10 個 のボールを取ると、赤と白が 5 個ずつとなる確率が最も大き く、 10 個 0 個に近付くに従って確率は小さくなる。 この確率の分布したものが自由度 1 の時のカイ二乗分布であ る。 >
自由度 1 の時のカイ二乗分布 95 %
カイ二乗分布のイメージ(自由度 5 の場 合) サイコロを 120 回振って、出た目の数を記録する。すると、 全てが 20 回ずつとなる確率は 0 に近く、ある程度バラつく 確率が最も大きい。さらにバラつく確率は小さくなってい く。 ^ ^ ^ %
0.95 の時のカイ二乗値表 自由度 χ2 χ 自由度 χ2 χ この値よりカイ二乗値が大きければ、帰無仮説を棄却する。 この値よりカイ二乗値が小さければ、帰無仮説を採用する。
例題① 現在東邦大学理学部では、男子 1500 名、女子 900 名が在籍 している。また、地理生態学研究室では、男子 13 名、女子 7 名が在籍している。これは、理学部の男女比と同じだと言 えるか。 地理生態学研究室の男女の人数の期待値は 男: 女 : カイ二乗値は 今回の自由度は 1 。また 1.07 は 3.84 より小さいため帰無仮説を採用する。 したがって、理学部と地理生態学研究室の男女比は同じだと言える。 20× = + × = + 900 (13 - 12.5) (7 - 7.5) + = 1.07
> geoeco <-c(13,7) > pn <-c(1500,900)/( ) > chisq.test(x=geoeco, p=pn) Chi-squared test for given probabilities data: geoeco X-squared = , df = 1, p-value = R でやってみる P 値> 0.05 であるから、帰無仮説は棄却できない。 よって、理学部と地理生態学研究室の男女比は同じ。
例題② ある年の生物学科の学生の進路を示した。 男女で、就職・進学・教職の割合に差はあるか。 就職進学教職 男子 女子 32118
就職進学教職合計 男子 女子 合計 就職進学教職合計 男子??? 70 女子??? 50 合計 就職進学教職合計 男子 女子 合計 合計の比から期待値を算出する。
カイ二乗値を算出する。 (38 - 41) 2 (24 - 20) 2 (7 - 9) 2 (32 - 29) 2 (11 - 15) 2 (8 - 6) = 3.51 正確には 2.82 今回の自由度は 2×1 で 2 。カイ二乗値 3.51 は 5.99 より小さいため帰 無仮説を採用する。 したがって、男女で進路の比に差はないと言える。
> shinro <-matrix(c(38,24,7,32,11,8),ncol=3,byrow=T) > rownames(shinro) <-c("men","women") > colnames(shinro) <-c("syusyoku","shingaku","kyosyoku") > shinro syusyoku shingaku kyosyoku men women > chisq.test(shinro) Pearson's Chi-squared test data: shinro X-squared = , df = 2, p-value = R でやってみる P 値> 0.05 であるから、帰無仮説は棄却できない。 よって、男女で進路の比に差はない。