統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明 第5章 統計的仮説検定 統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
5.1 仮説検定の必要性 相関が見られるような標本を抽出 しかし、母集団全体からデータを得たら相関係数はゼロになるかも 2017/2/28 5.1 仮説検定の必要性 相関が見られるような標本を抽出 しかし、母集団全体からデータを得たら相関係数はゼロになるかも たまたま相関が見られるような標本を抽出しただけではないか?? やはり母集団すべてのデータを集めるしかないのか・・・
仮説検定の必要性その2 データが膨大だとすべてのデータを集めるのは無理 ↓ 標本抽出をして母数の推定を行った 2017/2/28 仮説検定の必要性その2 データが膨大だとすべてのデータを集めるのは無理 ↓ 標本抽出をして母数の推定を行った 母集団に全く相関がないとしたら、抽出した標本に見られたような結果が得られる可能性は非常に小さいということを主張 統計的仮説検定は確率論に基づき、このような主張を行うための方法
統計的仮説検定の手順 手順 やること 1 2 3 4 5 母集団に関する帰無仮説と対立仮説を設定 検定統計量を選択 有意水準αの値を決定 データから検定統計量の実現値を求める 5 検定統計量の実現値が棄却域に入れば帰無仮説を棄却して、対立仮説を採択 棄却域に入らなければ、帰無仮説を採択
5.2.1 帰無仮説と対立仮説 帰無仮説 H0 対立仮説 H1 で表す 帰無仮説: 「差がない」「効果がない」という仮説 5.2.1 帰無仮説と対立仮説 帰無仮説: 「差がない」「効果がない」という仮説 母平均 ,母相関係数 ,母平均の差 というような仮説 本来主張したいこととは逆の仮説 対立仮説:帰無仮説が棄却されたときに採択される、帰無仮説とは逆の仮説 本来主張したいことを表した仮説 帰無仮説 H0 対立仮説 H1 で表す
帰無仮説と対立仮説(2) 両側検定:対立仮説が、母平均 、母相関係数 、母平均の差 の場合 対立仮説の設定により、検定は両側検定か片側検定 両側検定:対立仮説が、母平均 、母相関係数 、母平均の差 の場合 片側検定:対立仮説が、母平均 、母相関係数 、母平均の差 の場合 要するに、両側検定は 母平均の場合 μ ≠ 0 を調べるという ことは μ > 0 と μ < 0 の両側 を調べる、 ということ
帰無仮説と対立仮説(3) 帰無仮説が正しいものとして話を進めていく 実際に得られたデータから計算された検定統計量の値によって採択を判断 帰無仮説が正しいとして ほぼ起こり得ない値(極端):帰無仮説を棄却 あり得るような値(極端でない):帰無仮説を採択
5.2.2 検定統計量 検定統計量:統計的仮説検定のために用いられる標本統計量のこと 5.2.2 検定統計量 検定統計量:統計的仮説検定のために用いられる標本統計量のこと 検定統計量の実現値:実際のデータ(手に入った標本)を基に計算して、具体的な値のこと 検定統計量の実現値は、対立仮説に合っているほど0から離れた値を示す
5.2.3 有意水準と棄却域 対立仮説を採択するか決定するときに基準になるのが有意水準 有意水準は5%または1%に設定することが多い 5.2.3 有意水準と棄却域 対立仮説を採択するか決定するときに基準になるのが有意水準 有意水準は5%または1%に設定することが多い 帰無仮説が正しいものとして考えた時の標本分布を帰無分布という
有意水準と棄却域(2) 帰無仮説のもとで、非常に生じにくい検定統計量の値の範囲を棄却域という 採択域 : 棄却域以外の部分 臨界値 : 棄却域と採択域の境目の値 棄却域に検定統計量の実現値が入ったら、帰無仮説を棄却する
正規分布を帰無分布とした時の棄却域 臨界値 棄却域 採択域
5.2.4 統計的仮説検定の結果の報告 検定統計量の実現値が棄却域に入った場合、「差がない」という帰無仮説を棄却し、「差がある」という対立仮説を採択する。 「検定結果は5% (または1%)水準で有意である」 または 「 (または )で有意差が見られた 」 と記述する。
5.2.5 p値 p値:帰無仮説が正しいという仮定のもとで、標本から計算した検定統計量の実現値以上の値が得られる確率のこと 「 (または )で有意差が見られた」 有意水準
5.2.6 第1種の誤りと第2種の誤り 第1種の誤り:「帰無仮説が真のとき、これを棄却してしまう」誤りのこと 5.2.6 第1種の誤りと第2種の誤り 第1種の誤り:「帰無仮説が真のとき、これを棄却してしまう」誤りのこと この種の誤りを犯す確率が「有意水準」または「危険率」 第2種の誤り:「帰無仮説が偽のとき、これを採択する (棄却できない)」誤りのこと
5.2.7 検定力 検定力:帰無仮説が偽の場合、全体の確率1から第2種の誤りの確率( )を引いた確率 「第2種の誤りを犯さない確率」 5.2.7 検定力 検定力:帰無仮説が偽の場合、全体の確率1から第2種の誤りの確率( )を引いた確率 「第2種の誤りを犯さない確率」 つまり、間違っている帰無仮説を正しく棄却できる確率のこと
5.3 標準正規分布を用いた検定 正規母集団 から無作為に標本を抽出 する(サンプルサイズは n )と 標本平均の分布も正規分布 5.3 標準正規分布を用いた検定 正規母集団 から無作為に標本を抽出 する(サンプルサイズは n )と 標本平均の分布も正規分布 標本平均の平均は 、分散は これを標準化したものを検定統計量とする:
5.3 Rを使って > 心理学テスト <- > 心理学テスト <- c(13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15) > z分子 <- mean(心理学テスト)-12 #検定統計量の分子を計算 > z分母 <- sqrt(10/length(心理学テスト)) #検定統計量の分母 > z統計量 <- z分子/z分母 > z統計量 [1] -2.828427
(5)帰無仮説の棄却or採択の決定 下側確率:標準正規分布に従う確率変数Zを例にとれば、 Zがある値α以下となる確率のこと --- Prob(Z ≦ α) 上側確率:標準正規分布に従う確率変数Zを例にとれば、 Zがある値αより大きくなる確率のこと--- Prob(Z > α)
検定の実際 > qnorm(0.025) #下側確率0.025となるZの値を求める [1] -1.959964 [1] 1.959964 > qnorm(0.025,lower.tail=FALSE) #上限確率0.025となるZの値を求める 棄却域を図で表す↓ > curve(dnorm(x),-3,3) > abline(v=qnorm(0.025)) > abline(v=qnorm(0.975)) 求めたz統計量( -2.828427)が棄却域 に入れば帰無仮説が棄却される
pnorm関数を用いて... 求めたz統計量( -2.828427)に対してpnorm関数を用いて直接p値を求める方法もある [1] 0.002338868 > pnorm(-2.828427,lower.tail=FALSE) # 上側確率 > 2*pnorm(-2.828427,lower.tail=FALSE) # p値 [1] 0.004677737 p値が有意水準より小さい時に帰無仮説を棄却 有意水準0.005よりも小さいので 帰無仮説が棄却される
5.4 t分布を用いた検定 正規母集団からの無作為標本 母集団の分散σ2がわからない場合 が計算できないので正規分布が使えない! 5.4 t分布を用いた検定 正規母集団からの無作為標本 母集団の分散σ2がわからない場合 が計算できないので正規分布が使えない! そこで を使う( は標本の不偏分散の正の平方根) これはdf=n-1のt分布に従う
5.4 t分布を用いた検定 t分布:統計学でよく利用される正規分布の形に似た、左右対称・山形の分布 自由度(df): 5.4 t分布を用いた検定 t分布:統計学でよく利用される正規分布の形に似た、左右対称・山形の分布 自由度(df): t分布の形状を決めるもの df=8 df=2 df=0.5 df=限りなく0に近い
5.4 Rを使って > 心理学テスト <- c(13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15) > t分子 <- mean(心理学テスト)-12 #検定統計量の分子を計算 > t分母 <-sqrt(var(心理学テスト)/length(心理学テスト)) #検定統計量の分子を計算 > t統計量 <- t分子/t分母 > t統計量 [1] -2.616648 > #自由度19のt分布で下側確率0.025となるtの値を求める > qt(0.025,19) [1] -2.093024 # 自由度19のt分布で下側確率0.975となる # tの値を求める > qt(0.975,19) [1] 2.093024 > qt(0.025,19,lower.tail=FALSE) > > pt(-2.616648,19) [1] 0.00848546 > pt(-2.616648,19,lower.tail=FALSE) [1] 0.9915145 > 2*pt(2.616648,19,lower.tail=FALSE) [1] 0.01697092
5,4 続き このt検定はRで用意されている。 > t.test(心理学テスト,mu=12) One Sample t-test 5,4 続き このt検定はRで用意されている。 > t.test(心理学テスト,mu=12) One Sample t-test data: 心理学テスト t = -2.6166, df = 19, p-value = 0.01697 alternative hypothesis: true mean is not equal to 12 95 percent confidence interval: 8.400225 11.599775 sample estimates: mean of x 10
5.5 相関係数の検定 無相関検定:「母集団において相関が0である」と設定して行う検定 5.5 相関係数の検定 無相関検定:「母集団において相関が0である」と設定して行う検定 母集団相関係数(母相関)に関する検定を行うときは、標本相関係数rから次を求める
5.5 Rを使って > 統計テスト1 <- c(6,10,6,10,5,3,5,9,3,3,11,6,11,9,7,5,8,7,7,9) > 統計テスト2 <- c(10,13,8,15,8,6,9,10,7,3,18,14,18,11,12,5,7,12,7,7) > 標本相関 <- cor(統計テスト1,統計テスト2) > サンプルサイズ <- length(統計テスト1) > t分子 <- 標本相関*sqrt(サンプルサイズ-2) > t分母 <- sqrt(1-標本相関^2) > t統計量 <- t分子/t分母 > t統計量 [1] 4.805707 > qt(0.025,18) [1] -2.100922 > qt(0.975,18) [1] 2.100922 > qt(0.025,18,lower.tail=FALSE) > pt(4.805707,18,lower.tail=FALSE) [1] 7.08114e-05 > 2*pt(4.805707,18,lower.tail=FALSE) [1] 0.0001416228 >
5.5 続き この無相関検定にもRが用意されている。 Pearson's product-moment correlation 5.5 続き この無相関検定にもRが用意されている。 > cor.test(統計テスト1,統計テスト2) Pearson's product-moment correlation data: 統計テスト1 and 統計テスト2 t = 4.8057, df = 18, p-value = 0.0001416 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.4596086 0.8952048 sample estimates: cor 0.749659 ピアソンの積率相関係数
5.6 独立性の検定 table関数を使ってクロス集計表に合計を足す。 統計 数 学 嫌い 好き 計 10 4 14 2 6 12 8 20
5.6 続き 独立性の検定:2つの質的変数間の連関の有意性を調べる検定 独立性の検定における検定統計量の式 5.6 続き 独立性の検定:2つの質的変数間の連関の有意性を調べる検定 カイ二乗という確率分布を利用するため、カイ二乗検定ともいう。 独立性の検定における検定統計量の式
5.6 続き 期待度数:2つの変数の間に連関がない(独立である)という帰無仮説のもとで、帰無仮説が正しければ(連関がなければ)これくらいの度数をとるだろうと期待される度数のこと
カイ二乗分布
5.6 Rを使って 統計嫌い 統計好き 計 数学嫌い 期待度数イチイチ 期待度数イチニ 14 数学好き 期待度数ニイチ 期待度数ニニ 6 12 8 20
5.6 続き > 期待度数イチイチ <-12*14/20 > 期待度数ニイチ <- 12*6/20 > 期待度数イチニ <- 8*14/20 > 期待度数ニニ <- 8*6/20 > 期待度数 <- c(期待度数イチイチ,期待度数ニイチ,期待度数イチニ,期待度数ニニ) > 観測度数 <- c(10,2,4,4) > カイ二乗要素 <- (観測度数-期待度数)^2/期待度数 > カイ二乗 <- sum(カイ二乗要素) > qchisq(0.95,1) [1] 3.841459 > qchisq(0.05,1,lower.tail=FALSE) > pchisq(2.539683,1,lower.tail=FALSE) [1] 0.1110171 > 1-pchisq(2.539683,1)
5.6 続き > 数学 <- c("嫌い","嫌い","好き","好き","嫌い","嫌い","嫌い","嫌い","嫌い","好き","好き","嫌い","好き","嫌い","嫌い","好き","嫌い","嫌い","嫌い","嫌い") > 統計 <- c("好き","好き","好き","好き","嫌い","嫌い","嫌い","嫌い","嫌い","嫌い","好き","好き","好き","嫌い","好き","嫌い","嫌い","嫌い","嫌い","嫌い") > クロス集計表 <- table(数学,統計) > chisq.test(クロス集計表,correct=FALSE) Pearson's Chi-squared test data: クロス集計表 X-squared = 2.5397, df = 1, p-value = 0.1110 Warning message: In chisq.test(クロス集計表, correct = FALSE) : カイ自乗近似は不正確かもしれません
5.7 サンプルサイズの検定結果への影響について 5.7 サンプルサイズの検定結果への影響について 履修A 履修した 履修しない 計 文系 16 4 20 理系 12 8 28 40
比較(前のデータの10倍) 履修B 履修した 履修しない 計 文系 160 40 200 理系 120 80 280 400
5.7 続き > 履修A <- matrix(c(16,12,4,8),2,2) > rownames(履修A) <- c("文系","理系") > colnames(履修A) <- c("履修した","履修しない") > chisq.test(履修A,correct=FALSE) Pearson's Chi-squared test data: 履修A X-squared = 1.9048, df = 1, p-value = 0.1675 > 履修B <- matrix(c(160,120,40,80),2,2) > rownames(履修B) <- c("文系","理系") > colnames(履修B) <- c("履修した","履修しない") > chisq.test(履修B,correct=FALSE) data: 履修B X-squared = 19.0476, df = 1, p-value = 1.275e-05