統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。 例)サイコロを10回続けて振ったら、偶数が1回しか出現しなかった。この結果(標本)から考えて、このサイコロは正しく出来ていない(イカサマである)と予想されるが(偶数の出現確率が0.5ではなく、もっと小さな値である)、その予想は正しいのか? 帰無仮説 :母数に関する仮説 → 偶数の母比率は0.5である 対立仮説 :母数に関する分析者の予測 → 偶数の母比率は0.5より小さい 帰無仮説を否定することによって、対立仮説を主張する 帰無仮説が正しいとしたら、無作為標本に基づく結果(「偶数が1回しか出ない」)は、どの程度の確率で生じるのか? *確率が小さい:帰無仮説が正しいとしたら、極めて起こりにくいことが起こった 帰無仮説から生じた結果とは考えにくい → 帰無仮説を棄却し対立仮説を採択 *確率が小さくない:帰無仮説の元でも、十分に起こり得る結果である 帰無仮説から生じた結果であることを否定できない→ 帰無仮説を棄却しない
極めて起こりにくい事が起こった → どの程度の確率を考えたら良いか? 極めて起こりにくい事が起こった → どの程度の確率を考えたら良いか? 区間推定を行うための大前提(母平均の推定) 我々が手にした標本平均は、母平均を中心して、その前後±a の範囲の値、つまり μ-a ~μ+a の値である。 前提の範囲内 → 帰無仮説の元でも、十分に起こり得る結果 前提の範囲外 → 極めて起こりにくい事が起こった 前提範囲の確率(水色部分の、面積)としては ① 95% → 範囲外5% → 起こりにくい事=「20回の内、1回以下しか起こらない」 有意水準5%での仮説検定 ② 99% → 範囲外1% → 起こりにくい事=「100回の内、1回以下しか起こらない」 有意水準1%での仮説検定
サイコロの例 帰無仮説 :母数に関する仮説 → 偶数の母比率は0.5である 帰無仮説 :母数に関する仮説 → 偶数の母比率は0.5である 対立仮説 :母数に関する分析者の予測 → 偶数の母比率は0.5より小さい 帰無仮説が正しい場合の偶数の回数の分布(10回の試行) 回数 *「5」の確率が最も高く、それから離れるに従って確率は小さくなる *「2」~「8」の確率は0.979 →「1」以下、又は「9」以上となる確率は5%を下回る(2.1%=1-0.979) ↓ 結果は「1」であった 5%の有意水準で、仮説「偶数確率は0.5」は正しくないといえる(仮説棄却) 但し、1%の有意水準では仮説は棄却できない
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える (3)得られた標本値(実現値)がその標本統計量の分布の中でどこに位置する かを調べる 標本統計量として出現しにくい値 出現確率(有意水準)5%又は1%以下 → 帰無仮説を棄却 対立仮説を採択 <判定> 標本統計量として出現しやすい値 区間推定での前提範囲(95%又は99%) → 帰無仮説を棄却しない 帰無仮説 別の仮説
簡単な具体例 無作為に抽出した静大生100名に対する調査から、「パソコン保有率は60%」と得られた。この結果から、「静大生の半分以上がパソコンを持っている」と結論して良いか? (1)帰無仮説の設定 静大生のパソコン保有率は50%である 否定 静大生の半分以上がパソコンを持っている (2)帰無仮説のもとでの標本統計量(パソコン保有率:標本比率)の分布を考える 標本比率に関する中心極限定理 母比率πの母集団からの n個の無作為標本に基づく標本比率の分布は? 平均π、分散π(1-π)/n の正規分布(近似) 平均0.5、分散0.5(1-0.5)/100=0.0025(標準偏差0.05) の正規分布(近似) 有意水準5%で帰無仮説を棄却 2.5% 静大生の半分以上はパソコンを持っている
両側検定と片側検定 両側検定 帰無仮説に対して、その棄却域を分布の両側に設定する検定。帰無仮説π= π0に対して、対立仮説をπ≠π0とする場合がこれに相当する。 帰無仮説が棄却されるのは、標本統計量の実現値が帰無仮説π0と比較して異常に大きい場合と小さい場合である。 片側検定 帰無仮説に対して、その棄却域を分布の片側に設定する検定。帰無仮説π= π0に対して、対立仮説をπ>π0( 又はπ<π0)とする場合。 実現値が分布の片側だけに現れる確かな根拠があれば、棄却域は実現値の現れる側のみに設定すれば良い。 両側検定と比較し、仮説を棄却できる可能性は高くなる。そのため、片側検定を用いるためには、実現値が分布の片側のみに出現する極めて強い根拠が必要。 → 普通は両側検定を用いる
仮説検定における誤り 第1種の誤り(過誤) 帰無仮説が正しいにも関わらず、それを棄却してしまう場合 *有意水準α%で帰無仮説を検定する → 帰無仮説が真であったとしても、確 率αで棄却域の実現値が生じる → 第1種の誤りを犯す確率はα 採択域
帰無仮説が誤っているにも関わらず、それを棄却できない場合 誤りの確率 第2種の誤り(過誤) 帰無仮説が誤っているにも関わらず、それを棄却できない場合 真の分布が、仮説採択域に含まれる確率
統計的仮説検定で主張できること ●帰無仮説が棄却できた場合 ・標本値と帰無仮説には「十分な」差がある ・標本値と帰無仮説には「十分な」差がある ・「十分な」とは、帰無仮説が正しいとした場合に、標本値が得られる確率が高々α%で あること → 起こりにくい事が起こった → 帰無仮説を否定 ・但し、確率は小さくても(α%)起こること → 第1種の誤りの確率α% ●帰無仮説が棄却できなかった場合 ・標本値と帰無仮説には「十分な」差がない ・但し、「帰無仮説を否定するに足る十分な証拠(差)が無かった」ことを意味するので あって、「帰無仮説が正しい」事は意味しない。 標本数を増やせば、必ず帰無仮説は棄却できる 標本数が少ないために、十分な証拠とならない
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定 ① 1標本の検定 1つの母集団における母数についての仮説を検定する 例:静大生のパソコン保有率は50%を越えているのだろうか? 浜松市の1世帯当たりの年間収入の平均値は300万を越えているのだろうか? ② 2標本の検定 2つの母集団における2つの母数間の関係についての仮説を検定する 例:静大生と浜医大生のパソコン保有率には差があるのだろうか? 浜松市と静岡市在住者の通勤時間には差があるのだろうか? ③ 3標本以上の検定 3つの以上の母集団における母数間の関係についての仮説を検定する 例:静大生では学年(1~4年)によってアルバイト収入に差があるのだろうか? 静大では、プロ野球セントラルリーグの各チームを好む比率に差があるのだろうか? ④ 2変数間の関連の強さに関する検定 得られた標本相関係数の値から考えて、母相関係数は0でないといえるのだろうか? 得られたクロス表から判断して、2変数間に関連があると言えるのだろうか?
1標本の平均値の検定 (母分散が既知の場合) 1標本の平均値の検定 (母分散が既知の場合) 検定の場面 1つの母集団(母分散σ2が既知)の母平均に対する仮説を、その母集団からのn個の無作為標本から求めた標本平均値に基づいて検定する。 仮説の設定 帰無仮説 : 母平均μは、μ0である → μ= μ0 対立仮説 : 母平均は、μ0でない → μ≠ μ0 (両側検定) 帰無仮説が正しい場合の標本平均の分布 平均μ0 分散σ2/n の正規分布で近似できる 帰無仮説を棄却 帰無仮説を棄却できない 標本分布における実現値の位置による判定
1標本の平均値の検定 (母分散が既知の場合) : 具体的な手順 1標本の平均値の検定 (母分散が既知の場合) : 具体的な手順 標準化
1標本の平均値の検定 (母分散が既知の場合) : 具体例 1標本の平均値の検定 (母分散が既知の場合) : 具体例 全国の大学生の1ヶ月アルバイト収入の平均は5万円、標準偏差は5千円である。今、無作為に抽出した100人の静大生のアルバイト収入の平均が4万9千円であったとすれば、静大生は全国と比較してアルバイト収入が少ないと言えるだろうか? 有意水準5% 帰無仮説:静大生のアルバイト収入の平均(μ0)は5万円である 対立仮説:静大生のアルバイト収入の平均(μ0)は5万円ではない 帰無仮説が正しい場合の標本平均の分布 平均5万、分散50002/100=25000 (標準偏差500) の正規分布に近似 採択域の上限値 採択域の下限値 仮説は棄却される
1標本の平均値の検定 (母分散が未知の場合) 1標本の平均値の検定 (母分散が未知の場合) 検定の場面 1つの母集団(母分散が未知であるため、データに基づく不偏分散を用いる)の母平均に対する仮説を、その母集団からのn個の無作為標本から求めた標本平均値に基づいて検定する。 仮説の設定 帰無仮説 : 母平均μは、μ0である → μ= μ0 対立仮説 : 母平均は、μ0でない → μ≠ μ0 (両側検定) 帰無仮説が正しい場合の標本平均の分布 平均μ0 分散σ2/n の正規分布で近似できる 帰無仮説を棄却 帰無仮説を棄却できない 標本分布における実現値の位置による判定
1標本の平均値の検定 (母分散が未知の場合) : 具体的な手順 不偏分散 1標本の平均値の検定 (母分散が未知の場合) : 具体的な手順 不偏分散 標準化
1標本の平均値の検定 (母分散が未知の場合) : 具体例 1標本の平均値の検定 (母分散が未知の場合) : 具体例 全国の大学生の1ヶ月アルバイト収入の平均は5万円(標準偏差は未知)である。今、無作為に抽出した静大生100のアルバイト収入の平均が4万9千円、不偏標準偏差が5千円であったとすれば、静大生は全国と比較してアルバイト収入が少ないと言えるだろうか ? ・・・ 有意水準5% 帰無仮説:静大生のアルバイト収入の平均(μ0)は5万円である 対立仮説:静大生のアルバイト収入の平均(μ0)は5万円ではない 帰無仮説が正しい場合の標本平均の分布 平均5万、分散σ2/100 の正規分布に近似 採択域の上限値 採択域の下限値 仮説は棄却される