仮説と検定
検定とは 推定とは 抽出した標本に基づき、未知の母数を予想する 検定とは 母平均に関する仮定を最初におき、母集団の性質を考える 抽出した標本に基づき、未知の母数を予想する 検定とは 母平均に関する仮定を最初におき、母集団の性質を考える 仮説に対し、確率という観点から数学的に正しいか否かを判断する
統計的仮説 統計的仮説 母集団の分布について何らかの仮定 H(hypothesis)で表す ※母集団の分布に対しての仮説を立てる必要がある
仮説に対する真偽の判断基準 標本をもとに仮説が正しいか否かを判断する基準を危険率または有意水準という 仮説が正しいと判断 -> 採択 通常はαで表し、1%ないしは5%が用いられる ここでいうαとは仮定してる母集団内にある事象を 考え、その事象が起こる確率を意味している 仮説が正しいと判断 -> 採択 仮説が正しくないと判断 -> 棄却
例1 α=5%ではA村の畑で取れた大根ではないだろうという結論に至ったが、5%の確率でその判断が誤っていることも考えられる。 A村の畑でとれる大根の長さはほぼ図のような分布をしており、長さが70cm以上のものは5%、80cm以上のものは1%であるtことが知られている。いま、ある八百屋で大根を1本買ったら75cmであった。この大根がA村の畑で取れた大根であるかどうか? ここでの仮説 → 「この大根はA村の畑でとれた大根である」 α=5%ではA村の畑で取れた大根ではないだろうという結論に至ったが、5%の確率でその判断が誤っていることも考えられる。 逆を言えば、 95%の確率で結論が正しいということでもある
仮説の誤った判断 仮説から検定を行っても、誤って判断される可能性が考えられる 第1種・第2種の誤り ※H0は仮説 第1種の誤り 第1種の誤りを起こす確率は誤って棄却してしまった確率そのものである 第2種の誤り 第1種の起こる確率を危険率α以下としたとき、第2種の誤りが最小となるように最良棄却率Dを定める H0採択 H0棄却 H0正しい 正しい 第1種の誤り H0正しくない 第2種の誤り
仮説の真偽 推定も検定もともに母数集団予測に過ぎず、仮定が100%正しいとは言えない 仮説が採択されても、それだからといって仮説が正しいこととは一致しない
帰無仮説と対立仮説 仮説の立て方にも工夫を・・・ 帰無仮説 正しくないことを証明するほうははるかに楽 → 背理法に近い考え方 (反証) 正しいことを証明するのは難しいが、 正しくないことを証明するほうははるかに楽 → 背理法に近い考え方 (反証) 棄却されなければ意味がないという意味で帰無仮説と呼ぶ あえて自分が導き出したいことと逆のことを仮説とする 対立仮説 ある仮説に対しての別の仮説のこと ※特に指定されない場合、帰無仮説で棄却されたものを採択する ような形で対立仮説を立てている
仮説と検定 仮説の立て方に依存しているため、その点を考慮して検定を行う必要がある 例) 帰無仮説H0が「母平均μ=2.0」であったとき 対立仮説として「μ>2.0」とか「μ<2.0」とかおいた場合 → 片側検定 対立仮説として「μ≠2.0」( 「μ>2.0」かつ「μ<2.0」 )と置いた場合 → 両側検定
例題6.6 サイコロを400回振ったとき、224回偶数目がでた (1)このサイコロはまともなサイコロといえるか (1)このサイコロはまともなサイコロといえるか (2)このサイコロは偶数目がでやすいサイコロであるといえるか を危険率5%および1%で検定せよ (1)、(2)ともに帰無仮説として、 H0:「サイコロはまともである(偶数の目の出る確率P=1/2)」として立てられる (1)帰無仮説に対する対立仮説としてH1:「P≠1/2」が立てられる (両側検定) (2)対立仮説としてH1:「P>1/2」が立てられる (片側検定) μ=np=200 σ=np(1-p)=400×1/2×(1-(1/2))=100=10 標準化変換Z=(X-μ)/σによって標準正規形として表す X=224のときZ=(224-200)/10=2.4となる
例題6.6(2) 解法 両側検定 片側検定 棄却すべき範囲を両側から考慮する場合 棄却すべき範囲を片側から考慮する場合
母数の検定 母平均に関する検定 母分散に関する検定 2つの母集団の分散の比に関する検定 母分散が既知のとき 母分散が未知のとき 母分散が既知のときの2つの母集団の平均の差に関する検定 同じ未知の母分散をもつ2つの母集団の平均の差に関する検定
母平均に関する検定(母分散が既知のとき) 母集団から抽出した大きさnの標本からつくった標本平均Xをもとにして、 仮説H0:「母平均μ=○○」を検定する 命題5.1より母集団が正規分布に従うことが判っていたとき、そこから無作為抽出された標本はN(μ,σ /n)に従うため、(4.31)より標本標準化変換によって標準正規分布に従うことになる 標本平均から導き出された値をもとに、仮定した母平均に対する仮説の妥当性を求める 2
例題6.7 ある大学のバスケットボール部の男子部員25名の身長を調べたところ、平均172.7cmであった。同年代の全国の成年男子の身長の平均は170.8cm、標準偏差は5.7cmの正規分布に従っているとして、バスケットボール部員の身長の平均が全国平均とくらべてかけはなれているかどうか、危険率5%で検定せよ 式 Z=√(X-μ)/αに代入 Z=√ (172.7-170.8)/5.7=1.67 附表2を参考にZ=1.67<1.96であるので、採択域にあるため H0は棄却できない n 25
母平均に関する検定(母分散が未知のとき) 2 標本平均X、標本分散S をもとにして、仮説H0:「母平均=○○」を検定する 母集団のばらつきが分からないため、標本平均だけでなく、標本分散の値を参考に考える 定理5-7を使うとF分布による検定 → F検定 定理5-9を使うとt分布による検定 → t検定
t分布 一般にN(μ,σ ) における標本平均において、√n(X-μ)/σは N(0,1) に従うため、母分散が分かっている場合、母平均の推定が可能 しかし、母分散が未知のとき、標本分散Sを利用して考えると√n(X-μ)/Sは正規分布に従ってくれない そこで色々とごちゃごちゃ計算(?)する仮定で母分散σの値が消され、標本分散Sで正規分布とはいえないまでもそれらしい分布(=t分布)として表すことができる 標準正規分布とt分布の違いは、その定義の中で母数を使うか不偏推定値をつかうかというだけのこと 正規分布が平均値と分散によって関数が変わるのと似た感じでt分布では自由度によって形が違ってくる 自由度が大きくなるにつれ標準正規分布に近づく 分布としては正規分布と比べすそが広くなっている
t検定 2群の平均の値に差があるかどうかの検定 3つ以上の平均の相違を考える場合は分散分析を利用 大きさnの標本から計算したT=√ (X-μ)/Sは自由度n-1のt分布に従う ここからは今まで通り、Tの値がt分布において棄却域にあるのか否かを判断し、母平均に対する仮説の真偽を考える n-1
例題6.8 ラグビーのスパイクシューズにつけるポイントの高さはT社の規格では、17.00mmとなっている。T社製の15個のポイントの高さを測ったところ、平均16.94mm、標準偏差0.10mmであった。この標本平均は規格からずれているかどうか、危険率5%で検定せよ 帰無仮説を H0:「μ=17.00」 とおく ※対立仮説は特に示されていないので帰無仮説の否定形 ( 両側検定 ) X=16.94 μ=17.00 S=0.10 n=15を 式 T=√ (X-μ)/S に代入 T=√ (16.94-17.00)/0.10=-2.24 ポイントは規格にあっているとはいえない n-1 14
母分散に関する検定 標本分散S をもとにして、 仮説H0:「母分散=○○」を検定する 2 標本分散S をもとにして、 仮説H0:「母分散=○○」を検定する 命題5-4より、正規母集団から無作為抽出された標本の標本分散の値と母分散との関係は Z=nS /σで表され、自由度n-1のχ 分布に従う χ 分布において母分散の検定を行うには χ 検定を用いる 2 2 2 2 2
χ2分布 理想値と実際の観測値のズレを計算 普通に計算したのでは±でチャラになることも・・ 大雑把な説明だけど、(理想値-観測値) の分布図 大雑把な説明だけど、(理想値-観測値) の分布図 χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」 母分散が既知の時に正規分布する母集団について,そこから抽出した標本の分散がどのような分布を示すかを表す 2
χ2検定 標本で見られた相違が母集団においても同様の相違として見られるかについて推測する検定
例題6.9 例題6.8のポイントについて、T社の規格では、標準偏差0.08mmより小さいとしている。標本のポイントの標準偏差はこの規格からずれているかどうか、危険率1%で検定せよ 帰無仮説を H0:「σ =(0.08) 」 とおく この問題では対立仮説を「σ >(0.08) 」とおく (片側検定) S=0.1 σ=0.08 n=15 を代入すると Z=15×(0.1) /(0.08) =23.4 となる よって、このポイントは規格から ずれているとは言えない 2 2 2 2 2 2
2つの分散の比に関する検定 2つの正規母集団から抽出した標本分散をもとに 仮説H0:「2つの母集団の母分散は等しい」 (σx=σy) 定理5-6 大きさm 標本分散Sx 大きさn 標本分散Sy のとき 命題5-6より、母分散の等しい2つの正規母集団から、大きさが それぞれm,nの標本を無作為抽出すると は自由度(m-1,n-1)のF分布に従う F分布であるのでF検定を行う 2 2
F分布 正規分布する母集団から無作為抽出された2つの標本の分散の比に関する分布を示す
F検定 等分散検定 F検定では必ず両側検定をおこなう。なぜなら、どちらの分散が大きいかは決めようがないから
例題6.10 仮説H0:「2つの母分散は等しい」とおく m=31 Sx=29 n=11 Sy=24 のとき
母分散が既知のとき2つの母集団の平均の差に関する検定 2つの母集団の平均の差に関する検定を行う 大きさmの標本での標本平均をX 大きさnの標本での標本平均をY とおいたとき それぞれの母集団の母平均をμx,μyとして 正規分布の重ね合わせの性質を使い、標準化平均を施した後、 検定を行う 帰無仮説 H0:「μx-μy=○○」 とおく ※大抵の場合○○は0として考え対立仮説にはμx≠μyが立てられる
例題6.11 帰無仮説として H0:「μx=μy」とおく X=2001 Y=1987 μx-μy=0 σx=20 σy=15 m=n=50 を代入 Z=(2001-1987)/√(20)2/50+(15)2/50=3.96 2つの機械で詰められた薬の内容量の 平均は等しいとは言えない
同じ未知の母分散をもつ2つの母集団の平均の差に関する検定 未知ではあるが、母分散の値は同じであることは分かっている 母分散は分からないので、分布の状態が分からない この母集団の平均を求めるために、命題5-10を利用する 命題5-10 母分散の等しい2つの正規分布N(μx、σ)、N(μy、σ)に従う母集団から、それぞれ大きさm、nの標本を無作為抽出し標本平均X、Y、標本分散Sx、Syをつくると は自由度m+n-2のt分布に従う t分布に従う分布の検定はt検定によって行う
例題6.12 例題6.12で2つ母集団の母分散が等しいか否かについて検定を行った 例題の結果より、2つの母集団の母分散が等しいと仮定して検定 例題の結果より、2つの母集団の母分散が等しいと仮定して検定 違反前と違反後の母平均をμx、μyとする 帰無仮説 H0:「μx=μy」 対立仮説 H1:「μx<μy」 X=263 Y =286 μx-μy=0 m=31 n=11 Sx=29 Sy=24 を代入 自由度31+11-2=40 所要時間は長くなったといえる
まとめっぽい 検定の種別は元になる値の「分布」により選択する 検定する値が「平均値」などの代表値か「残差」などの外れ値かにより選択する つまり適当に検定してはいけませんよということ
N(μ,σ2)にしたがうものを無作為抽出する 統計的に有意な差があるか否かを調べる t検定 → 2群の平均の差を考える際、相違 があるか否かを検定 χ2検定 → データのばらつき具合が適切で あるかどうかを判定する F検定 → 分散に差があるのかどうかを判 定