数理統計学(第十回) ノンパラ検定とは?1 浜田知久馬 数理統計学第10回
パラとノンパラ パラメトリック 特定の分布(狭義には正規分布)を仮定した方法 e.g. t検定 ノンパラメトリック 分布はパラメータ(例,μ,σ2)によって定まる. e.g. t検定 ノンパラメトリック 特定の分布を仮定しない方法 (狭義にはデータの順位情報のみを用いる方法) e.g. ウイルコクソン検定 数理統計学第10回
パラとノンパラの仮定 パラ ノンパラ 赤:帰無仮説 緑:対立仮説 数理統計学第10回
パラとノンパラ パラ ノンパラ 位置の指標 平均 メディアン バラツキの指標 SD 4分位偏差 パラ ノンパラ 位置の指標 平均 メディアン バラツキの指標 SD 4分位偏差 1標本検定 t検定(unpaired) ウイルコクソン 符号検定 2標本検定(対応) t検定(paired) ウイルコクソン 2標本検定 t検定(unpaired) ウイルコクソン サベージ,FW等 数理統計学第10回
パラとノンパラ パラ ノンパラ 多群比較 1-way ANOVA KW 多群比較(paired) 乱塊法 Friedman パラ ノンパラ 多群比較 1-way ANOVA KW 多群比較(paired) 乱塊法 Friedman 相関係数 Pearson Spearman Kendall 用量相関 回帰分析 Jonckheere 多重比較 Dunnett Steel Tukey Steel-dwass Willimas Shirley-Willimas 数理統計学第10回
パラとノンパラ パラ ノンパラ 分布形の仮定 正規分布 必要なし 等分散性 仮定 仮定 第1種の過誤 ≒α 常に<α 正規分布のとき ◎ ○ パラ ノンパラ 分布形の仮定 正規分布 必要なし 等分散性 仮定 仮定 第1種の過誤 ≒α 常に<α 正規分布のとき ◎ ○ 外れ値が存在 × ○ 変数変換 変 不変 N<6 △ × 料理に例えると 懐石 電子レンジ 数理統計学第10回
ノンパラ検定の仮説 X1, X2, ・・・, XN ~分布関数Fを持つ Y1, Y2, ・・・, YN ~分布関数Gを持つ 帰無仮説H0:F=G 対立仮説H1:F≠G(両側検定) 対立仮説H1:F<G(上側検定) 対立仮説H1:F>G(下側検定) 数理統計学第10回
ビタミンEに細胞増殖効果はあるのか? 浜君と石君で実験 4枚を通常栄養 4枚をビタミンE処理(PM11:00) 数理統計学第10回
翌朝(AM7:30) 実験は成功したが,石君は来なかった. 121 118 110 95 90 34 22 12 数理統計学第10回
(PM:2:00)浜君は考えてみた. ビタミンE処理群はどれか? 121 118 110 95 90 34 22 12 数理統計学第10回
8枚から4枚を選ぶ組み合わせの数は? 8C4=(8×7×6×5)/(4×3×2×1)=70通り ビタミンE群 4枚の細胞数の和 ビタミンE群 4枚の細胞数の和 121 118 110 95 444 121 118 110 90 439 121 118 110 34 383 121 118 110 22 371 121 118 110 12 361 121 118 95 90 424 : 数理統計学第10回
図1 並べ替え分布の幹葉表示と箱ひげ図 ビタミンEに増殖効果がなければ全てのパターンは等しい確率で生じるはず. Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1 数理統計学第10回
(PM:4:55)石君到着 合計細胞数=439 121 118 110 95 90 34 22 12 数理統計学第10回
図1 並べ替え分布の幹葉表示と箱ひげ図 和が439以上になるのは2通り:確率2/70 Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1 数理統計学第10回
並べ替え検定の手順 1.検定統計量を選択する. e.g. 片方の群の和、順位和、平均値の差 2.得られたデータで検定統計量を計算する. 3.permutationによって検定統計量の分布を調べる. 4.得られたデータ以上に極端な場合の頻度を数え上げる(2/70). 数理統計学第10回
並べ替え検定 permutation test ノンパラメトリック検定:αエラーの制御 複雑な仮定を必要としない. 拡張が容易 統計量の選択によっては、漸近的には最強力な検定と同程度の検出力を有する. 計算に時間がかかる→ハードウエアの進歩 ネットワークアルゴリズム 正確な検定、randomization検定 数理統計学第10回
正確な検定と並べ替え検定 exact test and permutation test (distribution free) permutation test(検定の構成原理) (randomization test) permutation testはノンパラメトリック検定 ノンパラメトリック検定≠permutation test 数理統計学第10回
可能な組み合わせの数 (2N!)/(N!N!) N パターン数 N パターン数 1 2 10 184756 1 2 10 184756 2 6 20 137846528820 3 20 30 1.1826458×1017 4 70 40 1.0750721×1023 5 252 50 1.0089134×1029 6 924 100 9.0548515×1058 7 3432 8 12870 9 48620 数理統計学第10回
並べ替え検定が必要な場合 多 パターン数 少 よい 理論分布による近似 悪い 1)サンプルサイズが小さい場合 2)スパースなデータ 多 パターン数 少 よい 理論分布による近似 悪い 1)サンプルサイズが小さい場合 2)スパースなデータ 3)外れ値を含んでいる場合 4)結果が微妙な場合 数理統計学第10回
並べ替え検定のプログラム data ve; do group=0 to 1; do i=1 to 4; input y @@;output;end;end; cards; 95 34 22 12 121 118 110 90 ; proc freq data=ve;tables y*group/all;exact pcorr; output out=result pcorr; 数理統計学第10回
並べ替え検定の結果 H0: 相関 = 0 に対する検定 帰無仮説が正しいもとでの漸近標準誤差 0.2040 Z 4.0040 ・FREQプロシジャの出力 H0: 相関 = 0 に対する検定 帰無仮説が正しいもとでの漸近標準誤差 0.2040 Z 4.0040 片側 Pr > Z <.0001 両側 Pr > |Z| <.0001 正確検定 片側 Pr >= r 0.0286 両側 Pr >= |r| 0.0571 ・PRINTプロシジャの出力 OBS PL_PCORR PR_PCORR P2_PCORR XPL_PCOR XPR_PCOR XP2_PCOR 1 . .000031141 .000062281 . 0.028571 0.057143 数理統計学第10回
並べ替え分布 Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1 数理統計学第10回
有限母集団からの非復元抽出 大きさNの有限母集団:a1,a2,・・・,aN 大きさnの標本を非復元抽出:X1,X2,・・・,Xn 組合せの数:NCn= Pr(X=ai1,ai2,・・・, ain)=1/NCn 注意 Xiの周辺分布はX1の周辺分布, (Xi , Xj)の同時分布は(X1 , X2)の同時分布に等しい.(順番は分布に影響しない) 赤玉と青玉の例を思い出そう. 数理統計学第10回
非復元抽出 同時にn個取出す 2 a8 2 a7 2 a2 2 a9 2 a1 2 a4 2 a3 2 a5 2 a6 数理統計学第10回
平均と分散 ・母集団の期待値(母平均)と分散(母分散) ・標本平均X・の期待値と分散 :有限修正項 数理統計学第10回
標本平均と分散 X1,X2,・・・,Xnは独立でないため 数理統計学第10回
標本平均と分散 数理統計学第10回
標本平均と分散 数理統計学第10回
標本平均と分散 数理統計学第10回
N=5の場合 (a1a2) (a1a3) (a1a4) (a1a5) (a2a3) 数理統計学第10回
X1がaiのときはX2はaiを取り得ないので負の相関が生じる. 標本平均と分散 X1がaiのときはX2はaiを取り得ないので負の相関が生じる. 数理統計学第10回
標本平均と分散 数理統計学第10回
超幾何分布の分散 袋の中にN個の玉があって,そのうち 比率p1で赤球,比率1-p1で青玉が入っている. n個を非復元抽出したときの赤の個数の分散は? 復元抽出のときの分散: σ2=np1(1-p1) 非復元抽出のときの分散: 復元抽出:二項分布 超幾何分布:非復元抽出 数理統計学第10回
確認実験 袋の中にNN個の玉があって,そのうち 比率0.5(p)で赤球が入っている.10(N)個非復元抽出したときの赤球の個数の分布(Y)は? NN=10,20,・・・,100 それぞれ1万回のシミュレーションを行う. 復元抽出(二項分布の場合) E[Y]=Np=5,V[Y]=Np(1-p)=1.582 数理統計学第10回
SASプログラム data data; p=0.5;n=10; do nn=10 to 100 by 10; do i=1 to 10000; r=nn*p; y=rand('hypergeometric',nn,r,n); output; end;end; proc means maxdec=2;var y;class nn; run; 数理統計学第10回
シミュレーションの結果 nn N 平均値 標準偏差 最小値 最大値 オブザーべション nn N 平均値 標準偏差 最小値 最大値 -------------------------------------------------- 10 10000 5.00 0.00 5.00 5.00 20 10000 4.99 1.15 1.00 9.00 30 10000 5.00 1.31 0.00 10.00 40 10000 5.00 1.39 0.00 10.00 50 10000 5.01 1.44 0.00 10.00 60 10000 5.00 1.44 0.00 10.00 70 10000 4.99 1.47 0.00 10.00 80 10000 4.98 1.50 0.00 10.00 90 10000 5.01 1.50 0.00 10.00 100 10000 5.00 1.50 0.00 10.00 --------------------------------------------------- 数理統計学第10回
演習 標本平均X・の期待値と分散を計算せよ また復元抽出の場合と結果を比較せよ 非復元抽出 同時に2個取出す 2 3 2 5 2 1 2 X2 2 4 2 X1 2 数理統計学第10回