Presentation is loading. Please wait.

Presentation is loading. Please wait.

数理統計学(第十回) ノンパラ検定とは?1 浜田知久馬 数理統計学第10回.

Similar presentations


Presentation on theme: "数理統計学(第十回) ノンパラ検定とは?1 浜田知久馬 数理統計学第10回."— Presentation transcript:

1 数理統計学(第十回) ノンパラ検定とは?1 浜田知久馬 数理統計学第10回

2 パラとノンパラ パラメトリック 特定の分布(狭義には正規分布)を仮定した方法 e.g. t検定 ノンパラメトリック
  分布はパラメータ(例,μ,σ2)によって定まる. e.g. t検定 ノンパラメトリック 特定の分布を仮定しない方法 (狭義にはデータの順位情報のみを用いる方法) e.g. ウイルコクソン検定 数理統計学第10回

3 パラとノンパラの仮定 パラ ノンパラ 赤:帰無仮説 緑:対立仮説 数理統計学第10回

4 パラとノンパラ パラ ノンパラ 位置の指標 平均 メディアン バラツキの指標 SD 4分位偏差
パラ ノンパラ 位置の指標 平均 メディアン バラツキの指標 SD 4分位偏差 1標本検定 t検定(unpaired) ウイルコクソン   符号検定 2標本検定(対応) t検定(paired) ウイルコクソン 2標本検定 t検定(unpaired) ウイルコクソン   サベージ,FW等 数理統計学第10回

5 パラとノンパラ パラ ノンパラ 多群比較 1-way ANOVA KW 多群比較(paired) 乱塊法 Friedman
パラ ノンパラ 多群比較 way ANOVA KW 多群比較(paired) 乱塊法 Friedman 相関係数 Pearson Spearman Kendall 用量相関 回帰分析 Jonckheere 多重比較 Dunnett Steel Tukey Steel-dwass Willimas Shirley-Willimas 数理統計学第10回

6 パラとノンパラ パラ ノンパラ 分布形の仮定 正規分布 必要なし 等分散性 仮定 仮定 第1種の過誤 ≒α 常に<α 正規分布のとき ◎ ○
パラ ノンパラ 分布形の仮定 正規分布 必要なし 等分散性 仮定 仮定 第1種の過誤 ≒α 常に<α 正規分布のとき ◎ ○ 外れ値が存在 × ○ 変数変換 変 不変 N< △ × 料理に例えると 懐石 電子レンジ 数理統計学第10回

7 ノンパラ検定の仮説 X1, X2, ・・・, XN ~分布関数Fを持つ Y1, Y2, ・・・, YN ~分布関数Gを持つ
帰無仮説H0:F=G 対立仮説H1:F≠G(両側検定) 対立仮説H1:F<G(上側検定) 対立仮説H1:F>G(下側検定) 数理統計学第10回

8 ビタミンEに細胞増殖効果はあるのか? 浜君と石君で実験 4枚を通常栄養 4枚をビタミンE処理(PM11:00)
数理統計学第10回

9 翌朝(AM7:30) 実験は成功したが,石君は来なかった.
121 118 110 95 90 34 22 12 数理統計学第10回

10 (PM:2:00)浜君は考えてみた. ビタミンE処理群はどれか?
121 118 110 95 90 34 22 12 数理統計学第10回

11 8枚から4枚を選ぶ組み合わせの数は? 8C4=(8×7×6×5)/(4×3×2×1)=70通り ビタミンE群 4枚の細胞数の和
ビタミンE群 4枚の細胞数の和 数理統計学第10回

12 図1 並べ替え分布の幹葉表示と箱ひげ図 ビタミンEに増殖効果がなければ全てのパターンは等しい確率で生じるはず.
Stem Leaf # Boxplot | | | | | | | *--+--* | | | | | | | | | Multiply Stem.Leaf by 10**+1 数理統計学第10回

13 (PM:4:55)石君到着 合計細胞数=439 121 118 110 95 90 34 22 12 数理統計学第10回

14 図1 並べ替え分布の幹葉表示と箱ひげ図 和が439以上になるのは2通り:確率2/70
Stem Leaf # Boxplot | | | | | | | *--+--* | | | | | | | | | Multiply Stem.Leaf by 10**+1 数理統計学第10回

15 並べ替え検定の手順 1.検定統計量を選択する. e.g. 片方の群の和、順位和、平均値の差 2.得られたデータで検定統計量を計算する.
3.permutationによって検定統計量の分布を調べる. 4.得られたデータ以上に極端な場合の頻度を数え上げる(2/70). 数理統計学第10回

16 並べ替え検定 permutation test
ノンパラメトリック検定:αエラーの制御 複雑な仮定を必要としない. 拡張が容易 統計量の選択によっては、漸近的には最強力な検定と同程度の検出力を有する. 計算に時間がかかる→ハードウエアの進歩 ネットワークアルゴリズム 正確な検定、randomization検定 数理統計学第10回

17 正確な検定と並べ替え検定 exact test and permutation test
(distribution free) permutation test(検定の構成原理) (randomization test) permutation testはノンパラメトリック検定 ノンパラメトリック検定≠permutation test 数理統計学第10回

18 可能な組み合わせの数 (2N!)/(N!N!) N パターン数 N パターン数 1 2 10 184756
×1017 ×1023 ×1029 ×1058 数理統計学第10回

19 並べ替え検定が必要な場合 多 パターン数 少 よい 理論分布による近似 悪い 1)サンプルサイズが小さい場合 2)スパースなデータ
多 パターン数 少 よい 理論分布による近似 悪い 1)サンプルサイズが小さい場合 2)スパースなデータ 3)外れ値を含んでいる場合 4)結果が微妙な場合 数理統計学第10回

20 並べ替え検定のプログラム data ve; do group=0 to 1; do i=1 to 4;
input y cards; ; proc freq data=ve;tables y*group/all;exact pcorr; output out=result pcorr; 数理統計学第10回

21 並べ替え検定の結果 H0: 相関 = 0 に対する検定 帰無仮説が正しいもとでの漸近標準誤差 0.2040 Z 4.0040
・FREQプロシジャの出力 H0: 相関 = 0 に対する検定 帰無仮説が正しいもとでの漸近標準誤差 Z 片側 Pr > Z <.0001 両側 Pr > |Z| <.0001 正確検定 片側 Pr >= r 両側 Pr >= |r| ・PRINTプロシジャの出力 OBS PL_PCORR PR_PCORR P2_PCORR XPL_PCOR XPR_PCOR XP2_PCOR     数理統計学第10回

22 並べ替え分布 Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 |
| | | | | | | *--+--* | | | | | | | | | Multiply Stem.Leaf by 10**+1 数理統計学第10回

23 有限母集団からの非復元抽出 大きさNの有限母集団:a1,a2,・・・,aN 大きさnの標本を非復元抽出:X1,X2,・・・,Xn
組合せの数:NCn= Pr(X=ai1,ai2,・・・, ain)=1/NCn 注意 Xiの周辺分布はX1の周辺分布, (Xi , Xj)の同時分布は(X1 , X2)の同時分布に等しい.(順番は分布に影響しない) 赤玉と青玉の例を思い出そう. 数理統計学第10回

24 非復元抽出 同時にn個取出す a8 a7 a2 a9 a1 a4 a3 a5 a6 数理統計学第10回

25 平均と分散 ・母集団の期待値(母平均)と分散(母分散) ・標本平均X・の期待値と分散         :有限修正項 数理統計学第10回

26 標本平均と分散 X1,X2,・・・,Xnは独立でないため 数理統計学第10回

27 標本平均と分散 数理統計学第10回

28 標本平均と分散 数理統計学第10回

29 標本平均と分散 数理統計学第10回

30 N=5の場合 (a1a2) (a1a3) (a1a4) (a1a5) (a2a3)
数理統計学第10回

31 X1がaiのときはX2はaiを取り得ないので負の相関が生じる.
標本平均と分散 X1がaiのときはX2はaiを取り得ないので負の相関が生じる. 数理統計学第10回

32 標本平均と分散 数理統計学第10回

33 超幾何分布の分散 袋の中にN個の玉があって,そのうち 比率p1で赤球,比率1-p1で青玉が入っている.
n個を非復元抽出したときの赤の個数の分散は? 復元抽出のときの分散: σ2=np1(1-p1) 非復元抽出のときの分散: 復元抽出:二項分布 超幾何分布:非復元抽出 数理統計学第10回

34 確認実験 袋の中にNN個の玉があって,そのうち
比率0.5(p)で赤球が入っている.10(N)個非復元抽出したときの赤球の個数の分布(Y)は? NN=10,20,・・・,100 それぞれ1万回のシミュレーションを行う. 復元抽出(二項分布の場合) E[Y]=Np=5,V[Y]=Np(1-p)=1.582 数理統計学第10回

35 SASプログラム data data; p=0.5;n=10; do nn=10 to 100 by 10;
do i=1 to 10000; r=nn*p; y=rand('hypergeometric',nn,r,n); output; end;end; proc means maxdec=2;var y;class nn; run; 数理統計学第10回

36 シミュレーションの結果 nn N 平均値 標準偏差 最小値 最大値
  オブザーべション nn N 平均値 標準偏差 最小値 最大値     数理統計学第10回

37 演習 標本平均X・の期待値と分散を計算せよ
また復元抽出の場合と結果を比較せよ 非復元抽出 同時に2個取出す X2 X1 数理統計学第10回


Download ppt "数理統計学(第十回) ノンパラ検定とは?1 浜田知久馬 数理統計学第10回."

Similar presentations


Ads by Google