正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定 地理生態学研究室 3年 宮内 麻衣 2010.3.8
正規性の検定の意義 ・パラメトリック検定 (対象がある特定の分布に従う時) ・ノンパラメトリック検定 ・パラメトリック検定 (対象がある特定の分布に従う時) ・ノンパラメトリック検定 (対象が特定の分布に従わない時、サンプル数が極端に少ない 時) のどちらを行うか決める上で重要!
正規性の検定のいろいろ ①χ2分布を用いる適合度検定 ②コルモゴロフ‐スミノルフ検定 ③リリフォース 検定 (②の改良版) ③リリフォース 検定 (②の改良版) ④シャピロ‐ウィルク のW 検定 (標本数が少ない場合) ⑤肉眼的判断(ヒストグラム・箱ひげ図) 各々検出力が異なる
χ2分布を用いる適合度の検定 ・名義尺度の場合に使用できる。 名義尺度 血液型の場合には,A 型:1、B 型: 2、AB 型: 3、O 型:4のように 数値に対応させる場合。 これらの数値は血液型を 区別するために使われているだけであ る。 例≪サイコロを 56 回振って目の出方を調べたところ,表 のようになった。このサイコ ロは正しいサイコロといえるだろうか≫
1. 前提 帰無仮説 H0:「「サイコロの目の出方の確率は各々 である」 対立仮説 H1:「「サイコロの目の出方の確率は各々 でない」 2. 56個のケースが,6個のカテゴリーに分類されている。 3. Oi 第 i カテゴリーの観察値 O1 = 10,O2 = 12,... ,O6 = 8 4. Ei 第 i カテゴリーの期待値 正しいサイコロならば,どの目の出る確率も等しく 1/6 であるはずである したがって,各目の出る期待値は,E1 = E2 = ... = E6 =56×(1/6) = 9.333 である。
5. 以下の式で検定統計量を計算する。 χ20 = [ (10-56/6)2+(12-56/6)2+ ... + (8-56/6)2 ] / (56/6) = 5.5 6.有意確率を 求める 自由度 5 の χ2分布において, P = 0.3579459>0.05 7. 帰無仮説を採択する。 すなわち,「サイコロの目の出方の確率は各々 である」 一様分布に従う
1標本コルモゴロフ-スミルノフ検定 ■順序尺度 ・順序尺度以上の場合に用いる。 ■順序尺度 治療効果の判定において,悪化を -1,不変を 0,改善を 1,著効 を 2 のように数値に対応させる場合。 ■順序尺度以上 間隔尺度(数値の差のみに意味がある場合) 比例尺度(数値の比にも意味がある場合) を含む
確率変数(Xとする)と、一般に標準正規分布では と表される。 確率変数1.65以上が95%の場合は、 と表される。 「標準正規分布」の「累積分布関数」と呼ばれている。 正規分布でないときも、 と表せる。これを一般にF(x)と表す。 コルモゴロフ=スミノルフ検定はこのF(x)をサンプルから定めて行う検定。
1標本コルモゴロフ-スミルノフ検定 Ⅹ≦1.65が確率0.95=「n個のサンプル値の中で0.95n個が1.65以下」 つまり、F(x)に従うサンプルに対しては であるはずで、逆に両辺が大きくくい違えば、 帰無仮説H0:母集団分布はF(x) は棄却される。
1標本コルモゴロフ-スミルノフ検定 そこで、サンプルx1,x2, …,xnでx以下の累積度数の率 を「経験累積分布関数」と呼ぶ。 これをxごとにF(x)との差で対照し 最も大きいずれ つまり を統計量として判断する。 Dを最大偏差統計量という。
例えば・・・ F(x):標準正規分布の累積分布関数 Fn(x):経験累積分布関数 2 個のサイコロを1000 回振って毎回の出た目の和を記録するという実験を行った結 果を,表 に示す。 F(x):標準正規分布の累積分布関数 Fn(x):経験累積分布関数
例≪血糖値データの正規分布チェック≫ 36人の男性被験者に対する空腹時血糖値が、平均80標準偏差6の正規分布(80,36) に従っているか? 75,92,80,80,84,72,84,77,81,77,75,81,80,92,72,77,78,76 77,86,77,92,80,78,68,78,92,68,80,81,87,76,80,87,77,86 小さい方から並べて順序統計量に直し、順序統計量の値ごとに計算する。 差の最大をDとすると、D=0.1547である。 F(x):標準正規分布の累積分布関数 Fn(x):経験累積分布関数 観察度数 相対度数 累積度数 F(x) Fn(x) 68 2 0.0228 0.0556 0.0328 72 4 0.0918 0.1111 0.0193 ….. …. 87 32 0.879 0.8889 0.0099 92 36 0.9772 1.0000
n≧35(n<40とする数表もある)のケースDの境界値表 n=36のケースでは、α=0. 05に対して棄却値は1. 36/ =0 n≧35(n<40とする数表もある)のケースDの境界値表 n=36のケースでは、α=0.05に対して棄却値は1.36/ =0.23であり、 D=0.1547<0.23 この血糖値データが正規分布N(80,62)からのサンプルであるとの仮説は棄てられない。 正規分布に従うと言える
参考文献 松原望著(2007) 『入門 統計解析 医学・自然科学編』 東京図書 356pp. 「おしゃべりな部屋」 (群馬大学 青木繁伸) 「おしゃべりな部屋」 (群馬大学 青木繁伸) http://aoki2.si.gunma-u.ac.jp/