<minato@ypu.jp> 統計学第10回 多群の差を調べる~ 一元配置分散分析と多重比較 中澤 港 http://phi.ypu.jp/stat.html <minato@ypu.jp>
(Q&Aから)5%水準で有意でないとは? 前回の例題:東京の集合住宅群と一戸建て群の間で水道水の遊離 残留塩素濃度に差があるか? どちらが高いとか低いとかいった事前情報はないので,帰無仮説「集 合住宅群と一戸建て群の間で水道水の遊離残留塩素濃度に差はな い」の両側検定。 「有意水準を5%にする」とは,「帰無仮説が偶然に成り立つ確率が5% 未満であれば,統計的に意味があるほど稀な現象なので帰無仮説は 成り立たないとみなす」ということ。 「5%水準で有意でない」とは,「帰無仮説が偶然に成り立つ確率が5% 未満であれば,統計的に意味があるほど稀な現象なので帰無仮説は 成り立たないとみなすとした(=有意水準を5%にした)のに,データか ら計算するとその確率が5%より大きくなってしまったので,統計的に意 味があるほど稀ではなく,帰無仮説が成り立たないとはみなせない」 この例でいえば,有意水準を5%にしたのに,「集合住宅群と一戸建て 群の間で水道水の遊離残留塩素濃度に差がない」条件下で,実際に 得られているデータが偶然得られる確率は5%より大きいので,「差が ない」という帰無仮説が棄却されなかったということ。
3群以上の差を比べるには? 単純にt検定や順位和検定を繰り返してはいけ ない。個々の検定についての有意水準を例えば 5%にすると,何度も検定する中で1つくらい間違 って帰無仮説を棄却してしまう確率(第1種の過 誤)が5%よりずっと大きくなってしまうから。 2つの解決法 一元配置分散分析またはクラスカル=ウォリ スの検定(群分け変数が量的変数に与える効 果という捉え方にする) 第1種の過誤を調整する多重比較
一元配置分散分析 総変動を群間変動と誤差変動に分解し,群間変動が誤差変動 の何倍かという値がF分布に従うことを利用して検定する(群間 変動が誤差変動に比して大きいことは,データのばらつきの多く が群間のばらつきによって説明されることを意味する)。 群数a。第i群の第j番目のデータをxijと書くと,総変動STは, 群間変動SAと誤差変動SEは, 自由度は,PA=a-1,PE=N-aであり,VA=SA/PA,VE=SE/PE より,F0=VA/VEが第1自由度PA,第2自由度PEのF分布に従うと して検定。 Rでは,summary(aov(量的変数 ~ 群分け変数))で実行
クラスカル=ウォリスの検定 「少なくともどれか1組の群間で大小の差がある」という対 立仮説に対する「すべての群の間で大小の差がない」と いう帰無仮説を検定。 まず2群の比較の場合の順位和検定と同じく,すべての データを込みにして小さい方から順に順位をつける(同順 位がある場合は平均順位を与える)。 次に,各群ごとに順位を足し合わせて,順位和Ri(i = 1,2,...,k; k は群の数) を求める 各群のオブザーベーションの数をそれぞれni,全オブザ ーベーション数をN としたとき,各群について統計量Bi を Bi=ni{Ri/ni-(N+1)/2}2 として計算し,Biの総和Bを求め, H=12B/{N(N+1)}とし(同順位があるときはさらに補正), 表から,または自由度k-1のカイ二乗検定で検定。 Rではkruskal.test(量的変数 ~ 群分け変数)で実行。
多重比較の概要 3つ以上の群があるときに,群間に差があるか どうかを調べるには,単純に2群間の比較を繰 り返すのでは第1種の過誤が大きくなるのでそこ を調整しなくてはならない。 「帰無仮説族」という考え方をする たくさんの方法が提案されているが,現在では 使わない方が無難な方法もある。例えば,無制 約LSD法とか,ダンカンの方法は第1種の過誤 を正しく調整できないので使ってはいけない。 対照群がなければ,ボンフェローニかホルムま たはTuekyのHSDを用いる。対照群があればダ ネットかウィリアムズの方法を用いる。
ボンフェローニの方法 ボンフェローニの不等式「正しい帰無仮説のうちの 少なくとも1つが誤って棄却されてしまう確率は,個 々の正しい帰無仮説が誤って棄却されてしまう確率 の和以下になる」を利用する。 k個の帰無仮説からなる帰無仮説族全体の有意水 準をαにするために,個々の帰無仮説の有意水準 をα/kにして棄却か保留かを判断する。 Rではpairwise.t.test(量的変数, 群分け変数, p.adjust.method=”bonferroni”)か pairwise.wilcox.test(量的変数, 群分け変数, p.adjust.method=”bonferroni”)で,個々の帰無仮説 の有意確率をk倍した値が表示される。
ホルムの方法 ボンフェローニの方法は明らかに第1種の過誤 を小さくしすぎなので,もうちょっと工夫が必要。 帰無仮説族全体の有意水準をαにするため,k 個の帰無仮説の個々の有意確率を計算して小 さい順に,i番目を有意水準α/(k-i+1) で棄却か 保留か判断する。1つでも保留になったら,それ 以後は全部保留。 Rではpairwise.t.test(量的変数, 群分け変数)か pairwise.wilcox.test(量的変数, 群分け変数) で, 個々の帰無仮説についての確率を(k-i+1) 倍し た値が表示される。
テューキーのHSD 母集団の分布の正規性と各群の等分散性を仮定。 すべての群間の比較について,誤差分散を使った t0=|ti-tj|/√VE(1/ni+1/nj) を計算し,ステューデント 化された範囲の分布(Studentized range distribution) と呼ばれる分布の(1-α)×100%点を√2で割った値 との大小で有意水準αの検定をする方法である。 Rでは,TukeyHSD(aov(量的変数~群分け変数))です べての2群間の比較について,差の95%信頼区間が 表示される。