1 6章 データ数不揃いの場合の分析 アンバランス型(不釣合い型)の 計画 ss2 や ss3 って何?
2 ことば データ数が揃っていない計画 セルサイズが揃っていない計画 アンバランス型計画 不釣合い型計画
3 分散分析・実験計画法は 基本的に「実験データ」の分析方法 – セルサイズが揃っていることが前提 実験であるからセルサイズを整えることは可能 なはず 何らかの事情で少数個のデータが欠けることは 許される セルサイズがそうとうバラバラ – 「調査データ」の分析に多い – 分析は可能であるが....
4 問題点とプロシージャ 1要因の場合 – 解釈が難しくなる 2要因以上の場合 – 各要因の平方和が確定しない – 「平方和の分解」が成り立たない – 解釈が難しくなる PROC GLM (general linear model) – 「 PROC ANOVA 」 はだめ WARNING: PROC ANOVA has determined that the number of observations in each cell is not equal. PROC GLM may be more appropriate.
5 1要因の場合:例1
6 多重比較 B1 と B2 には有意差があるが, B2 と B3 には有意差はない しかし,平均差は共に 1.5
7 図で表すと * *
8 1要因の場合:例2
9 多重比較 A2 と A3 には有意差がある しかし, A2,A3 を含むより大きな平均差 がある A1 と A2 においては有意差が認めら れない
10 図で表すと *
11 WHY? セルサイズが異なることがその原因 – セルサイズが小さいと検定の検出力が下が り,第二種の過誤が大きくなる – 検出力の異なる仮説検定の結果を比較する ことは,あまり意味がない – 有意水準は OK
12 一つの解決策 セルサイズの調和平均を用いて,バラ ンス型として分析する – あくまでも近似であり,セルサイズが大き く 異なる場合は有意水準が保たれるか不安 各ソフトで独自の工夫がなされている ようである – ソフトで出力が異なる?
13 調和平均を用いた例: SPSS
14 調和平均を用いた例: SAS RYAN-EINOT-GABRIEL-WELSCH 多重範囲検定 - 変数 : Y NOTE: この検定法はタイプ I の実験(全体)誤差率を 調整しています. ALPHA= 0.05 df= 11 MSE= WARNING: セルのサイズが等しくありません. セル・サイズの調和平均 = 平均の数 臨界範囲 同じ文字で結ばれた群間の平均差は有意でありません. REGWQ グループ化 平均 N A A A A A B A B B
15 まとめ:1要因の場合 セルサイズが異なっているときは,平 均差と有意性が対応しないことがある – 解釈に困る – セルサイズのばらつきが小さいときはこの 問題は生じない – 平均差と有意性が対応しているときは問題 ないだろう – 調和平均を用いる方法もあるが,セルサイ ズが大きく異なるときは問題あり(第一種 の過誤)
16 2要因の場合 平方和が確定しない – 各要因の平方和がうまく分離できない – 各要因ごとの平方和がいくつも提案されてお り,確定的なものがない タイプ ⅠⅡⅢの平方和がある 解釈についての問題もある – 1要因の場合と同様
17 平方和の種類 タイプⅠ:逐次平方和 – モデルに記述した要因の順に,要因を取り込んで いくときに,モデルで説明できる平方和の増分 タイプⅡ:偏平方和( ? ) – 主効果の評価は他の主効果のみ調整してから行う (交互作用を調整しない ) タイプⅢ:セル平均に基づく平方和 (?) – 主効果の評価は他の要因の全てを調整してから行 う (交互作用も調整する) model x =a b a*b/ss2 model x =a b a*b/ss2 ss3
18 分かっていること セルサイズが揃っている場合は全ての 平方和は一致する タイプⅠは,要因の順序に意味がある場合に のみ用いる – 枝分かれ実験,多項式回帰など タイプⅡとタイプⅢの違いは微妙 – 交互作用の平方和は両者で一致する – 交互作用がないモデルにおいては両者は一致
19 モデルで説明 Y A B Y A AB B タイプⅡ平方和 タイ プⅢ平方和
20 具体的には 投入要因に依存する(タイプⅡ,Ⅲ平方和) x = a x = a b 要因の投入順序に依存する ( タイプⅠの平方 和 ) x = a b a*b x = b a a*b S A の大きさが異なる S B の大きさが異なる S A の大きさが異なる
21 2要因の場合:例
22 ANOVA 結果 交互作用がない場合 変
23 ANOVA 結果 交互作用がある場合
24 バランス型計画 (セル度数が揃っている場合) 1要因 2要因 SASA SESE STST STST SASA S A×B SBSB SESE
25 S A×B アンバランス型計画 (セル度数が揃っていない場合) 2要因 STST SASA S A×B SBSB SESE 2要因 STST SASA SBSB SESE バランス型計画 アンバランス型計 画
AB 解釈: 交互作用が ない場合 変
27 解釈:交互作用がある場合 ( タイプ II) SASA SBSB SA×BSA×B
28 解釈:交互作用がある場合 ( タイプ Ⅲ ) SASA SBSB SA×BSA×B SASA SBSB SA×BSA×B タイプⅡ タイプⅢ
29 分散分析表の出力について Sum of Mean Source DF Squares Square F Value Pr > F Model Error Corrected T Source DF Type I SS Mean Square F Value Pr > F A B A*B Source DF Type II SS Mean Square F Value Pr > F A B A*B Source DF Type III SS Mean Square F Value Pr > F A B A*B
30 分散分析表について _ つづき モデルと誤差の平方和は(いつも)確定する – アンバランス型のときは,モデルの平方和を,各 要因への分解するときに問題が生じる ソフトウェアは,確定部分とそうでない部分 を分けて出力する [ もちろん,モデルの全体的 評価と局所評価を区別する意味もある ] Sum of Mean Source DF Squares Square F Value Pr > F A B A*B Error Corrected T
31 まとめ:2要因以上ある場合 アンバランス型の場合は要因効果を正 確に定義できない – 要因効果が重なっている 次善策として,ソフトウェアはいくつ かの 平方和を用意
32 まとめ:つづき – タイプⅡかタイプⅢの平方和を用いる タイプⅡ – 主効果を調べるときは交互作用を考えない – 交互作用を調整せずに主効果を評価する タイプⅢ – 主効果を調べるときも交互作用を含めたモデルを用 いる – 交互作用を調整してから主効果を評価する –SAS , SPSS ともにデフォルトはタイプⅢ である – 「 SAS による実験データの解析:東大出 版」はタイプⅡを薦めている
33 recommendation まず,タイプⅡとタイプⅢの両者で検定す る – 結果に違いがなければ,どちらを報告しても よい – 結果が異なる場合は強い結論を主張しない 次スライドのコメントをいれておく
34 釈明!? 分散分析は,本来セルサイズが揃った バランス型のデータへ適用すべき手法 である.本論文のようにアンバランス 型のデータへ適用すると,ときに misleading な結果を導くことがある.し かし,実験が不可能で調査データに頼 らざるを得ない状況では最善の分析方 法であると考える.より強固な統計的 証拠を得るために今後の follow-up 研究 を待ちたい.
35 データ解析テクニカルブック との対応 上記テキストには,データ数が揃って いない場合の分析として,簡便法 ( 以下 の量を用いてバランス型の分析に帰着 ) が紹介されている n : 調和平均 周辺平均:非加重平均 基本的に SAS , SPSS による分析と一致 しない
36 7章 Practical Issue