1 6章 データ数不揃いの場合の分析 アンバランス型(不釣合い型)の 計画 ss2 や ss3 って何?

Slides:



Advertisements
Similar presentations
分散分析と誤差の制御 実験結果からできるだけ多くの情報を取り出すために 分散分析を利用する 主効果の大きさ 交互作用の大きさ 誤差の大きさ 採用した因子の効果の有無 の検定には,誤差の大きさ と比較するので誤差を小さ くできれば分散分析での検 出力が高まる どのようにしたら誤差を小さくできるか?
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
Rコマンダーで反復測定ANOVA.
GLMプロシジャを利用した 反復測定データの解析
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
データ分析入門(12) 第12章 単回帰分析 廣野元久.
第4日目第1時限の学習目標 3つ以上の平均値の差の検定(分散分析)の概要を知る。 (1)分散分析の例を知る。
Rコマンダーで2要因の 反復測定ANOVA 「理学療法」Vol28(8)のデータ
第6回授業(5/17)での学習目標 1.2.1 実験計画法のひろがり(途中から) 1.2.2 節完全無作為化デザインをもっと知 ろう
統計学第10回 多群の差を調べる~ 一元配置分散分析と多重比較 中澤 港
第4章補足 分散分析法入門 統計学 2010年度.
第4章 MIXED Model 4.1 MIXED Model とは 4.2 反復測定データの分析1 分割法タイプのデータ
第6回 分散分析(第7章) Analysis of Variance
第1部 一元配置分散分析: 1つの条件による母平均の違いの検定 第2部: 2つの条件の組み合わせによる二元配置分散分析
分散分析マスターへの道.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
パネル分析について 中村さやか.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
日本行動計量学会主催 第4回春の合宿セミナー
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
実証分析の手順 経済データ解析 2011年度.
反復測定データの分析 狩野裕@大阪大学 協力:SAS・SPSS
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:1要因被験者内デザイン 寺尾 敦 青山学院大学社会情報学部
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
寺尾 敦 青山学院大学社会情報学部 社会統計 第8回:多重比較 寺尾 敦 青山学院大学社会情報学部
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:実験計画法 寺尾 敦 青山学院大学社会情報学部
Excelによる実験計画法演習 小木哲朗.
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
第4日目第1時限の学習目標 3つ以上の平均値の差の検定(分散分析)の概要を知る。 (1)分散分析の例を知る。
4章までのまとめ ー 計量経済学 ー.
スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―
Rコマンダーで分割プロットANOVA 「理学療法」Vol28(8)のデータ
動的依存グラフの3-gramを用いた 実行トレースの比較手法
Rコマンダーで2元配置ANOVA 「理学療法」Vol28(8)のデータ
第11回授業(12/11)の学習目標 第8章 分散分析 (ANOVA) の学習 分散分析の例からその目的を理解する 分散分析の各種のデザイン
リファクタリング支援のための コードクローンに含まれる識別子の対応関係分析
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
部分的最小二乗回帰 Partial Least Squares Regression PLS
1.母平均の検定:小標本場合 2.母集団平均の差の検定
analysis of survey data 堀 啓造
確率と統計2009 第12日目(A).
第12回授業(12/18)の目標 ANOVA検定の実習 WEB を用いたANOVA検定と、授業で行った検定結果の正誤の確認方法(宿題)
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
クロス表とχ2検定.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
RでのScheffeの多重比較.
高次元データにおける2次形式の近似について
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
要因Aの差,要因Bの差を見たい 2つの要因なので二元配置分散分析の適用 要因B 水準A 水準B 水準C 要因A 水準a
Presentation transcript:

1 6章 データ数不揃いの場合の分析 アンバランス型(不釣合い型)の 計画 ss2 や ss3 って何?

2 ことば データ数が揃っていない計画 セルサイズが揃っていない計画 アンバランス型計画 不釣合い型計画

3 分散分析・実験計画法は 基本的に「実験データ」の分析方法 – セルサイズが揃っていることが前提 実験であるからセルサイズを整えることは可能 なはず 何らかの事情で少数個のデータが欠けることは 許される セルサイズがそうとうバラバラ – 「調査データ」の分析に多い – 分析は可能であるが....

4 問題点とプロシージャ 1要因の場合 – 解釈が難しくなる 2要因以上の場合 – 各要因の平方和が確定しない – 「平方和の分解」が成り立たない – 解釈が難しくなる PROC GLM (general linear model) – 「 PROC ANOVA 」 はだめ WARNING: PROC ANOVA has determined that the number of observations in each cell is not equal. PROC GLM may be more appropriate.

5 1要因の場合:例1

6 多重比較 B1 と B2 には有意差があるが, B2 と B3 には有意差はない しかし,平均差は共に 1.5

7 図で表すと * *

8 1要因の場合:例2

9 多重比較 A2 と A3 には有意差がある しかし, A2,A3 を含むより大きな平均差 がある A1 と A2 においては有意差が認めら れない

10 図で表すと *

11 WHY? セルサイズが異なることがその原因 – セルサイズが小さいと検定の検出力が下が り,第二種の過誤が大きくなる – 検出力の異なる仮説検定の結果を比較する ことは,あまり意味がない – 有意水準は OK

12 一つの解決策 セルサイズの調和平均を用いて,バラ ンス型として分析する – あくまでも近似であり,セルサイズが大き く 異なる場合は有意水準が保たれるか不安 各ソフトで独自の工夫がなされている ようである – ソフトで出力が異なる?

13 調和平均を用いた例: SPSS

14 調和平均を用いた例: SAS RYAN-EINOT-GABRIEL-WELSCH 多重範囲検定 - 変数 : Y NOTE: この検定法はタイプ I の実験(全体)誤差率を 調整しています. ALPHA= 0.05 df= 11 MSE= WARNING: セルのサイズが等しくありません. セル・サイズの調和平均 = 平均の数 臨界範囲 同じ文字で結ばれた群間の平均差は有意でありません. REGWQ グループ化 平均 N A A A A A B A B B

15 まとめ:1要因の場合 セルサイズが異なっているときは,平 均差と有意性が対応しないことがある – 解釈に困る – セルサイズのばらつきが小さいときはこの 問題は生じない – 平均差と有意性が対応しているときは問題 ないだろう – 調和平均を用いる方法もあるが,セルサイ ズが大きく異なるときは問題あり(第一種 の過誤)

16 2要因の場合 平方和が確定しない – 各要因の平方和がうまく分離できない – 各要因ごとの平方和がいくつも提案されてお り,確定的なものがない タイプ ⅠⅡⅢの平方和がある 解釈についての問題もある – 1要因の場合と同様

17 平方和の種類 タイプⅠ:逐次平方和 – モデルに記述した要因の順に,要因を取り込んで いくときに,モデルで説明できる平方和の増分 タイプⅡ:偏平方和( ? ) – 主効果の評価は他の主効果のみ調整してから行う (交互作用を調整しない ) タイプⅢ:セル平均に基づく平方和 (?) – 主効果の評価は他の要因の全てを調整してから行 う (交互作用も調整する) model x =a b a*b/ss2 model x =a b a*b/ss2 ss3

18 分かっていること セルサイズが揃っている場合は全ての 平方和は一致する タイプⅠは,要因の順序に意味がある場合に のみ用いる – 枝分かれ実験,多項式回帰など タイプⅡとタイプⅢの違いは微妙 – 交互作用の平方和は両者で一致する – 交互作用がないモデルにおいては両者は一致

19 モデルで説明 Y A B Y A AB B タイプⅡ平方和 タイ プⅢ平方和

20 具体的には 投入要因に依存する(タイプⅡ,Ⅲ平方和) x = a x = a b 要因の投入順序に依存する ( タイプⅠの平方 和 ) x = a b a*b x = b a a*b S A の大きさが異なる S B の大きさが異なる S A の大きさが異なる

21 2要因の場合:例

22 ANOVA 結果 交互作用がない場合 変

23 ANOVA 結果 交互作用がある場合

24 バランス型計画 (セル度数が揃っている場合) 1要因 2要因 SASA SESE STST STST SASA S A×B SBSB SESE

25 S A×B アンバランス型計画 (セル度数が揃っていない場合) 2要因 STST SASA S A×B SBSB SESE 2要因 STST SASA SBSB SESE バランス型計画 アンバランス型計 画

AB 解釈: 交互作用が ない場合 変

27 解釈:交互作用がある場合 ( タイプ II) SASA SBSB SA×BSA×B

28 解釈:交互作用がある場合 ( タイプ Ⅲ ) SASA SBSB SA×BSA×B SASA SBSB SA×BSA×B タイプⅡ タイプⅢ

29 分散分析表の出力について Sum of Mean Source DF Squares Square F Value Pr > F Model Error Corrected T Source DF Type I SS Mean Square F Value Pr > F A B A*B Source DF Type II SS Mean Square F Value Pr > F A B A*B Source DF Type III SS Mean Square F Value Pr > F A B A*B

30 分散分析表について _ つづき モデルと誤差の平方和は(いつも)確定する – アンバランス型のときは,モデルの平方和を,各 要因への分解するときに問題が生じる ソフトウェアは,確定部分とそうでない部分 を分けて出力する [ もちろん,モデルの全体的 評価と局所評価を区別する意味もある ] Sum of Mean Source DF Squares Square F Value Pr > F A B A*B Error Corrected T

31 まとめ:2要因以上ある場合 アンバランス型の場合は要因効果を正 確に定義できない – 要因効果が重なっている 次善策として,ソフトウェアはいくつ かの 平方和を用意

32 まとめ:つづき – タイプⅡかタイプⅢの平方和を用いる タイプⅡ – 主効果を調べるときは交互作用を考えない – 交互作用を調整せずに主効果を評価する タイプⅢ – 主効果を調べるときも交互作用を含めたモデルを用 いる – 交互作用を調整してから主効果を評価する –SAS , SPSS ともにデフォルトはタイプⅢ である – 「 SAS による実験データの解析:東大出 版」はタイプⅡを薦めている

33 recommendation まず,タイプⅡとタイプⅢの両者で検定す る – 結果に違いがなければ,どちらを報告しても よい – 結果が異なる場合は強い結論を主張しない 次スライドのコメントをいれておく

34 釈明!? 分散分析は,本来セルサイズが揃った バランス型のデータへ適用すべき手法 である.本論文のようにアンバランス 型のデータへ適用すると,ときに misleading な結果を導くことがある.し かし,実験が不可能で調査データに頼 らざるを得ない状況では最善の分析方 法であると考える.より強固な統計的 証拠を得るために今後の follow-up 研究 を待ちたい.

35 データ解析テクニカルブック との対応 上記テキストには,データ数が揃って いない場合の分析として,簡便法 ( 以下 の量を用いてバランス型の分析に帰着 ) が紹介されている n : 調和平均 周辺平均:非加重平均 基本的に SAS , SPSS による分析と一致 しない

36 7章 Practical Issue