分割表データの分析 With the help of Mr. Machida 1.カイ2乗検定 2.対数線形モデル
1.1 分割表とは 1.2 2×2分割表の分析 1.3 p×q分割表の分析 1.カイ2乗検定 1.1 分割表とは 1.2 2×2分割表の分析 1.3 p×q分割表の分析
1.1 分割表とは
分割表とは 対象者から得た“質的な”データを集計してまとめた表のこと クロス表,集計表ともいう 量的なデータでの散布図に対応 もともと厳密な数値化が困難 or 不可能なデータ 性別,血液型,出身地 etc・・・ 量的なデータからカテゴリーに分類することも 尺度得点により「高群」・「低群」に分類 etc・・・ クロス表,集計表ともいう
2次元分割表の具体例 親が子どもに期待する最終学歴を調査 性別(2)と希望学歴(4)の2×4分割表
2次元分割表の一般形
3次元分割表の具体例 募金活動への参加意志を調査 VTRの有無(2), 性別(2), 参加意志(3)の2×2×3 分割表 災害のVTRを視聴 これ,分析しないの? 田中敏(1996)実践心理データ解析
1.2 2×2分割表の解析
2×2分割表の例 ---阪大人間科学部での調査---
二つの属性が関係ないとすると
比率で見ると
周辺確率との関係
検定方式 二つの属性に 関係がない 二つの属性に 何らかの関係がある
阪大人間科学部では
連関の強さの評価 カイ2乗検定が有意になったとき odds 比=ad/bc=(a/b)/(c/d)=10.4 クラメールのV:
二項分布
多項分布
たこ焼きホームページ http://koko15.hus.osaka-u.ac.jp/~taco/goraku/recipe/ http://www.mesh.ne.jp/osaka/takoyaki/
SASプログラム Options nocenter; DATA taco1; DO region = '関西人', '非関西'; DO takoyaki = 'たこ焼き器あり', 'たこ焼き器なし'; INPUT num @@; OUTPUT; END; END; CARDS; 12 3 5 13 ; RUN; PROC PRINT; PROC FREQ DATA = taco1; WEIGHT num; TABLES region * takoyaki / CHISQ; RUN;
SAS出力(1) Obs region takoyaki num 1 関西人 たこ焼き器あり 12 2 関西人 たこ焼き器なし 3 Frequency| Percent | Row Pct | Col Pct |たこ焼き|たこ焼き| Total |器あり |器なし | ---------+--------+--------+ 関西人 | 12 | 3 | 15 | 36.36 | 9.09 | 45.45 | 80.00 | 20.00 | | 70.59 | 18.75 | 非関西 | 5 | 13 | 18 | 15.15 | 39.39 | 54.55 | 27.78 | 72.22 | | 29.41 | 81.25 | Total 17 16 33 51.52 48.48 100.00 SAS出力(1) Obs region takoyaki num 1 関西人 たこ焼き器あり 12 2 関西人 たこ焼き器なし 3 3 非関西 たこ焼き器あり 5 4 非関西 たこ焼き器なし 13
SAS出力(2) Statistics for Table of region by takoyaki Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 8.9335 0.0028 Likelihood Ratio Chi-Square 1 9.4350 0.0021 Continuity Adj. Chi-Square 1 6.9650 0.0083 Mantel-Haenszel Chi-Square 1 8.6627 0.0032 Phi Coefficient 0.5203 Contingency Coefficient 0.4616 Cramer's V 0.5203
SAS出力(3) Fisher's Exact Test ---------------------------------- Cell (1,1) Frequency (F) 12 Left-sided Pr <= F 0.9997 Right-sided Pr >= F 0.0036 Table Probability (P) 0.0033 Two-sided Pr <= P 0.0049 Sample Size = 33
解説 Table Prob= P(a=12)=0.0033 Right-sided Pr=P(a=12,13,14,15)=0.0036 Left-sided Pr=P(a=12,11,…1,0)=0.9997 Two-sided Pr =P(a=12,13,14,15)+P(a=4,3,..,0)=0.0049
まとめ 基本はchi-squareの利用 nが小さいときにはFisher’s Exact Testを 用いる 最小二乗法系の統計量 LRは尤度にもとづく方法 連続修正を施したchi-squareを用いるべきだ という意見もあるが,nが大きいときは大差ない nが小さいときにはFisher’s Exact Testを 用いる
注意点 期待度数 Eij が 5 以下のセルが存在する場合 対応 出力結果に警告が表示 χ2分布への近似が悪くなるため WARNING: ** % of the cells have expected counts less than 5. Chi-Square may not be a valid test. χ2分布への近似が悪くなるため 対応 Fisher’s Exact Test 意味が似たセルを結合 研究目的から外れては無意味 サンプル数を増やす
p×q 分割表の解析
実際例 「あなたにとって,過去・現在・未来のうちで最も重要な意味をもつのはどれですか?」 年齢層による違いはみられるか?
分析結果 Statistics for Table of age by time Statistic DF Value Prob ----------------------------------------------- Chi-Square 4 19.4288 0.0006 Likelihood Ratio Chi-Square 4 19.4515 0.0006 Mantel-Haenszel Chi-Square 1 18.2429 <.0001 Phi Coefficient 0.2766 Contingency Coefficient 0.2666 Cramer's V 0.1956
仮説と期待度数
検定の公式
χ2検定で有意のとき 2つの変数は独立ではない 関連の強さはどの程度? どのセルが有意性に“貢献”したのか? 連関係数 p×q 分割表の場合,同定は難しい 残差分析
連関の強さを表す指数
残差分析 χ2検定の事後分析(p×q 分割表) セルごとに「調整された残差」を算出 どのセルが有意性に貢献したのかを判定 χ2検定が有意でないときは用いてはならない セルごとに「調整された残差」を算出 残差=観測度数-期待度数 標準正規分布に従うように調整
残差分析の結果(SPSS)
Procedure Step 1) 期待度数 mij (H0のもとでの理論値)をもとに, 各セルの「標準化された残差」 eij を求める Step 2) eij の分散 vij を求める Step 3) 各セルの「調整された残差」 dij を求める Step 4) dij が N (0,12) に近似的に従うことを利用し, 各セルの検討を行う
残差分析の結果(まとめ) 青年期では過去指向は少なく,未来指向が多い 老年期では逆の傾向がみられる
Further topics 独立性の検定と一様性の検定 マンテル・ヘンツェル検定 傾向性と対称性 マクネマーの検定 コクランのQ検定 予測による連関の強さの評価
2.1 対数線形モデルの必要性 2.2 対数線形モデルの基礎: 2変数の場合 2.3 シンプソンのパラドックス: 3変数の場合 2.対数線形モデル 2.1 対数線形モデルの必要性 2.2 対数線形モデルの基礎: 2変数の場合 2.3 シンプソンのパラドックス: 3変数の場合
2.1 対数線形モデルの必要性
対数線形モデルとは 各セル度数の“対数値”がいくつかの 要因効果に分解されると仮定 モデル式は分散分析と酷似 質的データの分散分析 文献によっては,各セルの“確率”の対数値に線形モデルを当てはめていることもある
χ2検定の限界 χ2検定は “overall” な検定 セルや変数の増加に伴い無力化 得られる情報は分割表の全体的な傾向のみ where? 独立でないときにどのような情報が得られるか セルや変数の増加に伴い無力化 where? X Y Z related? where? where?
独立でないときのモデル化 χ2検定では“積”のモデルを仮定 H1のとき,どのように考えればよいのか? 2変数A,Bが独立でない ことによって生じる効果
対数線形モデルへ 対数を取ると“積”が“和”になりANOVAの類型となる⇒対数線形モデル!!
シンプソンのパラドックス 多元分割表において,以下の分析結果に 矛盾が生じること その理解に対数線形モデルが極めて有効 要因Aの水準ごとにB×Cの分割表を分析 要因Aの水準を併合してB×Cの分割表を分析 その理解に対数線形モデルが極めて有効
シンプソンのパラドックスの例 H14年度大学院入試問題 11.(行動データ科学)携帯電話を持つと男女別姓に賛成するのか?携帯電話の有無と男女別姓の賛否を聞いた調査で表1のデータを得た(仮想データ).つぎに,回答者を年齢で層別したところ表2のようになった. 表1 表2
つづき (1) 上記の結果を解釈せよ. (2) 上記の「年齢」のように,調べたい要因に影響を及ぼす別の要因を剰余変数(extraneous variable),または,第三変数という.観察データの分析では剰余変数に注意しなければならない.剰余変数を制御して実験・分析する方法として以下の(a), (b) (c) を考える.これらの相互比較を行い,適用するときの注意点を述べよ. (a) 年齢が一定のサンプルをとる. (b) 若年層,中高年層などのように年齢も要因として取り上げる. (c) 被験者をランダムに二分し,一方には携帯電話を持たせ他方には 持たせない.一定期間後,男女別姓についての意見を問う. (3) (2)の (c) における実験で,なぜ年齢の影響が制御できているのか説明せよ. (4) 実験データの分析において標示因子と制御因子という区別がある.たとえば,性別の要因は標示因子であり,携帯電話を持たせるか持たせないかという要因は制御因子である.このような区別が意味をもつ理由を説明せよ.
CATMOD procedure Categorical (Data) Modeling いくつかの質的変数間の関係を分散分析のように分析するためのツール 対数線形モデルはCATMODをつかう 多項のロジスティック回帰分析もできる
2.2 対数線形モデルの基礎: 2変数の場合 2変数-対数線形モデルの導入 p×q 分割表の再分析 SASによる分析例―PROC CATMOD
記号
独立性を表す対数線形モデル (2変数)
独立でないモデル 2次元分割表で考えられる全ての効果を含む これ以上新たな項は導入不可能 ⇒「飽和モデル」(saturated model)
2要因分散分析との対応
「主効果」の意味 Aの主効果が存在 ⇒Aのカテゴリーによって対数セル度数の平均が (有意に)異なる Bは考慮に入れない (Aのみで集計)
「交互作用」の意味 AとBの交互作用が存在 ⇒Bのカテゴリーによって,Aのカテゴリーによる 対数セル度数の変動の様子が(有意に)異なる
「交互作用」の意味 AとBの交互作用がある AとBが関連している Aの水準によってBの効果が異なる 年齢層によって重視する時間が異なる
なぜ度数の「対数」なのか 交互作用 度数の場合: (a-c)-(b-d) 対数値の場合: a b c d
SASプログラム 2-1 (DATAステップ) DATA loglin2; DO age = 1 TO 3; DO time = 1 TO 3; INPUT num @@; OUTPUT; END; END; CARDS; 28 34 46 24 22 18 45 21 16 ; RUN; (Continued on PROC step) SASプログラム 2-1 (DATAステップ) age = 1は青年期,2は成人期, 3は老年期 time = 1は過去,2は現在, 3は未来
度数ゼロのセルを含む場合 ⇒明らかにまずい ゼロに近い正の数に置き換える (可能な限りは)サンプル数の増加が無難 … ⇒明らかにまずい ゼロに近い正の数に置き換える (可能な限りは)サンプル数の増加が無難 … INPUT num @@; IF num = 0 THEN num = 0.5; /* num = 0 のときは 0.5 に置き換える */ OUTPUT;
SASプログラム 2-1 (PROCステップ) (Continued from DATA step) PROC CATMOD DATA = loglin2; WEIGHT num; MODEL age * time = _RESPONSE_ ; /* _RESPONSE_により対数線形モデルを指定 */ LOGLIN age | time; /* モデルに投入する要因変数を指定 */ RUN;
変数の効果(飽和モデル) 各変数の主効果・交互作用について有意性を検討 飽和モデル:すべての変数を含めたモデル MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- AGE 2 11.43 0.0033 TIME 2 3.38 0.1843 AGE*TIME 4 18.62 0.0009 LIKELIHOOD RATIO 0 . . 各変数の主効果・交互作用について有意性を検討 飽和モデル:すべての変数を含めたモデル 飽和モデルではLIKELIHOOD RATIOは無視してよい
モデルのルール 多くの不飽和モデルが考えられる 階層の原則(hierarchy principle) モデルが高次の交互作用を含むときは,そのなかの変数による低次の効果も“必ず”含む を含める⇒ も“必ず”含める
不飽和モデルの検討方法 尤度比カイ2乗統計量G 2 は 小さいほど良い ⇔ p が大きいほど良い 2変数間に Source DF Chi-Square Prob -------------------------------------------------- LIKELIHOOD RATIO 4 19.45 0.0006 尤度比カイ2乗統計量G 2 は 小さいほど良い モデルの当てはまりの“悪さ”を示す ⇔ p が大きいほど良い モデルが正しいときに,観測されたデータが 発生する可能性(0.10以上が望ましい) 2変数間に 独立性を仮定
モデルの適合度 「階層の原則」に従い,高次の項から順に 0 とおいてみる 不飽和モデルはどれも適合が悪い
パラメータの推定値 出力結果は不十分:残りのパラメータは? ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- AGE 1 0.2879 0.0877 10.79 0.0010 2 -0.2213 0.0988 5.02 0.0250 TIME 3 0.1645 0.0903 3.32 0.0686 4 -0.0539 0.0949 0.32 0.5704 AGE*TIME 5 -0.3947 0.1239 10.15 0.0014 6 0.0178 0.1245 0.02 0.8862 7 -0.0396 0.1344 0.09 0.7684 8 0.0917 0.1391 0.44 0.5095 パラメータは辞書順に並んでいる. 出力結果は不十分:残りのパラメータは?
Birchの制約式(2変数) 各効果におけるパラメータの総和は“0” CATMODプロシージャ では,パラメータは番号の小さい順に出力 最後の項は出力されない
パラメータの推定値 残りのパラメータは のようにして求める
分割表を併用したまとめ方 未検定を表示 ※ 部分のセルは未検定(=n.s.とは限らない)
交互作用の推定値 独立モデルからのズレを表す |交互作用|が大きいことは独立モデルから 外れていることを示す 必ずしも,頻度が高い(低い)ことを意味しない
層別(行別)に比較する 交互作用推定値 青年層 成人層 老年層
+⇒more frequency -⇒less frequency 解釈のレシピ 解釈は交互作用から 主効果の解釈にはあまり関心がない 属性間・条件間の度数の違いを表すのみ (有意性に加えて)パラメータの“符号”も重要 プラス⇒独立モデルと比してより多い頻度 マイナス⇒独立モデルと比してより少ない頻度 +⇒more frequency -⇒less frequency
まとめ 2変数・多カテゴリーの分割表データの 対数線形モデルによる分析 実用上のススメ 独立からの「ずれ」をモデリングして情報を得る 「カイ2乗検定+残差分析」とほぼ同様の分析 結果 実用上のススメ SAS....対数線形モデル SPSS...カイ2乗検定+残差分析
2.3 シンプソンのパラドックス: 3変数の場合 対数線形モデルの真骨頂
3変数の対数線形モデル 3変数の飽和モデル (i, j, k) セルの 組み合わせ による効果
例1:教科書的例
Simpson’s Paradox 多次元分割表で,変数をむやみに“つぶす” (collapse)のは危険!! 層別にみると“関連なし”⇔全体では“関連あり” 層別にみると“関連あり”⇔全体では“関連なし” ・・・??? 多次元分割表は,多次元のままで分析するのが基本 ⇒ 対数線形モデル
SASプログラム DATA keitai; INPUT age keitai bessei freq; CARDS; 1 1 1 2 1 1 0 8 1 0 1 20 1 0 0 80 0 1 1 80 0 1 0 20 0 0 1 8 0 0 0 2 ; PROC CATMOD DATA=keitai; WEIGHT freq; MODEL age*keitai*bessei = _RESPONSE_; LOGLIN age|keitai|bessei; RUN; SASプログラム
例1:対数線形モデル分析結果 Source DF EST χ2 Prob --------------------------------------------- AGE 1 0 0.00 1.0000 KEITAI 1 0 0.00 1.0000 AGE*KEITAI 1 -1.15 61.71 0.0000 BESSEI 1 0 0.00 1.0000 AGE*BESSEI 1 -0.69 22.37 0.0000 KEITAI*BESSEI 1 0 0.00 1.0000 AGE*KEITAI*BESSEI 1 0 0.00 1.0000 注意:実は,本データに対数線形モデルを適用するには セル度数が少なすぎる
例1:図示すると 携帯 男女別姓 年齢 男女別姓 携帯 年齢
条件付独立
パラメータの推定値
補遺:なぜ対数か なぜ度数ではなく対数値をつかうのか 全体のデータ(度数) 若年層のデータ(度数)
度数の対数のプロットと交互作用 全体のデータ 若年層のデータ
対数がよい 交互作用 度数の場合: (a-c)-(b-d) 対数値の場合: a b c d
例2:教科書的例 機械によって不良品の出方に違いがあるかどうかを調べたい
例2:対数線形モデル分析結果 Source DF EST χ2 Prob ---------------------------------------------- WORKER 1 0.00 0.00 1.0000 KIKAI 1 0.00 0.00 1.0000 WORKER*KIKAI 1 0.00 0.00 1.0000 DEFAULT 1 0.00 0.00 1.0000 WORKER*DEFAULT 1 0.00 0.00 1.0000 KIKAI*DEFAULT 1 0.00 0.00 1.0000 WORKER*KIKAI*DEFAULT 1 -0.42 60.32 0.0000
例2:図示すると 作業者A 機械 a 良・不良 作業者 良・不良 機械 機械と作業者の交互作用がある 作業者B 機械 -a 良・不良
2次交互作用
例3:実際のデータ Hot Hand 現象は真か? バスケットのフリースローで1回目に成功すると2回目の成功確率が上がる?!
例3:カイ2乗検定結果
例3:対数線形モデル分析結果 Source DF χ2 Prob ーーーーーーーーーーーーーーーーーーーーー player 1 0.44 0.5077 first 1 41.95 <.0001 player*first 1 30.84 <.0001 second 1 73.71 <.0001 player*second 1 33.28 <.0001 first*second 1 0.33 0.5641 player*first*second 1 0.09 0.7580
例3:プーリング後の分析結果 Source DF -Square > ChiSq --------------------------------------- player 1 0.24 0.6266 first 1 71.51 <.0001 second 1 112.60 <.0001 player*first 1 52.61 <.0001 player*second 1 49.25 <.0001 Likelihood Ratio 2 0.35 0.8392
例3:図示すると 1回目 2回目 プレイヤ の 実力 2回目 1回目 プレイヤ の 実力
例4:時間的展望 見通しがあると毎日が充実? 「将来展望(将来の見通し)の有無」と 「毎日の生活への満足感」を調査 χ2検定は高度に有意 χ2(1) = 8.73, p = 0.003**
Really ? 将来展望の確立は青年期の中心的課題 しかし,「未来指向=適応的」とは限らない 「将来の目標はあるが,実現できるか不安」 「今が楽しいから別にそれでいい」 将来の見通しの有無が,個人にとってどのような意味をもつのかによって,現在への満足感は異なるのではないか?
層別に分析 「将来展望の獲得が個人にとって重要な意味をもつかどうか」も考慮してみる ⇒χ2検定はどちらも有意でない 「将来展望の獲得」が重要な群 ⇒χ2(1) = 0.09, p = 0.76 (n.s.) 「将来展望の獲得が個人にとって重要な意味をもつかどうか」も考慮してみる ⇒χ2検定はどちらも有意でない 「将来展望の獲得」が重要でない群 ⇒χ2(1) = 0.01, p = 0.92 (n.s.)
・・・??? ⇒ ⇒AとBは“関連なし” ⇒AとBは“関連あり” ⇒AとBは“関連なし” C = 1 B 合計 1 2 A 146 42 188 34 11 45 180 53 233 ・・・??? C = 1,2 B 合計 1 2 A 180 82 262 90 75 165 270 157 427 ⇒AとBは“関連なし” ⇒ C = 2 B 合計 1 2 A 34 40 74 56 64 120 90 104 194 ⇒AとBは“関連あり” ⇒AとBは“関連なし”
3次元分割表として 対数線形モデル分析 将来展望の有無とその重要性,毎日の生活への満足感の間にはどのような関連がみられるか?
例4:分析結果(飽和モデル) Source DF x^2 Prob ------------------------------------------- MEANING 1 2.38 0.1229 GOAL 1 13.99 0.0002 MEANING*GOAL 1 59.38 0.0000 SATISFY 1 18.08 0.0000 MEANING*SATISFY 1 29.86 0.0000 GOAL*SATISFY 1 0.03 0.8563 MEANING*GOAL*SATISFY 1 0.09 0.7644 LIKELIHOOD RATIO 0 . .
探索的にモデルを選択 ○ ◎
出力結果 ([AC][BC]) 各変数・各セルの有意性を検討 出力結果は不十分 MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- MEANING 1 2.76 0.0967 GOAL 1 18.13 0.0000 MEANING*GOAL 1 74.11 0.0000 SATISFY 1 25.74 0.0000 MEANING*SATISFY 1 41.40 0.0000 LIKELIHOOD RATIO 2 0.10 0.9513 出力結果 ([AC][BC]) 各変数・各セルの有意性を検討 出力結果は不十分 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- MEANING 1 -0.0989 0.0596 2.76 0.0967 GOAL 2 0.2366 0.0556 18.13 0.0000 MEANING*GOAL 3 0.4783 0.0556 74.11 0.0000 SATISFY 4 0.2695 0.0531 25.74 0.0000 MEANING*SATISFY 5 0.3418 0.0531 41.40 0.0000
分析結果 (まとめ) +⇒more frequency -⇒less frequency 残りのパラメータはBirchの制約式から求める 独立変数の主効果や独立変数どうしの交互作用はあまり情報をもたない
モデルの解釈 ??? 将来の見通しがあることが,直ちに毎日の充実感に結びつくわけではない 毎日の生活 への満足感 将来展望の 確立 将来の見通しがあることが,直ちに毎日の充実感に結びつくわけではない 「将来展望の獲得が個人にとってどのような意味をもつか」を考慮すると,「将来展望の有無」と「毎日の生活への満足感」は無関係 将来展望の 重要性 毎日の生活 への満足感 確立
PRED = FREQ オプションによる出力 観測度数と理論度数,残差の算出を指定 MAXIMUM-LIKELIHOOD PREDICTED VALUES FOR RESPONSE FUNCTIONS AND FREQUENCIES -------Observed------- -------Predicted------ Function Standard Standard Sample Number Function Error Function Error Residual -------------------------------------------------------------------------- F1 146 9.80202149 145.236051 9.45813167 0.76394854 F2 42 6.15376734 42.7639485 5.6657935 -0.7639485 F3 34 5.59399142 34.7639485 5.05506267 -0.7639485 F4 11 3.27362607 10.2360515 1.90007772 0.7639485 F5 34 5.59399142 34.3298969 4.49294853 -0.3298969 F6 40 6.02104039 39.6701031 4.95996877 0.32989689 F7 56 6.97536649 55.6701031 6.08508417 0.3298969 F8 64 7.37614358 64.3298969 6.57676534 -0.3298969 RESPONSE PROFILES Response MEANING GOAL SATISFY -------------------------------- 1 1 1 1 2 1 1 2 3 1 2 1 4 1 2 2 … … … … PRED = FREQ オプションによる出力 観測度数と理論度数,残差の算出を指定 Function Number は Response に対応している
例5:実験データの例 街頭募金活動への参加意志を調査 災害のVTR VTRの有無 性別 募金活動への参加意志 合計 不参加 一時的参加 全面的参加 VTR視聴群 男性 16 21 9 46 女性 7 32 12 51 統制群 31 11 4 29 3 48 83 80 28 191 田中敏(1996)実践心理データ解析
Graphical Display
対数セル度数のプロット 2次交互作用の存在は微妙?
SASプログラム (DATAステップ & PROCステップ) DATA fund; DO vtr = “y”, “n”; DO gender = “m”, “f”; DO concern = 1 TO 3; INPUT num @@; OUTPUT; END; END; END; CARDS; 16 21 9 7 32 12 31 11 4 29 16 3 ; RUN; SASプログラム (DATAステップ & PROCステップ) vtr = y はVTR視聴群,n は統制群 gender = m は男性,f は女性 concern = 1 は不参加,2 は一時的参加, 3 は全面的参加 PROC CATMOD DATA = fund; WEIGHT num; MODEL vtr * gender * concern = _RESPONSE_; LOGLIN vtr | gender | concern; RUN;
要因効果の検討(飽和モデル) MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- VTR 1 1.65 0.1990 GENDER 1 0.01 0.9314 VTR*GENDER 1 0.01 0.9029 CONCERN 2 21.88 0.0000 VTR*CONCERN 2 29.78 0.0000 GENDER*CONCERN 2 5.66 0.0591 VTR*GENDER*CONCERN 2 2.19 0.3350 LIKELIHOOD RATIO 0 . .
探索的にモデルを選択(1/2) DF Chi–Square Prob(LRのみ) モデル [VGC] [VG][GC][VC] VTR 1 1.65 1 2.24 GENDER 1 0.01 1 0.42 CONCERN 2 21.28*** 2 22.45*** V×G G×C 2 5.66† 2 4.84† V×C 2 29.78*** 2 29.75*** V×G×C 2 2.19 Likelihood Ratio - 2 2.24 0.3269 DF Chi–Square Prob(LRのみ)
探索的にモデルを選択(2/2) モデル [VC][GC] [VC][G] [VC] VTR 1 2.16 1 2.16 GENDER 1 2.16 1 2.16 GENDER 1 0.32 1 0.26 CONCERN 2 22.58*** 2 23.25*** V×G G×C 2 4.51 V×C 2 29.67*** V×G×C Likelihood Ratio 3 2.66 0.4467 5 7.23 0.2039 6 7.49 0.2780
モデル評価のまとめ どのモデルも適合は良い(see p 値) AICによると[VC]がよい Genderの交互作用がないので,男女の層をつぶしてよい
男女の層を合併
出力結果([VC]) RESPONSE PROFILES Response VTR GENDER CONCERN ------------------------------ 1 n f 1 2 n f 2 3 n f 3 4 n m 1 5 n m 2 6 n m 3 出力結果([VC]) Response VTR GENDER CONCERN ------------------------------ 7 y f 1 8 y f 2 9 y f 3 10 y m 1 11 y m 2 12 y m 3 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- VTR 1 -0.1357 0.0923 2.16 0.1414 CONCERN 2 0.3672 0.1163 9.97 0.0016 3 0.3853 0.1148 11.27 0.0008 VTR*CONCERN 4 0.6151 0.1163 27.97 0.0000 5 -0.2015 0.1148 3.08 0.0791
部分のセルは未検定(= n.s.とは限らない) 募金活動への参加意志 合計 不参加(1) 一時的 参加(2) 全面的 参加(3) VTR VTR視聴群(y) 23 (-0.6151***) 53 (0.2015†) 21 (0.4136**) 97 (-0.1357) 統制群(n) 60 (0.6151***) 27 (-0.2015†) 7 (-0.4136**) 94 (0.1357) 83 (0.3672**) 80 (0.3853***) 28 (-0.7525***) 191 部分のセルは未検定(= n.s.とは限らない) (SASでは)文字型変数をアルファベット順に読み込むため Birchの制約式 or 記号の割り当て方を変更し再び“RUN” (例)① y → 1, n → 2,② 不参加→3,全面的→1,③ ①+②
The final model VTRの視聴が募金活動への参加意志に(有意に)影響 VTR 参加意志 性別 VTR視聴群 統制群では逆の傾向 「不参加」が負で有意 「全面的」が正で有意 統制群では逆の傾向 性別の効果はなし VTR 参加意志 性別
対数線形モデル(3変数)の まとめ 2変数の分割表の分析に帰着できない 場合が多々ある 第3変数の関わりを分析するためには 対数線形モデルが極めて有効 第3変数の関わり方によって多くのモデルがある それらの中からベストなモデルを選択する
3変数でのモデル 「階層の原則」に従っても“19種類” 飽和モデル・・・[ABC] 2次交互作用 = 0 ・・・[AB][AC][BC] 条件つき独立性・・・[AB][AC] etc A を与えたもとで B,C は独立 同時独立性・・・[A][BC] etc B (or C) を“つぶす”と,A,C (or B) は独立 完全独立性・・・[A][B][C]
図示すると A A A A B C B C B C B C 2次交互作用=0 条件付独立 同時独立 完全独立 2次交互作用=0 条件付独立 同時独立 完全独立 [AB][BC][AC] [AB][AC] [A][BC] [A][B][C]
分析の手順のまとめ Step 1) まず飽和モデルを適用 Step 2) 2次交互作用 を 0 とおいてみる モデルの適合度をCheck ( p > 0.10? ) 適合せず⇒飽和モデル(階層の原則) Step 3) さらに,有意でない変数を 0 とおいてみる モデルが棄却されないこと (p>0.10) パラメータが少ない(自由度が大きい)モデルがよい AICの利用 ただし理論的な根拠,実質科学的な考察が重要 Step 4) モデルの解釈&各セルの効果の検討
References B.S.Everitt 1992 The Analysis of Contingency Tables Second Edition CHAPMAN & HALL / CRC 海保博之 1986 心理・教育データの解析法10講 ■応用編■ 福村出版 松田紀之 1988 質的情報の多変量解析 朝倉書店 SAS インスティチュートジャパン 1993 SAS / STAT ソフトウェア:ユーザーズガイド Version 6 First Edition 田中敏,山際勇一郎 1992 ユーザーのための教育・ 心理統計と実験計画法 教育出版