行動計量学研究分野B4 町田 透 machida@koko15.hus.osaka-u.ac.jp 対数線形モデルによる 分割表データの分析 行動計量学研究分野B4 町田 透 machida@koko15.hus.osaka-u.ac.jp.

Slides:



Advertisements
Similar presentations
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Advertisements

第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
マルチレベル共分散構造分析 清水裕士 大阪大学大学院人間科学研究科日本学術振興会. 本発表の概要・目的 個人 - 集団データの階層性 個人 - 集団データの階層性 階層的データは従来の方法では十分な分析が できない 階層的データは従来の方法では十分な分析が できない 従来の方法は何が不十分なのか?
1 6章 データ数不揃いの場合の分析 アンバランス型(不釣合い型)の 計画 ss2 や ss3 って何?
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
グラフィカル多変量解析 ----目で見る共分散構造分析----
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
分割表データの分析 With the help of Mr. Machida
第4章 MIXED Model 4.1 MIXED Model とは 4.2 反復測定データの分析1 分割法タイプのデータ
Rによる回帰分析 高崎経済大学 宮田 庸一.
第1部 一元配置分散分析: 1つの条件による母平均の違いの検定 第2部: 2つの条件の組み合わせによる二元配置分散分析
分散分析マスターへの道.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
日本行動計量学会主催 第4回春の合宿セミナー
実証分析の手順 経済データ解析 2011年度.
相関係数 植物生態学研究室木村 一也.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:1要因被験者内デザイン 寺尾 敦 青山学院大学社会情報学部
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
プロジェクトの選択基準 と CBAの役割と限界
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
プロジェクトの選択基準 と CBAの役割と限界
離婚が出生数に与える影響 -都道府県データを用いた計量分析
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
Rコマンダーで分割プロットANOVA 「理学療法」Vol28(8)のデータ
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第11回授業(12/11)の学習目標 第8章 分散分析 (ANOVA) の学習 分散分析の例からその目的を理解する 分散分析の各種のデザイン
第10回授業(12/4)の目標 カイ2乗検定の実習 WEB を用いたカイ2乗検定と、授業で行った検定結果の正誤の確認方法(宿題)
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
母音[i]のF1, F2平均値の分析.
再討論 狩野裕 (大阪大学人間科学部).
部分的最小二乗回帰 Partial Least Squares Regression PLS
analysis of survey data 堀 啓造
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロス表とχ2検定.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
要因Aの差,要因Bの差を見たい 2つの要因なので二元配置分散分析の適用 要因B 水準A 水準B 水準C 要因A 水準a
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

行動計量学研究分野B4 町田 透 machida@koko15.hus.osaka-u.ac.jp 対数線形モデルによる 分割表データの分析 行動計量学研究分野B4 町田 透 machida@koko15.hus.osaka-u.ac.jp

Agenda χ2検定の限界 対数線形モデルの導入 SASによる分析例 p×q 分割表の分析 (10/16) 多次元分割表への拡張 (10/23) シンプソンのパラドックス SASによる分析例 PROC CATMOD

1.χ2検定とその限界について - Chi-square test for Contingency tables - χ2検定の復習 χ2検定とは p×q 分割表による具体例 χ2検定の限界

Q. 「χ2検定」って何ですか? A. カテゴリカルな変数間の関連の有無を検討するための手法(心理学者) 「性別」と「色の好み」との関連etc 分割表の分析手法としては“定番” FREQプロシージャ & CHISQオプション(SAS) A. χ2統計量を検定統計量として用いる検定の一般的な呼称(統計学者)

p×q 分割表による具体例 就職への関心についての調査(大学生) 性格の自己評価×就職への関心 χ2 = 6.37, df = 2, p < .05  ⇒(5%水準で)関連あり 就職への関心 合計 強い 一応 あまりない 性格 外向的 31 35 7 73 内向的 19 42 15 76 50 77 22 149

χ2検定は有意だが・・・ χ2検定で有意⇒変数間は独立ではない p×q 分割表 多次元分割表(3変数以上) どのセルが有意性に“貢献”したのか不明 残差分析により対処可能 多次元分割表(3変数以上) どの変数間に関連があるのか不明 H0:「3変数A,B,Cはすべて互いに独立」 ⇒ “H1 : H0 is NOT true.” では情報として不十分

χ2検定の限界 χ2検定は “overall” な検定 セルや変数の増加に伴い無力化 得られる情報は分割表の全体的な傾向のみ where? B where? related? where? C

χ2検定のモデルを再考 χ2検定⇒“積”のモデルを仮定 独立からの“偏り”をモデル化 A,Bが独立でない ことによって 生じる効果

We developed another model. 対数をとると“積”が“和”になり,分散分析と類似したアプローチが可能に  ⇒“対数”線形モデル!!

2.対数線形モデルの紹介 - Log-Linear Models for Contingency tables - 2変数-対数線形モデルの導入 p×q 分割表の再分析 SASによる分析例―PROC CATMOD

2次元分割表の 一般形 期待度数 mij を Fij と表すこともある

対数線形モデルとは 各セル度数の“対数値”がいくつかの要因効果に分解されると仮定したモデル モデル式は分散分析と“酷似” 質的データの分散分析 カテゴリカルデータの分析には“必須” ※文献によっては,各セルの“確率”の対数値に線形モデルを当てはめていることもある (大局的には)アプローチによる差はない

2変数-対数線形モデルの導入 2変数の独立性を仮定したモデル 

独立でない場合のモデル 2次元分割表で考えられる全ての効果を含む ⇒(2変数の)「飽和モデル」(saturated model) (i, j) セルの組み合わせによる効果 2次元分割表で考えられる全ての効果を含む ⇒(2変数の)「飽和モデル」(saturated model)

「主効果」を“直感的に”理解 Aの主効果が存在 ⇒Aのカテゴリによってセル度数が異なる Bは考慮に入れない (Aのみで集計)

「主効果」をより正確に理解 Aの主効果が存在 ⇒Aのカテゴリによって対数セル度数の平均が異なる Bのカテゴリは考慮に入れない

「交互作用」を“直感的に”理解 交互作用A×Bが存在 ⇒Bのカテゴリによって,Aの主効果が異なる ⇒Aのカテゴリによって,Bの主効果が異なる

「交互作用」をより正確に理解 交互作用A×Bが存在 ⇒Bのカテゴリによって,Aのカテゴリ間における対数セル度数の変動の様子が異なる LLMでは対数セル度数のプロットが有効

LLMにおける「交互作用」の意味 交互作用A×Bが存在 AとBの間に関連性が存在 AのカテゴリによってBの効果が異なる 統計手法アラカルト2002 LLMにおける「交互作用」の意味 交互作用A×Bが存在 AのカテゴリによってBの効果が異なる 「性格」によって「就職への関心」が異なる AとBの間に関連性が存在 Aのカテゴリを知ることで,Bの度数の変動が説明可能 「性格」についての“情報”が,「就職への関心」を知るための“手がかり”となる 変数間における関連性の存在 Aのカテゴリによって,Bのカテゴリ間の度数変動が異なる Aのカテゴリを知ることで,Bの度数の変動が説明可能

関西出身・・・ たこ焼き器あり!! 関西出身・・・? たこ焼き器あり ・・・?? たこ焼き器 あり なし 居住地域 関西 20 関西以外 たこ焼き器 あり なし 居住地域 関西 10 関西以外 A,Bの関連が(極端に)強い場合 A,Bが完全に独立の場合

SASプログラム 2-1 (DATAステップ) DATA loglin2; DO person = 1 TO 2; DO concern = 1 TO 3; INPUT num @@; OUTPUT; END; END; /* DOとENDの個数は必ず同じ */ CARDS; 31 35 7 19 42 15 ; RUN; (Continued on PROC step) SASプログラム 2-1 (DATAステップ) person = 1は(性格が)外向的,2は内向的 concern = 1は(就職への関心が)強い, 2は一応,3はあまりない

度数ゼロのセルを含む場合 ⇒明らかにまずい ゼロに近い正の数に置き換える (可能な限りは)サンプル数の増加が無難 …          ⇒明らかにまずい ゼロに近い正の数に置き換える (可能な限りは)サンプル数の増加が無難 … INPUT num @@; IF num = 0 THEN num = 0.5; /* num = 0 のときは 0.5 に置き換える */ OUTPUT;

SASプログラム 2-1 (PROCステップ) (Continued from DATA step) PROC PRINT DATA = loglin2; RUN; /* 変数の割り当てをCheck */ PROC CATMOD DATA = loglin2; WEIGHT num; /* numが度数であることを明示 */ MODEL person * concern = _RESPONSE_; /* _RESPONSE_により対数線形モデルを指定 */ LOGLIN person | concern; /* モデルに投入する要因効果を指定 */ /* A | B = A B A*B */ SASプログラム 2-1 (PROCステップ)

各変数の主効果・交互作用について有意性を検討 MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- PERSON 1 0.60 0.4398 CONCERN 2 27.77 0.0000 PERSON*CONCERN 2 6.18 0.0455 LIKELIHOOD RATIO 0 . . 飽和モデル(すべての変数を含めたモデル)では,LIKELIHOOD RATIOは無視してよい

「飽和モデル」以外のモデルとは? 交互作用や主効果を“0”とおいたもの 「飽和モデル」に対し,「不飽和モデル」という

モデルのルール 階層の原則 (Hierarchy Principal) モデルが高次の交互作用を含むときは,そのなかの変数による低次の効果も“必ず”含む     を含める ⇒     も“必ず”含める

不飽和モデルの検討方法 尤度比カイ2乗統計量G2 は 小さいほど良い ⇔ p が大きいほど良い モデルの当てはまりの“悪さ” Source DF Chi-Square Prob -------------------------------------------------- LIKELIHOOD RATIO 2 6.46 0.0395 尤度比カイ2乗統計量G2 は         小さいほど良い モデルの当てはまりの“悪さ” ⇔ p が大きいほど良い モデルが正しいときに,観測されたデータが発生する可能性(0.10以上が望ましい) 2変数間に 独立性を仮定

不飽和モデルの適合度 「階層の原則」に従い,高次の項から順に 0 とおいてみる モデル df G2 p [PC] - [P][C] 2 6.46 0.0395 [P] 4 38.83 < 0.0001 [C] 3 6.52 0.0888 「階層の原則」に従い,高次の項から順に 0 とおいてみる 不飽和モデルはどれも適合が悪い

出力結果の続き(飽和モデル) パラメータの推定値と標準誤差,χ2値と p値が出力 χ2値は標準効果(=推定値/標準誤差)を2乗したもの 統計手法アラカルト2002 出力結果の続き(飽和モデル) ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- PERSON 1 -0.0758 0.0981 0.60 0.4398 CONCERN 2 0.1350 0.1293 1.09 0.2964 3 0.5923 0.1183 25.06 0.0000 PERSON*CONCERN 4 0.3206 0.1293 6.15 0.0131 5 -0.0153 0.1183 0.02 0.8968 パラメータは辞書順に並んでいる. パラメータの推定値と標準誤差,χ2値と p値が出力 χ2値は標準効果(=推定値/標準誤差)を2乗したもの 出力結果は不十分 ⇒ 残りのパラメータは?

Birchの制約式(2変数) 各効果におけるパラメータの総和は“0” CATMODプロシージャ では,パラメータは辞書順に出力 番号の小さい順 アルファベット順 最後の項は出力されない

分析結果 (まとめ) 残りのパラメータは のようにして求める df 推定値 標準誤差 χ2値 A:性格 1 0.60 α1 -0.076 0.098 α2 0.076 B:関心 2 27.77*** β1 0.135 0.129 1.09 β2 0.592 0.118 25.06*** β3 -0.727 A×B 6.18* (αβ)11 0.321 6.15* (αβ)12 -0.015 0.02 (αβ)13 -0.306 (αβ)21 -0.321 (αβ)22 0.015 (αβ)23 0.306 残りのパラメータは  のようにして求める

部分のセルは未検定(=n.s.とは限らない) 統計手法アラカルト2002 就職への関心 合計 強い(1) 一応(2) あまりない(3) 性格 外向的(1) 31 (0.321*) 35 (-0.015) 7 (-0.306†) 73 (-0.076) 内向的(2) 19 (-0.321*) 42 (0.015) 15 (0.306†) 76 (0.076) 50 (0.135) 77 (0.592***) 22 (-0.727***) 149 (  )内はパラメータの推定値     部分のセルは未検定(=n.s.とは限らない) (SASでは)変数を辞書順に読み込むため Birchの制約式 or 数値の割り当て方を変更し再び“RUN” (例)① 外向的→2,内向的→1,② 強い→3,あまりない→1,③ ①+②

+⇒more frequency -⇒less frequency 主効果の推定値の解釈 一様性からのセル度数の偏りを反映 属性間や条件間の度数の違いを表す +⇒more frequency -⇒less frequency

+⇒positive association -⇒negative association 統計手法アラカルト2002 交互作用の推定値の解釈 独立モデルからのセル度数の偏りを反映 実際のセル度数の大小を表すとは限らない +⇒positive association -⇒negative association associationは「変数間の相互作用」,「関連度」などと訳される.

カテゴリ別にセル度数を比較 (αβ)ijの推定値 就職への関心 強い 一応 あまりない 性格 外向的 0.321* -0.015 -0.306† 内向的 -0.321* 0.015 0.306†

How to Interpret 飽和モデル採用の場合 不飽和モデル採用の場合 2変数間に関連あり ⇒ 交互作用を解釈 主効果の解釈にはあまり関心がない 属性間・条件間の度数の違いを表すのみ パラメータの有意性と符号をCheck 不飽和モデル採用の場合 採用したモデルを解釈

【参考】 実際のセル度数の比較 Case① 複数標本×複数カテゴリの回答 Case② それ以外の場合 各標本について一様性の検定 ⇒ 1変数LLM ANOVAでの「単純主効果の分散分析」に対応 ただし標本間における度数の比較は無意味 Case② それ以外の場合 比較への興味・比較を行う意味による χ2検定,LLM ⇒ 変数間の関連に主眼 特定の行(列)に着目する意味を考慮

2変数LLMのまとめ p×q 分割表にLLMを用いるメリット SAS vs. SPSS 独立からの“偏り”をモデリング 統計手法アラカルト2002 2変数LLMのまとめ p×q 分割表にLLMを用いるメリット 独立からの“偏り”をモデリング ⇒独立性から関連性に導いたセルを同定可能 「χ2検定+残差分析」とほぼ同様の分析結果 独立性以外のさまざまなモデルを検証可能 SAS vs. SPSS 対数線形モデル ⇒ SAS χ2検定+残差分析 ⇒ SPSS 独立性から関連性に導いた

FAQ about LLM > χ2検定で,残差分析をして,「どこが有意であることに > 貢献したか?」ということをみるという手法の弱点は, > どのようなものなのでしょうか? 「χ2検定 ⇒ 残差分析」という流れには, 特に問題はないと思います. ただ,対数線形モデルを用いると,2次元分割表で セルの数が増えたとき(2×3以上の場合)だけでなく, 変数の数が増えたとき(3変数以上の場合)にも 柔軟に対応できる,というのが強みですね.

3.多次元分割表への拡張 - The analysis of Multidimensional tables - シンプソンのパラドックス 3変数-対数線形モデルの導入 3次元分割表の分析

教科書的な例 平成14年度大学院入試問題から 携帯電話の有無×男女別姓への意見 χ2 = 53.02, df = 1, p < .001 ⇒ 高度に有意 携帯電話をもつと男女別姓に賛成? 男女別姓 合計 賛成 反対 携帯電話 あり 82 28 110 なし 220

Not so !! 年齢により層別し再分析 χ2検定はどちらも非有意 That’s strange !! 若年層 中高年層 男女別姓 合計 賛成 反対 携帯電話 あり 80 20 100 2 8 10 なし 88 22 110 χ2 = 0.00, df = 1, p = 1.00

・・・??? C = 1 B 合計 1 2 A 80 20 100 8 10 88 22 110 ⇒AとBは“関連なし” C = 2 82 28 110 220 ⇒AとBは“関連あり”

Graphical Display

という傾向は,「年齢層」という第三変数によって 正しい解釈 ①年齢による意見の違い 若年層は男女別姓に肯定的 ⇒ 80%が賛成 中高年層は否定的 ⇒ 80%が反対 ②年齢による携帯所有率の違い 若年層は携帯所有率が高い ⇒ 約91% が所有 中高年層は低い ⇒ 約91%が所有せず 「携帯あり(なし)⇒別姓賛成(反対)」 という傾向は,「年齢層」という第三変数によって 見かけ上表れたものに過ぎない!!

Simpson’s Paradox 多次元分割表で,変数をむやみに“つぶす” (collapse)のは危険!! 層別にみると“関連なし”⇔全体では“関連あり” 層別にみると“関連あり”⇔全体では“関連なし”  ・・・??? 多次元分割表は,あくまで多次元のままで分析するのが基本!! ⇒対数線形モデルによるアプローチが有効

従来の対処方法 どちらも第三変数の関わりを検証できない 「χ2検定+残差分析」の繰り返し C1とC2で結果を比較 p×q×r 分割表  ⇒ pq×r 分割表 C = 2 B1 B2 A1 ● ▲ A2 ■ ★ C = 1 B1 B2 A1 + - A2 C = 1 B1 B2 A1 ○ △ A2 □ ☆ C = 2 B1 B2 A1 - + A2 A1B1 A1B2 A2B1 A2B2 C1 ○ △ □ ☆ C2 ● ▲ ■ ★

調査データの分析例 大学生の時間的展望 目標があれば未来は明るいか? 将来の見通し×未来イメージ(SD法) 将来目標への欲求の強さを考慮 合計 明るい 暗い 強い あり 146 42 188 なし 34 11 45 弱い 40 74 56 64 120 270 157 427

Simpson’s Paradox !! ⇒χ2 = 0.09, df = 1, p = 0.76 目標への 欲求(強群) 未来イメージ 合計 明るい 暗い 将来の見通し あり 146 42 188 なし 34 11 45 180 53 233 ⇒χ2 = 0.09, df = 1, p = 0.76 欲求(弱群) 40 74 56 64 120 90 104 194 ⇒χ2 = 0.01, df = 1, p = 0.92 目標への欲求 (強群+弱群) 未来イメージ 合計 明るい 暗い 将来の見通し あり 180 82 262 なし 90 75 165 270 127 427 ⇒χ2 = 8.73, df = 1, p < .01

3変数-対数線形モデルの導入 3変数の飽和モデル (i, j, k) セルの 組み合わせ による効果

「2次交互作用」とは (1次)交互作用 2次交互作用⇒“違い方の違い” Bのカテゴリによって,Aの主効果が異なる 一方のカテゴリによる他方の主効果の違い 2次交互作用⇒“違い方の違い” Cのカテゴリによって,交互作用A×Bの効果が異なる ある変数のカテゴリによる,他の2変数からなる交互作用の様相の違い 対数セル度数 lognijk が対象

セル度数 nijk のプロット

対数セル度数 lognijk のプロット           に着目⇒層別に比較 2次交互作用はなさそう? a d’ c’ b c b’ a’ d

SASプログラム 3-1 (DATAステップ) DATA future; DO want = 1 TO 2; DO aim = 1 TO 2; DO image = 1 TO 2; INPUT num @@; OUTPUT; END; END; END; CARDS; 146 42 34 11 34 40 56 64 ; RUN; (Continued on PROC step) SASプログラム 3-1 (DATAステップ) want = 1は将来目標への欲求が強い,2は弱い aim = 1は将来の見通しあり,2はなし image = 1は未来イメージが明るい,2は暗い

SASプログラム 3-1 (PROCステップ) (Continued from DATA step) PROC CATMOD DATA = future; WEIGHT num; /* numが度数であることを明示 */ MODEL want * aim * image = _RESPONSE_; LOGLIN want | aim | image; /* A | B | C = {A | B} | C =A B A*B C A*C B*C A*B*C */ RUN;

要因効果の検討(飽和モデル) MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- WANT 1 2.38 0.1229 AIM 1 13.99 0.0002 WANT*AIM 1 59.38 0.0000 IMAGE 1 18.08 0.0000 WANT*IMAGE 1 29.86 0.0000 AIM*IMAGE 1 0.03 0.8563 WANT*AIM*IMAGE 1 0.09 0.7644 LIKELIHOOD RATIO 0 . .

よいモデルの条件 ①G2が十分小さい⇔ p > .10 ②パラメータが少ない⇔自由度が大きい ①+②を吟味⇒“AIC”によるモデル評価 簡単なモデルにより記述可能 ⇒より複雑なモデルを採用する必要はない “Principal of Parsimony” ①+②を吟味⇒“AIC”によるモデル評価

情報量規準AICの利用 モデルのよさの相対的な判断基準 よいモデルの条件⇒AICが小さい(①+②) AICは小さいほどよい 2つを比較してはじめて意味をもつ よいモデルの条件⇒AICが小さい(①+②) パラメータの追加による“ペナルティ”を付加

探索的にモデルを選択 DF Chi–Sq. Prob(LRのみ) モデル [WAI] [WA][AI][WI] [WA][WI] WANT 1 2.38 2.64 2.76† AIM 13.99*** 16.85*** 18.13*** IMAGE 18.08*** 24.46*** 25.74*** W×A 59.38*** 66.52*** 74.11*** A×I 0.03 0.01 W×I 29.86*** 33.36*** 2 41.40*** W×A×I 0.09 Likelihood Ratio - 0.10 0.7651 0.9513 AIC -1.91↓ -3.90↓

モデル評価のまとめ [WA][AI][WI] vs. [WA][WI] どちらも適合は十分によい (see p-value) AICによると[WA][WI]の方がベター モデル df G2 p AIC [WAI] - [WA][AI][WI] 1 0.09 0.77 -1.91 [WA][WI] 2 0.10 0.95 -3.90

The final model ? 将来の見通しの有無と未来イメージは無関係 将来の 見通し 未来 イメージ 第三変数の影響による見かけ上の関連 目標・計画をもちたいという欲求 条件つき独立モデル 将来の 見通し 未来 イメージ 目標への 欲求

出力結果 ([WA][WI]) RESPONSE PROFILES Response WANT AIM IMAGE -------------------------- 1 1 1 1 2 1 1 2 3 1 2 1 4 1 2 2 5 2 1 1 Response WANT AIM IMAGE -------------------------- 6 2 1 2 7 2 2 1 8 2 2 2 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- WANT 1 -0.0989 0.0596 2.76 0.0967 AIM 2 0.2366 0.0556 18.13 0.0000 WANT*AIM 3 0.4783 0.0556 74.11 0.0000 IMAGE 4 0.2695 0.0531 25.74 0.0000 WANT*IMAGE 5 0.3418 0.0531 41.40 0.0000

※2変数の場合 と同様,パラメー タの最後の項は 出力されない Birchの制約式 (3変数) A B C C A A B B C

PRED = FREQ オプション MODELステートメントで指定 観測度数,期待度数,残差を算出 RESPONSE PROFILES Response WANT AIM IMAGE -------------------------- 1 1 1 1 2 1 1 2 3 1 2 1 4 1 2 2 … … … … PRED = FREQ オプション MODELステートメントで指定 観測度数,期待度数,残差を算出 モデルの当てはまりをCheck Function NumberはResponseに対応 MAXIMUM-LIKELIHOOD PREDICTED VALUES FOR RESPONSE FUNCTIONS AND FREQUENCIES -------Observed------- -------Predicted------ Function Standard Standard Sample Number Function Error Function Error Residual -------------------------------------------------------------------------- F1 146 9.80202149 145.236051 9.45813167 0.76394854 F2 42 6.15376734 42.7639485 5.6657935 -0.7639485 F3 34 5.59399142 34.7639485 5.05506267 -0.7639485 F4 11 3.27362607 10.2360515 1.90007772 0.7639485 F5 34 5.59399142 34.3298969 4.49294853 -0.3298969 F6 40 6.02104039 39.6701031 4.95996877 0.32989689 F7 56 6.97536649 55.6701031 6.08508417 0.3298969 F8 64 7.37614358 64.3298969 6.57676534 -0.3298969

実験データの分析例 街頭募金活動への参加意志を調査 災害のVTRは募金活動への参加を促すか? 性別 VTRの有無 募金活動への参加意志 合計 不参加 一時的参加 全面的参加 男性 VTR視聴群 16 21 9 46 統制群 31 11 4 女性 7 32 12 51 29 3 48 83 80 28 191

セル度数 nijk のプロット

対数セル度数 lognijk のプロット 2次交互作用の存在は微妙?

SASプログラム (DATAステップ & PROCステップ) DATA fund; DO vtr = “y”, “n”; DO gender = “m”, “f”; DO concern = 1 TO 3; INPUT num @@; OUTPUT; END; END; END; CARDS; 16 21 9 7 32 12 31 11 4 29 16 3 ; RUN; SASプログラム (DATAステップ & PROCステップ) vtr = y はVTR視聴群,n は統制群 gender = m は男性,f は女性 concern = 1 は不参加,2 は一時的参加, 3 は全面的参加 PROC CATMOD DATA = fund; WEIGHT num; MODEL vtr * gender * concern = _RESPONSE_; LOGLIN vtr | gender | concern; RUN;

要因効果の検討(飽和モデル) MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- VTR 1 1.65 0.1990 GENDER 1 0.01 0.9314 VTR*GENDER 1 0.01 0.9029 CONCERN 2 21.88 0.0000 VTR*CONCERN 2 29.78 0.0000 GENDER*CONCERN 2 5.66 0.0591 VTR*GENDER*CONCERN 2 2.19 0.3350 LIKELIHOOD RATIO 0 . .

探索的にモデルを選択(1/2) p > .10 †p < .10 *p < .05 **p < .01 [VGC] [VG][GC][VC] VTR 1 1.65 2.24 GENDER 0.01 0.42 CONCERN 2 21.28*** 22.45*** V×G G×C 5.66† 4.84† V×C 29.78*** 29.75*** V×G×C 2.19 Likelihood Ratio - 0.3269 AIC -1.76 DF Chi–Sq. Prob(LRのみ) p > .10 †p < .10 *p < .05 **p < .01 ***p<.001

探索的にモデルを選択(2/2) モデル [VC][GC] [VC][G] [VC] VTR 1 2.16 GENDER 0.32 0.26 CONCERN 2 22.58*** 23.25*** V×G G×C 4.51 V×C 29.67*** V×G×C Likelihood Ratio 3 2.66 5 7.23 6 7.49 0.4467 0.2039 0.2780 AIC -3.34↓ -2.77↑ -4.51↓

モデル評価のまとめ どのモデルも適合はよい (see p-value) AICによると[VC]がベスト Genderと関連する交互作用なし df G2 p AIC [VGC] - [VG][GC][VC] 2 2.24 0.33 -1.76 [VC][GC] 3 2.66 0.45 -3.34 [VC][G] 5 7.23 0.20 -2.77 [VC] 6 7.49 0.28 -4.51 どのモデルも適合はよい (see p-value) AICによると[VC]がベスト Genderと関連する交互作用なし  ⇒Genderの層を“つぶして”考察してよい

性別の層を合併

出力結果([VC]) RESPONSE PROFILES Response VTR GENDER CONCERN ------------------------------ 1 n f 1 2 n f 2 3 n f 3 4 n m 1 5 n m 2 6 n m 3 出力結果([VC]) Response VTR GENDER CONCERN ------------------------------ 7 y f 1 8 y f 2 9 y f 3 10 y m 1 11 y m 2 12 y m 3 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- VTR 1 -0.1357 0.0923 2.16 0.1414 CONCERN 2 0.3672 0.1163 9.97 0.0016 3 0.3853 0.1148 11.27 0.0008 VTR*CONCERN 4 0.6151 0.1163 27.97 0.0000 5 -0.2015 0.1148 3.08 0.0791

部分のセルは未検定(= n.s.とは限らない) 募金活動への参加意志 合計 不参加(1) 一時的 参加(2) 全面的 参加(3) VTR VTR視聴群(y) 23 (-0.6151***) 53 (0.2015†) 21 (0.4136**) 97 (-0.1357) 統制群(n) 60 (0.6151***) 27 (-0.2015†) 7 (-0.4136**) 94 (0.1357) 83 (0.3672**) 80 (0.3853***) 28 (-0.7525***) 191    部分のセルは未検定(= n.s.とは限らない) (SASでは)文字型変数をアルファベット順に読み込むため Birchの制約式 or 記号の割り当て方を変更し再び“RUN” (例)① y → 1, n → 2,② 不参加→3,全面的→1,③ ①+②

The final model VTRの視聴が募金活動への参加意志に(有意に)影響 VTR 参加意志 性別 VTR視聴群 統制群では逆の傾向 「不参加」が負で有意 「全面的」が正で有意 統制群では逆の傾向 性別の効果はなし VTR 参加意志 性別

3変数LLMのまとめ 多次元分割表は,あくまで多次元のままで分析するのが基本 多次元分割表にLLMを用いるメリット Simpson’s Paradox 2次元に帰着できないケースは多々存在 多次元分割表にLLMを用いるメリット 変数間の関連が特定可能 第三変数の関わりを分析 多くのモデルを統一的な手法により検証可能

3次元分割表に適用可能なモデル 飽和モデル 2次交互作用 = 0 条件つき独立性 A B A B C C [ABC] [AB][AC][BC] 条件つき独立性 [AC][BC] etc C を与えたもとで A, B は独立 A B A B C C

3次元分割表に適用可能なモデル 同時独立性 完全独立性 A B A B C C [A][BC] etc A (or B) を“つぶす”と,B (or A), C は独立 完全独立性 [A][B][C] A B A B C C 「階層の原則」に従っても “19種類”存在

3変数LLMによる分析の手順 飽和モデル の適用 分析終了 階層の原則 適合せず (p≦0.10) (αβγ)ijk = 0 とおく の採用 採用した モデルの解釈 理論的根拠も重要 適合(p>0.10) 他の非有意な 変数を 0 とおく 適合度の吟味 (G2, p , AIC) 適切なモデル の採用

4.まとめ - Summary - χ2検定の限界 対数線形モデルによるアプローチ SASプログラム―PROC CATMOD

χ2検定から対数線形モデルへ χ2検定の限界 対数線形モデルによるアプローチ セルや変数の増加に伴う無力化 統計手法アラカルト2002 χ2検定から対数線形モデルへ χ2検定の限界 セルや変数の増加に伴う無力化 有意性に“貢献”したセルをつきとめられない 変数間の関連を特定できない 対数線形モデルによるアプローチ セルや変数が増加するほど威力を発揮 「χ2検定+残差分析」を包括 変数間の関連が特定可能 SASではCATMODプロシージャを使用

SASプログラム PROC CATMOD DATA = dataname; WEIGHT num; MODEL A*B*C = _RESPONSE_ / PRED = FREQ; LOGLIN A | B | C; RUN; 分割表からの分析にはWEIGHTステートメントを使用 _RESPONSE_により対数線形モデルを指定 必要に応じて PRED = FREQ オプションを併用 LOGLINステートメントでモデルを指定 “ | ”や“@n”によりプログラムの簡略化が可能

References B.S.Everitt 1992 The Analysis of Contingency Tables Second Edition CHAPMAN & HALL / CRC 廣津千尋 1982 離散データ解析 教育出版 海保博之 1986 心理・教育データの解析法10講 ■応用編■ 福村出版 松田紀之 1988 質的情報の多変量解析 朝倉書店 Ronald Christensen 1997 Log-Linear Models and Logistic Regression Second Edition Springer SAS インスティチュートジャパン 1993 SAS / STAT ソフトウェア:ユーザーズガイド Version 6 First Edition 田中敏,山際勇一郎 1992 ユーザーのための教育・心理統計と実験計画法 教育出版 東京大学教養学部統計学教室 1991 統計学入門 東京大学出版会 東京大学教養学部統計学教室 1992 自然科学の統計学 東京大学出版会 都筑学 1999 大学生の時間的展望-構造モデルの心理学的検討- 中央大学出版部

Appendix 1変数の傾向分析 - The analysis of p×1 Contingency tables - 1変数-対数線形モデルの導入 p×1分割表の分析 一様性の検定

p×1分割表の具体例 困ったときや悩みごとの相談相手を調査 人数の偏りは“偶然”か?“必然”か? ⇒「一様性の検定」 期待 度数 母親 32 28 学校の友達 47 父親 25 学校の先生 18 兄弟・姉妹 24 仲の良い異性 22 合計 168 困ったときや悩みごとの相談相手を調査 対象:中高生168人 人数の偏りは“偶然”か?“必然”か?  ⇒「一様性の検定」 28 = 168 / 6

1変数-対数線形モデルの導入 第 i カテゴリに 度数の偏りを 生じさせる効果

SASプログラム DATA loglin1; DO who = 1 TO 6; INPUT num @@; OUTPUT; END; CARDS; 32 47 25 18 24 22 ; RUN; PROC CATMOD DATA = loglin1; WEIGHT num; MODEL who = _RESPONSE_; LOGLIN who; SASプログラム who = 1は母親, 2は学校の友達, 3は父親, 4は学校の先生, 5は兄弟・姉妹 6は仲の良い異性

主効果(度数の偏り)は有意⇒各セルの検討を行う MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- WHO 5 18.40 0.0025 LIKELIHOOD RATIO 0 . . 主効果(度数の偏り)は有意⇒各セルの検討を行う ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- WHO 1 0.1834 0.1654 1.23 0.2677 2 0.5678 0.1439 15.56 0.0001 3 -0.0635 0.1822 0.12 0.7275 4 -0.3920 0.2087 3.53 0.0604 5 -0.1043 0.1852 0.32 0.5733

分析結果(まとめ) パラメータの有意性と符号を手がかりに解釈 中高生の相談相手 +⇒more frequency 人数 母親 32 (0.183) 学校の友達 47 (0.568***) 父親 25 (-0.064) 学校の先生 18 (-0.392†) 兄弟・姉妹 24 (-0.104) 仲の良い異性 22 (-0.191) 合計 168 分析結果(まとめ) パラメータの有意性と符号を手がかりに解釈 中高生の相談相手 学校の友達が最も多く選ばれる傾向にある +⇒more frequency -⇒less frequency Birchの制約式より算出