分割表データの分析 With the help of Mr. Machida

Slides:



Advertisements
Similar presentations
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Advertisements

第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
1 6章 データ数不揃いの場合の分析 アンバランス型(不釣合い型)の 計画 ss2 や ss3 って何?
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
1 / 44 SPSS ハウツー 独立行政法人 大学入試センター 橋本 貴充 2007 年 3 月 30 日 ( 金 )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
第6回授業(5/17)での学習目標 1.2.1 実験計画法のひろがり(途中から) 1.2.2 節完全無作為化デザインをもっと知 ろう
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
行動計量学研究分野B4 町田 透 対数線形モデルによる 分割表データの分析 行動計量学研究分野B4 町田 透
第4章 MIXED Model 4.1 MIXED Model とは 4.2 反復測定データの分析1 分割法タイプのデータ
Rによる回帰分析 高崎経済大学 宮田 庸一.
第1部 一元配置分散分析: 1つの条件による母平均の違いの検定 第2部: 2つの条件の組み合わせによる二元配置分散分析
分散分析マスターへの道.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
日本行動計量学会主催 第4回春の合宿セミナー
実証分析の手順 経済データ解析 2011年度.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
確率・統計Ⅱ 第7回.
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
ロジスティック回帰分析 with the assistance of Mr. M. Torii
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
analysis of survey data 第2回 堀 啓造
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
離婚が出生数に与える影響 -都道府県データを用いた計量分析
相関分析.
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
4章までのまとめ ー 計量経済学 ー.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
第11回授業(12/11)の学習目標 第8章 分散分析 (ANOVA) の学習 分散分析の例からその目的を理解する 分散分析の各種のデザイン
多母集団の同時分析 豊本満喜子 大阪大学人間科学部.
第10回授業(12/4)の目標 カイ2乗検定の実習 WEB を用いたカイ2乗検定と、授業で行った検定結果の正誤の確認方法(宿題)
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
再討論 狩野裕 (大阪大学人間科学部).
部分的最小二乗回帰 Partial Least Squares Regression PLS
analysis of survey data 堀 啓造
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロス表分析補遺 。堀 啓造(香川大学経済学部) 2003年5月.
クロス表とχ2検定.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

分割表データの分析 With the help of Mr. Machida 1.カイ2乗検定 2.対数線形モデル

1.1 分割表とは 1.2 2×2分割表の分析 1.3 p×q分割表の分析 1.カイ2乗検定 1.1 分割表とは 1.2 2×2分割表の分析 1.3 p×q分割表の分析

1.1 分割表とは

分割表とは 対象者から得た“質的な”データを集計してまとめた表のこと クロス表,集計表ともいう 量的なデータでの散布図に対応 もともと厳密な数値化が困難 or 不可能なデータ 性別,血液型,出身地 etc・・・ 量的なデータからカテゴリーに分類することも 尺度得点により「高群」・「低群」に分類 etc・・・ クロス表,集計表ともいう

2次元分割表の具体例 親が子どもに期待する最終学歴を調査 性別(2)と希望学歴(4)の2×4分割表

2次元分割表の一般形

3次元分割表の具体例 募金活動への参加意志を調査 VTRの有無(2), 性別(2), 参加意志(3)の2×2×3 分割表 災害のVTRを視聴 これ,分析しないの? 田中敏(1996)実践心理データ解析

1.2 2×2分割表の解析

2×2分割表の例 ---阪大人間科学部での調査---

二つの属性が関係ないとすると

比率で見ると

周辺確率との関係

検定方式 二つの属性に 関係がない 二つの属性に 何らかの関係がある

阪大人間科学部では

連関の強さの評価 カイ2乗検定が有意になったとき odds 比=ad/bc=(a/b)/(c/d)=10.4 クラメールのV:

二項分布

多項分布

たこ焼きホームページ http://koko15.hus.osaka-u.ac.jp/~taco/goraku/recipe/ http://www.mesh.ne.jp/osaka/takoyaki/

SASプログラム Options nocenter; DATA taco1; DO region = '関西人', '非関西'; DO takoyaki = 'たこ焼き器あり', 'たこ焼き器なし'; INPUT num @@; OUTPUT; END; END; CARDS; 12 3 5 13 ; RUN; PROC PRINT; PROC FREQ DATA = taco1; WEIGHT num; TABLES region * takoyaki / CHISQ; RUN;

SAS出力(1) Obs region takoyaki num 1 関西人 たこ焼き器あり 12 2 関西人 たこ焼き器なし 3 Frequency| Percent | Row Pct | Col Pct |たこ焼き|たこ焼き| Total |器あり |器なし | ---------+--------+--------+ 関西人 | 12 | 3 | 15 | 36.36 | 9.09 | 45.45 | 80.00 | 20.00 | | 70.59 | 18.75 | 非関西 | 5 | 13 | 18 | 15.15 | 39.39 | 54.55 | 27.78 | 72.22 | | 29.41 | 81.25 | Total 17 16 33 51.52 48.48 100.00 SAS出力(1) Obs region takoyaki num 1 関西人 たこ焼き器あり 12 2 関西人 たこ焼き器なし 3 3 非関西 たこ焼き器あり 5 4 非関西 たこ焼き器なし 13

SAS出力(2) Statistics for Table of region by takoyaki Statistic DF Value Prob ------------------------------------------------------ Chi-Square 1 8.9335 0.0028 Likelihood Ratio Chi-Square 1 9.4350 0.0021 Continuity Adj. Chi-Square 1 6.9650 0.0083 Mantel-Haenszel Chi-Square 1 8.6627 0.0032 Phi Coefficient 0.5203 Contingency Coefficient 0.4616 Cramer's V 0.5203

SAS出力(3) Fisher's Exact Test ---------------------------------- Cell (1,1) Frequency (F) 12 Left-sided Pr <= F 0.9997 Right-sided Pr >= F 0.0036 Table Probability (P) 0.0033 Two-sided Pr <= P 0.0049 Sample Size = 33

解説 Table Prob= P(a=12)=0.0033 Right-sided Pr=P(a=12,13,14,15)=0.0036 Left-sided Pr=P(a=12,11,…1,0)=0.9997 Two-sided Pr =P(a=12,13,14,15)+P(a=4,3,..,0)=0.0049

まとめ 基本はchi-squareの利用 nが小さいときにはFisher’s Exact Testを 用いる 最小二乗法系の統計量 LRは尤度にもとづく方法 連続修正を施したchi-squareを用いるべきだ という意見もあるが,nが大きいときは大差ない nが小さいときにはFisher’s Exact Testを 用いる

注意点 期待度数 Eij が 5 以下のセルが存在する場合 対応 出力結果に警告が表示 χ2分布への近似が悪くなるため WARNING: ** % of the cells have expected counts less than 5. Chi-Square may not be a valid test. χ2分布への近似が悪くなるため 対応 Fisher’s Exact Test 意味が似たセルを結合 研究目的から外れては無意味 サンプル数を増やす

p×q 分割表の解析

実際例 「あなたにとって,過去・現在・未来のうちで最も重要な意味をもつのはどれですか?」 年齢層による違いはみられるか?

分析結果 Statistics for Table of age by time Statistic DF Value Prob ----------------------------------------------- Chi-Square 4 19.4288 0.0006 Likelihood Ratio Chi-Square 4 19.4515 0.0006 Mantel-Haenszel Chi-Square 1 18.2429 <.0001 Phi Coefficient 0.2766 Contingency Coefficient 0.2666 Cramer's V 0.1956

仮説と期待度数

検定の公式

χ2検定で有意のとき 2つの変数は独立ではない 関連の強さはどの程度? どのセルが有意性に“貢献”したのか? 連関係数 p×q 分割表の場合,同定は難しい 残差分析

連関の強さを表す指数

残差分析 χ2検定の事後分析(p×q 分割表) セルごとに「調整された残差」を算出 どのセルが有意性に貢献したのかを判定 χ2検定が有意でないときは用いてはならない セルごとに「調整された残差」を算出 残差=観測度数-期待度数 標準正規分布に従うように調整

残差分析の結果(SPSS)

Procedure Step 1) 期待度数 mij (H0のもとでの理論値)をもとに, 各セルの「標準化された残差」 eij を求める Step 2) eij の分散 vij を求める Step 3) 各セルの「調整された残差」 dij を求める Step 4) dij が N (0,12) に近似的に従うことを利用し,  各セルの検討を行う

残差分析の結果(まとめ) 青年期では過去指向は少なく,未来指向が多い 老年期では逆の傾向がみられる

Further topics 独立性の検定と一様性の検定 マンテル・ヘンツェル検定 傾向性と対称性 マクネマーの検定 コクランのQ検定 予測による連関の強さの評価

2.1 対数線形モデルの必要性 2.2 対数線形モデルの基礎: 2変数の場合 2.3 シンプソンのパラドックス: 3変数の場合 2.対数線形モデル 2.1 対数線形モデルの必要性 2.2 対数線形モデルの基礎:    2変数の場合 2.3 シンプソンのパラドックス:    3変数の場合

2.1 対数線形モデルの必要性

対数線形モデルとは 各セル度数の“対数値”がいくつかの 要因効果に分解されると仮定 モデル式は分散分析と酷似 質的データの分散分析 文献によっては,各セルの“確率”の対数値に線形モデルを当てはめていることもある

χ2検定の限界 χ2検定は “overall” な検定 セルや変数の増加に伴い無力化 得られる情報は分割表の全体的な傾向のみ where? 独立でないときにどのような情報が得られるか セルや変数の増加に伴い無力化 where? X Y Z related? where? where?

独立でないときのモデル化 χ2検定では“積”のモデルを仮定 H1のとき,どのように考えればよいのか? 2変数A,Bが独立でない ことによって生じる効果

対数線形モデルへ 対数を取ると“積”が“和”になりANOVAの類型となる⇒対数線形モデル!!

シンプソンのパラドックス 多元分割表において,以下の分析結果に 矛盾が生じること その理解に対数線形モデルが極めて有効 要因Aの水準ごとにB×Cの分割表を分析 要因Aの水準を併合してB×Cの分割表を分析 その理解に対数線形モデルが極めて有効

シンプソンのパラドックスの例 H14年度大学院入試問題 11.(行動データ科学)携帯電話を持つと男女別姓に賛成するのか?携帯電話の有無と男女別姓の賛否を聞いた調査で表1のデータを得た(仮想データ).つぎに,回答者を年齢で層別したところ表2のようになった.   表1 表2

つづき (1)    上記の結果を解釈せよ. (2) 上記の「年齢」のように,調べたい要因に影響を及ぼす別の要因を剰余変数(extraneous variable),または,第三変数という.観察データの分析では剰余変数に注意しなければならない.剰余変数を制御して実験・分析する方法として以下の(a), (b) (c) を考える.これらの相互比較を行い,適用するときの注意点を述べよ. (a) 年齢が一定のサンプルをとる. (b) 若年層,中高年層などのように年齢も要因として取り上げる. (c)  被験者をランダムに二分し,一方には携帯電話を持たせ他方には          持たせない.一定期間後,男女別姓についての意見を問う. (3) (2)の (c) における実験で,なぜ年齢の影響が制御できているのか説明せよ. (4) 実験データの分析において標示因子と制御因子という区別がある.たとえば,性別の要因は標示因子であり,携帯電話を持たせるか持たせないかという要因は制御因子である.このような区別が意味をもつ理由を説明せよ.

CATMOD procedure Categorical (Data) Modeling いくつかの質的変数間の関係を分散分析のように分析するためのツール 対数線形モデルはCATMODをつかう 多項のロジスティック回帰分析もできる

2.2 対数線形モデルの基礎: 2変数の場合 2変数-対数線形モデルの導入 p×q 分割表の再分析 SASによる分析例―PROC CATMOD

記号

独立性を表す対数線形モデル (2変数)

独立でないモデル 2次元分割表で考えられる全ての効果を含む これ以上新たな項は導入不可能  ⇒「飽和モデル」(saturated model)

2要因分散分析との対応

「主効果」の意味 Aの主効果が存在   ⇒Aのカテゴリーによって対数セル度数の平均が   (有意に)異なる Bは考慮に入れない (Aのみで集計)

「交互作用」の意味 AとBの交互作用が存在 ⇒Bのカテゴリーによって,Aのカテゴリーによる 対数セル度数の変動の様子が(有意に)異なる

「交互作用」の意味 AとBの交互作用がある AとBが関連している Aの水準によってBの効果が異なる 年齢層によって重視する時間が異なる

なぜ度数の「対数」なのか 交互作用 度数の場合: (a-c)-(b-d) 対数値の場合: a b c d

SASプログラム 2-1 (DATAステップ) DATA loglin2; DO age = 1 TO 3; DO time = 1 TO 3; INPUT num @@; OUTPUT; END; END; CARDS; 28 34 46 24 22 18 45 21 16 ; RUN; (Continued on PROC step) SASプログラム 2-1 (DATAステップ) age = 1は青年期,2は成人期, 3は老年期 time = 1は過去,2は現在, 3は未来

度数ゼロのセルを含む場合 ⇒明らかにまずい ゼロに近い正の数に置き換える (可能な限りは)サンプル数の増加が無難 …          ⇒明らかにまずい ゼロに近い正の数に置き換える (可能な限りは)サンプル数の増加が無難 … INPUT num @@; IF num = 0 THEN num = 0.5; /* num = 0 のときは 0.5 に置き換える */ OUTPUT;

SASプログラム 2-1 (PROCステップ) (Continued from DATA step) PROC CATMOD DATA = loglin2; WEIGHT num; MODEL age * time = _RESPONSE_ ; /* _RESPONSE_により対数線形モデルを指定 */ LOGLIN age | time; /*  モデルに投入する要因変数を指定 */ RUN;

変数の効果(飽和モデル) 各変数の主効果・交互作用について有意性を検討 飽和モデル:すべての変数を含めたモデル MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- AGE 2 11.43 0.0033 TIME 2 3.38 0.1843 AGE*TIME 4 18.62 0.0009 LIKELIHOOD RATIO 0 . . 各変数の主効果・交互作用について有意性を検討 飽和モデル:すべての変数を含めたモデル 飽和モデルではLIKELIHOOD RATIOは無視してよい

モデルのルール 多くの不飽和モデルが考えられる 階層の原則(hierarchy principle) モデルが高次の交互作用を含むときは,そのなかの変数による低次の効果も“必ず”含む      を含める⇒     も“必ず”含める

不飽和モデルの検討方法 尤度比カイ2乗統計量G 2 は 小さいほど良い ⇔ p が大きいほど良い 2変数間に Source DF Chi-Square Prob -------------------------------------------------- LIKELIHOOD RATIO 4 19.45 0.0006 尤度比カイ2乗統計量G 2 は         小さいほど良い モデルの当てはまりの“悪さ”を示す ⇔ p が大きいほど良い モデルが正しいときに,観測されたデータが 発生する可能性(0.10以上が望ましい) 2変数間に 独立性を仮定

モデルの適合度 「階層の原則」に従い,高次の項から順に 0 とおいてみる 不飽和モデルはどれも適合が悪い

パラメータの推定値 出力結果は不十分:残りのパラメータは? ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- AGE 1 0.2879 0.0877 10.79 0.0010 2 -0.2213 0.0988 5.02 0.0250 TIME 3 0.1645 0.0903 3.32 0.0686 4 -0.0539 0.0949 0.32 0.5704 AGE*TIME 5 -0.3947 0.1239 10.15 0.0014 6 0.0178 0.1245 0.02 0.8862 7 -0.0396 0.1344 0.09 0.7684 8 0.0917 0.1391 0.44 0.5095 パラメータは辞書順に並んでいる. 出力結果は不十分:残りのパラメータは?

Birchの制約式(2変数) 各効果におけるパラメータの総和は“0” CATMODプロシージャ では,パラメータは番号の小さい順に出力 最後の項は出力されない

パラメータの推定値 残りのパラメータは  のようにして求める

分割表を併用したまとめ方 未検定を表示 ※   部分のセルは未検定(=n.s.とは限らない)

交互作用の推定値 独立モデルからのズレを表す |交互作用|が大きいことは独立モデルから 外れていることを示す 必ずしも,頻度が高い(低い)ことを意味しない

層別(行別)に比較する 交互作用推定値 青年層 成人層 老年層

+⇒more frequency -⇒less frequency 解釈のレシピ 解釈は交互作用から 主効果の解釈にはあまり関心がない 属性間・条件間の度数の違いを表すのみ (有意性に加えて)パラメータの“符号”も重要 プラス⇒独立モデルと比してより多い頻度 マイナス⇒独立モデルと比してより少ない頻度 +⇒more frequency -⇒less frequency

まとめ 2変数・多カテゴリーの分割表データの 対数線形モデルによる分析 実用上のススメ 独立からの「ずれ」をモデリングして情報を得る 「カイ2乗検定+残差分析」とほぼ同様の分析 結果 実用上のススメ SAS....対数線形モデル SPSS...カイ2乗検定+残差分析

2.3 シンプソンのパラドックス: 3変数の場合 対数線形モデルの真骨頂

3変数の対数線形モデル 3変数の飽和モデル (i, j, k) セルの 組み合わせ による効果

例1:教科書的例

Simpson’s Paradox 多次元分割表で,変数をむやみに“つぶす” (collapse)のは危険!! 層別にみると“関連なし”⇔全体では“関連あり” 層別にみると“関連あり”⇔全体では“関連なし”  ・・・??? 多次元分割表は,多次元のままで分析するのが基本 ⇒ 対数線形モデル

SASプログラム DATA keitai; INPUT age keitai bessei freq; CARDS; 1 1 1 2 1 1 0 8 1 0 1 20 1 0 0 80 0 1 1 80 0 1 0 20 0 0 1 8 0 0 0 2 ; PROC CATMOD DATA=keitai; WEIGHT freq; MODEL age*keitai*bessei = _RESPONSE_; LOGLIN age|keitai|bessei; RUN; SASプログラム

例1:対数線形モデル分析結果 Source DF EST χ2 Prob --------------------------------------------- AGE 1 0 0.00 1.0000 KEITAI 1 0 0.00 1.0000 AGE*KEITAI 1 -1.15 61.71 0.0000 BESSEI 1 0 0.00 1.0000 AGE*BESSEI 1 -0.69 22.37 0.0000 KEITAI*BESSEI 1 0 0.00 1.0000 AGE*KEITAI*BESSEI 1 0 0.00 1.0000 注意:実は,本データに対数線形モデルを適用するには セル度数が少なすぎる

例1:図示すると 携帯 男女別姓 年齢 男女別姓 携帯 年齢

条件付独立

パラメータの推定値

補遺:なぜ対数か なぜ度数ではなく対数値をつかうのか 全体のデータ(度数)   若年層のデータ(度数)

度数の対数のプロットと交互作用 全体のデータ           若年層のデータ

対数がよい 交互作用 度数の場合: (a-c)-(b-d) 対数値の場合: a b c d

例2:教科書的例 機械によって不良品の出方に違いがあるかどうかを調べたい

例2:対数線形モデル分析結果 Source DF EST χ2 Prob ---------------------------------------------- WORKER 1 0.00 0.00 1.0000 KIKAI 1 0.00 0.00 1.0000 WORKER*KIKAI 1 0.00 0.00 1.0000 DEFAULT 1 0.00 0.00 1.0000 WORKER*DEFAULT 1 0.00 0.00 1.0000 KIKAI*DEFAULT 1 0.00 0.00 1.0000 WORKER*KIKAI*DEFAULT 1 -0.42 60.32 0.0000

例2:図示すると 作業者A 機械 a 良・不良 作業者 良・不良 機械 機械と作業者の交互作用がある 作業者B 機械 -a 良・不良

2次交互作用

例3:実際のデータ Hot Hand 現象は真か? バスケットのフリースローで1回目に成功すると2回目の成功確率が上がる?!

例3:カイ2乗検定結果

例3:対数線形モデル分析結果 Source DF χ2 Prob ーーーーーーーーーーーーーーーーーーーーー player 1 0.44 0.5077 first 1 41.95 <.0001 player*first 1 30.84 <.0001 second 1 73.71 <.0001 player*second 1 33.28 <.0001 first*second 1 0.33 0.5641 player*first*second 1 0.09 0.7580

例3:プーリング後の分析結果 Source DF -Square > ChiSq --------------------------------------- player 1 0.24 0.6266 first 1 71.51 <.0001 second 1 112.60 <.0001 player*first 1 52.61 <.0001 player*second 1 49.25 <.0001 Likelihood Ratio 2 0.35 0.8392

例3:図示すると 1回目 2回目 プレイヤ の 実力 2回目 1回目 プレイヤ の 実力

例4:時間的展望 見通しがあると毎日が充実? 「将来展望(将来の見通し)の有無」と 「毎日の生活への満足感」を調査 χ2検定は高度に有意 χ2(1) = 8.73, p = 0.003**

Really ? 将来展望の確立は青年期の中心的課題 しかし,「未来指向=適応的」とは限らない 「将来の目標はあるが,実現できるか不安」 「今が楽しいから別にそれでいい」 将来の見通しの有無が,個人にとってどのような意味をもつのかによって,現在への満足感は異なるのではないか?

層別に分析 「将来展望の獲得が個人にとって重要な意味をもつかどうか」も考慮してみる ⇒χ2検定はどちらも有意でない 「将来展望の獲得」が重要な群 ⇒χ2(1) = 0.09, p = 0.76 (n.s.) 「将来展望の獲得が個人にとって重要な意味をもつかどうか」も考慮してみる ⇒χ2検定はどちらも有意でない 「将来展望の獲得」が重要でない群 ⇒χ2(1) = 0.01, p = 0.92 (n.s.)

・・・??? ⇒ ⇒AとBは“関連なし” ⇒AとBは“関連あり” ⇒AとBは“関連なし” C = 1 B 合計 1 2 A 146 42 188 34 11 45 180 53 233 ・・・??? C = 1,2 B 合計 1 2 A 180 82 262 90 75 165 270 157 427 ⇒AとBは“関連なし” ⇒ C = 2 B 合計 1 2 A 34 40 74 56 64 120 90 104 194 ⇒AとBは“関連あり” ⇒AとBは“関連なし”

3次元分割表として 対数線形モデル分析 将来展望の有無とその重要性,毎日の生活への満足感の間にはどのような関連がみられるか? 

例4:分析結果(飽和モデル) Source DF x^2 Prob ------------------------------------------- MEANING 1 2.38 0.1229 GOAL 1 13.99 0.0002 MEANING*GOAL 1 59.38 0.0000 SATISFY 1 18.08 0.0000 MEANING*SATISFY 1 29.86 0.0000 GOAL*SATISFY 1 0.03 0.8563 MEANING*GOAL*SATISFY 1 0.09 0.7644 LIKELIHOOD RATIO 0 . .

探索的にモデルを選択 ○ ◎

出力結果 ([AC][BC]) 各変数・各セルの有意性を検討 出力結果は不十分 MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- MEANING 1 2.76 0.0967 GOAL 1 18.13 0.0000 MEANING*GOAL 1 74.11 0.0000 SATISFY 1 25.74 0.0000 MEANING*SATISFY 1 41.40 0.0000 LIKELIHOOD RATIO 2 0.10 0.9513 出力結果 ([AC][BC]) 各変数・各セルの有意性を検討 出力結果は不十分 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- MEANING 1 -0.0989 0.0596 2.76 0.0967 GOAL 2 0.2366 0.0556 18.13 0.0000 MEANING*GOAL 3 0.4783 0.0556 74.11 0.0000 SATISFY 4 0.2695 0.0531 25.74 0.0000 MEANING*SATISFY 5 0.3418 0.0531 41.40 0.0000

分析結果 (まとめ) +⇒more frequency -⇒less frequency 残りのパラメータはBirchの制約式から求める 独立変数の主効果や独立変数どうしの交互作用はあまり情報をもたない

モデルの解釈 ??? 将来の見通しがあることが,直ちに毎日の充実感に結びつくわけではない 毎日の生活 への満足感 将来展望の 確立 将来の見通しがあることが,直ちに毎日の充実感に結びつくわけではない 「将来展望の獲得が個人にとってどのような意味をもつか」を考慮すると,「将来展望の有無」と「毎日の生活への満足感」は無関係 将来展望の 重要性 毎日の生活 への満足感 確立

PRED = FREQ オプションによる出力 観測度数と理論度数,残差の算出を指定 MAXIMUM-LIKELIHOOD PREDICTED VALUES FOR RESPONSE FUNCTIONS AND FREQUENCIES -------Observed------- -------Predicted------ Function Standard Standard Sample Number Function Error Function Error Residual -------------------------------------------------------------------------- F1 146 9.80202149 145.236051 9.45813167 0.76394854 F2 42 6.15376734 42.7639485 5.6657935 -0.7639485 F3 34 5.59399142 34.7639485 5.05506267 -0.7639485 F4 11 3.27362607 10.2360515 1.90007772 0.7639485 F5 34 5.59399142 34.3298969 4.49294853 -0.3298969 F6 40 6.02104039 39.6701031 4.95996877 0.32989689 F7 56 6.97536649 55.6701031 6.08508417 0.3298969 F8 64 7.37614358 64.3298969 6.57676534 -0.3298969 RESPONSE PROFILES Response MEANING GOAL SATISFY -------------------------------- 1 1 1 1 2 1 1 2 3 1 2 1 4 1 2 2 … … … … PRED = FREQ オプションによる出力 観測度数と理論度数,残差の算出を指定 Function Number は Response に対応している

例5:実験データの例 街頭募金活動への参加意志を調査 災害のVTR VTRの有無 性別 募金活動への参加意志 合計 不参加 一時的参加 全面的参加 VTR視聴群 男性 16 21 9 46 女性 7 32 12 51 統制群 31 11 4 29 3 48 83 80 28 191 田中敏(1996)実践心理データ解析

Graphical Display

対数セル度数のプロット 2次交互作用の存在は微妙?

SASプログラム (DATAステップ & PROCステップ) DATA fund; DO vtr = “y”, “n”; DO gender = “m”, “f”; DO concern = 1 TO 3; INPUT num @@; OUTPUT; END; END; END; CARDS; 16 21 9 7 32 12 31 11 4 29 16 3 ; RUN; SASプログラム (DATAステップ & PROCステップ) vtr = y はVTR視聴群,n は統制群 gender = m は男性,f は女性 concern = 1 は不参加,2 は一時的参加, 3 は全面的参加 PROC CATMOD DATA = fund; WEIGHT num; MODEL vtr * gender * concern = _RESPONSE_; LOGLIN vtr | gender | concern; RUN;

要因効果の検討(飽和モデル) MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- VTR 1 1.65 0.1990 GENDER 1 0.01 0.9314 VTR*GENDER 1 0.01 0.9029 CONCERN 2 21.88 0.0000 VTR*CONCERN 2 29.78 0.0000 GENDER*CONCERN 2 5.66 0.0591 VTR*GENDER*CONCERN 2 2.19 0.3350 LIKELIHOOD RATIO 0 . .

探索的にモデルを選択(1/2) DF Chi–Square Prob(LRのみ) モデル [VGC] [VG][GC][VC] VTR 1  1.65 1  2.24 GENDER 1  0.01 1  0.42 CONCERN 2  21.28*** 2  22.45*** V×G G×C 2  5.66† 2  4.84† V×C 2  29.78*** 2  29.75*** V×G×C 2  2.19 Likelihood Ratio - 2  2.24   0.3269 DF Chi–Square Prob(LRのみ)

探索的にモデルを選択(2/2) モデル [VC][GC] [VC][G] [VC] VTR 1 2.16 1 2.16 GENDER 1   2.16 1  2.16 GENDER 1   0.32 1   0.26 CONCERN 2  22.58*** 2  23.25*** V×G G×C 2   4.51 V×C 2  29.67*** V×G×C Likelihood Ratio 3   2.66 0.4467 5   7.23 0.2039 6   7.49 0.2780

モデル評価のまとめ どのモデルも適合は良い(see p 値) AICによると[VC]がよい Genderの交互作用がないので,男女の層をつぶしてよい

男女の層を合併

出力結果([VC]) RESPONSE PROFILES Response VTR GENDER CONCERN ------------------------------ 1 n f 1 2 n f 2 3 n f 3 4 n m 1 5 n m 2 6 n m 3 出力結果([VC]) Response VTR GENDER CONCERN ------------------------------ 7 y f 1 8 y f 2 9 y f 3 10 y m 1 11 y m 2 12 y m 3 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- VTR 1 -0.1357 0.0923 2.16 0.1414 CONCERN 2 0.3672 0.1163 9.97 0.0016 3 0.3853 0.1148 11.27 0.0008 VTR*CONCERN 4 0.6151 0.1163 27.97 0.0000 5 -0.2015 0.1148 3.08 0.0791

部分のセルは未検定(= n.s.とは限らない) 募金活動への参加意志 合計 不参加(1) 一時的 参加(2) 全面的 参加(3) VTR VTR視聴群(y) 23 (-0.6151***) 53 (0.2015†) 21 (0.4136**) 97 (-0.1357) 統制群(n) 60 (0.6151***) 27 (-0.2015†) 7 (-0.4136**) 94 (0.1357) 83 (0.3672**) 80 (0.3853***) 28 (-0.7525***) 191    部分のセルは未検定(= n.s.とは限らない) (SASでは)文字型変数をアルファベット順に読み込むため Birchの制約式 or 記号の割り当て方を変更し再び“RUN” (例)① y → 1, n → 2,② 不参加→3,全面的→1,③ ①+②

The final model VTRの視聴が募金活動への参加意志に(有意に)影響 VTR 参加意志 性別 VTR視聴群 統制群では逆の傾向 「不参加」が負で有意 「全面的」が正で有意 統制群では逆の傾向 性別の効果はなし VTR 参加意志 性別

対数線形モデル(3変数)の まとめ 2変数の分割表の分析に帰着できない 場合が多々ある 第3変数の関わりを分析するためには 対数線形モデルが極めて有効 第3変数の関わり方によって多くのモデルがある それらの中からベストなモデルを選択する

3変数でのモデル 「階層の原則」に従っても“19種類” 飽和モデル・・・[ABC] 2次交互作用 = 0 ・・・[AB][AC][BC] 条件つき独立性・・・[AB][AC] etc A を与えたもとで B,C は独立 同時独立性・・・[A][BC] etc B (or C) を“つぶす”と,A,C (or B) は独立 完全独立性・・・[A][B][C]

図示すると A A A A B C B C B C B C 2次交互作用=0 条件付独立 同時独立 完全独立 2次交互作用=0 条件付独立   同時独立    完全独立 [AB][BC][AC] [AB][AC] [A][BC] [A][B][C]

分析の手順のまとめ Step 1) まず飽和モデルを適用 Step 2) 2次交互作用 を 0 とおいてみる モデルの適合度をCheck ( p > 0.10? ) 適合せず⇒飽和モデル(階層の原則) Step 3) さらに,有意でない変数を 0 とおいてみる モデルが棄却されないこと (p>0.10) パラメータが少ない(自由度が大きい)モデルがよい AICの利用 ただし理論的な根拠,実質科学的な考察が重要 Step 4) モデルの解釈&各セルの効果の検討

References B.S.Everitt 1992 The Analysis of Contingency Tables Second Edition CHAPMAN & HALL / CRC 海保博之 1986 心理・教育データの解析法10講  ■応用編■   福村出版 松田紀之 1988 質的情報の多変量解析 朝倉書店 SAS インスティチュートジャパン 1993 SAS / STAT ソフトウェア:ユーザーズガイド Version 6 First Edition 田中敏,山際勇一郎 1992 ユーザーのための教育・ 心理統計と実験計画法 教育出版