統計手法アラカルト Mixed Model ~混合モデル~ 統計手法アラカルト2002 2002/10/30 統計手法アラカルト Mixed Model ~混合モデル~ 行動計量学研究分野 学部三回 兼清道雄 Mixed Model
内容 GLMとは Mixed Modelとは SASでの使用例 SPSSではver.11からサポート 2002/10/30 まぜまぜもでる
GLMとは General Linear Modelの略 一般線型モデル 統計手法アラカルト2002 2002/10/30 GLMとは General Linear Modelの略 一般線型モデル y を目的変数(従属変数)とし、p個の説明変数(独立変数)x1,…,xpとの線型結合で表される式(↓)のこと 回帰分析っぽいですね(当たり前のことですが) 2002/10/30 まぜまぜもでる Mixed Model
行列表現しますと・・・ 2002/10/30 まぜまぜもでる 統計手法アラカルト2002 2002/10/30 まとめちまえー これが所謂モデルの構造式です。 2002/10/30 まぜまぜもでる Mixed Model
GLMによる解析 回帰分析(単回帰、重回帰)、分散分析(多変量分散分析)、共分散分析など SASのGLMプロシージャでは上記の分析が可能 統計手法アラカルト2002 2002/10/30 GLMによる解析 回帰分析(単回帰、重回帰)、分散分析(多変量分散分析)、共分散分析など SASのGLMプロシージャでは上記の分析が可能 他には単回帰分析 重回帰分析 分散分析 (ANOVA), 特に不釣り合いデータに対して 共分散分析 反応局面モデル 重み付き分析 多項式回帰 偏相関 多変量分散分析 (MANOVA) 反復測定分析 2002/10/30 まぜまぜもでる Mixed Model
GLM風:分散分析 1要因(3水準(i=1,2,3))分散分析 各水準に2データ(j=1,2)、計6個のデータ データの構造式 被験者1 全部書くと 被験者1 被験者2 2002/10/30 まぜまぜもでる
2002/10/30 まぜまぜもでる
GLMの欠点 誤差共分散の構造を柔軟に指定出来ない 誤差共分散:ε(誤差)同士の分散共分散行列 統計手法アラカルト2002 2002/10/30 GLMの欠点 誤差共分散の構造を柔軟に指定出来ない 誤差共分散:ε(誤差)同士の分散共分散行列 測定値間に何らかの関係があると考えて分析できない ちゃんとした計画法を用いれば、まあ、それなりにはできるけれども・・・(分散分析) 反復測定や経時観察のデータでは致命的 具体的なケース 2002/10/30 まぜまぜもでる Mixed Model
Mixed Modelの出番ってなわけです Mixed Modelって?? そこで・・・ GLMでは満足に解析できない反復測定データや経時観察データに対して・・・ Mixed Modelの出番ってなわけです Mixed Modelって?? 2002/10/30 まぜまぜもでる
Mixed Model General Linear Mixed Model 一般線型混合モデル 線型混合モデル、混合モデルともいう GLMの拡張 2002/10/30 まぜまぜもでる
どこが拡張?? 変量効果の導入 誤差共分散への様々な指定 (対義語)固定効果 GLMは固定効果しか扱えなかった 変量効果も固定効果として扱った 誤差共分散への様々な指定 後ほど(SASのところ)、詳しく説明 2002/10/30 まぜまぜもでる
固定効果? 固定効果(fixed-effect) ある要因を固定効果として解釈 その要因に対して有限個の水準を想定 統計手法アラカルト2002 2002/10/30 固定効果? 固定効果(fixed-effect) ある要因を固定効果として解釈 その要因に対して有限個の水準を想定 研究では、評価したい全ての水準を含んでいると考えることになる 解釈例 性別 トレーニング有無 因子には効果がありますね。(あるんです)それをどうとるかってことなんですが 「これこれが固定効果です」というよりは「こいつを固定効果にしちまえ!」って感じ 主効果、交互作用とはまた別次元の意味です。ここでは。 解釈例:性別は有限個ですね。男と女。トレーニング有無も、ありとなしってことで。 2002/10/30 まぜまぜもでる Mixed Model
変量効果? 変量効果(random-effect)=ランダム効果 ある要因を変量効果として解釈 統計手法アラカルト2002 2002/10/30 変量効果? 変量効果(random-effect)=ランダム効果 ある要因を変量効果として解釈 その要因に対して無限個の水準(水準の母集団)を想定 研究では、実際に検討する水準は母集団からの標本であると考えることになる 解釈例 大学(実験や調査の場所として)や被験者 因子において水準はまだまだあるのです。でも、今回はこいつらを水準としよう って、考えてるのです。標本水準から水準母集団を思い浮かべよやってこと。 解釈例:施設。病院とかね。医学系の本だったから・・・全部の病院で いっせいにやれるわけちゃうやん。でも、施設としての効果は施設ごと (やってないとこも含め)あると思うやん。ね。 2002/10/30 まぜまぜもでる Mixed Model
固定?変量?具体例1 質問紙調査(複数の大学で) 因子分析後、尺度得点を使って分散分析 『大学』を1つの要因とする 統計手法アラカルト2002 2002/10/30 固定?変量?具体例1 質問紙調査(複数の大学で) 因子分析後、尺度得点を使って分散分析 コンピュータ不安の尺度得点とか 『大学』を1つの要因とする 他は性別とか つまり、大学や性別という要因でコンピュータに対する不安を説明しようとする 2002/10/30 まぜまぜもでる Mixed Model
固定?変量?具体例2 『大学』を・・・ 固定効果と解釈 変量効果と解釈 次スライドを参照 特定の大学の効果を考える(ex.阪大、神大、京大) 大学間の全体的なばらつきを考える 次スライドを参照 2002/10/30 まぜまぜもでる
!図! 阪大は・・ 神大は・・ 固定効果だと 変量効果だと このばらつきに興味 コンピュータ不安尺度得点 2002/10/30 統計手法アラカルト2002 2002/10/30 !図! 阪大は・・ 神大は・・ 固定効果だと 変量効果だと このばらつきに興味 コンピュータ不安尺度得点 次回、質問紙を配る時も、阪大、神大、京大、に配って、 それぞれの効果を見たい、となる。(固定効果の場合) 2002/10/30 まぜまぜもでる Mixed Model
本当はね(変量効果として解釈) このばらつきに興味 コンピュータ不安尺度得点 2002/10/30 まぜまぜもでる 統計手法アラカルト2002 2002/10/30 本当はね(変量効果として解釈) このばらつきに興味 コンピュータ不安尺度得点 どの大学で質問紙調査するかは関係ない 質問紙とっていない大学も含めてばらつきを推定 2002/10/30 まぜまぜもでる Mixed Model
つまり 固定効果では個々の水準における効果に注目 変量効果では全体的なばらつきに注目 ex.) ○阪大、神大、京大間に差はあるか? 統計手法アラカルト2002 2002/10/30 つまり 固定効果では個々の水準における効果に注目 ex.) ○阪大、神大、京大間に差はあるか? ○阪大と京大どちらがコンピュータ不安が高いか? 変量効果では全体的なばらつきに注目 ex.) ○大学間で効果はどれだけばらつくか? (固定効果だと)再度調査を行う場合、配る大学は阪大、神大、京大でなければならない。 2002/10/30 まぜまぜもでる Mixed Model
変量効果? データの構造式ではよく「b」で表されます 実験毎に違うもの=変量効果 つまり、確率変数です 正規分布に従います(と仮定) 固定効果の「β」に対して 実験毎に違うもの=変量効果 被験者(回答者)が毎回同じではない=変量効果 つまり、確率変数です (誤差も確率変数です) 正規分布に従います(と仮定) あ 2002/10/30 まぜまぜもでる
モデルの構造式 Mixed Model ちなみにGLMは 2002/10/30 まぜまぜもでる
というわけで、パラメータの数は同じ(βG=β+b) モデル構造式(実際は) Mixed Model GLM というわけで、パラメータの数は同じ(βG=β+b) 2002/10/30 まぜまぜもでる
具体例 対応のある1要因分散分析 1要因3水準(i=1,2,3)の分散分析 被験者を変量効果と解釈する(j=1,2) データの構造式は 全部書くと 2002/10/30 まぜまぜもでる
2002/10/30 まぜまぜもでる
平均、分散 Mixed Model ちなみにGLMは 2002/10/30 まぜまぜもでる 統計手法アラカルト2002 2002/10/30 期待値でもあるけどね。 2002/10/30 まぜまぜもでる Mixed Model
以上より 測定値間の何らかの関係を、変量効果の導入や誤差共分散の指定により、的確に捉えることが出来る また、欠測値があっても解析可能 統計手法アラカルト2002 2002/10/30 以上より 測定値間の何らかの関係を、変量効果の導入や誤差共分散の指定により、的確に捉えることが出来る また、欠測値があっても解析可能 ただし、MAR(Missing At Random)の場合 欠測については今回割愛させていただきます 2002/10/30 まぜまぜもでる Mixed Model
Q.どうやってMixedを使うの? A.話はSASに飛びます
SAS PROC MIXEDで分析が可能 表1のデータをもとに、被験者効果を変量効果とし、1要因分散分析を行う 要因Aは3水準 練習前、1週間練習、2週間練習 データの構造式 2002/10/30 まぜまぜもでる
rとlとwの弁別実験(行動計量学講義資料より抜粋) 表1 被験者 正答率 練習前 1週間練習 2週間練習 1 0.40 0.43 2 0.42 0.45 0.44 3 4 5 0.47 0.49 0.50 6 0.38 0.37 0.39 7 0.46 8 0.41 平均 0.41875 0.43375 0.43625
SASプログラム1 データステップ編 PRINTプロシージャで確認 DATA rlw; DO sub = 1 to 8; 統計手法アラカルト2002 2002/10/30 DATA rlw; DO sub = 1 to 8; DO a = 1 to 3; INPUT y @@; OUTPUT; END;END; CARDS; .40 .43 .43 .42 .45 .44 .42 .42 .43 .42 .43 .42 .47 .49 .50 .38 .37 .39 .44 .47 .46 .40 .41 .42 ; RUN; SASプログラム1 データステップ編 GLM(anovaや回帰分析)と同じ入力なので(1変量型、MANOVAのように多変量型ではない) 詳しい説明は省略 PRINTプロシージャで確認 PROC PRINT DATA=rlw; RUN; Mixed Model
SASプログラム2 どちらでも同じデータの構造になります PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM intercept/subject=sub; RUN; PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM sub; RUN; どちらでも同じデータの構造になります 2002/10/30 まぜまぜもでる
OUTPUT(付録OUT1参照) CLASSステートメントで指定した要因の水準を表示 推定の為の反復計算の過程 統計手法アラカルト2002 2002/10/30 OUTPUT(付録OUT1参照) CLASSステートメントで指定した要因の水準を表示 Class Level Information 推定の為の反復計算の過程 REML Estimation Iteration History 推定する分散成分が小さい場合、収束しないこともある 今回は収束(convergence criteria met.) まず、付録の方を見てもらう convergence 一点 収束 criterionの複数形 criteria 基準 Iteration 繰り返し 2002/10/30 まぜまぜもでる Mixed Model
OUTPUT(付録OUT1参照) 分散成分とその推定値 Covariance Parameter Estimates(REML) 測定誤差によるばらつきは被験者によるばらつきよりかなり小さい つまりばらつきのほとんどが被験者によるもの オプション‘COVTEST’を使えば、標準誤差や検定等計量が表示される(後述) Cov Parm Estimate SUB 0.00098155 Residual 0.00007857 2002/10/30 まぜまぜもでる
OUTPUT(付録OUT1参照) モデルの当てはまりに対する情報 Model Fitting Information for Y おもにモデルを比較する時に使用 詳細は割愛 Description Value Observations 24.0000 Res Log Likelihood 53.5487 Akaike's Information Criterion 51.5487 Schwarz's Bayesian Criterion 50.5041 -2 Res Log Likelihood -107.097 2002/10/30 まぜまぜもでる
OUTPUT(付録OUT1参照) 固定効果の検定 Tests of Fixed Effects 要因Aの効果あり 練習前と1週間練習した後と2週間練習した後では、正答率が違う どことどこに有意な差? LSMEANSステートメントで多重比較可能(次スライド) Source NDF DDF Type III F Pr > F A 2 14 9.12 0.0029 2002/10/30 まぜまぜもでる
Differences of Least Squares Means PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM intercept/subject=sub; LSMEANS a/adjust=tukey; RUN; PROC MIXED DATA=rlw; CLASS a sub; MODEL y = a; RANDOM sub; LSMEANS a/adjust=tukey; RUN; Least Squares Means Effect A LSMEAN Std Error DF t Pr > |t| A 1 0.41875000 0.01151151 7.74 36.38 0.0001 A 2 0.43375000 0.01151151 7.74 37.68 0.0001 A 3 0.43625000 0.01151151 7.74 37.90 0.0001 Differences of Least Squares Means Effect A _A Difference Std Error DF t Pr > |t| Adjustment Adj P A 1 2 -0.01500000 0.00443203 14 -3.38 0.0044 Tukey-Kramer 0.0170 A 1 3 -0.01750000 0.00443203 14 -3.95 0.0015 Tukey-Kramer 0.0068 A 2 3 -0.00250000 0.00443203 14 -0.56 0.5816 Tukey-Kramer 0.8417 練習することにより正答率は上がるが、練習の期 間によって正答率が変化するとはいえない
ステートメントやオプションの紹介
PROC MIXED DATA=~ COVTEST METHOD=~ 分析するデータ名を指定 分散成分の標準誤差および検定統計量出力 ただし、検定に関しては微妙 METHOD=~ 推定方法を指定 ex.METHOD=ML (最尤法) デフォルトはREML(制限付最尤法) 2002/10/30 まぜまぜもでる
PROC MIXED NOCLPRINT NOITPRINT Class Level Informationを非表示 Estimation Iteration Historyを非表示 PROC MIXED DATA=rlw METHOD=ML COVTEST NOCLPRINT NOITPRINT; … … … RUN; 2002/10/30 まぜまぜもでる
CLASSステートメント 因子として考えるべき変数を指定 文字変数でも数値変数でもよい 2002/10/30 まぜまぜもでる 統計手法アラカルト2002 2002/10/30 CLASSステートメント 因子として考えるべき変数を指定 文字変数でも数値変数でもよい もう少し推敲 2002/10/30 まぜまぜもでる Mixed Model
MODELステートメント 反応変数(1変数のみ)と固定効果を指定 切片は自動的に含まれる s または solution ddfm=~ 統計手法アラカルト2002 2002/10/30 MODELステートメント 反応変数(1変数のみ)と固定効果を指定 y = a とか y = a b a*b とか 切片は自動的に含まれる nointオプションで切片なしを指定出来る s または solution 固定効果の推定を表示 点推定、標準誤差、t統計量、p値 ddfm=~ 自由度の求め方を指定:デフォルトは以下 ddfm=betwithin(REPEATEDステートメントのみ) ddfm=contain(RANDOMステートメント含む) 自由度について調べておくこと 2002/10/30 まぜまぜもでる Mixed Model
MODELステートメント 前例:MODEL y=a/sの場合のアウトプット A3水準=切片となっている 統計手法アラカルト2002 2002/10/30 MODELステートメント Solution for Fixed Effects Effect A Estimate Std Error DF t Pr > |t| INTERCEPT 0.43625000 0.01151151 7 37.90 0.0001 A 1 -0.01750000 0.00443203 14 -3.95 0.0015 A 2 -0.00250000 0.00443203 14 -0.56 0.5816 A 3 0.00000000 . . . . 前例:MODEL y=a/sの場合のアウトプット A3水準=切片となっている nointでF検定の場合、より有意だとしてしまう。 GLMの結果からすると、nointにせずこのままの方が良い気がする この矛盾どうしよう・・←分散分析を行う場合、Σα=0という制約をおいている ここではそれがα3=0というもの置き換わっているだけ。 nointにしてしまうと、ST(全体平方和)がΣy^2で計算される為、値が変わってしまう 本当ならSTはΣ(y-μ)^2で計算されるはず。 2002/10/30 まぜまぜもでる Mixed Model
RANDOMステートメント 変量効果を指定 切片を入れるためにはinterceptを変数に subject= type= g gcorr データセットにおける対象者を識別 type= 変量効果の共分散行列の構造を指定 実用的にはUNかVC(UN、VCについては後述) g 変量効果の共分散行列の推定値を出力 gcorr 変量効果の相関行列の推定値を出力 2002/10/30 まぜまぜもでる
RANDOMステートメント データの構造式 PROC MIXED DATA=rlw; ・・・・・・ 統計手法アラカルト2002 2002/10/30 RANDOMステートメント データの構造式 いまさっき書き方2つあるゆうたやん。それの説明っすよ。 PROC MIXED DATA=rlw; ・・・・・・ RANDOM intercept/SUBJECT=sub; RUN; PROC MIXED DATA=rlw; ・・・・・・ RANDOM sub; RUN; Mixed Model
REPEATEDステートメント 誤差共分散行列(共分散の構造)を指定 type= subject= 反復効果を示す変数は名義変数 詳しくは次スライド subject= データセットにおける対象者を識別 反復効果を示す変数は名義変数 入れなくてもよい 2002/10/30 まぜまぜもでる
type= type=AR(1) 一次自己回帰 近いものには強い関係 遠いものには弱い関係 経時データ向き 2002/10/30 まぜまぜもでる
type= type=CS 複合対称性(Compound Symmetry) 測定値のばらつきが一定(定数分散) 測定値間の関係も一定(定数共分散) 2002/10/30 まぜまぜもでる
type= type=SIMPLE type=VC Variance Components 測定値のばらつきが一定(定数分散) 測定値間の関係なし(無相関) 2002/10/30 まぜまぜもでる
RANDOMステートメントに‘type=SIMPLE(VC)’で指定 変量効果が複数個 RANDOMステートメントに‘type=SIMPLE(VC)’で指定 つまり変量効果同士の共分散構造をtypeで指定した場合 変量効果ごとのばらつきが一定ではない (不定数分散) 変量効果間の関係なし (無相関) まぜまぜもでる
type= type=UN 無構造 Unstructured 2002/10/30 まぜまぜもでる
その他にも たくさんの構造が指定できます 誤差についても 今回は割愛します 系列相関成分 測定誤差成分 と分けることも出来ます 2002/10/30 まぜまぜもでる
LSMEANSステートメント 要因の各水準の平均値の推定 水準間の平均値の差の検定 単純主効果の検定 統計手法アラカルト2002 2002/10/30 LSMEANSステートメント 要因の各水準の平均値の推定 水準間の平均値の差の検定 LSMEANS a / adjust=tukey; 要因Aの水準間の多重比較(tukey法を用いて) 単純主効果の検定 LSMEANS a / slice = b; bの水準ごとの要因Aの効果を検定 スライド34に具体例を記載 2002/10/30 まぜまぜもでる Mixed Model
CONTRASTステートメント 固定効果パラメータの線型結合による仮説の検定を行う CONTRASTステートメントでLを指定 統計手法アラカルト2002 2002/10/30 CONTRASTステートメント 固定効果パラメータの線型結合による仮説の検定を行う あ CONTRASTステートメントでLを指定 次スライドを参照 様々な仮説に対して柔軟に検定 82ページに詳しいこと載ってます 2002/10/30 まぜまぜもでる Mixed Model
具体例(前述:rlwの弁別実験、要因A、3水準) intで指定 aで指定 → int 1 a 1 0 0 → a 1 -1 0 2002/10/30 まぜまぜもでる
CONTRAST Statement Results 統計手法アラカルト2002 2002/10/30 CONTRASTステートメント 練習前と1週間練習後の平均に差があるか検定( ) CONTRAST ‘before_1week’ a 1 –1 0; 5%有意、差があると言える LSMEANSとの違いは多重性によるもの ‘ラベル名(20字以内)’ CONTRAST Statement Results Source NDF DDF F Pr > F before_1week 1 14 11.45 0.0044 アニメーション 2002/10/30 まぜまぜもでる Mixed Model
CONTRAST Statement Results 統計手法アラカルト2002 2002/10/30 CONTRASTステートメント 練習前と2週間練習後の母平均の平均は、1週間練習後の母平均と差があるかの検定(も可能) あ CONTRAST ‘(be+2w)/2=1w’ a 0.5 –1 0.5; 有意差無し 練習効果は非直線的ではないことがわかる CONTRAST Statement Results Source NDF DDF F Pr > F (be+2w)/2=1w 1 14 2.65 0.1257 コメント考えること。 2002/10/30 まぜまぜもでる Mixed Model
CONTRAST Statement Results あ CONTRAST ‘allmeans=0’ int 1 a 1 0 0, int 1 a 0 1 0, int 1 a 0 0 1; CONTRAST Statement Results Source NDF DDF F Pr > F allmeans=0 3 14 494.41 0.0001 2002/10/30 まぜまぜもでる
ESTIMATEステートメント 固定効果パラメータの線型結合による値の推定を行う Lの指定の仕方はCONTRASTと同じ 区間推定も可能 あ ラベルをつけるところも同じ 区間推定も可能 ESTIMATE ‘~’ ~ / cl alpha=0.05; 2002/10/30 まぜまぜもでる
ESTIMATE Statement Results 練習前の平均の推定(μ1) ESTIMATE ‘before’ int 1 a 1 0 0 / cl alpha=0.05; ESTIMATE Statement Results Parameter Estimate Std Error DF t Pr > |t| Alpha Lower Upper before 0.41875000 0.01151151 14 36.38 0.0001 0.05 0.3941 0.4434 2002/10/30 まぜまぜもでる
〆切:11月13日(水) 提出先:狩野助教授室(北館304) レポート課題 変量効果と考えられる要因を一つ挙げ、その理由を述べてください(資料中のものも可) 付録の表2のデータをMIXEDプロシージャを用いて分析、解釈してください プログラム、及び主要なアウトプットを添付のこと 今回の講義でわからなかったところを書きたいだけ書いてください 詳しく書いていただけるとなお嬉しい 〆切:11月13日(水) 提出先:狩野助教授室(北館304) 2002/10/30 まぜまぜもでる
参考文献 医学統計のための線型混合モデル-SASによるアプローチ- 資料(なれよう、過去の発表) 松山 裕・山口拓洋(編訳) 2001 サイエンティスト社 資料(なれよう、過去の発表) 2002/10/30 まぜまぜもでる
☆告知☆ Mixed Modelになれよう 水曜4限 北館301でやってます 現在のお題は欠測データとMixed Modelです 水曜4限 北館301でやってます 現在のお題は欠測データとMixed Modelです 以下のページに今までの資料などがあります http://koko15.hus.osaka-u.ac.jp/~kanekiyo/mixed/ 2002/10/30 まぜまぜもでる
なぜMixed Modelというのか? 固定効果(fixed-effect) +変量効果(random-effect) 混合効果(mixed-effect) よってMixed Modelとなったわけです まぜまぜまぜまぜまぜまぜ 2002/10/30 まぜまぜもでる