潜在クラス分析入門 山口和範
内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門
簡単に復習を … クロス集計表における独立性の検定 2 検定 独立期待度数 3 元表、多元表 集計表の併合 併合可能性 条件付独立
条件付き分布 2つの変数 X, Y があり、 X = x となる場 合にのみ Y の分布を考えたとき、その分 布を X = x があたえられたときの Y の条件付き分布という
クロス集計表
条件付き分布 変数 X X=x 2 が与えられたときの、 Y の条件付き分布
周辺分布
同時分布
独立 2つの変数が独立であれば、 周辺分布は、いかなる条件付き分布 とも 同じになる
積事象の確率 P ( AB) = P ( A) P(B|A ) = P ( B) P(A|B) P(A|B) : B の下での A の条件付確率 P(B|A) : A の下での B の条件付確率
事象 A と B が独立 P(AB) = P(A) P(B) P(A|B) = P(A) P(B|A) = P(B)
独立性の検定 観測度数と独立期待度数の比較 ただし、
p 値の計算と検定結果 検定統計量の分布は、自由度 (a-1)(b-1) の 2 分布 2 分布の分布点を求める関数 =CHIDIST( 2, df) p 値を設定された有意水準 ( 通常は 5%) と 比較し、 p 値が小さい場合は独立でない と判断する
3元表の分析
ちょっとここで Lem を man 3 dim lab S A B mod {SAB} dat […]
ちょっとここで Lem を man 3 dim lab S A B mod {SAB} dat [ ]
Model の改良1 man 3 dim lab S A B mod {SA SB AB} dat [ ]
Model の改良 2 man 3 dim lab S A B mod {SA SB} dat [ ]
例題データ用のモデル S A B 条件付独立
結果 A と B には連関あり 男性のみでの A と B は連関なし 女性のみでの A と B は連関なし
グループを併合すると 相関が生じる例
相関なし ( 女性のみ )
相関なし(男性のみ)
もし、 S が潜在変数であれば … lat 1 man 2 dim lab S A B mod {SA SB} dat [ ] man 3 dim lab S A B mod {SA SB} dat [ ]
潜在変数モデル S A B 局所独立
併合と分割 154 6416 1990 210 34 949 分割は?
併合と分割 154 6416 1990 210 34 949 分割は? 独立に近い表に 分けることは一意!?
Lem の出力 *** LATENT CLASS OUTPUT *** S 1 S A A B B
同時確率 *** (CONDITIONAL) PROBABILITIES *** * P(SAB) * (0.0334) (0.0502) (0.0058) (0.0240) (0.0493) (0.0269) (0.0281) (0.0398)
条件付確率: Pr(A|S) 、 Pr(B|S) *** LATENT CLASS OUTPUT *** S 1 S A A B B
同時確率と条件付確率 Pr(SAB)=Pr(AB|S)Pr(S) もし、条件付独立 ( 局所独立 ) であれば、 Pr(SAB)=Pr(A|S)Pr(B|S)Pr(S)
Lem の出力 *** LATENT CLASS OUTPUT *** S 1 S A A B B ・・・ Pr(S) ・・・ Pr(A|S) ・・・ Pr(B|S) 注意:観測変数が2つしかないのでモデルの識別可能性はない。あくまで理解のための例題!
EM 体験を Excel で手作業 EM を
EM で計算したこと E-step 完全データを作成 これは、尤度が完全データの線形関数なので M-step 完全データから単純集計を ( 局所 ) 独立であるので、クロス集計の必要なし
E-step の計算の中で Pr(S=1|AB) =Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB)) Bayes の定理
E-step の計算の中で Pr(S=1|AB) =Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB)) 観測されたパターンが各クラスに属する可 能性を計算 事後確率、帰属確率、ファジークラスタリ ングの重み
Lem の例題で本格的な LCA を
LCA の定式化
E-step
M-step( 単純集計 )
LCA の実践において クラス数の決定 適合度 情報量規準によるモデル選択 クラスの解釈 反応確率 事後的な集計
適合度 観測度数 VS 期待度数 観測変数すべてのクロス集計表上で … もし、2値型変数が10個あれば、セ ルの数は 1024(=2 10 )