Presentation is loading. Please wait.

Presentation is loading. Please wait.

潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.

Similar presentations


Presentation on theme: "潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門."— Presentation transcript:

1 潜在クラス分析入門 山口和範

2 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門

3 簡単に復習を … クロス集計表における独立性の検定  2 検定 独立期待度数 3 元表、多元表 集計表の併合 併合可能性 条件付独立

4 条件付き分布 2つの変数 X, Y があり、 X = x となる場 合にのみ Y の分布を考えたとき、その分 布を X = x があたえられたときの Y の条件付き分布という

5 クロス集計表

6 条件付き分布 変数 X X=x 2 が与えられたときの、 Y の条件付き分布

7 周辺分布

8 同時分布

9 独立 2つの変数が独立であれば、 周辺分布は、いかなる条件付き分布 とも 同じになる

10 積事象の確率 P ( AB) = P ( A) P(B|A ) = P ( B) P(A|B) P(A|B) : B の下での A の条件付確率 P(B|A) : A の下での B の条件付確率

11 事象 A と B が独立 P(AB) = P(A) P(B) P(A|B) = P(A) P(B|A) = P(B)

12 独立性の検定 観測度数と独立期待度数の比較 ただし、

13 p 値の計算と検定結果 検定統計量の分布は、自由度 (a-1)(b-1) の  2 分布  2 分布の分布点を求める関数 =CHIDIST(  2, df) p 値を設定された有意水準 ( 通常は 5%) と 比較し、 p 値が小さい場合は独立でない と判断する

14 3元表の分析

15 ちょっとここで Lem を man 3 dim 2 2 2 lab S A B mod {SAB} dat […]

16 ちょっとここで Lem を man 3 dim 2 2 2 lab S A B mod {SAB} dat [15 4 64 16 19 90 2 10]

17 Model の改良1 man 3 dim 2 2 2 lab S A B mod {SA SB AB} dat [15 4 64 16 19 90 2 10]

18 Model の改良 2 man 3 dim 2 2 2 lab S A B mod {SA SB} dat [15 4 64 16 19 90 2 10]

19 例題データ用のモデル S A B 条件付独立

20 結果 A と B には連関あり 男性のみでの A と B は連関なし 女性のみでの A と B は連関なし

21 グループを併合すると 相関が生じる例

22 相関なし ( 女性のみ )

23 相関なし(男性のみ)

24 もし、 S が潜在変数であれば … lat 1 man 2 dim 2 2 2 lab S A B mod {SA SB} dat [34 94 66 26] man 3 dim 2 2 2 lab S A B mod {SA SB} dat [15 4 64 16 19 90 2 10]

25 潜在変数モデル S A B 局所独立

26 併合と分割 154 6416 1990 210 34 9494 6626 分割は?

27 併合と分割 154 6416 1990 210 34 9494 6626 分割は? 独立に近い表に 分けることは一意!?

28 Lem の出力 *** LATENT CLASS OUTPUT *** S 1 S 2 0.4970 0.5030 A 1 0.9115 0.2561 A 2 0.0885 0.7439 B 1 0.1171 0.7879 B 2 0.8829 0.2121

29 同時確率 *** (CONDITIONAL) PROBABILITIES *** * P(SAB) * 1 1 1 0.0531 (0.0334) 1 1 2 0.3999 (0.0502) 1 2 1 0.0051 (0.0058) 1 2 2 0.0388 (0.0240) 2 1 1 0.1015 (0.0493) 2 1 2 0.0273 (0.0269) 2 2 1 0.2948 (0.0281) 2 2 2 0.0794 (0.0398)

30 条件付確率: Pr(A|S) 、 Pr(B|S) *** LATENT CLASS OUTPUT *** S 1 S 2 0.4970 0.5030 A 1 0.9115 0.2561 A 2 0.0885 0.7439 B 1 0.1171 0.7879 B 2 0.8829 0.2121

31 同時確率と条件付確率 Pr(SAB)=Pr(AB|S)Pr(S) もし、条件付独立 ( 局所独立 ) であれば、 Pr(SAB)=Pr(A|S)Pr(B|S)Pr(S)

32 Lem の出力 *** LATENT CLASS OUTPUT *** S 1 S 2 0.4970 0.5030 A 1 0.9115 0.2561 A 2 0.0885 0.7439 B 1 0.1171 0.7879 B 2 0.8829 0.2121 ・・・ Pr(S) ・・・ Pr(A|S) ・・・ Pr(B|S) 注意:観測変数が2つしかないのでモデルの識別可能性はない。あくまで理解のための例題!

33 EM 体験を Excel で手作業 EM を

34 EM で計算したこと E-step 完全データを作成 これは、尤度が完全データの線形関数なので M-step 完全データから単純集計を ( 局所 ) 独立であるので、クロス集計の必要なし

35 E-step の計算の中で Pr(S=1|AB) =Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB)) Bayes の定理

36 E-step の計算の中で Pr(S=1|AB) =Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB)) 観測されたパターンが各クラスに属する可 能性を計算 事後確率、帰属確率、ファジークラスタリ ングの重み

37 Lem の例題で本格的な LCA を

38 LCA の定式化

39 E-step

40 M-step( 単純集計 )

41 LCA の実践において クラス数の決定 適合度 情報量規準によるモデル選択 クラスの解釈 反応確率 事後的な集計

42 適合度 観測度数 VS 期待度数 観測変数すべてのクロス集計表上で … もし、2値型変数が10個あれば、セ ルの数は 1024(=2 10 )


Download ppt "潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門."

Similar presentations


Ads by Google