潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.

Slides:



Advertisements
Similar presentations
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Advertisements

1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
ベイズの定理と ベイズ統計学 東京工業大学大学院 社会理工学研究科 前川眞一. 2 Coffe or Tea 珈琲と紅茶のどちらが好きかと聞いた場合、 Star Trek のファンの 60% が紅茶を好む。 Star Wars のファンの 95% が珈琲を好む。 ある人が紅茶を好むと分かったとき、その人が.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
第1部 一元配置分散分析: 1つの条件による母平均の違いの検定 第2部: 2つの条件の組み合わせによる二元配置分散分析
統計学 10/25(木) 鈴木智也.
Pattern Recognition and Machine Learning 1.5 決定理論
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)第7章
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
確率・統計Ⅱ 第7回.
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第2章 確率と確率分布 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
クロス集計とχ2検定 P.144.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
analysis of survey data 第3回 香川大学経済学部 堀 啓造
analysis of survey data 第2回 堀 啓造
Excelによる実験計画法演習 小木哲朗.
第13章 系列データ 修士 1年 村下 昇平.
相関分析.
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
第9章 混合モデルとEM 修士2年 北川直樹.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
Basic Tools B4  八田 直樹.
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
数量分析 第2回 データ解析技法とソフトウェア
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
ベイズ・アプローチによる グラフィカル・テスト理論
パターン認識とニューラルネットワーク 栗田多喜夫 2019/4/26 早稲田大学大学院理工学研究科講義.
母分散の検定 母分散の比の検定 カイ2乗分布の応用
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「パレスチナ社会の民主主義的価値観」 報告のアウトライン はじめに 民主主義的価値観 仮説とデータ 検証1:パレスチナ社会における民主化の
母分散の検定 母分散の比の検定 カイ2乗分布の応用
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表分析補遺 。堀 啓造(香川大学経済学部) 2003年5月.
クロス表とχ2検定.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
数値解析 第6章.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

潜在クラス分析入門 山口和範

内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門

簡単に復習を … クロス集計表における独立性の検定  2 検定 独立期待度数 3 元表、多元表 集計表の併合 併合可能性 条件付独立

条件付き分布 2つの変数 X, Y があり、 X = x となる場 合にのみ Y の分布を考えたとき、その分 布を X = x があたえられたときの Y の条件付き分布という

クロス集計表

条件付き分布 変数 X X=x 2 が与えられたときの、 Y の条件付き分布

周辺分布

同時分布

独立 2つの変数が独立であれば、 周辺分布は、いかなる条件付き分布 とも 同じになる

積事象の確率 P ( AB) = P ( A) P(B|A ) = P ( B) P(A|B) P(A|B) : B の下での A の条件付確率 P(B|A) : A の下での B の条件付確率

事象 A と B が独立 P(AB) = P(A) P(B) P(A|B) = P(A) P(B|A) = P(B)

独立性の検定 観測度数と独立期待度数の比較 ただし、

p 値の計算と検定結果 検定統計量の分布は、自由度 (a-1)(b-1) の  2 分布  2 分布の分布点を求める関数 =CHIDIST(  2, df) p 値を設定された有意水準 ( 通常は 5%) と 比較し、 p 値が小さい場合は独立でない と判断する

3元表の分析

ちょっとここで Lem を man 3 dim lab S A B mod {SAB} dat […]

ちょっとここで Lem を man 3 dim lab S A B mod {SAB} dat [ ]

Model の改良1 man 3 dim lab S A B mod {SA SB AB} dat [ ]

Model の改良 2 man 3 dim lab S A B mod {SA SB} dat [ ]

例題データ用のモデル S A B 条件付独立

結果 A と B には連関あり 男性のみでの A と B は連関なし 女性のみでの A と B は連関なし

グループを併合すると 相関が生じる例

相関なし ( 女性のみ )

相関なし(男性のみ)

もし、 S が潜在変数であれば … lat 1 man 2 dim lab S A B mod {SA SB} dat [ ] man 3 dim lab S A B mod {SA SB} dat [ ]

潜在変数モデル S A B 局所独立

併合と分割 154 6416 1990 210 34 949 分割は?

併合と分割 154 6416 1990 210 34 949 分割は? 独立に近い表に 分けることは一意!?

Lem の出力 *** LATENT CLASS OUTPUT *** S 1 S A A B B

同時確率 *** (CONDITIONAL) PROBABILITIES *** * P(SAB) * (0.0334) (0.0502) (0.0058) (0.0240) (0.0493) (0.0269) (0.0281) (0.0398)

条件付確率: Pr(A|S) 、 Pr(B|S) *** LATENT CLASS OUTPUT *** S 1 S A A B B

同時確率と条件付確率 Pr(SAB)=Pr(AB|S)Pr(S) もし、条件付独立 ( 局所独立 ) であれば、 Pr(SAB)=Pr(A|S)Pr(B|S)Pr(S)

Lem の出力 *** LATENT CLASS OUTPUT *** S 1 S A A B B ・・・ Pr(S) ・・・ Pr(A|S) ・・・ Pr(B|S) 注意:観測変数が2つしかないのでモデルの識別可能性はない。あくまで理解のための例題!

EM 体験を Excel で手作業 EM を

EM で計算したこと E-step 完全データを作成 これは、尤度が完全データの線形関数なので M-step 完全データから単純集計を ( 局所 ) 独立であるので、クロス集計の必要なし

E-step の計算の中で Pr(S=1|AB) =Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB)) Bayes の定理

E-step の計算の中で Pr(S=1|AB) =Pr(S=1,AB)/(Pr(S=1,AB)+Pr(S=2,AB)) 観測されたパターンが各クラスに属する可 能性を計算 事後確率、帰属確率、ファジークラスタリ ングの重み

Lem の例題で本格的な LCA を

LCA の定式化

E-step

M-step( 単純集計 )

LCA の実践において クラス数の決定 適合度 情報量規準によるモデル選択 クラスの解釈 反応確率 事後的な集計

適合度 観測度数 VS 期待度数 観測変数すべてのクロス集計表上で … もし、2値型変数が10個あれば、セ ルの数は 1024(=2 10 )