白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)第7章

Slides:



Advertisements
Similar presentations
PRML読書会第11回 8.4 グラフィカルモデルによる推論 SUHARA YOSHIHIKO (id:sleepy_yoshi)
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
グラフィカル多変量解析 ----目で見る共分散構造分析----
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
第2章 確率と確率分布 統計学 2010年度.
統計解析 第7回 第6章 離散確率分布.
電子情報工学科5年(前期) 7回目(21/5/2015) 担当:古山彰一
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
Excelによる統計分析のための ワークシート開発
統計学 10/25(木) 鈴木智也.
Pattern Recognition and Machine Learning 1.5 決定理論
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
第8章 グラフィカルモデル 修士2年 浦田 淳司.
確率・統計Ⅱ 第7回.
回帰分析.
人工知能概論 第6章 確率とベイズ理論の基礎.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計学 11/08(木) 鈴木智也.
12月4日 伊藤 早紀 重回帰分析.
ベイジアンネットワーク概説 3.6 構造の探索アルゴリズム
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
高校数学の知識から、 人工知能・機械学習・データ解析へ つなげる、 必要最低限の教科書
相関分析.
データ解析 静岡大学工学部 安藤和敏
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
データ解析 静岡大学工学部 安藤和敏
多母集団の同時分析 豊本満喜子 大阪大学人間科学部.
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
確率と統計 -確率2回目- 平成23年10月27日.
数量分析 第2回 データ解析技法とソフトウェア
予測に用いる数学 2004/05/07 ide.
認知システム論 知識と推論(3) 不確実な知識の表現と確率推論 事後確率と信念改訂 同時分布からの事後確率計算 ベイズの規則
東京工科大学 コンピュータサイエンス学部 亀田弘之
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
統計解析 第1回 条件付き独立性と確率的グラフィカルモデル 本講義の全体像
分散分析、判別分析、因子分析.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
ベイズ・アプローチによる グラフィカル・テスト理論
第3章補足2 多変量データの記述 統計学基礎 2010年度.
不完全な定点観測から 真の不正ホストの分布が分かるか?
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
第3章 線形回帰モデル 修士1年 山田 孝太郎.
経営学研究科 M1年 学籍番号 speedster
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
統計学  第9回 西 山.
データ解析 静岡大学工学部 安藤和敏
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
アルゴリズムとデータ構造 第2章 リスト構造 5月24日分
数理統計学  第6回 西山.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
確率と統計 確率編- 平成20年10月29日(木).
確率と統計 確率編- 平成19年10月25日(木) 確率と統計2007.
重回帰分析入門 (第5章補足) 統計学 2007年度.
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
回帰分析入門 経済データ解析 2011年度.
Time Reversal E-Text: pp.80-83(PDF: pp.49-50) FM08002 太神 諭
Presentation transcript:

白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)第7章 情報知能学科 白井 英俊

7章 ベイジアンネットワーク (Bayesian Network) ベイジアンネットワーク:観測されたデータから探索的に因果モデルを構築 事象間の影響関係を視覚的なモデルとして記述 不確実な事象を扱うための計算モデル 不確実な事象 ⇒ 統計学における確率変数   事象間の影響関係 ⇒ 確率変数同士の確率的な依存関係

多変量解析手法との比較 多変量解析:複数の変数によって構成された多変量データを統計的に処理し、何らかの有益な情報を取り出す分析手法の総称  単回帰分析、重回帰分析、因子分析、主成分分析など 共通点:仮定する母集団の特徴を把握する、という目的で使用され、変数間の線形な共変関係に基づいて分析 パス解析:強力だがモデル構成が恣意的になりすぎる 問題の解決:(1)他の要因を取り除き、(2)変数の影響関係を方向つきで、(3)想定する状況に関連するすべての変数に対し、(4)データから探索的にモデルを構築。(5)連続変数と離散変数の両方をモデルに組み込み可能

ベイズ統計学 用語: 同時確率、条件付き確率 基本公式: p(A,B) = p(A) * P(B|A) = p(B) * P(A|B) 用語: 同時確率、条件付き確率 基本公式: p(A,B) = p(A) * P(B|A) = p(B) * P(A|B) 周辺確率: 同時確率を一方の確率変数に対してすべて加算して求める

ベイズ統計学(続) 確率の加法定理(離散) 確率の乗法定理(離散) 確率の加法定理(連続) 確率の乗法定理(連続)

ベイズ統計学(続) ベイズの定理1 p(X)は周辺確率であるから ベイズの定理2

ベイズの定理の例 箱が角箱、丸箱、三角箱と3つあり、それぞれの箱の中には次の個数の赤と白の玉が入っているとする。  角箱: 赤 10個、白 10個  丸箱: 赤 10個、白 15個  三角箱:赤  5個、白 0個 p(赤), p(白): それぞれ赤球と白球を引く確率 p(角), p(丸), p(三) : それぞれ角箱、丸箱、三角箱を選ぶ確率。ここでは簡単のため1/3と仮定。 p(赤|角) : 角箱を選んだときに赤球を引く確率 p(角|赤) : 赤球を引いたときに、角箱を選んだ確率 簡単 分る?

ベイズの定理の例(続き) p(角|赤) : 赤球を引いたときに、角箱を選んだ確率 丸箱: 赤 10個、白 15個 三角箱:赤 5個、白 0個   角箱: 赤 10個、白 10個  丸箱: 赤 10個、白 15個  三角箱:赤  5個、白 0個 p(角|赤) : 赤球を引いたときに、角箱を選んだ確率

練習問題 ある人がタイプする時、文字qをタイプするのは qを入力しようとしてqをタイプする (条件付き確率、0.99)    (条件付き確率、0.99) 2. aを入力しようとしてqをタイプする (条件付き確率0.01) 3. wを入力しようとしてqをタイプする (条件き確率0.02) の3通りの可能性があることが分かっているとする。 ここでその人がqを入力する確率は0.0001、aを入力する確率は0.02、wを入力する確率は0.001であるとする。 ここでその人がqをタイプした。この時、この人は何を入力しようとしたと考えられるだろうか?

多数の事象の同時確率 3つの事象の同時確率と条件付き確率の関係 p(X,Y,Z) = p(Z|X,Y)*p(X,Y) = p(Z|X,Y) * p(Y|X) * p(X) これを一般化すると p(X1,X2,…,Xn) = p(Xn|Xn-1,…,X1) * … * p(X1)

ベイジアンネットの基礎 条件付き独立(7.2.3節) 事象XとYが独立: p(X,Y) = p(X)*p(Y) ある事象Zに対し、p(X,Y|Z)=p(X|Z)*p(Y|Z) となる場合、X,YはZのもとで条件付き独立 p(X1,X2,…,Xn) = p(Xn|Xn-1,…,X1) * … * p(X1) を表すグラフにおいて、条件付き独立の関係にあるノード間の有向辺を切断⇒ pa(Y)はノードYの親集合 有向グラフにおける同時確率の因数分解性

ベイジアンネットの本質 事象間の影響関係をグラフ的なモデルとして記述する データから探索的にモデルを構築する 0. まず無関係な要因をすべて取り除く。そのうえで 変数間の影響関係を方向つきで 想定する状況に関連するすべての変数に関して 得られたデータから探索的に   モデルを構築する

ベイジアンネットワークの構築法 貪欲アルゴリズム(Greedy algorithm) いろいろな手法:K2アルゴリズム、遺伝的アルゴリズム 探索の出発点となる初期モデルGを設定 次の三つの場合のモデルとGとの間のベイズファクターをすべて計算:有向辺を1つ付け加える、有向辺を1つ削除、1つの有向辺の向きを反転 これらにおいて最もベイズファクターが増加したモデルを選択 増加しなければ終了。そうでないなら選択したモデルをGとして2へ (7.21)式

本日の課題 実行すべき例題は今回は少ない もちろんやってみるのだが。。。   もちろんやってみるのだが。。。 そのため、ベイジアンネットについて、教科書やいろいろな資料に基づき、自分なりのまとめを作ってみよ

> 事後ネットワーク <- autosearch(事前ネットワーク, 出生, 事前分布) (2) -616.5 [体重][喫煙|人種][過敏|高血圧][高血圧][人種] (3) -613.5305 [体重|過敏][喫煙|人種][過敏|高血圧][高血圧][人種] (4) -610.4685 [体重|過敏:高血圧][喫煙|人種][過敏|高血圧][高血圧][人種] (5) -608.064 [体重|過敏:高血圧][喫煙|人種][過敏|高血圧][高血圧|人種][人種] (6) -606.9693 [体重|過敏:高血圧][喫煙|過敏:人種][過敏|高血圧][高血圧|人種][人種] (7) -606.0825 [体重|喫煙:過敏:高血圧][喫煙|過敏:人種][過敏|高血圧][高血圧|人種][人種] .Total 0.48 add 0.32 rem 0.02 turn 0.07 sort 0.01 choose 0 rest 0.06 ]

> localprob(ネットワーク) $体重 , , 過敏あり, 高血圧あり 喫煙あり 喫煙なし 正常 0.5 0.5 $喫煙 , , その他 過敏あり 過敏なし 喫煙あり 0.4285714 0.2253521 喫煙なし 0.5714286 0.7746479 , , 黒人 喫煙あり 0.4210526 0.4615385 喫煙なし 0.5789474 0.5384615 , , 白人 喫煙あり 0.5862069 0.5151515 喫煙なし 0.4137931 0.4848485 attr(,"class") [1] "table" $過敏 高血圧あり 高血圧なし 過敏あり 0.4 0.2311111 過敏なし 0.6 0.7688889 $高血圧 その他 黒人 白人 高血圧あり 0.2020202 0.3275862 0.1640625 高血圧なし 0.7979798 0.6724138 0.8359375 $人種 0.3473684 0.2035088 0.4491228 > localprob(ネットワーク) $体重 , , 過敏あり, 高血圧あり 喫煙あり 喫煙なし 正常 0.5 0.5 低体重 0.5 0.5 , , 過敏なし, 高血圧あり 喫煙あり 喫煙なし 正常 0.4705882 0.4736842 低体重 0.5294118 0.5263158 , , 過敏あり, 高血圧なし 正常 0.48 0.5185185 低体重 0.52 0.4814815 , , 過敏なし, 高血圧なし 正常 0.6176471 0.7714286 低体重 0.3823529 0.2285714 attr(,"class") [1] "table"