Mathematical Learning Theory

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
数理統計学  第9回 西山.
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
経済統計学 第2回 4/24 Business Statistics
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計解析 第9回 第9章 正規分布、第11章 理論分布.
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
Reed-Solomon 符号と擬似ランダム性
情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
第2章補足Ⅱ 2項分布と正規分布についての補足
数理統計学  第8回 西山.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
京都大学 化学研究所 バイオインフォマティクスセンター
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
相関分析.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
ニューラルネットは、いつ、なぜ、どのようにして役立つか?
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
Statistical Physics and Singularity Theory
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
物理学者でない人 のための統計力学 東京工業大学 渡辺澄夫 DEX-SMI 1/1/2019.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規分布確率密度関数.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
7.4 Two General Settings D3 杉原堅也.
Algebraic Geometry of Learning Machines
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
Data Clustering: A Review
ボルツマンマシンの定義 ボルツマンマシン(Boltzmann machine)は、スピン・システムをヒントに作られたモデルである。
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ベイズ・アプローチによる グラフィカル・テスト理論
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ベイズ最適化 Bayesian Optimization BO
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
数理統計学  第6回 西山.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
Mathematica Package (BimodalAnalysis.m)
自己縮小画像と混合ガウス分布モデルを用いた超解像
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

Mathematical Learning Theory Expectation and Minimization Algorithm 渡辺澄夫 今日は、少し数式を使います・・・。 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory 混合正規分布 K k=1 ∑ ak = 1 w = (ak , bk ,σk) K k=1 1 (2πσk2)N/2 || x – bk ||2 2σk2 p(x|w) = ∑ ak      exp( - ) 平均 bk ,分散σk2 の       正規分布 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory 山の大きさ形は同じで 中心だけ最適化 w = (bk ) ak =1/K , σk=1 (1) ●初期化 (2) ● 分類 (3) ●を●へ移動 繰り返し 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory 隠れ変数(潜在変数) K k=1   1 (2πσk2)N/2 || x – bk ||2 2σk2 p(x|w) = ∑ ak      exp( - ) y について周辺化 K k=1   1 (2πσk2)N/2 || x – bk ||2 2σk2 p(x,y|w) = Π [ ak      exp( - ) ] yk y = (y1,y2,..,yK) は、どれかひとつだけ1で残りは0 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory 隠れ変数 <= 確率競合 K k=1   1 (2πσk2)N/2 || x – bk ||2 2σk2 p(x,y|w) = Π [ ak      exp( - ) ] yk K k=1 (定数項は省略) = exp[-Σ yk {||x-bk||2/2σk2 – Nlogσk+ log ak}] ついたり消えたり    ⇒平均すると混合分布 (y1,y2,..,yK) = (1,0,..,0), (0,1,0,..,0), ..,(0,0,..,1) 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory 準備 任意の w1 , w2 について ∫ p(y| w1) log p(y|w2) dy≦∫ p(y| w1) log p(y|w1) dy なぜならカルバック情報量の性質 ∫ p(y| w1) log [p(y|w1)/ p(y|w2) ] dx ≧0 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory L(w)=Σ log p(xi|w) を最大にする w を求めたい 方法 n i=1 G(w1,w2)=Σ Σy p(y| xi, w1) log p(xi,y | w2) w1 初期化 (2) G(w1,w2)を w2 について最大化(w1 固定) (3) w1 :=w2 として(2)に戻る。 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory G*(w1,w2)= G(w1,w2)-ΣΣy p(y| xi, w1) log p(y|xi, w1) n i=1 =ΣΣy p(y| xi, w1) { log p(xi,y | w2)ー log p(y|xi, w1)} n i=1 =ΣΣy p(y| xi, w1) {log p(xi | w2) +log p(y|xi, w2) -log p(y|xi, w1) } n i=1 n i=1 p(y|xi, w2) p(y|xi, w1) =Σlog p(xi | w2) + ΣΣy p(y| xi, w1) log 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory G*(w1,w2)= G(w1,w2)-ΣΣy p(y| xi, w1) log p(y|xi, w1) n i=1 n i=1 p(y|xi, w2) p(y|xi, w1) =Σlog p(xi | w2) + ΣΣy p(y| xi, w1) log L(w2 ) w2=w1 のとき最大 L(w) がw*で最大⇔ G*(w1,w2)がw1=w2 =w*で最大 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory G*(w1,w2)= G(w1,w2)-ΣΣy p(y| xi, w1) log p(y|xi, w1) n i=1 n i=1 p(y|xi, w2) p(y|xi, w1) =Σlog p(xi | w2) + ΣΣy p(y| xi, w1) log w1 初期化 (2) G(w1,w2)を w2 について最大化 (3) w1 :=w2 として(2)に戻る。 G*(w1,w2)増加 G*(w1,w2)増加 G*(w1,w2)は増加L(w1) が大きくなっていく。 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory G(w1,w2)=Σ Σy p(y| xi, w1) log p(xi,y | w2) K k=1 log p(x,y|w) = -Σ yk {||x-bk||2/2σk2 – Nlogσk+ log ak} Σy yk p(y| xi, w) = Σy yk p(xi, y| w)/p(xi|w) || xi – bk ||2 2σk2   1 (2πσk2)N/2 = ak      exp( - ) = E[yk| xi , w] p(xi|w1) とおく 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory G(w1,w2)=Σ Σy p(y| xi, w1) log p(xi,y | w2) n i=1 K k=1 =-Σ Σ E[yk| xi , w1]{||x-bk||2/2σk2 – Nlogσk+ log ak} w1 が与えられたもとでこれを最大化 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory Σ E[yk| xi , w1] ak = Σ 1 w1 → w2 が 計算できる Σ E[yk| xi , w1] xi bk= Σ E[yk| xi , w1] Σ E[yk| xi , w1] || xi - bk || 2  σk2 = NΣ E[yk| xi , w1] 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory || xi – bk ||2 2σk2   1 (2πσk2)N/2 E[yk| xi , w] = ak      exp( - ) p(xi|w1) データ xi が k 番目の コンポーネントから出た確率 bk ak 面積 σk xi 2018/12/31 Mathematical Learning Theory

Mathematical Learning Theory 問題 EMアルゴリズムを1回動かすと 各パラメータは、どのようになるか図示せよ。 b1 b2 a1 面積 σ1 a2 σ2 2018/12/31 Mathematical Learning Theory