人工知能特論II 第8回 二宮 崇.

Slides:



Advertisements
Similar presentations
PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
人工知能特論II 二宮 崇.
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
人工知能特論 6.機械学習概論とバージョン空間法
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
計算の理論 I 決定性有限オートマトン(DFA) と 非決定性有限オートマトン(NFA)
データ構造と アルゴリズム 理工学部 情報システム工学科 新田直也.
Bassモデルにおける 最尤法を用いたパラメータ推定
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.
時空間データからのオブジェクトベース知識発見
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
データ構造と アルゴリズム 知能情報学部 新田直也.
第 七 回 双対問題とその解法 山梨大学.
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
誤差の二乗和の一次導関数 偏微分.
第13章 系列データ 修士 1年 村下 昇平.
ガウス過程による回帰 Gaussian Process Regression GPR
サポートベクターマシン によるパターン認識
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第9章 混合モデルとEM 修士2年 北川直樹.
Mathematical Learning Theory
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
7.4 Two General Settings D3 杉原堅也.
訓練データとテストデータが 異なる分布に従う場合の学習
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Extractor D3 川原 純.
分子生物情報学(2) 配列のマルチプルアライメント法
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
ボルツマンマシンの定義 ボルツマンマシン(Boltzmann machine)は、スピン・システムをヒントに作られたモデルである。
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
知能情報システム特論 Introduction
電機情報工学専門実験 6. 強化学習シミュレーション
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
ベイズ最適化 Bayesian Optimization BO
経営学研究科 M1年 学籍番号 speedster
サポートベクターマシン Support Vector Machine SVM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
計算の理論 I 非決定性有限オートマトン(NFA)
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
計算の理論 I プッシュダウンオートマトン 火曜3校時 大月 美佳 平成16年7月6日 佐賀大学知能情報システム学科.
計算の理論 I -講義について+αー 月曜3校時 大月美佳 平成31年5月18日 佐賀大学理工学部知能情報システム学科.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報数理Ⅱ 第10章 オートマトン 平成28年12月21日.
計算の理論 I -講義について+αー 火曜3校時 大月美佳 平成31年8月23日 佐賀大学理工学部知能情報システム学科.
計算の理論 I プッシュダウンオートマトン 月曜3校時 大月 美佳 平成15年7月7日 佐賀大学知能情報システム学科.
計算の理論 II 多テープTuring機械 月曜4校時 大月美佳 平成16年11月29日 佐賀大学知能情報システム学科.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

人工知能特論II 第8回 二宮 崇

今日の講義の予定 HMMの教師付学習 HMMの教師無し学習 EMアルゴリズム 教科書 EMアルゴリズムの導入 北研二(著) 辻井潤一(編) 言語と計算4 確率的言語モデル 東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999 Christopher M. Bishop “PATTERN RECOGNITION AND MACHINE LEARNING” Springer, 2006

隠れマルコフモデル Hidden Markov Model (HMM) Q: 状態の有限集合 Σ: 出力記号の有限集合 πq: 文頭が状態qになる確率 Σr∈Q πr=1 aq,r: 状態qから状態rへの遷移確率 Σr∈Q aq,r=1 bq,o: 状態qにおける記号oの出力確率 Σo∈Σ bq,o = 1

状態記号列の確率と 生成確率 状態と記号の列が与えられた時 記号列のみが与えられた時 解析 (入力: o1o2…oT) (生成確率) (この問題はビタビアルゴリズムで効率的に解ける)

ラグランジュの未定乗数法 ラグランジュの未定乗数法   はラグランジュ関数と呼ばれる

学習 (パラメータ推定): HMMの教師付学習

HMMの教師付学習 Supervised Learning of HMMs パラメータ推定 訓練データ (入力) パラメータ (出力) πq … |Q|個の変数 aq,r … |Q|×|Q|個の変数 bq,o … |Q|×|Σ|個の変数

HMMの教師付学習 Supervised Learning of HMMs パラメータ推定

HMMの教師付学習 Supervised Learning of HMMs パラメータ推定 制約付き最適化問題

HMMの教師付学習 Supervised Learning of HMMs ラグランジュの未定乗数法 ラグランジュ関数 ラグランジュ乗数 ρ … 1個の変数 αq … |Q|個の変数 βq … |Q|個の変数

HMMの教師付学習 Supervised Learning of HMMs πqを求める アイバーソンの記法 (Iverson bracket) C1(q)は訓練データ中で、文の先頭がqになっている回数

HMMの教師付学習 Supervised Learning of HMMs aq,rを求める C(q,r)は訓練データ中で、状態qから状態rに遷移した回数

HMMの教師付学習 Supervised Learning of HMMs bq,oを求める C(q,o)は訓練データ中で、状態qから記号oを出力した回数 C(q)は訓練データ中で、状態qが出現した回数

HMMの教師付学習 Supervised Learning of HMMs パラメータ推定

HMMの教師無し学習: EMアルゴリズムの導入

HMMの教師無し学習 Unsupervised Learning of HMMs パラメータ推定 訓練データ (入力) パラメータ (出力)

HMMの教師無し学習 Unsupervised Learning of HMMs EMアルゴリズムによる教師無し学習 不完全データ(欠損や曖昧性のあるデータ)に対する有名な学習法 EMアルゴリズム+前向き後向きアルゴリズム

EMアルゴリズム

EMアルゴリズムの問題設定 (1/2) x1 y11 y12 y13 x2 y21 x3 y31 y32 y33 y34 y35 ... 実際に観測されたデータx1,...,xNが存在 それぞれのデータxiは隠れ状態yi1,...,yiTのいずれかから生成されたと仮定 隠れ状態の集合はデータ毎に変わっても良い (機械学習一般には隠れ状態集合は固定であることが多い) パラメータ集合θによりp(x, y)が計算される x1 y11 y12 y13 p(x1, y11) p(x1, y12) p(x1, y13) x2 y21 p(x2, y21) x3 y31 y32 y33 y34 y35 p(x3, y31) p(x3, y32) p(x3, y33) p(x3, y34) p(x3, y35) ... ... ...

EMアルゴリズムの問題設定 (2/2) パラメータ推定 訓練データ (入力) パラメータ (出力)

EMアルゴリズムの全体像 [Eステップ] p(y | x ; θ)を計算 [Mステップ] によりパラメータ更新 問題変形 個々の問題に応じて決まるQ関数の極値を解析的に求める [Mステップ] によりパラメータ更新 個々の問題によって決まるパラメータ更新式

Q関数の導出 (1) 問題: 実際に観測されたデータx1,...,xnが存在して、それに対して、対数尤度を最大化するパラメータを求める 問題チェンジ: パラメータをθからθ’にした時の対数尤度の差を最大化することを繰り返せば極大値が求まる argmaxを求めているが、ようは正の値になればより尤度の高いパラメータが得られることに注意

Q関数の導出 (2) 個々の事象の対数尤度の差 ジェンセンの不等式より、常に≧0

Q関数の導出 (3) 個々の事象の対数尤度の差 ここをQ関数とみなす すると、ここは、

Q関数の導出 (4) まとめ より良いパラメータθ’を見つけるためには、 対数尤度の差は次のようにおける ただし Q(θ, θ’)-Q(θ, θ)≧0となれば良いが、 効率を考えると、対数尤度の差が最大になるほうが良い Q(θ, θ)はθ’に関わりなく一定なので、対数尤度の最大化するには、Q(θ, θ’)を最大化すれば良い θ’ = θとおくと(古いパラメータと同じにすると)Q関数の差は0になる⇒argmaxをとれば、常にQ(θ, θ’)-Q(θ, θ) ≧0

EMアルゴリズム: Q関数の最大化 次のパラメータ更新を繰り返すアルゴリズム しかし、まだ問題は解けていない! ただし、 全ての観測データx1, x2, ..., xnに対しては、 とすればよい しかし、まだ問題は解けていない! argmax Qをどうやって求めるか??

休憩: Q関数の直感的な意味 (1) Q関数 y1 xi y2 ... y3 (古いパラメータθで計算した隠れ状態の条件付き確率)× (新しいパラメータθ’によるxiとyの同時確率の対数)≒ xiとyの同時確率の対数の期待値 y1 xi y2 ... y3

休憩: Q関数の直感的な意味 (2) そもそもなぜ直接θを最大化しないのか? ⇒パラメータ更新式にすれば、実はこのsumをlogの外にだすことができるのであった

休憩: ジェンセンの不等式 f(x)=-log(x)、xi=qi /piとおくと ジェンセンの不等式 凸関数 f(x) は区間 I 上の実数値関数 p1,p2,...,pnはp1+p2+...+pn=1を満たす非負の実数 任意のx1,x2,...,xn∈ I に対し次の不等式が成り立つ f(x)=-log(x)、xi=qi /piとおくと

まとめ HMMの教師付学習 HMMの教師無し学習 EMアルゴリズム 資料 EMアルゴリズムの導入 Q関数の導出 http://aiweb.cs.ehime-u.ac.jp/~ninomiya/ai2/