``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

オンライン学習 定式化 評価法: Regret など パーセプトロン Passive Aggressive Algorithm ( アルゴリズムと損失の限界の評価) Confidence Weighted Algorithm Pegasos Coordinate Descent バッチ、オンライン、ストリームの.
人工知能特論 II 第 11 回 二宮 崇二宮 崇 1. 今日の講義の予定 確率的識別モデル 最大エントロピーモデル ( 多クラスロジスティック回帰、対数線形モデル ) パラメータ推定 自然言語処理での素性ベクトル 教科書 Yusuke Miyao (2006) From Linguistic Theory.
オンライン学習 Prediction Learning and Games Ch2
ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.5 節 主・双対法 pp
第八回  シンプレックス表の経済的解釈 山梨大学.
Accelerated Gradient Methods for Stochastic Optimization and Online Learning (Hu, Kwok and Pan, NIPS2009) 二宮 崇 機械学習勉強会 2010 年 6 月 17 日 1.
Extremal Combinatorics 14.1 ~ 14.2
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
ベイズ的ロジスティックモデル に関する研究
「基礎OR」/「OR演習」 第3回 10/13/2009 森戸 晋.
雑音重み推定と音声 GMMを用いた雑音除去
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
第4章 線形識別モデル 修士2年 松村草也.
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
サポートベクターマシン によるパターン認識
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究
決定木とランダムフォレスト 和田 俊和.
Mathematical Learning Theory
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Online Decoding of Markov Models under Latency Constraints
第14章 モデルの結合 修士2年 山川佳洋.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
Basic Tools B4  八田 直樹.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Data Clustering: A Review
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ガウシアン確率伝搬法の 近似精度に対する理論解析
名古屋市立大学大学院システム自然科学研究科 MIRU2009: 第12回 画像の認識・理解シンポジウム
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
4. システムの安定性.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
Data Clustering: A Review
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
Lecture 8 Applications: Direct Product Theorems
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
Max Cut and the Smallest Eigenvalue 論文紹介
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
分枝カット法に基づいた線形符号の復号法に関する一考察
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)

構成 1.Introduction 2.Primal and Dual Problems for Log-Linear Models(モデルと主、双対問題) 3.Exponentiated Gradient Algorithms(Kivinen & Warmuth, 1997)(アルゴリズム) 4.Convergence Results (収束性の証明) 4.1 Divergence Measures 4.2 Convergence of the Batch Algorithm 4.3 Convergence of the Online Algorithm 4.4 Convergence Rate of the Batch Algorithm 4.5 Convergence for Max-Margin Learning 5. Structured Prediction with LLEG (ラベルが構造を持つ場合) 6. Related Work 7. Experiments(多クラス分類と係り受け解析で実験) 8. Conclusion この辺りがメイン

対数線形モデル(2節) (条件付き)対数線形モデル 入力 ラベル (xに依存しても良い) 時系列、木などの内部構造をもつ高次元データ 特徴ベクトル           を用意 (条件付き)対数線形モデル :パラメータ ○   の分類は ○ ロジスティック回帰モデルを含む

主問題と双対問題(2節) 学習データ 正則化された対数尤度を最大化 主問題 とおく 双対問題 制約: 各   は確率分布 (      )  (      と書く)  

導出 とおく (等号は のとき) これを に代入してQを得る

Exponentiated Gradient(3節) Exponentiated Gradient Algorithm (Kivinen and Warmuth, 1997) を により更新 :学習係数 オンラインだと とする 双対問題のQだと

ダイバージェンス(4.1節)      間のダイバージェンス KL-ダイバージェンス Bregman ダイバージェンス マハラノビス距離 :凸関数

収束性の証明(4.2節) Lemma 1 Lemma 2 ○ オンラインも同様に証明可能 (4.3節) は任意の凸関数(具体的な形にはよらない) のようにηをとれば EGの更新で   は単調減少する 双対問題のQだと Lemma 2 ととれば (略証) となることを使う ○ オンラインも同様に証明可能 (4.3節)

収束の速さ(4.4節) Lemma 4 (Kivinen & Warmuth, 1997) Lemma 2 任意の に対し、 Lemma 2 t=1,…Tの和をとり Qが単調減少することから (最適解)とすると とするには ○ Max-Marginの場合(             のとき)も同様 (4.5節)

構造があるとき(5節) ラベル はパーツ の集合だとする :パーツ全体 のように分解できるとする の代わりに を使う パーツの個数だけ はパーツ   の集合だとする :パーツ全体 のように分解できるとする の代わりに    を使う パーツの個数だけ 変換は で更新できる。 (EGでの    はyに含まれるrに関する項のみきいてくるので)

実験(7節) 多クラス分類 構造がある場合(係り受け解析) この例では(たまたま) EG(primal)も単調増加(しかも速い) 目的関数の値 分類精度 共役勾配法、L-BFGSと比較 計算時間 計算時間 構造がある場合(係り受け解析) 目的関数の値 解析精度 特徴ベクトル          を単語のペア     に与える 計算時間 計算時間

結論 対数線形モデルに対し最適解への収束が保証されたアルゴリズムを提案 証明のほとんどはBregmanダイバージェンスとKLダイバージェンスの間の関係に因る 他の関数Qについても同様の解析が可能であると期待される オンラインアルゴリズムについても1/Tの収束の速さを証明するのは今後の課題