人工知能特論 II 第 11 回 二宮 崇二宮 崇 1. 今日の講義の予定 確率的識別モデル 最大エントロピーモデル ( 多クラスロジスティック回帰、対数線形モデル ) パラメータ推定 自然言語処理での素性ベクトル 教科書 Yusuke Miyao (2006) From Linguistic Theory.

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Building text features for object image classification
最大エントロピーモデルに基づく形態素解析と辞書による影響
人工知能特論 8.教師あり学習と教師なし学習
数理言語情報論 第12回 2010年1月13日 数理言語情報学研究室 講師 二宮 崇.
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
ゲーム理論・ゲーム理論Ⅰ (第6回) 第4章 戦略形ゲームの応用
Pattern Recognition and Machine Learning 1.5 決定理論
数理言語情報論 第11回 2007年1月21日 数理言語情報学研究室 講師 二宮 崇.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
雑音重み推定と音声 GMMを用いた雑音除去
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
第4章 線形識別モデル 修士2年 松村草也.
DMLA 小町守 半教師あり学習 チュートリアル.
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
決定木とランダムフォレスト 和田 俊和.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
第14章 モデルの結合 修士2年 山川佳洋.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
Nightmare at Test Time: Robust Learning by Feature Deletion
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
Number of random matrices
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
サポートベクターマシン Support Vector Machine SVM
確率的画像処理アルゴリズム入門 東北大学 大学院情報科学研究科 田中 和之
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
京都大学 化学研究所 バイオインフォマティクスセンター
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
自己縮小画像と混合ガウス分布モデルを用いた超解像
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

人工知能特論 II 第 11 回 二宮 崇二宮 崇 1

今日の講義の予定 確率的識別モデル 最大エントロピーモデル ( 多クラスロジスティック回帰、対数線形モデル ) パラメータ推定 自然言語処理での素性ベクトル 教科書 Yusuke Miyao (2006) From Linguistic Theory to Syntactic Analysis: Corpus-Oriented Grammar Development and Feature Forest Model, Ph.D Thesis, University of Tokyo Jun’ichi Kazama (2004) Improving Maximum Entropy Natural Language Processing by Uncertainty-aware Extensions and Unsupervised Learning, Ph.D. Thesis, University of Tokyo 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル 東大出版会 Jorge Nocedal, Stephen Wright (1999) “Numerical Optimization” Springer, 1 st edition 1999, 2 nd edition 2006 Cristopher M. Bishop “PATTERN RECOGNITION AND MACHINE LEARNING” Springer, 2006 Nello Cristianini and John Shawe-Taylor “An Introduction to Support Vector Machines and other kernel-based learning methods”, Cambridge University Press,

確率的識別モデル 最大エントロピーモデル、多クラスロジスティック回帰、対数線 形モデル 3

問題設定 x: 入力 y: 出力 訓練データ (x i, y i ) i=1,...,N 例 x は文で、 y は x に対する正解の構文木 x は競馬情報で、 y は 1 位の馬 問題 ある未知の入力 x に対する出力 y の予測 4

素性関数 入力や出力から特徴を抽出する素性関数 (feature function) を複数定義 f j (x, y) j=1,...,M 注意 人手で定義 M は特にいくつでもかまわないが、増やした分だけ計算 時間・空間がかかったり、 overfitting してしまう 良い素性関数をできるだけたくさん見つける、というこ とが人間がしなくてはいけない重要な仕事 素性ベクトル ( または特徴ベクトル, feature vector) ( f 1 (x,y), f 2 (x,y),..., f M (x, y) ) 5

全体の流れ (1/2) 6 Estimation ( 推定、パラメータ推定 ) 各素性 f j に対する重み λ j を学習 訓練データ 学習

全体の流れ (2/2) 7 Inference ( 推測、推定 ) 未知のデータ x に対する出力 y の推定 推測 x 未知の データ y1y1 y2y2 y3y3... ynyn x に対する全 出力候補 y yiyi 学習により得 られた重みベ クトル

最大エントロピーモデル (Maximum Entropy model) 多クラスロジスティック回帰 (Multi-class Logistic Regression) 対数線形モデル (Log-linear Model) 確率モデル 8 素性関数 重み 分配関数 (Partition function)

直感的理解 スコアの対数 = 各素性の ( 値 × 重み ) の和 p(y|x)= (xy のスコア )/(x に対する候補集合 y’ のスコアの和 ) 9

パラメータ推定 10

パラメータ推定 訓練データに対する対数尤度 11 Z はパラメータを含む exp の足し算になっているか ら、これの極値を求めるのは難しい …

パラメータ推定 GIS (Generalized Iterative Scaling) IIS (Improved Iterative Scaling) 勾配に基づく数値最適化 最急降下法 (steepest decent method) 共役勾配法 (Conjugate Gradient, CG; Fletcher & Reeves 1964) BFGS (L-BFGS) (Nocedal 1980) 自然言語処理では、経験的に勾配ベースのアルゴ リズムの方が IIS より非常に速く収束するため、勾 配ベースのアルゴリズムが望ましい (Malouf 2002) オンラインアルゴリズム パーセプトロンなど 12

パラメータ推定 : 勾配ベースのア ルゴリズム 目的関数 勾配 13

パラメータ推定 : 最急降下法 パラメータ更新式 α は適当な小さな値もしくは一次元最適化 ( 直線探索 ともい う ) (one-dimensional line search) で決定 収束が非常に遅い 14 λ (k) λ‘ (k) 1. 候補領域の決定 あるステップ幅を g 方向に 2 乗しなが ら探索し、 L(λ’)<L(λ) になったと ころで候補領域の決定 2. 候補領域を 3 分割 ( 黄金分割 ) し、 2 つの中間点の L(λ) を計算し、その大小 を比較することにより、左か右の領域 を候補領域から削除。 2. を繰り返す。 一次元最適化 λ (k) λ’ (k) 削除 黄金分割にすると、 L(λ)の計算が2回で はなくて1回で済む

パラメータ推定 : 共役勾配法 Conjugate Gradient (CG) 更新式 α は 1 次元最適化 (one-dimensional line search) で求める 毎回、直交する方向に探索している n 次元なら、 n 回の繰り返しで終了 15

パラメータ推定 : 準ニュートン法 多次元のニュートン法 ヘシアンの逆行列の計算が重い … 準ニュートン法 ヘシアン逆行列を近似する BFGS (Broyden 1970, Fletcher 1970, Goldfarb 1970, Shanno 1970) が有名。ただし、 |λ| 2 のサイズの行 列を扱うので、巨大な次元の素性ベクトルには向 かない Limited-memory BFGS (L-BFGS) (Nocedal 1980) は 少ないメモリでヘシアン逆行列を近似する。最大 エントロピー法ではよく使われる。 16

パーセプトロン (Perceptron) 最大エントロピー法の問題点 Z( 正解候補集合のスコアの和 ) の計算が重い パーセプトロン 訓練データ x i に対し y i を出力する確率が、正解候補集合 Y(x i ) のどの要素の確率よりも高ければ良い 訓練データの正解と現在のパラメータで推測され る最も確率の高い答えとだけ比較 実装もアルゴリズムも簡単! 最大エントロピーより性能は落ちるけど、メモ リー使用量や学習時間の点で非常に有利 17

パーセプトロン : アルゴリズム 18 Input: training data D= …, feature functions f={f j }, initial parameters λ={λ j } Output: optimal parameters λ loop until λ converges foreach ∈ D z’ := argmax z p(z|x;λ) if( y ≠ z’ ) foreach f j ∈ f λ j := λ j + f j (x, y) – f j (x, z’)

自然言語処理の識別モデル 19

識別モデルのいいところ 独立性を仮定していない ( 戦略として ) 思いつく限りいろんな素性をいれる 訓練データに対してより良い予測ができる 逆に overfitting する可能性がある c.f. 正規分布の事前分布による MAP 推定で overfitting を緩和 自然言語処理の場合、疎なベクトルになる 疎なベクトルなら数百万次元ぐらい扱える 20

素性に関する注意その 1 単語の素性と素性値 例 : 今みている単語が ``apple’’ であった時の素 性値 21 (0,0,0,0,0,.....,0,1,0,.....,0,0,0,0,0,0) ( 訓練データに出現した ) 単語の数だけ次元がある! 各次元が単語に対応 する apple に対応する次元

素性に関する注意その 2 素性の組み合わせ 最大エントロピー法 ( ロジスティック回帰 ) では、 素性同士の共起情報が別素性として自動的に 組み込まれるわけではない 一つ前の単語が ”the” で、今見ている単語が ”flies” 。 一つ前の品詞が動詞で、今見ている品詞が冠詞など など。 SVM: 多項式カーネル 素性の組み合わせを手で指示する。自動的に 組み合わせる研究もある。 c.f. 素性選択 22

まとめ 識別モデル 最大エントロピーモデル ( 多クラスロジスティッ ク回帰、対数線形モデル ) 識別モデルのパラメータ推定 勾配ベースのアルゴリズム パーセプトロン 自然言語処理での素性ベクトル 23 今までの講義資料