数理言語情報論 第11回 2007年1月21日 数理言語情報学研究室 講師 二宮 崇.

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

PCFG の EM アルゴリズムとス ムージング 二宮 崇 1. 今日の講義の予定 PCFG (Probabilistic Context Free Grammar, 確率付 文脈自由文法 ) EM アルゴリズム スムージング 教科書 北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデル.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
人工知能特論 II 第 11 回 二宮 崇二宮 崇 1. 今日の講義の予定 確率的識別モデル 最大エントロピーモデル ( 多クラスロジスティック回帰、対数線形モデル ) パラメータ推定 自然言語処理での素性ベクトル 教科書 Yusuke Miyao (2006) From Linguistic Theory.
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
数理言語情報論 第12回 2010年1月13日 数理言語情報学研究室 講師 二宮 崇.
数理言語情報論 第11回 2009年12月16日 数理言語情報学研究室 講師 二宮 崇.
電子情報工学科5年(前期) 7回目(21/5/2015) 担当:古山彰一
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
人工知能特論II 第15回 二宮 崇.
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
数理言語情報論 第8回 2009年11月25日 数理言語情報学研究室 講師 二宮 崇.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
データ構造と アルゴリズム 知能情報学部 新田直也.
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
人工知能特論II 第2回 二宮 崇.
決定木とランダムフォレスト 和田 俊和.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
第14章 モデルの結合 修士2年 山川佳洋.
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
主成分分析 Principal Component Analysis PCA
計算量理論輪講 chap5-3 M1 高井唯史.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
Number of random matrices
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
サポートベクターマシン Support Vector Machine SVM
補講:アルゴリズムと漸近的評価.
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第16章 動的計画法 アルゴリズムイントロダクション.
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
人工知能特論II 第8回 二宮 崇.
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
コンパイラ 2012年10月11日
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

数理言語情報論 第11回 2007年1月21日 数理言語情報学研究室 講師 二宮 崇

今日の講義の予定 識別モデル 確率的HPSG 最大エントロピー法 パーセプトロン 教科書 GIS, IIS, CG Yusuke Miyao (2006) From Linguistic Theory to Syntactic Analysis: Corpus-Oriented Grammar Development and Feature Forest Model, Ph.D Thesis, University of Tokyo 北研二(著) 辻井潤一(編) 言語と計算4 確率的言語モデル 東大出版会 Jorge Nocedal, Stephen Wright (1999) “Numerical Optimization” Springer, 1st edition 1999, 2nd edition 2006 Cristopher M. Bishop “PATTERN RECOGNITION AND MACHINE LEARNING” Springer, 2006

HPSGの確率モデル? PCFGは各書換規則に対応するパラメータを用意すれば良かった HPSGでは?? NP 構文木 t S PCFGは各書換規則に対応するパラメータを用意すれば良かった HPSGでは?? VP1 SUBJ NP OBJ1 V が 読んだ 香織 NP を S NP SUBJ V 電子メール NP が 送った 恵 P(t) = θS → SUBJ VP1 × θSUBJ → NP が × θNP → 香織 × θVP1 → OBJ1 V × θOBJ1 → NP を × θNP → S NP × θS → SUBJ V × θSUBJ → NP が × θNP → 恵× θV → 送った× θNP → 電子メール × θV → 読んだ

PHON: <he, gives, her, a present> VAL: SUBJ: <> COMPS: <> SPR: <> PHON: <gives, her, a present> VAL: SUBJ: < > COMPS: <> SPR:<> 1 PHON: <gives, her> VAL: SUBJ:< > COMPS:< > SPR:<> 1 3 PHON: <gives> VAL: SUBJ: < > COMPS: < , > SPR: <> 1 2 3 1 NP[nom][3rd, sing] NP[acc] 3 NP[acc] 2 he gives her a present

生成モデルから識別モデルへ 識別モデル 直接 を解く 独立な事象を仮定しない 「条件部の確率」をモデルにいれない

生成モデルと識別モデル (イメージ) 生成モデル 識別モデル GOOD BAD

生成モデルと識別モデル (イメージ2) 生成モデル 識別モデル 絵を描いて全体像の比較 それぞれの特徴を比較 鼻の位置 耳の形 体の大きさ 舌の表面

識別するための訓練 教師付学習 良い例と悪い例を与えて、どこに注目すればより良く識別出来るのか学習 good examples bad examples

… 識別モデル s = “A blue eye girl with white hair and skin walked” 素性ベクトル (特徴ベクトル) (0,0,1,0) (1,0,1,0) (1,1,1,0) (0,0,1,1) (1,0,0,0) t1 t2 t3 t4 … tn 文法Gによりsから導出出来る全ての構文木集合 p(t3|s) はt1,t2,t3,..,tnからt3を選択する確率

CFGの識別モデルの例 構文木生成に用いられた各書換規則の適用回数 各次元は書換規則に対応 ルールID 1 2 3 4 5 6 7 8 9 10 素性ベクトル(0,0,1,0,3,0,1,1,2,0) 構文木中に含まれる各書換規則の適用回数 構文木

構文木の素性ベクトル 簡単なCFGの例 ID S → SUBJ VP1 1 S → SUBJ V 2 SUBJ → NP が 3 VP1 → OBJ1 V 4 OBJ1 → NP を 5 NP → S NP 6 V → 送った 7 V → 読んだ 8 NP → 香織 9 NP → 恵 10 NP → 電子メール 11 NP → プレゼント 12 NP → 香織 NP1 13 NP → 恵 NP1 14 NP1 → と NP 15 ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 素性ベクトル( 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0) 構文木 t S VP1 SUBJ NP OBJ1 V が 読んだ 香織 NP を S NP SUBJ V 電子メール NP が 送った 恵

識別モデルのいいところ 独立性を仮定していないので、思いつく限りいろんな素性をいれれればいれるほど性能が良くなる 訓練データに対してより良い予測ができるようになる 逆にoverfittingする可能性がある c.f. 最大エントロピー法での正規分布の事前分布によるMAP推定でoverfittingを緩和 CFGなら、ルールだけでなく、head wordなどいろんな素性をいれれば良い 現在の計算機の性能なら数千万次元ぐらいあっても大丈夫

確率的HPSG 「....を満たすブランチ(分岐)はいくつあるか?」という素性の集合 親のcatがverbで左娘のcatがverbで右娘のcatがverbであるか? →yes → +1 CAT: verb SUBCAT: <NP> 親のcatがverbで左娘のcatがnounで右娘のcatがverbであるか? →no →+0 CAT: verb CAT: verb SUBCAT: <VP> SUBCAT: <NP> … …

確率的HPSG ブランチの周辺状況を素性にしている 親のカテゴリーと左娘のカテゴリーと右娘のカテゴリーの全ての組み合わせを列挙して素性にすれば、先ほどの例のCFGと同じ素性になる カテゴリーだけでなく、head wordや、距離などいろいろな素性をいれられる

確率的HPSGの素性の実例 Spring has come rule name left daughter’s head lexical entry distance of head words left daughter’s POS CAT: verb comma exists or not SUBCAT: <> left daughter’s category CAT: verb left daughter’s head word SUBCAT: <NP> left daughter’s span CAT: noun CAT: verb CAT: verb SUBCAT <> SUBCAT: <VP> SUBCAT: <NP> … … … Spring has come

素性に関する注意その1 単語の素性と素性値って? 例: head wordが``apple’’であった時の素性値は? 各次元が単語に対応する (0,0,0,0,0,.....,0,1,0,.....,0,0,0,0,0,0) (訓練データに出現した)単語の数だけ次元がある!

素性に関する注意その2 素性の組み合わせ 最大エントロピー法では、素性同士の共起情報が別素性として自動的に組み込まれるわけではない 先ほどの例の素性では右娘と左娘のcatが同時にverbであったときの共起 SVMなら、カーネルを使うとカーネルの特性による組み合わせを自動的に計算することになる 素性の組み合わせを手で指示しないといけない⇒自動的に行うなら「素性選択」を行う

素性に関する注意その2: 確率的HPSGの素性組み合わせの実例 RULE DIST COMMA SPAN SYM WORD POS LE ✔

識別モデルの学習

問題設定 x: 入力 y: 出力 訓練データ 問題 (xi, yi) i=1,...,N 例 ある未知の入力xに対する出力yの予測

素性関数 入力や出力から特徴を抽出する素性関数(feature function) を複数定義 fj(x, y) j=1,...,M 注意 人手で定義しないといけない Mは特にいくつでもかまわないが、増やした分だけ計算時間・空間がかかったり、overfittingしてしまう 良い素性関数をできるだけ見つける!ということが人間がしなくてはいけない重要な仕事 素性ベクトル (または特徴ベクトル, feature vector) ( f1(x,y), f2(x,y), ..., fM(x, y) )

全体の流れ(1/2) Estimation (推定、パラメータ推定) <λ1, λ2, ..., λM> 各素性 fj に対する重み λj を学習 訓練データ 入力 出力 x1 y1 x2 y2 ... xN yN 素性ベクトル <f1(x1,y1), f2(x1,y1), ..., fM(x1,y1)> <f1(x2,y2), f2(x2,y2), ..., fM(x2,y2)> ... <f1(xN,yN), f2(xN,yN), ..., fM(xN,yN)> 学習 <λ1, λ2, ..., λM>

全体の流れ(2/2) yi Inference (推測、推定) 未知のデータxに対する出力yの推定 推測 <λ1,...,λM> 学習により得られた重みベクトル 未知のデータ y1 素性ベクトル <f1(x,y1), f2(x,y1), ..., fM(x,y1)> <f1(x,y2), f2(x,y2), ..., fM(x,y2)> ... <f1(x,yn), f2(x,yn), ..., fM(x,yn)> x y2 <λ1,...,λM> y3 ... yn 推測 yi

最大エントロピー法 (Maximum Entropy model, ME model) 確率モデル 対数線形モデル(log-linear model) 重み 素性関数 正規化項 (Partition function)

対数線形モデルの直感的理解 スコアの対数=各素性の(値×重み)の和 p(y|x)= (xyのスコア)/(xに対する候補集合y’のスコアの和)

パラメータ推定 訓練データに対する対数尤度 当たり前ですが… だよ! Zはパラメータを含むexpの足し算になっているから、これの極値を求めるのは難しい…

パラメータ推定 もんちぇ EMの時と同じだね パラメータ更新式に変形 新しいパラメータと古いパラメータによるデータ全体に対する対数尤度の差を正(もしくは正が保証されている中で最大にする)にするよう更新 古いパラメータ: λ 新しいパラメータ: λ’

パラメータ更新式の導出

パラメータ更新式の導出 ただし、

パラメータ更新式の導出: Generalized Iterative Scaling (GIS) ただし、 ジェンセンの不等式 この最後の式をA(λ, λ’)とおこう

パラメータ更新式の導出: Generalized Iterative Scaling (GIS)

パラメータ更新式の直感的理解 t1 t2 t3 tn 訓練データに対する素性値の合計 正解候補集合に対する素性値の期待値を合計 パージングなら、、、 t1 t2 t3 tn ... 文s p(t1|s;λ) p(t2|s;λ) p(t3|s;λ) p(tn|s;λ) × × × × fj(s, t1) fj(s,t2) fj(s,t3) fj(s, tn)

GISアルゴリズム Input: training data D={<x,y>}, feature functions f={fj}, initial parameters λ={λj} Output: optimal parameters λ foreach <x,y> ∈ D foreach fj ∈ f such that fj(x,y) ≠ 0 μ’j := fj(x,y) C := -∞ loop until λ converges R := {}; Z := 0 foreach y’ ∈ Y(x) C := max(∑j fj(x,y’), C); S := exp(∑k λkfk(x,y’)); Z := Z + S R := R ∪ {<y’, S>} foreach <y’, S> ∈ R foreach fj ∈ f such that fj(x,y’) ≠ 0 μj := μj + fj(x,y’)・1/Z・S foreach fj∈f Δλj := 1/C・log(μ’j/μj) λj := λj + Δλj

素性森 (Feature Forest) 最大エントロピー法では基本的に、「ある文xに対する全ての構文木集合Y(x)に対する確率」を計算しないといけない PCFGの内側外側アルゴリズムと同じアイデアで、畳みこまれた構文木集合(構文解析後のチャート)を展開することなく∑y∈Y(x)p(y|x)×fj(x, y)を計算

素性森 各ブランチのスコアの積=全体のスコア ... ... ... ... ... 構文木全体の素性ベクトル: (1,0,2,1,0) (0,0,1,0,0) ... ... (1,0,1,1,0) 掛算 ... ...

素性森 構文木の確率 内側外側アルゴリズムの適用 書換規則の適用回数⇒素性値(素性の発火回数) 書換規則の確率 θr ⇒ブランチのスコア PCFGの書換規則の確率に対応

EMと最大エントロピー法 POSタガー パーザー データ構造 曖昧性のある畳み込まれた列 曖昧性のある畳み込まれた木構造 EMアルゴリズム 前向き後向きアルゴリズム 内側外側アルゴリズム 最大エントロピー法 CRF (Conditional Random Field) 素性森 (Feature Forest)

その他のパラメータ推定アルゴリズム

パラメータ更新式の導出: Improved Iteretive Scaling (IIS) GISでは としていたが、 とする ただし、 ジェンセンの不等式 この最後の式をA(λ, λ’)とおこう

パラメータ更新式の導出: Improved Iteretive Scaling (IIS) ・1変数の方程式になっているので、上の式をニュートン法で解けばよい ・上の式のC(xi,y)が同じ項をまとめるとC(xi,y)が同じデータに対してのみモデル期待値を記憶しておくだけですむ ・C(xi,y)を定数CにしたのがGISで、GISではニュートン法を使わなくても直接解析的に解ける。GISの収束はIISより遅い。 ・C(xi,y)のバリエーションが多いと、メモリが大量に必要。

パラメータ推定:勾配ベースのアルゴリズム 目的関数の勾配から勾配ベースの推定アルゴリズムでパラメータ推定が可能 最急降下法 (steepest decent method) 共役勾配法 (Conjugate Gradient, CG; Fletcher & Reeves 1964) BFGS (L-BFGS) (Nocedal 1980) 自然言語処理では、経験的に勾配ベースのアルゴリズムの方がIISより非常に速く収束するため、勾配ベースのアルゴリズムが望ましい (Malouf 2002)

パラメータ推定: 勾配ベースのアルゴリズム 目的関数 勾配

パラメータ推定: 最急降下法 パラメータ更新式 αは適当な小さな値もしくは一次元最適化(直線探索 ともいう) (one-dimensional line search) で決定 収束が非常に遅い 黄金分割にすると、L(λ)の計算が2回ではなくて1回で済む 一次元最適化 候補領域の決定 あるステップ幅をg方向に2乗しながら探索し、L(λ’)<L(λ)になったところで候補領域の決定 2. 候補領域を3分割(黄金分割)し、2つの中間点のL(λ)を計算し、その大小を比較することにより、左か右の領域を候補領域から削除。2.を繰り返す。 削除 λ‘(k) λ(k) λ’(k) λ(k)

パラメータ推定: 共役勾配法Conjugate Gradient (CG) 更新式 αは1次元最適化(one-dimensional line search)で求める 毎回、直交する方向に探索している n次元なら、n回の繰り返しで終了

パラメータ推定: 準ニュートン法 多次元のニュートン法 準ニュートン法 ヘシアンの逆行列の計算が重い… ヘシアン逆行列を近似する BFGS (Broyden 1970, Fletcher 1970, Goldfarb 1970, Shanno 1970)が有名。ただし、|λ|2のサイズの行列を扱うので、巨大な次元の素性ベクトルには向かない Limited-memory BFGS (L-BFGS) (Nocedal 1980)は少ないメモリでヘシアン逆行列を近似する。最大エントロピー法ではよく使われる。

パーセプトロン (Perceptron) 最大エントロピー法の問題点 パーセプトロン Z(正解候補集合のスコアの和)の計算が重い パーセプトロン 訓練データxiに対しyiを出力する確率が、正解候補集合Y(xi)のどの要素の確率よりも高ければ良い 訓練データの正解と現在のパラメータで推測される最も確率の高い答えとだけ比較 実装もアルゴリズムも簡単! 最大エントロピーより性能は落ちるけど、メモリー使用量や学習時間の点で非常に有利

パーセプトロン: アルゴリズム Input: training data D={<x,y>}, feature functions f={fj}, initial parameters λ={λj} Output: optimal parameters λ loop until λ converges foreach <x,y> ∈ D z’ := argmaxz p(z|x;λ) if( y ≠ z’ ) foreach fj ∈ f λj := λj + fj(x, y) – fj(x, z’)

おまけ 最大エントロピー法の理論的背景

最大エントロピー法の理論的背景 確率モデルはどこからきたのか? エントロピーを最大化?

経験確率(経験期待値)と モデル確率(モデル期待値) データ {<xi, yi>}が与えられた時、 モデル確率 求める確率分布 パラメータを含み、これを推定するのが目標

経験確率 = データの頻度(経験確率分布) 訓練データの列 x1 x2 x3 y freq(x,y) p(x,y) 983428 983428 983428/N 1 58123 58123/N 178237 178237/N 1323 1323/N 748 748/N 23 23/N 373 373/N 2384 2384/N 82 82/N 343781 343781/N 45854 45854/N 83472 83472/N 6474 6474/N 27 27/N 8239 8239/N 634 634/N 訓練データの列 x1 x2 x3 y 1 ... =

準備 X: 入力xの全空間 Y(x): 入力xに対する出力yの全空間 F: 素性関数の集合 エントロピー 条件付きエントロピー

準備 カルバックライブラー距離(Kullback-Leibler distance) 条件付き確率の場合 二つの確率分布の近さを表す尺度 相対エントロピー(relative entropy)とも呼ばれる 一様分布との距離最小化⇔エントロピー最大化 KL(p,q)≧0 p=qならばKL(p,q)=0

最大エントロピー法 素性値の制約 モデル期待値=経験期待値 条件付き確率にするための制約 エントロピー最大化

解く H(p)を等式制約の元で最大化⇒ラグランジェの未定乗数法 ラグランジアン ラグランジアンをp(y|x)で偏微分

解く 前スライドの等式をp(y|x)について解くと、 次に、ラグランジアンをκxで偏微分 上の式を代入して解くと、、、(次スライド)

パラメトリックフォームがでました p(y|x)の式に代入すると、 でました!

解く 最後にラグランジアンに求まったp(y|x)を代入、極値を求めてλを求める この項は0になることに注意

解く

解けたー なんと、p.26の数式をみてみると、ラグランジアンの極値と最尤推定の極値は一致している! つまり、エントロピー最大化により求まるモデルと最尤推定により求まるモデルは一致するのだ

最大エントロピー法と対数線形法 最大エントロピー法(maximum entropy model) 素性に対する制約+エントロピー最大化によるモデル推定 対数線形モデル(log-linear model) log-linearで表現される確率モデルの最尤推定 歴史的には、この二つは別々に研究されてきたが、近年これらのモデル推定の結果が同一になることがわかった 以上の理由で、最大エントロピー法と対数線形モデルと二つの呼び名がある

まとめ 識別モデル 確率的HPSG 学習アルゴリズム 次回は涙の最終回、1/28(月) 16:30~ HPSG文法開発 講義資料 最大エントロピー法 (GIS, IIS, CG) パーセプトロン 次回は涙の最終回、1/28(月) 16:30~ HPSG文法開発 講義資料 http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/mistH19w/

レポート課題 課題(いずれかのうち一つ) 言語学、パージングもしくは機械学習に関する論文を一つ以上読んで内容をまとめよ ACL, NAACL, COLING, EMNLP, ICML, NIPS, IJCAIあたりが望ましいがこれらに限定はしない 授業内容でよくわからなかった箇所を教科書やスライドを頼りに例題を作りつつ内容をまとめ、考察せよ 例: CCGやHPSGで簡単な文法を(紙の上に)書き、(紙の上で)構文解析 例: 正規分布の混合分布に対するEMの導出 例: エントロピー最大化によるパラメータ推定とパラメトリック形式の最尤法によるパラメータ推定が一致することを確認 例: 素性構造のコピーや等価性チェックのアルゴリズムを書く 授業内容に関連する内容を発展させた内容を調査もしくは考察 例: 最大エントロピー法のスムージングのための正規分布の事前分布 全ての授業に出席した人は、全ての回の感想を簡単にまとめて提出

レポート課題 A4で4ページ以上 日本語か英語 microsoft word, pdf, psの電子的媒体もしくは紙で提出 締切: 2008年2月15日(金) 提出先 電子的媒体の場合(最も推奨) ninomi@r.dl.itc.u-tokyo.ac.jpに提出 紙の場合 事務に提出(推奨) 直接持ってくる http://www.r.dl.itc.u-tokyo.ac.jp/?q=node/12 学内便で「総合図書館内 情報基盤センター 二宮 崇」宛に送る (ただし、1週間前の2月8日(金)までに提出する)