Support Vector Machine による日本語係り受け解析

Slides:

Advertisements

Similar presentations

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

Advertisements

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

到着時刻と燃料消費量を同時に最適化する船速・航路計画

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

最大エントロピーモデルに基づく形態素解析と辞書による影響

「わかりやすいパターン認識」第１章：パターン認識とは

形態素周辺確率を用いた分かち書きの一般化とその応用

セキュアネットワーク符号化構成法に関する研究

部分木に基づくマルコフ確率場と言語解析への適用

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

Bias2 - Variance - Noise 分解

第3章重回帰分析ｰ計量経済学ｰ.

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

形態素解析および係り受け解析・主語を判別

Probabilistic Method 6-3,4

動詞の共起パターンを用いた動作性名詞の述語項構造解析

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

ガウス過程による回帰 Gaussian Process Regression GPR

サポートベクターマシンによるパターン認識

第６章連立方程式モデルｰ計量経済学ｰ.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

複数の言語情報を用いたCRFによる音声認識誤りの検出

ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94

人工知能特論９．パーセプトロン北陸先端科学技術大学院大学　鶴岡慶雅.

あらましアンサンブル学習の大きな特徴として，多数決などで生徒を組み合わせることにより，単一の生徒では表現できない入出力関係を実現できることがあげられる．その意味で，教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い．そこで本研究では，教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する．メトロポリス法により汎化誤差を計算した結果，ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること，パーセプトロン学習では

第14章　モデルの結合修士２年山川佳洋.

雑音環境下における非負値行列因子分解を用いた声質変換

独立成分分析５　アルゴリズムの安定性と効率２００７/１０/２４　　　名雪　勲.

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

第7章　疎な解を持つカーネルマシン修士２年山川佳洋.

予測に用いる数学 2004/05/07 ide.

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

Data Clustering: A Review

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

Nightmare at Test Time: Robust Learning by Feature Deletion

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

Number of random matrices

コンピュータにログイン第１章コンピュータにログイン啓林館情報Ａ最新版（p.6－13）

4.　システムの安定性.

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

第3章　線形回帰モデル修士1年山田　孝太郎.

サポートベクターマシン Support Vector Machine SVM

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

制約付き非負行列因子分解を用いた音声特徴抽出の検討

ICML読む会資料（鹿島担当）教師ナシの構造→構造マッピング読んだ論文： Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

並列構造に着目した係り受け解析の改善に関する研究

モデルの微分による非線形モデルの解釈明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

回帰分析入門経済データ解析　2011年度.

線形符号（１０章）.

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

ランダムプロジェクションを用いた音響モデルの線形変換

2008年度情報数理～授業紹介～.

2012年度情報数理～授業紹介～.

混合ガウスモデル Gaussian Mixture Model GMM

教師がコミティマシンの場合のアンサンブル学習三好誠司（神戸高専）原一之（都立高専）岡田真人（東大，理研，さきがけ）

Presentation transcript:

Support Vector Machine による日本語係り受け解析奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座工藤拓松本裕治

係り受け解析日本語の統語解析の基本技術の１つ二文節間の係りやすさを数値化した行列を作成し，文全体を最適化する係り受け関係を導出人手による手法から、解析済みコーパスから統計的に求める手法へ係り受け解析は日本語の統語解析の基本技術の一つとして認識されていますここでは、その詳細は説明しませんが、簡単に説明いすると。。ということになりますｌ。初期の研究では、この係りやすさを人手で与えていましたが、一般的に係りうけに必要とされる素性は莫大になるために網羅性、一貫性という点で問題がありました。近年大規模コーパスが利用できるようになり、解析ずみコーパスから統計的に係りやすさを推定する手法が主流となりつつあります。

文節 i, j の言語的特徴を示すｎ次元素性ベクトル統計的係り受け解析入力文節列係り先パターン列文節 i, j の言語的特徴を示すｎ次元素性ベクトル次に統計的かかりうけ解析について簡単に説明いたします。かかりうけ解析とは、ｍ個の入力文節列 B があり、それに対汁係さきパターン列 D を求めることにあります。ここで Dep（I）とはI番目の文節の係り先の文節番号を示します。統計的係うけ解析とは、入力文節列にたいし、もっともゆうどの高い係りうけパターン列 Dをもとめることです。また、文節I、Jが持つ言語的特徴をあらわすｎ次元ベクトルFを素性ベクトルといい、統計的なわくぐみでは、この素性をてがかりに係り先のゆうどをもとめます。さらにすべての係り関係が独立であると仮定するならば、文全体の係りうけ確率は、この式のように素性ベクトルが与えられたうえでの条件つき確率の積であらわされます。このように統計的係うけ解析は、素性集合Fの選択確率モデルPの推定方法という２つの大きなわくぐみでこうせいされることになります。係り関係がすべて独立だと仮定

従来手法の問題点(1) 慎重な素性選択が必要多くの素性を使用すると過学習してしまう最適な素性集合の選択は試行錯誤や人手に頼っている従来手法の問題点として、以下のようなものがあります。まず、素性集合 Fについて。。。多くの。。。（スライド）かといって少ない素性だと学習できなかったりします。つまり。。。（スライド）

従来手法の問題点(2) 各素性の組み合わせ（共起，依存関係）を効率よく学習できない共起選択の方法はさまざま，人手により発見的に選択各素性の組み合わせ（共起，依存関係）を効率よく学習できない共起選択の方法はさまざま，人手により発見的に選択細かな依存関係を見ると… データスパースネス，計算量増加，過学習例

Support Vector Machine（1） V.Vapnik 95 入力素性数に依存しない汎化能力を持ち過学習しにくい計算量をほとんど変えることなく，素性どうしの組み合わせ（共起，依存関係）を含めた学習が可能一方SVMは、この２つの問題を解決できる能力を備えています。まず、（すらいど）現在しられている学習あるごりずむの中でもっとも汎か能力、過学習しにくいということがいろんな分野に応用されて報告されてきています。 NL業界では、文書分類に応用され、文書分類は文書に含まれる単語を素性とするわけですが、その素性を増やしても精度は低下するどころか向上していったと報告されています。決定木の場合は、あるところにピークがあり、それ以上ふやすと過学習してしまい、精度が低下してしまいます。さらに、（スライド）実際この２つの性質も含めて次にSVMの概略を説明していきたいと思います。

SVM(2) 線形２値（正例，負例）分類器，Euclid空間上の平面で分離正例，負例，その他(マージン領域），の３つの領域に分割 SVMはこの空間を、線形ーーーで、Wx＋ｂ＝０というEucilid空間上の平面で事例を分離します。分離する前に、事例を、せいれいふれい、そのたの３つの領域に分割します。すべてのせいれいが、－－－の領域にはいるように、またすべてのふれいが、－－－－の領域にはいるように分割します。この２つをまとめると、このようになります。このどれにもぞくさない領域がその他（マージン領域）となります

SVM(3) マージン d を最大にするためには ||w|| を最小にすればよいマージンdが最大となる識別平面式ではつかみにくいので、２次元平面じょうで考えてみましょう。このようにせいれいと不例があり、ーーーの領域にすべてのせいれいが、ーーーの領域にすべての不例が配置されるように分割します。この太線が分離平面となります。このような、領域の分割方法ってのは、たくさんあって、たとえばこういうのとかこういうのとか、無数に存在します。このなかでどれが精度よく分離できるのでしょうか？直感的には、このようにあるデータにひっぱられることなく、できるだけ真ん中をとおるような直線できれば精度よく分離できるのではないかと考えられます。このようにあるデータのみにひっぱられている状態は、まさしくかがくしゅうの状態にあります。できるだけ真ん中を定量的にはどういことかというと、マージンｄが最大になるような識別平面をつくることになります。実際に、ｄを計算すると。。。のようになり、。。となりますつまり、スライドこのマージン最大化の戦略は、入力時減数に依存しない汎か能力をもつことが実際に証明されており、汎か能力という点では現在しられているアルゴリズムのなかでは最適だと考えられています。マージン d を最大にするためには ||w|| を最小にすればよい

SVM(4) 以下の制約付き多項式の最適化問題に帰着最小化：制約条件： Lagrange乗数 αを導入して双対問題に変換最大化：つまり、このような、、に帰着されます。これを実際の詳細な証明ははぶきますが、。。。に変換すると。。。のようになります。最終的な識別関数は、。。。のようになります。Ｓｇｎとは、正の値のとき、１を、負の値のときにー１をかえす関数のことをいいます。最終的な識別関数

Kernel関数(1) 線形分離できない場合各素性をの組み合わせを展開し，より高次元の素性ベクトル空間に射影すれば線形分離しやすくなる 2 3 4 5 6 7 1 2 4 5 6 7 1,2 1,3 1,4 1,5 1,6 1,7 2,3 2,4 2,5 さて、ないーぶなSVM は線形分離しかあつかえませんでした。しかし、実際の分離問題は、線形分離できない場合がほとんどで、線形分離できない問題を対処できないと使いものになりません。 SVMの理論じたいは、１９６０年代からあったのですが、線形分離できない問題を解決する手法が提案され、SVMぐーんとその能力とか、知名度をあげることとなりました。一般に線形分離できない場合は、。。。です。たとえば、ｎ個の学習サンプルがあるばあいは、２＾ｎ次元の素性ベクトルをあたえればかならず線形分離できます。たとえば、７次元のベクトルがあります。これの2個、3個の組み合わせを考慮してこのように、射影関数Φをつかって、高次元な空間に射影することを考えます。こうすると、線形分離しやすくなります。しかし、・。・（スライド）

Kernel関数(2) K: Kernel関数学習：識別関数: 学習、識別は素性ベクトルの内積のみに依存した形 Φを経由せずに簡単な演算で直接内積を計算できれば計算量を大幅に減らすことが可能 K: Kernel関数さてここで、学習と識別関数の式に戻って考えてみましょう。 Φによって射影されたわけですから、この部分がΦにおきかわります。ここで、よーくこの式をながめていると、これらは素性ベクトルのない積しか使っていません。となると、スライド。。。このような簡単な演算をあらわす関数のことをかーねる関数といいます。つまり、かーねる関数をつかうとない積はこのようになります。

Kernel関数(3) 例 d次のPolynomial関数 2次元を6次元の空間へ写像，組み合わせの項も追加される例として、かーねる関数のなかでもっともよくつかわれるｄじの。。関数をみてみましょうここでは、さらに簡略かして、ｄ＝２、素性ベクトルは２次元だと仮定します。これを、カーネル関数に代入すると。。。のように展開ｓあれ、つまり射影関数は、。。。のような 2次元を６次元の空間に射影するような関数になります。ここで注目すべきは、ここの組み合わせの項が追加されたことです。一般に、ｄ時の。。関数は、ｄ個までのすべての組み合わせを考慮した学習もでるとなります。 2次元を6次元の空間へ写像，組み合わせの項も追加される d次のPolynomial関数はd個までの組み合わせを含めた学習

SVM（まとめ）入力素性数に依存しない汎化能力を持ち過学習しにくい計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能マージン最大化計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能 Kernel関数 d個までの素性の組み合わせを考慮しながらその中で汎化能力を最大にする戦略 Smoothingの効果が期待できる SVMをまとめてみます、最初に従来手法にくらべて２つの優位な点があると述べました。まず。。。この背景にあるのは。これらをまとめると、ｄ個の素性の。。。。戦略であるといえます。これは、すむーじんぐの効果があるのではないかと期待できます。

SVMによる係り受け解析（1）正例，負例の与え方係った事例 → 正例学習データ中の全係り受け候補係らなかった事例 → 負例係った事例 → 正例学習データ中の全係り受け候補係らなかった事例 → 負例さて、SVMの説明はここでおわりにして、実際に係りうけ解析にどう応用するのかのべたいとおもいます。まず、２値分類きなんで、せいれいふれいをきめるひつようがあります。われわれは、非常に簡単、であたりまえの手法を使いましたつまり。。式でかくと、となります。

SVMによる係り受け解析（2）係り受け確率（Sigmoid関数）厳密には確率値ではない，距離を確率値に正規化，Sigmoid関数は確率へのよい近似を与えることが実験的に示されている（J.Platt 99）従来からある確率モデルの枠組で解析関根99の文末からビームサーチを行う解析手法を採用次に、係りうけ確率ですが、これは、SVMの識別関数の距離部分をしぐもいど関数に入力したような形にしました。一般に０を境に大きな値をとればとるほどかかりやすくなりちいさな値になればなるほどかかりにくくなります。その値の幅はまいなすむげんだいからぷらすむげんだいとなります。つまり、これは距離を確率のあたいに正規かしてるだけにすぎず、厳密には確率値ではありません。われわれは、。。。のためにこの手法を採用しました。また、確率が決定されると、実際のぱーじんぐとなるわけですが、一般にはCYKのようなぼとむあっぷぱーざを用いて解析します。われわれは、日本語のかかりうけかいせきにとっかした、関根９９の手法を実際に採用しました。これは文末から上位ｋ個のビームはばおをもたせながらビームサーチを行う手法です。

静的素性と動的素性静的素性動的素性 2文節の主辞の語彙，品詞，2文節間距離など文節まとめあげの段階で決定される ? 私は |この本を | 持っている| 女性を | 探している。 ? 「探している」の素性として「女性を」を追加二重を格の可能性が取り除かれる素性にかんしてはいままで一切ふれてきませんでしたが、従来手法で有効なものをしようする枠組みで、素性選択の最適化はあまり年頭にいれていません。それは、純粋にSVMの能力を調べたかったと理由があります。しかし、従来とはまったく違う視点の素性を導入してみました。従来からある手法は、すべて静的素性とよばれるものです。これは（スライド）のような素性です。日本語のかかりうけかいせきは末尾の活用形などでそのおおくのかかりうけさきを決定できるんですが、複数候補があったときどちらが優先されるか決定したがいときがあります。たとえばこの例文のとき、この本は（スライド）わかりません。それはどうしてかというと、静的素性はあくまで２文節の情報しかみてないからです。そこで、探しているという文節は、女性をという文節に修飾されてるわけだから、これを探しているの素性とし動的に追加します。これで、探しているはすでに「を」かくで修飾されることになり、日本語のばあい２じゅうの表層各をとることはまれなんで、このほんは、もっているにしかかからないことがわかります。また、２じゅうの表層各をとることはまれといいましたが、これは、逆にかんがえると、２じゅうのひょうそうかくを取る可能性のある並列構造の解析にも有効ではないかと考えられます。つまり、係り関係そのもを素性としてかんがえ、解析しながら動的に追加していきます。このような素性のことを動的素性とよぶことにします。で、実際解析する文には、係りうけかんけいが付与されてないために、動的素性を観察することはできないんですが、解析しながら追加していけばよく、動的素性をふくめてビームサーチを行えば解析できます。動的素性係り関係そのもの，解析しながら動的に追加動的素性も含めてビームサーチ

実験環境，設定（1）京都大学テキストコーパスVersion2.0の一部評価方法学習データ 1月1日－8日 7958文テストデータ 1月9日 1246文内元98と同じ学習データ，テストデータ Kernel関数は，Polynomial関数，次元数 d=3 Beam幅 k=5 評価方法係り受け正解率文末から2番目の評価含める (A) デフォルト，含めない（B）文正解率さて、実際のタグ付きコーパスを用いて実験を行ってみました。ここにその環境設定を示します。まず・。。。。

実験環境，設定（2）静的素性係り元/ 係り先文節主辞（見出し，品詞，品詞細分類，活用，活用形）主辞（見出し，品詞，品詞細分類，活用，活用形）語形（見出し，品詞，品詞細分類，活用，活用形）括弧，句読点，文節位置文節間距離（1，2-5，6），助詞，括弧，句読点動的 2文節間にある文節で，後ろの文節に係る文節の語形見出し次にしようした素性を示します。静的素性にかんしては、内本９９の素性そのままで、唯一追加したといえば、この文節位置ぐらいでしょうか、注意していただきたいのは、ここで使われている主事と語形ということばなんですが、主事というのは、、、でごけいとは、、、のことを示しますこれはもちろん一般的な定義ではなく、便宜的な名前にすぎません。さらに、動的素性としては、（スライド）を使いました、先ほどの例だとこの本を探しているの間にふくまれる女性をの語形「を」が動的素性にあたります。

実験結果（1）（d=3，k=5）

実験結果（2）（d=3，k=5）

動的素性の効果（d=3，k=5）

Kernel関数と解析精度

ビーム幅と解析精度

関連研究との比較内元98との比較最大エントロピー法に基づくモデル 87.2%の精度（本手法は89.1%） 87.2%の精度（本手法は89.1%）素性の組み合わせ（共起，依存関係）の重要性を指摘しているが，組み合わせは，人手により発見的に選択，有効な組み合わせを網羅できない本手法はKernel関数の変更のみ，網羅性，一貫性という意味で優位

全係り受け関係を用いるため，多くの計算量が必要今後の課題全係り受け関係を用いるため，多くの計算量が必要すべての候補から分類に必要な事例を選択学習の効率化，解析の高速化明らかに係らない制約を（人手により）導入他の計算コストの少ないモデルとの融合誤り駆動型による素性選択

まとめ 7958文という非常に少量のデータにもかかわらず，89.1％の高い精度を示す SVMの持つ，高次元の入力に対して過学習しにくいという性質を裏付ける結果係り受け解析は各素性の組み合わせ（共起，依存関係）が重要，SVMはKern el関数を使うことで効率性，網羅性，一貫性で優位