Support Vector Machine による日本語係り受け解析

Support Vector Machine による日本語係り受け解析
奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座工藤拓松本裕治

係り受け解析日本語の統語解析の基本技術の１つ二文節間の係りやすさを数値化した行列を作成し，文全体を最適化する係り受け関係を導出
人手による手法から、解析済みコーパスから統計的に求める手法へ係り受け解析は日本語の統語解析の基本技術の一つとして認識されていますここでは、その詳細は説明しませんが、簡単に説明いすると。。ということになりますｌ。初期の研究では、この係りやすさを人手で与えていましたが、一般的に係りうけに必要とされる素性は莫大になるために網羅性、一貫性という点で問題がありました。近年大規模コーパスが利用できるようになり、解析ずみコーパスから統計的に係りやすさを推定する手法が主流となりつつあります。

文節 i, j の言語的特徴を示すｎ次元素性ベクトル
統計的係り受け解析入力文節列係り先パターン列文節 i, j の言語的特徴を示すｎ次元素性ベクトル次に統計的かかりうけ解析について簡単に説明いたします。かかりうけ解析とは、ｍ個の入力文節列 B があり、それに対汁係さきパターン列 D を求めることにあります。ここで Dep（I）とはI番目の文節の係り先の文節番号を示します。統計的係うけ解析とは、入力文節列にたいし、もっともゆうどの高い係りうけパターン列 Dをもとめることです。また、文節I、Jが持つ言語的特徴をあらわすｎ次元ベクトルFを素性ベクトルといい、統計的なわくぐみでは、この素性をてがかりに係り先のゆうどをもとめます。さらにすべての係り関係が独立であると仮定するならば、文全体の係りうけ確率は、この式のように素性ベクトルが与えられたうえでの条件つき確率の積であらわされます。このように統計的係うけ解析は、素性集合Fの選択確率モデルPの推定方法という２つの大きなわくぐみでこうせいされることになります。係り関係がすべて独立だと仮定

従来手法の問題点(1) 慎重な素性選択が必要多くの素性を使用すると過学習してしまう最適な素性集合の選択は試行錯誤や人手に頼っている
従来手法の問題点として、以下のようなものがあります。まず、素性集合 Fについて。。。多くの。。。（スライド）かといって少ない素性だと学習できなかったりします。つまり。。。（スライド）

従来手法の問題点(2) 各素性の組み合わせ（共起，依存関係）を効率よく学習できない共起選択の方法はさまざま，人手により発見的に選択
各素性の組み合わせ（共起，依存関係）を効率よく学習できない共起選択の方法はさまざま，人手により発見的に選択細かな依存関係を見ると… データスパースネス，計算量増加，過学習例

Support Vector Machine（1）
V.Vapnik 95 入力素性数に依存しない汎化能力を持ち過学習しにくい計算量をほとんど変えることなく，素性どうしの組み合わせ（共起，依存関係）を含めた学習が可能一方SVMは、この２つの問題を解決できる能力を備えています。まず、（すらいど）現在しられている学習あるごりずむの中でもっとも汎か能力、過学習しにくいということがいろんな分野に応用されて報告されてきています。 NL業界では、文書分類に応用され、文書分類は文書に含まれる単語を素性とするわけですが、その素性を増やしても精度は低下するどころか向上していったと報告されています。決定木の場合は、あるところにピークがあり、それ以上ふやすと過学習してしまい、精度が低下してしまいます。さらに、（スライド）実際この２つの性質も含めて次にSVMの概略を説明していきたいと思います。

SVM(2) 線形２値（正例，負例）分類器，Euclid空間上の平面で分離正例，負例，その他(マージン領域），の３つの領域に分割
SVMはこの空間を、線形ーーーで、Wx＋ｂ＝０というEucilid空間上の平面で事例を分離します。分離する前に、事例を、せいれいふれい、そのたの３つの領域に分割します。すべてのせいれいが、－－－の領域にはいるように、またすべてのふれいが、－－－－の領域にはいるように分割します。この２つをまとめると、このようになります。このどれにもぞくさない領域がその他（マージン領域）となります

SVM(3) マージン d を最大にするためには ||w|| を最小にすればよいマージンdが最大となる識別平面
式ではつかみにくいので、２次元平面じょうで考えてみましょう。このようにせいれいと不例があり、ーーーの領域にすべてのせいれいが、ーーーの領域にすべての不例が配置されるように分割します。この太線が分離平面となります。このような、領域の分割方法ってのは、たくさんあって、たとえばこういうのとかこういうのとか、無数に存在します。このなかでどれが精度よく分離できるのでしょうか？直感的には、このようにあるデータにひっぱられることなく、できるだけ真ん中をとおるような直線できれば精度よく分離できるのではないかと考えられます。このようにあるデータのみにひっぱられている状態は、まさしくかがくしゅうの状態にあります。できるだけ真ん中を定量的にはどういことかというと、マージンｄが最大になるような識別平面をつくることになります。実際に、ｄを計算すると。。。のようになり、。。となりますつまり、スライドこのマージン最大化の戦略は、入力時減数に依存しない汎か能力をもつことが実際に証明されており、汎か能力という点では現在しられているアルゴリズムのなかでは最適だと考えられています。マージン d を最大にするためには ||w|| を最小にすればよい

SVM(4) 以下の制約付き多項式の最適化問題に帰着最小化：制約条件： Lagrange乗数 αを導入して双対問題に変換最大化：
つまり、このような、、に帰着されます。これを実際の詳細な証明ははぶきますが、。。。に変換すると。。。のようになります。最終的な識別関数は、。。。のようになります。Ｓｇｎとは、正の値のとき、１を、負の値のときにー１をかえす関数のことをいいます。最終的な識別関数

Kernel関数(1) 線形分離できない場合各素性をの組み合わせを展開し，より高次元の素性ベクトル空間に射影すれば線形分離しやすくなる
2 3 4 5 6 7 1 2 4 5 6 7 1,2 1,3 1,4 1,5 1,6 1,7 2,3 2,4 2,5 さて、ないーぶなSVM は線形分離しかあつかえませんでした。しかし、実際の分離問題は、線形分離できない場合がほとんどで、線形分離できない問題を対処できないと使いものになりません。 SVMの理論じたいは、１９６０年代からあったのですが、線形分離できない問題を解決する手法が提案され、SVMぐーんとその能力とか、知名度をあげることとなりました。一般に線形分離できない場合は、。。。です。たとえば、ｎ個の学習サンプルがあるばあいは、２＾ｎ次元の素性ベクトルをあたえればかならず線形分離できます。たとえば、７次元のベクトルがあります。これの2個、3個の組み合わせを考慮してこのように、射影関数Φをつかって、高次元な空間に射影することを考えます。こうすると、線形分離しやすくなります。しかし、・。・（スライド）

Kernel関数(2) K: Kernel関数学習：識別関数: 学習、識別は素性ベクトルの内積のみに依存した形
Φを経由せずに簡単な演算で直接内積を計算できれば計算量を大幅に減らすことが可能 K: Kernel関数さてここで、学習と識別関数の式に戻って考えてみましょう。 Φによって射影されたわけですから、この部分がΦにおきかわります。ここで、よーくこの式をながめていると、これらは素性ベクトルのない積しか使っていません。となると、スライド。。。このような簡単な演算をあらわす関数のことをかーねる関数といいます。つまり、かーねる関数をつかうとない積はこのようになります。

Kernel関数(3) 例 d次のPolynomial関数 2次元を6次元の空間へ写像，組み合わせの項も追加される
例として、かーねる関数のなかでもっともよくつかわれるｄじの。。関数をみてみましょうここでは、さらに簡略かして、ｄ＝２、素性ベクトルは２次元だと仮定します。これを、カーネル関数に代入すると。。。のように展開ｓあれ、つまり射影関数は、。。。のような 2次元を６次元の空間に射影するような関数になります。ここで注目すべきは、ここの組み合わせの項が追加されたことです。一般に、ｄ時の。。関数は、ｄ個までのすべての組み合わせを考慮した学習もでるとなります。 2次元を6次元の空間へ写像，組み合わせの項も追加される d次のPolynomial関数はd個までの組み合わせを含めた学習

SVM（まとめ）入力素性数に依存しない汎化能力を持ち過学習しにくい計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能
マージン最大化計算量をほとんど変えることなく素性どうしの組み合わせを含めた学習が可能 Kernel関数 d個までの素性の組み合わせを考慮しながらその中で汎化能力を最大にする戦略 Smoothingの効果が期待できる SVMをまとめてみます、最初に従来手法にくらべて２つの優位な点があると述べました。まず。。。この背景にあるのは。これらをまとめると、ｄ個の素性の。。。。戦略であるといえます。これは、すむーじんぐの効果があるのではないかと期待できます。

SVMによる係り受け解析（1）正例，負例の与え方係った事例 → 正例学習データ中の全係り受け候補係らなかった事例 → 負例
係った事例 → 正例学習データ中の全係り受け候補係らなかった事例 → 負例さて、SVMの説明はここでおわりにして、実際に係りうけ解析にどう応用するのかのべたいとおもいます。まず、２値分類きなんで、せいれいふれいをきめるひつようがあります。われわれは、非常に簡単、であたりまえの手法を使いましたつまり。。式でかくと、となります。

SVMによる係り受け解析（2）係り受け確率（Sigmoid関数）
厳密には確率値ではない，距離を確率値に正規化，Sigmoid関数は確率へのよい近似を与えることが実験的に示されている（J.Platt 99）従来からある確率モデルの枠組で解析関根99の文末からビームサーチを行う解析手法を採用次に、係りうけ確率ですが、これは、SVMの識別関数の距離部分をしぐもいど関数に入力したような形にしました。一般に０を境に大きな値をとればとるほどかかりやすくなりちいさな値になればなるほどかかりにくくなります。その値の幅はまいなすむげんだいからぷらすむげんだいとなります。つまり、これは距離を確率のあたいに正規かしてるだけにすぎず、厳密には確率値ではありません。われわれは、。。。のためにこの手法を採用しました。また、確率が決定されると、実際のぱーじんぐとなるわけですが、一般にはCYKのようなぼとむあっぷぱーざを用いて解析します。われわれは、日本語のかかりうけかいせきにとっかした、関根９９の手法を実際に採用しました。これは文末から上位ｋ個のビームはばおをもたせながらビームサーチを行う手法です。

静的素性と動的素性静的素性動的素性 2文節の主辞の語彙，品詞，2文節間距離など文節まとめあげの段階で決定される ?
私は |この本を | 持っている| 女性を | 探している。 ? 「探している」の素性として「女性を」を追加二重を格の可能性が取り除かれる素性にかんしてはいままで一切ふれてきませんでしたが、従来手法で有効なものをしようする枠組みで、素性選択の最適化はあまり年頭にいれていません。それは、純粋にSVMの能力を調べたかったと理由があります。しかし、従来とはまったく違う視点の素性を導入してみました。従来からある手法は、すべて静的素性とよばれるものです。これは（スライド）のような素性です。日本語のかかりうけかいせきは末尾の活用形などでそのおおくのかかりうけさきを決定できるんですが、複数候補があったときどちらが優先されるか決定したがいときがあります。たとえばこの例文のとき、この本は（スライド）わかりません。それはどうしてかというと、静的素性はあくまで２文節の情報しかみてないからです。そこで、探しているという文節は、女性をという文節に修飾されてるわけだから、これを探しているの素性とし動的に追加します。これで、探しているはすでに「を」かくで修飾されることになり、日本語のばあい２じゅうの表層各をとることはまれなんで、このほんは、もっているにしかかからないことがわかります。また、２じゅうの表層各をとることはまれといいましたが、これは、逆にかんがえると、２じゅうのひょうそうかくを取る可能性のある並列構造の解析にも有効ではないかと考えられます。つまり、係り関係そのもを素性としてかんがえ、解析しながら動的に追加していきます。このような素性のことを動的素性とよぶことにします。で、実際解析する文には、係りうけかんけいが付与されてないために、動的素性を観察することはできないんですが、解析しながら追加していけばよく、動的素性をふくめてビームサーチを行えば解析できます。動的素性係り関係そのもの，解析しながら動的に追加動的素性も含めてビームサーチ

実験環境，設定（1）京都大学テキストコーパスVersion2.0の一部評価方法学習データ 1月1日－8日 7958文
テストデータ 1月9日 1246文内元98と同じ学習データ，テストデータ Kernel関数は，Polynomial関数，次元数 d=3 Beam幅 k=5 評価方法係り受け正解率文末から2番目の評価含める (A) デフォルト，含めない（B）文正解率さて、実際のタグ付きコーパスを用いて実験を行ってみました。ここにその環境設定を示します。まず・。。。。

実験環境，設定（2）静的素性係り元/ 係り先文節主辞（見出し，品詞，品詞細分類，活用，活用形）
主辞（見出し，品詞，品詞細分類，活用，活用形）語形（見出し，品詞，品詞細分類，活用，活用形）括弧，句読点，文節位置文節間距離（1，2-5，6），助詞，括弧，句読点動的 2文節間にある文節で，後ろの文節に係る文節の語形見出し次にしようした素性を示します。静的素性にかんしては、内本９９の素性そのままで、唯一追加したといえば、この文節位置ぐらいでしょうか、注意していただきたいのは、ここで使われている主事と語形ということばなんですが、主事というのは、、、でごけいとは、、、のことを示しますこれはもちろん一般的な定義ではなく、便宜的な名前にすぎません。さらに、動的素性としては、（スライド）を使いました、先ほどの例だとこの本を探しているの間にふくまれる女性をの語形「を」が動的素性にあたります。

実験結果（1）（d=3，k=5）

実験結果（2）（d=3，k=5）

動的素性の効果（d=3，k=5）

Kernel関数と解析精度

ビーム幅と解析精度

関連研究との比較内元98との比較最大エントロピー法に基づくモデル 87.2%の精度（本手法は89.1%）
87.2%の精度（本手法は89.1%）素性の組み合わせ（共起，依存関係）の重要性を指摘しているが，組み合わせは，人手により発見的に選択，有効な組み合わせを網羅できない本手法はKernel関数の変更のみ，網羅性，一貫性という意味で優位

全係り受け関係を用いるため，多くの計算量が必要
今後の課題全係り受け関係を用いるため，多くの計算量が必要すべての候補から分類に必要な事例を選択学習の効率化，解析の高速化明らかに係らない制約を（人手により）導入他の計算コストの少ないモデルとの融合誤り駆動型による素性選択

まとめ 7958文という非常に少量のデータにもかかわらず，89.1％の高い精度を示す
SVMの持つ，高次元の入力に対して過学習しにくいという性質を裏付ける結果係り受け解析は各素性の組み合わせ（共起，依存関係）が重要，SVMはKern el関数を使うことで効率性，網羅性，一貫性で優位

Support Vector Machine による日本語係り受け解析

Similar presentations

Presentation on theme: "Support Vector Machine による日本語係り受け解析"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Support Vector Machine による日本語係り受け解析

Similar presentations

Presentation on theme: "Support Vector Machine による日本語係り受け解析"— Presentation transcript:

Similar presentations

About project

フィードバック