最大エントロピーモデルに基づく形態素解析と辞書による影響

最大エントロピーモデルに基づく形態素解析と辞書による影響
内元　清貴 † 関根　聡 ‡ 井佐原　均 † † 郵政省通信総合研究所 ‡ ニューヨーク大学

発表内容の構成背景形態素モデル実験考察まとめ

背景形態素形態素解析課題単語や接辞など、文法上、最小の単位となる要素
与えられた文を形態素の並びに分解し、それぞれの形態素に対し文法的属性（品詞や活用など）を決定する処理課題辞書に登録されていない、あるいは学習コーパスに現れないが形態素となり得る単語（未知語）をどのように扱うか

未知語の問題への対処未知語を自動獲得し辞書に登録（森ら、1996；など）
未知語でも解析できるようなモデルを作成（柏岡ら、1997；永田、1999；など）獲得した単語を辞書に登録し、モデルにその辞書を利用できるような仕組みを取り入れる N-gramモデルに外部辞書を追加する方法（森ら、1998）わずかな精度向上に留まっている我々の方法（最大エントロピーモデルに基づく方法）辞書の情報を学習する機構を容易に組み込める字種や字種変化などの情報を用いてコーパスから未知語の性質を学習

形態素モデル（MEモデル）形態素である形態素でない名詞動詞文字列 or …

アルゴリズム一文全体で確率の積が最大になるよう形態素に分割し、文法的属性を付与最適解の探索：ビタビアルゴリズム
一文全体で確率の積が最大になるよう　形態素に分割し、文法的属性を付与最適解の探索：ビタビアルゴリズム N-best解の探索：永田1994の方法

実験の条件(1) 京大コーパス（Ｖｅｒｓｉｏｎ２）（黒橋ら、１９９７）文法的属性（106種類）素性学習：7,958文（1/1～1/8）
試験：1,246文（1/9）文法的属性（106種類）品詞体系：JUMANのものを仮定細分類まで分類すると全部で53種類形態素の左側が文節区切りであるかないか素性着目している文字列、その文字列の左に隣接する一形態素に関して文字列、長さ、文字種、辞書、品詞、活用、文節区切りの情報

実験の条件（２）モデルを適用する対象制約 5文字以下のすべての文字列および5文字を越えるが辞書に登録されている文字列
5文字を越える複合語辞書になければ5文字以下の文字列に分割可と仮定カタカナ語「未定義語（大分類）、カタカナ（細分類）」として辞書にあったものと仮定制約 JUMANで定義されている連接規則を満たす辞書（JUMANの辞書）に登録されている文字列については、辞書に記述されている品詞の中から選択

実験結果精度向上に必要なもの二つから四つくらい前の形態素の情報素性の組み合わせ学習コーパスの量

辞書と未知語（１）辞書未知語

辞書と未知語（２）ほとんどの素性が精度向上に貢献辞書の悪影響辞書情報の貢献度が高い
「／海／に／かけた／ロマンは／、／」、　　　　　　　　「／荒波／に／負け／ない心／と／」漢字表記「ロマン派」、「内心」に加え、平仮名を使った表記　「ロマンは」、「ない心」も名詞として辞書に登録されているため不自然な表記を辞書に登録しないようにする必要あり

JUMANとの比較 JUMAN 我々の手法ルールベース未知語を一文字からなる名詞と既知語に分割統計ベース
「漱（名詞）石（名詞）」、「露（副詞）伴（名詞）」我々の手法統計ベース未知語に対しても前後の形態素のつながりから形態素と認定でき、適切な品詞を付与「漱石（名詞、人名）」、「露伴（名詞、人名）」

JUMANとの比較（未知語に対する精度）
我々のモデルでは未知語、特に固有名詞や人名、組織名、地名に関する語に対する学習が比較的にできている

JUMANとの比較（精度差の原因）学習コーパスの量、素性コーパスにおける形態素の揺れ
最後が「者」で終わる形態素はテストコーパス中に153個 JUMAN+KNPの出力誤りは0。我々のシステムの誤りは3個（約2%）「生産（名詞）者（接尾辞）」と「消費者（名詞）」などの揺れ他にも、「芸術家（名詞）」と「工芸（名詞）家（接尾辞）」、　　　　　　　「警視庁（名詞）」と「検察（名詞）庁（名詞）」、　　　　　　　　　「現実的（形容詞）」と「理想（名詞）的（接尾辞）」などコーパスを修正する必要性

まとめ MEモデルに基づく形態素解析特徴辞書情報の貢献度が高い固有名詞など未知語になりやすいものに対して比較的に精度が良かった
学習コーパスからだけでなく辞書から得られる情報も用いる形態素となる文字列だけでなく形態素とはならない文字列の性質も学習することによって、未知語も形態素として推定できる辞書情報の貢献度が高い固有名詞など未知語になりやすいものに対して比較的に精度が良かった

今後の課題学習に用いる情報についてコーパスについて辞書について一つ前の形態素だけでなく、二つから四つくらい前の形態素の情報を利用
組み合わせの素性を増やすコーパスについてコーパスの量をふやすコーパス修正の研究異なるコーパスについても実験辞書について文法体系が変わったときにその体系に合うように辞書情報を変換する技術を開発

最大エントロピーモデルに基づく形態素解析と辞書による影響

Similar presentations

Presentation on theme: "最大エントロピーモデルに基づく形態素解析と辞書による影響"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

最大エントロピーモデルに基づく形態素解析と辞書による影響

Similar presentations

Presentation on theme: "最大エントロピーモデルに基づく形態素解析と辞書による影響"— Presentation transcript:

Similar presentations

About project

フィードバック