最大エントロピーモデルに基づく形態素解析と辞書による影響

Slides:

Advertisements

Similar presentations

英作文支援システムの構築に関する研究平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易稔中間発表.

Advertisements

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

実テキスト解析をささえる語彙知識の自動獲得

東京工科大学コンピュータサイエンス学部亀田弘之

Conditional Random Fields を用いた日本語形態素解析

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

平成22年11月15日（月）東京工科大学コンピュータサイエンス学部亀田弘之

整数計画法を用いたフレーズ対応最適化による翻訳システムの改良

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

形態素周辺確率を用いた分かち書きの一般化とその応用

言語体系とコンピュータ第5回.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

実証分析の手順経済データ解析　2011年度.

言語の統計統計の対象量単語 NグラムとKWIC HMMと形態素解析への応用.

奈良先端科学技術大学院大学情報科学研究科松本裕治

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

動詞と格要素の共起と名詞の出現パターンを用いた事態性名詞の項構造解析

ことばとコンピュータ 2007年度1学期第3回.

OSC京都 2016 おーぷん万葉プロジェクト京橋ひよわ

テキストマイニング，データマイニングと社会活動のトレース

１．自然言語処理システム２．単語と形態素３．文節と係り受け

部分形態素解析を用いたコーパスの品詞体系変換

4Y-4 印象に残りやすい日本語パスワードの合成法

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

東京工科大学コンピュータサイエンス学部亀田弘之

形態素解析および係り受け解析・主語を判別

DixChange プロジェクト～辞書共通化の試み～

セマンティクスを利用した図書検索システム

Semi-Supervised QA with Generative Domain-Adaptive Nets

日本語解析済みコーパス管理ツール「茶器」

動詞の共起パターンを用いた動作性名詞の述語項構造解析

1月19日辞書自然言語処理における辞書の役割機械辞書設計の要点辞書の種類と用途.

音韻論⑤ ----.

言語学　語のかたち① pp

自然言語処理及び実習第11回　形態素解析.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

複数の言語情報を用いたCRFによる音声認識誤りの検出

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

ChaIME: 大規模コーパスを用いた統計的仮名漢字変換

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

只見町インターネット・エコミュージアムの「キーワード」検索の改善

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

東京工科大学コンピュータサイエンス学部亀田弘之

言語学　語のかたち② p.p

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

形態素解析ドライバモデルの実装とコーパスの品詞体系変換への応用

日本の表音文字（ひらがな、かたかな）と漢字

Happinessの歴史と日本語処理のエピソード (株)平和情報センター沓澤　尚明.

系列ラベリングのための前向き後ろ向きアルゴリズムの一般化

テキストマイニング，データマイニングと社会活動のトレース

超大規模ウェブコーパスを用いた分布類似度計算

文書分類モデルの統計的性質に関する一考察

Number of random matrices

コードクローン分類の詳細化に基づく集約パターンの提案と評価

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作

東京工科大学コンピュータサイエンス学部亀田弘之

ブースティングとキーワードフィルタリングによるシステム要求検出

並列構造に着目した係り受け解析の改善に関する研究

ソフトウェア理解支援を目的とした辞書の作成法

シソーラス情報を用いた童話文章登場人物の感情情報読み取りシステム

コンパイラ 2012年10月11日

形態素解析と構文解析金子邦彦.

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

オブジェクト指向言語におけるセキュリティ解析アルゴリズムの提案と実現

識別子の読解を目的とした名詞辞書の作成方法の一試案

Presentation transcript:

最大エントロピーモデルに基づく形態素解析と辞書による影響内元　清貴 † 関根　聡 ‡ 井佐原　均 † † 郵政省通信総合研究所 ‡ ニューヨーク大学

発表内容の構成背景形態素モデル実験考察まとめ

背景形態素形態素解析課題単語や接辞など、文法上、最小の単位となる要素与えられた文を形態素の並びに分解し、それぞれの形態素に対し文法的属性（品詞や活用など）を決定する処理課題辞書に登録されていない、あるいは学習コーパスに現れないが形態素となり得る単語（未知語）をどのように扱うか

未知語の問題への対処未知語を自動獲得し辞書に登録（森ら、1996；など）未知語でも解析できるようなモデルを作成（柏岡ら、1997；永田、1999；など）獲得した単語を辞書に登録し、モデルにその辞書を利用できるような仕組みを取り入れる N-gramモデルに外部辞書を追加する方法（森ら、1998）わずかな精度向上に留まっている我々の方法（最大エントロピーモデルに基づく方法）辞書の情報を学習する機構を容易に組み込める字種や字種変化などの情報を用いてコーパスから未知語の性質を学習

形態素モデル（MEモデル）形態素である形態素でない名詞動詞文字列 or …

アルゴリズム一文全体で確率の積が最大になるよう形態素に分割し、文法的属性を付与最適解の探索：ビタビアルゴリズム一文全体で確率の積が最大になるよう　形態素に分割し、文法的属性を付与最適解の探索：ビタビアルゴリズム N-best解の探索：永田1994の方法

実験の条件(1) 京大コーパス（Ｖｅｒｓｉｏｎ２）（黒橋ら、１９９７）文法的属性（106種類）素性学習：7,958文（1/1～1/8）試験：1,246文（1/9）文法的属性（106種類）品詞体系：JUMANのものを仮定細分類まで分類すると全部で53種類形態素の左側が文節区切りであるかないか素性着目している文字列、その文字列の左に隣接する一形態素に関して文字列、長さ、文字種、辞書、品詞、活用、文節区切りの情報

実験の条件（２）モデルを適用する対象制約 5文字以下のすべての文字列および5文字を越えるが辞書に登録されている文字列 5文字を越える複合語辞書になければ5文字以下の文字列に分割可と仮定カタカナ語「未定義語（大分類）、カタカナ（細分類）」として辞書にあったものと仮定制約 JUMANで定義されている連接規則を満たす辞書（JUMANの辞書）に登録されている文字列については、辞書に記述されている品詞の中から選択

実験結果精度向上に必要なもの二つから四つくらい前の形態素の情報素性の組み合わせ学習コーパスの量

辞書と未知語（１）辞書未知語

辞書と未知語（２）ほとんどの素性が精度向上に貢献辞書の悪影響辞書情報の貢献度が高い「／海／に／かけた／ロマンは／、／」、　　　　　　　　「／荒波／に／負け／ない心／と／」漢字表記「ロマン派」、「内心」に加え、平仮名を使った表記　「ロマンは」、「ない心」も名詞として辞書に登録されているため不自然な表記を辞書に登録しないようにする必要あり

JUMANとの比較 JUMAN 我々の手法ルールベース未知語を一文字からなる名詞と既知語に分割統計ベース「漱（名詞）石（名詞）」、「露（副詞）伴（名詞）」我々の手法統計ベース未知語に対しても前後の形態素のつながりから形態素と認定でき、適切な品詞を付与「漱石（名詞、人名）」、「露伴（名詞、人名）」

JUMANとの比較（未知語に対する精度）我々のモデルでは未知語、特に固有名詞や人名、組織名、地名に関する語に対する学習が比較的にできている

JUMANとの比較（精度差の原因）学習コーパスの量、素性コーパスにおける形態素の揺れ最後が「者」で終わる形態素はテストコーパス中に153個 JUMAN+KNPの出力誤りは0。我々のシステムの誤りは3個（約2%）「生産（名詞）者（接尾辞）」と「消費者（名詞）」などの揺れ他にも、「芸術家（名詞）」と「工芸（名詞）家（接尾辞）」、　　　　　　　「警視庁（名詞）」と「検察（名詞）庁（名詞）」、　　　　　　　　　「現実的（形容詞）」と「理想（名詞）的（接尾辞）」などコーパスを修正する必要性

まとめ MEモデルに基づく形態素解析特徴辞書情報の貢献度が高い固有名詞など未知語になりやすいものに対して比較的に精度が良かった学習コーパスからだけでなく辞書から得られる情報も用いる形態素となる文字列だけでなく形態素とはならない文字列の性質も学習することによって、未知語も形態素として推定できる辞書情報の貢献度が高い固有名詞など未知語になりやすいものに対して比較的に精度が良かった

今後の課題学習に用いる情報についてコーパスについて辞書について一つ前の形態素だけでなく、二つから四つくらい前の形態素の情報を利用組み合わせの素性を増やすコーパスについてコーパスの量をふやすコーパス修正の研究異なるコーパスについても実験辞書について文法体系が変わったときにその体系に合うように辞書情報を変換する技術を開発