最大エントロピーモデルに基づく形態素解析と辞書による影響

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
実テキスト解析をささえる 語彙知識の自動獲得
東京工科大学 コンピュータサイエンス学部 亀田弘之
Conditional Random Fields を用いた 日本語形態素解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
平成22年11月15日(月) 東京工科大学 コンピュータサイエンス学部 亀田弘之
整数計画法を用いたフレーズ対応最適化による翻訳システムの改良
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
言語体系とコンピュータ 第5回.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
実証分析の手順 経済データ解析 2011年度.
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
ことばとコンピュータ 2007年度1学期 第3回.
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
セマンティクスを利用した 図書検索システム
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
音韻論⑤ ----.
言語学 語のかたち① pp
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
言語学 語のかたち② p.p
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
日本の表音文字(ひらがな、かたかな)と漢字
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
系列ラベリングのための前向き後ろ向きアルゴリズムの一般化
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
文書分類モデルの統計的性質に関する一考察
Number of random matrices
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作
東京工科大学 コンピュータサイエンス学部 亀田弘之
ブースティングとキーワードフィルタリング によるシステム要求検出
並列構造に着目した係り受け解析の改善に関する研究
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
コンパイラ 2012年10月11日
形態素解析と構文解析 金子邦彦.
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

最大エントロピーモデルに基づく形態素解析と辞書による影響 内元 清貴 † 関根 聡 ‡ 井佐原 均 † † 郵政省通信総合研究所 ‡ ニューヨーク大学

発表内容の構成 背景 形態素モデル 実験 考察 まとめ

背景 形態素 形態素解析 課題 単語や接辞など、文法上、最小の単位となる要素 与えられた文を形態素の並びに分解し、それぞれの形態素に対し文法的属性(品詞や活用など)を決定する処理 課題 辞書に登録されていない、あるいは学習コーパスに現れないが形態素となり得る単語(未知語)をどのように扱うか

未知語の問題への対処 未知語を自動獲得し辞書に登録(森ら、1996;など) 未知語でも解析できるようなモデルを作成(柏岡ら、1997;永田、1999;など) 獲得した単語を辞書に登録し、モデルにその辞書を利用できるような仕組みを取り入れる N-gramモデルに外部辞書を追加する方法(森ら、1998) わずかな精度向上に留まっている 我々の方法(最大エントロピーモデルに基づく方法) 辞書の情報を学習する機構を容易に組み込める 字種や字種変化などの情報を用いてコーパスから未知語の性質を学習

形態素モデル(MEモデル) 形態素である 形態素でない 名詞 動詞 文字列 or …

アルゴリズム 一文全体で確率の積が最大になるよう 形態素に分割し、文法的属性を付与 最適解の探索:ビタビアルゴリズム 一文全体で確率の積が最大になるよう 形態素に分割し、文法的属性を付与 最適解の探索:ビタビアルゴリズム N-best解の探索:永田1994の方法

実験の条件(1) 京大コーパス(Version2)(黒橋ら、1997) 文法的属性(106種類) 素性 学習:7,958文(1/1~1/8) 試験:1,246文(1/9) 文法的属性(106種類) 品詞体系:JUMANのものを仮定 細分類まで分類すると全部で53種類 形態素の左側が文節区切りであるかないか 素性 着目している文字列、その文字列の左に隣接する一形態素に関して 文字列、長さ、文字種、辞書、品詞、活用、文節区切りの情報

実験の条件(2) モデルを適用する対象 制約 5文字以下のすべての文字列および5文字を越えるが辞書に登録されている文字列 5文字を越える複合語 辞書になければ5文字以下の文字列に分割可と仮定 カタカナ語 「未定義語(大分類)、カタカナ(細分類)」として辞書にあったものと仮定 制約 JUMANで定義されている連接規則を満たす 辞書(JUMANの辞書)に登録されている文字列については、辞書に記述されている品詞の中から選択

実験結果 精度向上に必要なもの 二つから四つくらい前の形態素の情報 素性の組み合わせ 学習コーパスの量

辞書と未知語(1) 辞書 未知語

辞書と未知語(2) ほとんどの素性が精度向上に貢献 辞書の悪影響 辞書情報の貢献度が高い 「/海/に/かけた/ロマンは/、/」、        「/荒波/に/負け/ない心/と/」 漢字表記「ロマン派」、「内心」に加え、平仮名を使った表記 「ロマンは」、「ない心」も名詞として辞書に登録されているため 不自然な表記を辞書に登録しないようにする必要あり

JUMANとの比較 JUMAN 我々の手法 ルールベース 未知語を一文字からなる名詞と既知語に分割 統計ベース 「漱(名詞)石(名詞)」、「露(副詞)伴(名詞)」 我々の手法 統計ベース 未知語に対しても前後の形態素のつながりから形態素と認定でき、適切な品詞を付与 「漱石(名詞、人名)」、「露伴(名詞、人名)」

JUMANとの比較(未知語に対する精度) 我々のモデルでは未知語、特に固有名詞や人名、組織名、地名に関する語に対する学習が比較的にできている

JUMANとの比較(精度差の原因) 学習コーパスの量、素性 コーパスにおける形態素の揺れ 最後が「者」で終わる形態素はテストコーパス中に153個 JUMAN+KNPの出力誤りは0。我々のシステムの誤りは3個(約2%) 「生産(名詞)者(接尾辞)」と「消費者(名詞)」などの揺れ 他にも、 「芸術家(名詞)」と「工芸(名詞)家(接尾辞)」、       「警視庁(名詞)」と「検察(名詞)庁(名詞)」、         「現実的(形容詞)」と「理想(名詞)的(接尾辞)」など コーパスを修正する必要性

まとめ MEモデルに基づく形態素解析 特徴 辞書情報の貢献度が高い 固有名詞など未知語になりやすいものに対して比較的に精度が良かった 学習コーパスからだけでなく辞書から得られる情報も用いる 形態素となる文字列だけでなく形態素とはならない文字列の性質も学習することによって、未知語も形態素として推定できる 辞書情報の貢献度が高い 固有名詞など未知語になりやすいものに対して比較的に精度が良かった

今後の課題 学習に用いる情報について コーパスについて 辞書について 一つ前の形態素だけでなく、二つから四つくらい前の形態素の情報を利用 組み合わせの素性を増やす コーパスについて コーパスの量をふやす コーパス修正の研究 異なるコーパスについても実験 辞書について 文法体系が変わったときにその体系に合うように辞書情報を変換する技術を開発