部分形態素解析を用いた コーパスの品詞体系変換

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
Twitterの発言に基づくウェブページ推薦システム
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
ことばとコンピュータ 2007年度1学期 第3回.
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
形態素解析および係り受け解析・主語を判別
バイナリ形式コンポーネントの 収集・解析・検索システムの開発
Semi-Supervised QA with Generative Domain-Adaptive Nets
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
脳活動に関するデータ データの種類 データの特徴 脳波・脳磁図・fMRI画像 脳活動とパフォーマンスの関係はきわめて冗長。
検索エンジンを利用した Covert Channelの検出
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
実行時情報に基づく OSカーネルのコンフィグ最小化
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
雑音環境下における 非負値行列因子分解を用いた声質変換
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
コードクローンの動作を比較するためのコードクローン周辺コードの解析
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
テキストマイニング, データマイニングと 社会活動のトレース
不確実データベースからの 負の相関ルールの抽出
バイトコードを単位とするJavaスライスシステムの試作
超大規模ウェブコーパスを用いた 分布類似度計算
Number of random matrices
東京工科大学 コンピュータサイエンス学部 亀田弘之
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作
コーディングパターンの あいまい検索の提案と実装
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
構造的類似性を持つ半構造化文書における頻度分析
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
設計情報の再利用を目的とした UML図の自動推薦ツール
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
4.プッシュダウンオートマトンと 文脈自由文法の等価性
並列構造に着目した係り受け解析の改善に関する研究
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
CSP係数の識別に基づく話者の 頭部方向の推定
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

部分形態素解析を用いた コーパスの品詞体系変換 奈良先端科学技術大学院大学 自然言語処理学講座 松田 寛 http://cl.aist-nara.ac.jp/ 1999/11/25 NL研@北大

Contents 品詞体系変換とは 変換規則の抽出 部分形態素解析 実験 (京大 ⇒ RWC) 1999/11/25 NL研@北大

品詞体系変換 品詞タグ付きコーパスのタグを他の品詞体系のもので置き換えるというタスク 日本語の場合は単語境界も品詞体系依存 形態素解析システム等による単純な再解析では,変換元コーパスの情報を全く活かせない 変換元コーパスのタグ情報を利用した解析手法の必要性 1999/11/25 NL研@北大

品詞体系変換の必要性 カバレッジの向上[田代] 書き言葉 EDRコーパス 話し言葉 ATRコーパス 品詞粒度の相違 単語認定基準の相違 1999/11/25 NL研@北大

書き言葉 EDRコーパス 変換規則 話し言葉 ATRコーパス 品詞の曖昧性 1:1 対応 1:多 対応 多:1 対応 多:多 対応 1999/11/25 NL研@北大

品詞体系変換を用いる場面 異なる品詞体系のコーパスを融合 独自の品詞体系を持つコーパス作成作業の補助に,既存のコーパスの品詞体系を変換して学習した形態素解析システムを用いる 異なる品詞体系の解析システムを組み合わせて用いる場合に,解析結果を比較するため,標準となる体系に変換する 1999/11/25 NL研@北大

本研究で用いる変換方法 助詞の変換規則を人手により抽出 変換元コーパスに変換規則を適用 未変換区間を部分形態素解析 結果の整形 1999/11/25 NL研@北大

変換規則の抽出 1999/11/25 NL研@北大

変換規則抽出の困難さ 語レベルの対応 品詞の曖昧性 形態素境界の曖昧性 膨大な規則数 規則の競合 1999/11/25 NL研@北大

人手による網羅的な抽出は不可能 先行研究[田代][乾]では学習コーパスを用いて変換規則を自動抽出 [植木]では変換規則の抽出は行っていない 本研究では抽出対象を助詞に限定し,人手により変換規則を抽出 1999/11/25 NL研@北大

先行研究での変換規則抽出法 (1) 田代[1] 変換元・先両方のタグを持つ学習コーパス を人手で作成,語レベルの変換規則を抽出 田代[1] 変換元・先両方のタグを持つ学習コーパス を人手で作成,語レベルの変換規則を抽出 変換規則のカバレッジ不足 学習用コーパスに出現しない形態素につい ては変換規則を品詞レベルに緩和して適用 1999/11/25 NL研@北大

先行研究での変換規則抽出法 (2) 乾[3] 変換元コーパスを文節単位で自動解析, 品詞レベルの変換規則を自動抽出 乾[3] 変換元コーパスを文節単位で自動解析, 品詞レベルの変換規則を自動抽出 自動抽出のため誤変換・欠損が多い 人手による変換規則の洗練・追加が必要 1999/11/25 NL研@北大

本研究では 変換規則の抽出対象を助詞に限定 人手により語レベルの変換規則を抽出 1999/11/25 NL研@北大

助詞を用いる利点 品詞対応の曖昧性が比較的少ない 変換規則数は100件程度 出現頻度が高い 解析システムの誤り例が多い 文節境界の同定が可能 1999/11/25 NL研@北大

変換規則の抽出 IPA品詞体系の全ての助詞について,京大コーパス・RWCコーパスの両方で用例を検索 競合が発生する変換規則については不採用 一部の複合語について,変換規則の適用をキャンセルするための無変換規則を設定 1999/11/25 NL研@北大

人手による変換規則の抽出 抽出された変換規則数 107件 抽出に要した時間 10時間 競合が生じた規則数 53件 利用可能な規則 54件 抽出された変換規則数 107件 抽出に要した時間 10時間 競合が生じた規則数 53件 利用可能な規則 54件 無変換規則数 33件 1999/11/25 NL研@北大

変換規則の適用順序 無変換規則 と + は + いえ とはいえ 多:1 変換規則 1:1 変換規則 1999/11/25 NL研@北大

部分形態素解析 1999/11/25 NL研@北大

一部の区間のみを解析 変換規則が適用されない区間だけを形態素解析 ビームサーチのコスト幅を大きくしても,所望の形態素が得られるとは限らない 文を切断した解析では,変換規則で同定された部分の情報を用いることができない 品詞が同定されている区間との品詞連接コストを考慮した最尤パス探索 1999/11/25 NL研@北大

切断が形態素解析に与える影響 品詞n-gramモデルでは文頭・文末に擬似的な形態素が仮定され,特別な品詞が振られる 文を切断して形態素解析を行う場合,文頭・文末との品詞連接コストが解析に悪影響を与える 1999/11/25 NL研@北大

1999/11/25 NL研@北大

1999/11/25 NL研@北大

部分形態素解析 文中の一部の語について品詞を指定 MOZ[山下]ではタグによる形態素境界・品詞の指定が可能 コスト最小法を用いた解析システムであれば,形態素情報をタグ化したエントリ(タグ化表現)を形態素辞書に加えることで,部分的な品詞指定が可能となる 1999/11/25 NL研@北大

タグ化表現とは 語を非常に長い表記に置き換えたもの タグ化表現を切断するパスのコストが高くなるような書式にする 1999/11/25 NL研@北大

文の部分タグ化 段取りについては若干意見の違いがある。 段取りについて<助詞.係助詞.は>若干意見の違い<助詞.格助詞.一般.が>ある。 1999/11/25 NL研@北大

タグ化表現を用いた解析手順 変換先体系の解析システムの形態素辞書に,タグ化表現のエントリを追加 変換元コーパスの各文に変換規則を適用して,文の表層文字列の一部をタグ化表現に置換 形態素解析を行う 解析結果中のタグ化表現を元の文字列に戻す 1999/11/25 NL研@北大

実験 1999/11/25 NL研@北大

実験タスク 変換元 変換先 形態素解析システム 変換規則 京大コーパス(益岡・田窪文法) RWCコーパス(IPA品詞体系) 茶筌 version 2.0b10 (IPA品詞体系) 変換規則 予稿集 表 1 に無変換規則を 20 件追加 1999/11/25 NL研@北大

実験結果 変換元コーパスの誤りを発見 (18件) 変換箇所の解析精度向上 (190件) 前件・後件への影響 (74件) 前件のみ 43 件 (誤り 6件) 後件のみ 29 件 (誤り 3件) 前後とも 2 件 (誤り 0件) 1999/11/25 NL研@北大

新刊書は年に何万も発刊されるというのに、 結果の例 学芸員に求めたが断られた 新刊書は年に何万も発刊されるというのに、 1999/11/25 NL研@北大

まとめ コーパスの品詞体系変換を,語レベルの変換規則と部分形態素解析を用いて行った 変換規則の抽出対象を助詞に制限し,人手により変換規則の抽出を行った 変換規則の適用区間では解析精度が向上した 適用区間の前件・後件に対しても解析精度の向上が見られた 1999/11/25 NL研@北大

今後の課題 他の品詞への適用 助動詞など活用語への対応 変換規則の曖昧性の展開 すべての可能性を展開して部分形態素解析を行い,全パス中で最もコストが低くなるものを選択する 1999/11/25 NL研@北大

参考文献 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9, pp.61-66, 1998 乾健太郎, 乾 孝司, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999 山下達雄. 形態素解析システムの機能分割と再利用を目指して. 「言語資源の共有と再利用」シンポジウム, http://cl.aist-nara.ac.jp/~tatuo-y/ 1999/11/25 NL研@北大

GUIツール VisualMorphs JAVA Applet として実装 MACDを通じて解析・保存を実行 Web-browser 上で実行可能, OSを選ばない スタンドアロン動作も可能 MACDを通じて解析・保存を実行 解析エンジンを自由に選択 データをSGML形式で保存 Server/Clientによる集中管理 1999/11/25 NL研@北大

形態素解析ドライバモデル MACD 形態素解析エンジン ChaSen MOZ JUMAN Visual-Morphs Web-Browser 組合せ自由な 形態素解析システム接続環境 Visual-Morphs Web-Browser KwicView GUI-Client ツール 形態素解析ドライバモデル MACD