Presentation is loading. Please wait.

Presentation is loading. Please wait.

部分形態素解析を用いた コーパスの品詞体系変換

Similar presentations


Presentation on theme: "部分形態素解析を用いた コーパスの品詞体系変換"— Presentation transcript:

1 部分形態素解析を用いた コーパスの品詞体系変換
奈良先端科学技術大学院大学 自然言語処理学講座 松田 寛 1999/11/25

2 Contents 品詞体系変換とは 変換規則の抽出 部分形態素解析 実験 (京大 ⇒ RWC) 1999/11/25

3 品詞体系変換 品詞タグ付きコーパスのタグを他の品詞体系のもので置き換えるというタスク 日本語の場合は単語境界も品詞体系依存
形態素解析システム等による単純な再解析では,変換元コーパスの情報を全く活かせない 変換元コーパスのタグ情報を利用した解析手法の必要性 1999/11/25

4 品詞体系変換の必要性 カバレッジの向上[田代] 書き言葉 EDRコーパス 話し言葉 ATRコーパス 品詞粒度の相違 単語認定基準の相違
1999/11/25

5 書き言葉 EDRコーパス 変換規則 話し言葉 ATRコーパス 品詞の曖昧性 1:1 対応 1:多 対応 多:1 対応 多:多 対応
1999/11/25

6 品詞体系変換を用いる場面 異なる品詞体系のコーパスを融合
独自の品詞体系を持つコーパス作成作業の補助に,既存のコーパスの品詞体系を変換して学習した形態素解析システムを用いる 異なる品詞体系の解析システムを組み合わせて用いる場合に,解析結果を比較するため,標準となる体系に変換する 1999/11/25

7 本研究で用いる変換方法 助詞の変換規則を人手により抽出 変換元コーパスに変換規則を適用 未変換区間を部分形態素解析 結果の整形
1999/11/25

8 変換規則の抽出 1999/11/25

9 変換規則抽出の困難さ 語レベルの対応 品詞の曖昧性 形態素境界の曖昧性 膨大な規則数 規則の競合 1999/11/25

10 人手による網羅的な抽出は不可能 先行研究[田代][乾]では学習コーパスを用いて変換規則を自動抽出 [植木]では変換規則の抽出は行っていない
本研究では抽出対象を助詞に限定し,人手により変換規則を抽出 1999/11/25

11 先行研究での変換規則抽出法 (1) 田代[1] 変換元・先両方のタグを持つ学習コーパス を人手で作成,語レベルの変換規則を抽出
田代[1] 変換元・先両方のタグを持つ学習コーパス を人手で作成,語レベルの変換規則を抽出 変換規則のカバレッジ不足 学習用コーパスに出現しない形態素につい ては変換規則を品詞レベルに緩和して適用 1999/11/25

12 先行研究での変換規則抽出法 (2) 乾[3] 変換元コーパスを文節単位で自動解析, 品詞レベルの変換規則を自動抽出
乾[3] 変換元コーパスを文節単位で自動解析, 品詞レベルの変換規則を自動抽出 自動抽出のため誤変換・欠損が多い 人手による変換規則の洗練・追加が必要 1999/11/25

13 本研究では 変換規則の抽出対象を助詞に限定 人手により語レベルの変換規則を抽出 1999/11/25

14 助詞を用いる利点 品詞対応の曖昧性が比較的少ない 変換規則数は100件程度 出現頻度が高い 解析システムの誤り例が多い 文節境界の同定が可能
1999/11/25

15 変換規則の抽出 IPA品詞体系の全ての助詞について,京大コーパス・RWCコーパスの両方で用例を検索
競合が発生する変換規則については不採用 一部の複合語について,変換規則の適用をキャンセルするための無変換規則を設定 1999/11/25

16 人手による変換規則の抽出 抽出された変換規則数 107件 抽出に要した時間 10時間 競合が生じた規則数 53件 利用可能な規則 54件
抽出された変換規則数 107件 抽出に要した時間 10時間 競合が生じた規則数 53件 利用可能な規則 54件 無変換規則数 33件 1999/11/25

17 変換規則の適用順序 無変換規則 と + は + いえ とはいえ 多:1 変換規則 1:1 変換規則 1999/11/25

18 部分形態素解析 1999/11/25

19 一部の区間のみを解析 変換規則が適用されない区間だけを形態素解析 ビームサーチのコスト幅を大きくしても,所望の形態素が得られるとは限らない
文を切断した解析では,変換規則で同定された部分の情報を用いることができない 品詞が同定されている区間との品詞連接コストを考慮した最尤パス探索 1999/11/25

20 切断が形態素解析に与える影響 品詞n-gramモデルでは文頭・文末に擬似的な形態素が仮定され,特別な品詞が振られる
文を切断して形態素解析を行う場合,文頭・文末との品詞連接コストが解析に悪影響を与える 1999/11/25

21 1999/11/25

22 1999/11/25

23 部分形態素解析 文中の一部の語について品詞を指定 MOZ[山下]ではタグによる形態素境界・品詞の指定が可能
コスト最小法を用いた解析システムであれば,形態素情報をタグ化したエントリ(タグ化表現)を形態素辞書に加えることで,部分的な品詞指定が可能となる 1999/11/25

24 タグ化表現とは 語を非常に長い表記に置き換えたもの タグ化表現を切断するパスのコストが高くなるような書式にする 1999/11/25

25 文の部分タグ化 段取りについては若干意見の違いがある。 段取りについて<助詞.係助詞.は>若干意見の違い<助詞.格助詞.一般.が>ある。
1999/11/25

26 タグ化表現を用いた解析手順 変換先体系の解析システムの形態素辞書に,タグ化表現のエントリを追加
変換元コーパスの各文に変換規則を適用して,文の表層文字列の一部をタグ化表現に置換 形態素解析を行う 解析結果中のタグ化表現を元の文字列に戻す 1999/11/25

27 実験 1999/11/25

28 実験タスク 変換元 変換先 形態素解析システム 変換規則 京大コーパス(益岡・田窪文法) RWCコーパス(IPA品詞体系)
茶筌 version 2.0b10 (IPA品詞体系) 変換規則 予稿集 表 1 に無変換規則を 20 件追加 1999/11/25

29 実験結果 変換元コーパスの誤りを発見 (18件) 変換箇所の解析精度向上 (190件) 前件・後件への影響 (74件)
前件のみ 43 件 (誤り 6件) 後件のみ 29 件 (誤り 3件) 前後とも 2 件 (誤り 0件) 1999/11/25

30 新刊書は年に何万も発刊されるというのに、
結果の例 学芸員に求めたが断られた 新刊書は年に何万も発刊されるというのに、 1999/11/25

31 まとめ コーパスの品詞体系変換を,語レベルの変換規則と部分形態素解析を用いて行った
変換規則の抽出対象を助詞に制限し,人手により変換規則の抽出を行った 変換規則の適用区間では解析精度が向上した 適用区間の前件・後件に対しても解析精度の向上が見られた 1999/11/25

32 今後の課題 他の品詞への適用 助動詞など活用語への対応 変換規則の曖昧性の展開
すべての可能性を展開して部分形態素解析を行い,全パス中で最もコストが低くなるものを選択する 1999/11/25

33 参考文献 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処理学会論文誌, Vol.37, No.1, pp.13-22, 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9, pp.61-66, 1998 乾健太郎, 乾 孝司, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999 山下達雄. 形態素解析システムの機能分割と再利用を目指して. 「言語資源の共有と再利用」シンポジウム, 1999/11/25

34 GUIツール VisualMorphs JAVA Applet として実装 MACDを通じて解析・保存を実行
Web-browser 上で実行可能, OSを選ばない スタンドアロン動作も可能 MACDを通じて解析・保存を実行 解析エンジンを自由に選択 データをSGML形式で保存 Server/Clientによる集中管理 1999/11/25

35 形態素解析ドライバモデル MACD 形態素解析エンジン ChaSen MOZ JUMAN Visual-Morphs Web-Browser
組合せ自由な 形態素解析システム接続環境 Visual-Morphs Web-Browser KwicView GUI-Client ツール 形態素解析ドライバモデル MACD


Download ppt "部分形態素解析を用いた コーパスの品詞体系変換"

Similar presentations


Ads by Google