形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用 奈良先端科学技術大学院大学 自然言語処理学講座 9851103 松田 寛 horosi-m@is.aist-nara.ac.jp 1999/10/04 Seminar II
Contents 目的 形態素解析ドライバモデルの実装 コーパス作成支援ツールの実装 コーパスの品詞体系変換 今後の課題 1999/10/04 Seminar II
目的 形態素解析エンジンの入出力に標準仕様を定めてシステム間の互換性を確保し接続性を向上 汎用性の高いコーパス作成支援ツールを実装してコーパス構築の作業性を向上 品詞体系変換機能を実装してコーパスの再利用性を向上 1999/10/04 Seminar II
形態素解析ドライバモデルの実装 ~ 互換性の確保と接続性の向上 ~ 1999/10/04 Seminar II
日本語のように分かち書きされていない文から 形態素解析とは? 日本語のように分かち書きされていない文から 単語(形態素)を切り出すプロセス 例: 「山椒魚は悲しんだ」 の形態素解析結果 1999/10/04 Seminar II
形態素解析ドライバモデル MACD (Morphological Analyzer Connectivity Driver model ) 統一されたデータフォーマットを提供 各種解析システムの仕様を隠蔽 互換性の下に形態素データの蓄積・抽出・変換・比較などを実現 GUIツールと各種解析システムを接続 機能拡張をプラグインで実現 1999/10/04 Seminar II
MACDイメージ図 形態素解析エンジン ChaSen JUMAN ALTJAWS Visual-Morphs Web-Browser 組合せ自由な 形態素解析システム接続環境 Visual-Morphs Web-Browser KwicView GUI-Client ツール MACDイメージ図 1999/10/04 Seminar II
MACDの実装 仕様 進捗 JavaTM(JDKTM1.1)を採用 RMIを用いた Server/Client モデル テキストフォーマットにSGMLを採用 進捗 形態素解析レベルの実装を完了 ChaSen, MOZ, JUMAN への接続が可能 構文解析・修辞構造解析への拡張を考案中 1999/10/04 Seminar II
Server-side Interface Client-side Interface 形態素解析システム (ChaSen) Server-Side テキスト SentenceClass 解析結果 MorphClass Handler MACD-Model Local Interface Server-side Interface Java RMI Object-Bus Network Client-side Interface Emulator MACD準拠GUI-Client Tool (VisualMorphs) Client-Side GUIツール (ViCha)
コーパス作成支援ツールの実装 ~ コーパス構築の作業性向上 ~ 1999/10/04 Seminar II
品詞タグつきコーパスとは? 新聞記事などの生テキストに,形態素情報や構文情報などを人手により付与したもの 統計モデルの学習データとして非常に重要 大規模日本語コーパスも既にいくつか存在 しかし品詞体系や判定基準の相違などの理由で再利用が困難なことが多い 汎用的なコーパス作成支援ツールは存在していない 1999/10/04 Seminar II
GUIツール VisualMorphs の実装 JAVA Applet として実装 Web-browser 上で実行可能 MACDを通じて解析・保存を実行 複数作業者が同一ファイルを対象に作業可能 ユーザープロファイルをサーバで一元管理 スタンドアロンでの動作も可能 データをSGML形式で保存 1999/10/04 Seminar II
コーパスの品詞体系変換 ~ コーパスの再利用性向上 ~ 1999/10/04 Seminar II
品詞体系変換における問題点 形態素(列)の変換ルールは一般に 多:多 となり,それらを全て人手で記述することは不可能 変換ルールを自動抽出する試みが行われているが,人手によるルールのチェックが必要 変換先の品詞体系を持つシステムによる単純な形態素再解析では,元コーパスの持つ情報は全て無視される 1999/10/04 Seminar II
本研究で用いる手法 形態素解析エンジンの辞書を,品詞タグ付き文を解析できるように修正 機能語(助詞・助動詞)について変換ルールの記述を予め人手により行う 元コーパスに変換ルールを適用し,変換箇所をタグ形式に書き換えてから形態素再解析を行う 再解析結果からタグを取り除く 1999/10/04 Seminar II
実験中のタスク ChaSen2.0b8を使用 京大コーパス(益岡・田窪文法)をIPA品詞体系に変換 進捗 助詞・助動詞の変換ルールを人手により作成 ChaSen辞書に品詞タグのエントリを追加 助詞のみを用いた予備実験は成功 1999/10/04 Seminar II
今後の課題 品詞体系変換の完全な実装 複数の形態素解析エンジンを用いた Weighted-majority-base システムの構築 MACDを構文解析・修辞構造解析へ拡張 1999/10/04 Seminar II
参考文献 Sun Microsystems, Inc. JavaTM Development Kit ドキュメント JDKTM 1.2 (Manual). http://www.sun.com/, 1998 松本裕治, 北内啓, 山下達雄, 平野善隆. 日本語形態素解析システム 『茶筌』 version 2.0 使用説明書. NAIST Technical Report, NAIST-IS-TR99008 黒橋禎夫, 長尾真. 日本語形態素解析システム JUMAN version 3.61 (Manual). 京都大学大学院情報科学研究科, 1999-5, http://pine.kuee.kyoto-u.ac.jp/ 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9, pp.61-66, 1998 乾健太郎, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999 1999/10/04 Seminar II
参考 : タグ表現とは? 語を非常に長い表記に置き換えたもの すべての形態素情報を備えている タグ表現の例 非活用語 (助詞) から → <助詞.格助詞.一般.から> 活用語 (助動詞) ある → <助動詞.ある.語幹><五段・ラ行アル.る.基本形.る> あり → <助動詞.ある.語幹><五段・ラ行アル.る.連用形.り> 1999/10/04 Seminar II