形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用

Slides:



Advertisements
Similar presentations
ウィキについて 1 1040431 1 1040431 植木貴宏 植木貴宏. ウィキとは? ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 Wiki とは、ハワイ語で「速い」を意味.
Advertisements

英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
目次 このドキュメントについて・・・前提条件……………………………………… 2
Web アプリをユーザー毎に カスタマイズ可能にする AOP フレームワーク
東京工科大学 コンピュータサイエンス学部 亀田弘之
Conditional Random Fields を用いた 日本語形態素解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
IDLTM/IONTMを使用した UDON (Universe via Darts ON-line) プロトタイプの作成
テキストから獲得可能な因果関係知識の類別 およびその自動獲得の試み -接続助詞「ため」を含む文を中心に-
侵入検知システムの構築と ログの可読性向上
早稲田大学大学院理工学研究科 情報科学専攻修士2年 後藤滋樹研究室 坂本義裕
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
まずオープンソース開発者に対する支援から!
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
バイナリ形式コンポーネントの 収集・解析・検索システムの開発
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
COM コンポーネント・オブジェクト・モデル.
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
東京工科大学 コンピュータサイエンス学部 亀田弘之
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
ブースティングとキーワードフィルタリング によるシステム要求検出
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
東京工科大学 コンピュータサイエンス学部 亀田弘之
プログラムの差分記述を 容易に行うための レイヤー機構付きIDEの提案
開発作業の形式化に基づく プロセス評価 松下誠 大阪大学.
新聞記事データを用いたリスクシナリオ発見支援システムの構築
UMLモデルを対象とした リファクタリング候補検出手法の提案と実現
統合開発環境のための プログラミング言語拡張 フレームワーク
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
並列構造に着目した係り受け解析の改善に関する研究
ソフトウェア理解支援を目的とした 辞書の作成法
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
形態素解析と構文解析 金子邦彦.
識別子の読解を目的とした名詞辞書の作成方法の一試案
オブジェクト指向メトリクスを用いた 開発支援に関する研究 --- VC++とMFCを用いた開発を対象として ---
プログラム理解のための 付加注釈 DocumentTag の提案
1.2 言語処理の諸観点 (1)言語処理の利用分野
Presentation transcript:

形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用 奈良先端科学技術大学院大学 自然言語処理学講座 9851103 松田 寛 horosi-m@is.aist-nara.ac.jp 1999/10/04 Seminar II

Contents 目的 形態素解析ドライバモデルの実装 コーパス作成支援ツールの実装 コーパスの品詞体系変換 今後の課題 1999/10/04 Seminar II

目的 形態素解析エンジンの入出力に標準仕様を定めてシステム間の互換性を確保し接続性を向上 汎用性の高いコーパス作成支援ツールを実装してコーパス構築の作業性を向上 品詞体系変換機能を実装してコーパスの再利用性を向上 1999/10/04 Seminar II

形態素解析ドライバモデルの実装 ~ 互換性の確保と接続性の向上 ~ 1999/10/04 Seminar II

日本語のように分かち書きされていない文から 形態素解析とは? 日本語のように分かち書きされていない文から 単語(形態素)を切り出すプロセス 例: 「山椒魚は悲しんだ」 の形態素解析結果 1999/10/04 Seminar II

形態素解析ドライバモデル MACD (Morphological Analyzer Connectivity Driver model ) 統一されたデータフォーマットを提供 各種解析システムの仕様を隠蔽 互換性の下に形態素データの蓄積・抽出・変換・比較などを実現 GUIツールと各種解析システムを接続 機能拡張をプラグインで実現 1999/10/04 Seminar II

MACDイメージ図 形態素解析エンジン ChaSen JUMAN ALTJAWS Visual-Morphs Web-Browser 組合せ自由な 形態素解析システム接続環境 Visual-Morphs Web-Browser KwicView GUI-Client ツール MACDイメージ図 1999/10/04 Seminar II

MACDの実装 仕様 進捗 JavaTM(JDKTM1.1)を採用 RMIを用いた Server/Client モデル テキストフォーマットにSGMLを採用 進捗 形態素解析レベルの実装を完了 ChaSen, MOZ, JUMAN への接続が可能 構文解析・修辞構造解析への拡張を考案中 1999/10/04 Seminar II

Server-side Interface Client-side Interface 形態素解析システム (ChaSen) Server-Side テキスト SentenceClass 解析結果 MorphClass Handler MACD-Model Local Interface Server-side Interface Java RMI Object-Bus Network Client-side Interface Emulator MACD準拠GUI-Client Tool (VisualMorphs) Client-Side GUIツール (ViCha)

コーパス作成支援ツールの実装 ~ コーパス構築の作業性向上 ~ 1999/10/04 Seminar II

品詞タグつきコーパスとは? 新聞記事などの生テキストに,形態素情報や構文情報などを人手により付与したもの 統計モデルの学習データとして非常に重要 大規模日本語コーパスも既にいくつか存在 しかし品詞体系や判定基準の相違などの理由で再利用が困難なことが多い 汎用的なコーパス作成支援ツールは存在していない 1999/10/04 Seminar II

GUIツール VisualMorphs の実装 JAVA Applet として実装 Web-browser 上で実行可能 MACDを通じて解析・保存を実行 複数作業者が同一ファイルを対象に作業可能 ユーザープロファイルをサーバで一元管理 スタンドアロンでの動作も可能 データをSGML形式で保存 1999/10/04 Seminar II

コーパスの品詞体系変換 ~ コーパスの再利用性向上 ~ 1999/10/04 Seminar II

品詞体系変換における問題点 形態素(列)の変換ルールは一般に 多:多 となり,それらを全て人手で記述することは不可能 変換ルールを自動抽出する試みが行われているが,人手によるルールのチェックが必要 変換先の品詞体系を持つシステムによる単純な形態素再解析では,元コーパスの持つ情報は全て無視される 1999/10/04 Seminar II

本研究で用いる手法 形態素解析エンジンの辞書を,品詞タグ付き文を解析できるように修正 機能語(助詞・助動詞)について変換ルールの記述を予め人手により行う 元コーパスに変換ルールを適用し,変換箇所をタグ形式に書き換えてから形態素再解析を行う 再解析結果からタグを取り除く 1999/10/04 Seminar II

実験中のタスク ChaSen2.0b8を使用 京大コーパス(益岡・田窪文法)をIPA品詞体系に変換 進捗 助詞・助動詞の変換ルールを人手により作成 ChaSen辞書に品詞タグのエントリを追加 助詞のみを用いた予備実験は成功 1999/10/04 Seminar II

今後の課題 品詞体系変換の完全な実装 複数の形態素解析エンジンを用いた Weighted-majority-base システムの構築 MACDを構文解析・修辞構造解析へ拡張 1999/10/04 Seminar II

参考文献 Sun Microsystems, Inc. JavaTM Development Kit ドキュメント JDKTM 1.2 (Manual). http://www.sun.com/, 1998 松本裕治, 北内啓, 山下達雄, 平野善隆. 日本語形態素解析システム 『茶筌』 version 2.0 使用説明書. NAIST Technical Report, NAIST-IS-TR99008 黒橋禎夫, 長尾真. 日本語形態素解析システム JUMAN version 3.61 (Manual). 京都大学大学院情報科学研究科, 1999-5, http://pine.kuee.kyoto-u.ac.jp/ 田代敏久, 森本逞.形態素情報付きコーパスの再構築手法. 情報処理学会論文誌, Vol.37, No.1, pp.13-22, 1 1996 植木正裕, 白井清昭, 徳永健伸, 田中穂積. 構造つきコーパスの共有化に関する一考察. 情報処理学会研究報告(98-NL-128)128-9, pp.61-66, 1998 乾健太郎, 脇川浩和. 品詞タグつきコーパスにおける品詞体系の変換. 情報処理学会研究報告(99-NL-132)132-12, pp.87-94, 1999 1999/10/04 Seminar II

参考 : タグ表現とは? 語を非常に長い表記に置き換えたもの すべての形態素情報を備えている タグ表現の例 非活用語 (助詞) から → <助詞.格助詞.一般.から> 活用語 (助動詞) ある → <助動詞.ある.語幹><五段・ラ行アル.る.基本形.る> あり → <助動詞.ある.語幹><五段・ラ行アル.る.連用形.り> 1999/10/04 Seminar II