Presentation is loading. Please wait.

Presentation is loading. Please wait.

日本語解析済みコーパス管理ツール 「茶器」

Similar presentations


Presentation on theme: "日本語解析済みコーパス管理ツール 「茶器」"— Presentation transcript:

1 日本語解析済みコーパス管理ツール 「茶器」
松本裕治, 浅原正幸, 岩立将和 奈良先端科学技術大学院大学 情報科学研究科

2 茶器:コーパス管理・検索システム タグ付きコーパスのデータベース管理 種々の検索 タグ付きコーパスと辞書の連携 コーパスのタグ付け誤りの修正
形態素解析,文節区切り,文節係り受けを施したコーパスを格納し,各種検索機能や修正機能を提供 種々の検索 文字列検索,単語(列)検索,係り受け構造検索 タグ付きコーパスと辞書の連携 コーパスは辞書へのポインタとして管理 (コーパス/辞書の修正が他方へ同期して反映) コーパスのタグ付け誤りの修正 形態素,文節区切り,係り受け誤りの修正 コロケーション抽出機能 単語の共起出現頻度,単語N-gram,頻出単語列の抽出

3 茶器(ChaKi)の構成 ChaKi 解析済み 辞書 テキスト 関係データベース (MySQL) 文書データ (文集合) + 言語解析ツール
(茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 検索と 誤り修正

4 茶器(ChaKi)の構成 ChaKi 解析済み 辞書 テキスト 関係データベース (MySQL) 南瓜の出力フォーマット 文書データ
特になくてもよい. ない場合は,コーパス中の単語が辞書として取り扱われる 南瓜の出力フォーマット 茶器(ChaKi)の構成 1文が1行になったファイル 関係データベース (MySQL) 解析済み テキスト 文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 検索と 誤り修正

5 茶器の機能 検索結果の表示機能 対象: 検索機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示
係り受け解析済みコーパス (日, 中, 英) 形態素解析のみタグ付けされたコーパスも可能. 全体が一つの文節であるかのように扱われる 検索機能 文字列 (正規表現) 検索 形態素情報(品詞,読み,活用など)を用いた単語列検索 係り受け木の検索 検索結果の表示機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示 すべてエクセル(csv形式)でファイル出力可 統計機能 単語の頻度統計,共起頻度統計,頻出系列マイニング 修正機能 検索結果の修正(形態素情報,係り受け情報) 形態素解析については,複数の文の一括修正が可能

6 文字列検索の例 target string

7 単語検索 search pattern specification

8 共起頻度の表示 target specification collocation counts

9 係り受け検索 specification of dependency structure search results

10 係り受け木の表示と修正インタフェース

11 茶器の情報 文部科学省科学研究費補助金 基盤研究B「言語研究のためのコーパスの作成と利用に関する研究」( 年度),および,文部科学省科学研究費補助金 特定研究「日本語コ-パス」(2006年度-2010年度)による支援 関連文献: Yuji Matsumoto, et al, “An Annotated Corpus Management Tool: ChaKi,” Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy, May 2006. 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生, 「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回年次大会論文集, pp , March 2006. 現メンバー 松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和技研) 公開ページ


Download ppt "日本語解析済みコーパス管理ツール 「茶器」"

Similar presentations


Ads by Google