日本語解析済みコーパス管理ツール 「茶器」 松本裕治, 浅原正幸, 岩立将和 奈良先端科学技術大学院大学 情報科学研究科
茶器:コーパス管理・検索システム タグ付きコーパスのデータベース管理 種々の検索 タグ付きコーパスと辞書の連携 コーパスのタグ付け誤りの修正 形態素解析,文節区切り,文節係り受けを施したコーパスを格納し,各種検索機能や修正機能を提供 種々の検索 文字列検索,単語(列)検索,係り受け構造検索 タグ付きコーパスと辞書の連携 コーパスは辞書へのポインタとして管理 (コーパス/辞書の修正が他方へ同期して反映) コーパスのタグ付け誤りの修正 形態素,文節区切り,係り受け誤りの修正 コロケーション抽出機能 単語の共起出現頻度,単語N-gram,頻出単語列の抽出
茶器(ChaKi)の構成 ChaKi 解析済み 辞書 テキスト 関係データベース (MySQL) 文書データ (文集合) + 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 + 検索と 誤り修正
茶器(ChaKi)の構成 ChaKi 解析済み 辞書 テキスト 関係データベース (MySQL) 南瓜の出力フォーマット 文書データ 特になくてもよい. ない場合は,コーパス中の単語が辞書として取り扱われる 南瓜の出力フォーマット 茶器(ChaKi)の構成 1文が1行になったファイル 関係データベース (MySQL) 解析済み テキスト 文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 + 検索と 誤り修正
茶器の機能 検索結果の表示機能 対象: 検索機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示 係り受け解析済みコーパス (日, 中, 英) 形態素解析のみタグ付けされたコーパスも可能. 全体が一つの文節であるかのように扱われる 検索機能 文字列 (正規表現) 検索 形態素情報(品詞,読み,活用など)を用いた単語列検索 係り受け木の検索 検索結果の表示機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示 すべてエクセル(csv形式)でファイル出力可 統計機能 単語の頻度統計,共起頻度統計,頻出系列マイニング 修正機能 検索結果の修正(形態素情報,係り受け情報) 形態素解析については,複数の文の一括修正が可能
文字列検索の例 target string
単語検索 search pattern specification
共起頻度の表示 target specification collocation counts
係り受け検索 specification of dependency structure search results
係り受け木の表示と修正インタフェース
茶器の情報 文部科学省科学研究費補助金 基盤研究B「言語研究のためのコーパスの作成と利用に関する研究」(2002-2005年度),および,文部科学省科学研究費補助金 特定研究「日本語コ-パス」(2006年度-2010年度)による支援 関連文献: Yuji Matsumoto, et al, “An Annotated Corpus Management Tool: ChaKi,” Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy, May 2006. 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生, 「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回年次大会論文集, pp.460-463, March 2006. 現メンバー 松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和技研) 公開ページ http://chasen.naist.jp/chaki/t/