日本語解析済みコーパス管理ツール 「茶器」

Slides:



Advertisements
Similar presentations
R Basics 2013/12/09 Yamada. 今日の方針 Today’s plan テキスト・文字列を扱うにあたっての用 語の理解をすることの方が、 R での操作を 見るより有意義と思われるので、そちら を優先 Learning terms on text/strings is more.
Advertisements

英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の 一実現方式とその評価 原田昌紀・風間一洋・佐藤進也 日本電信電話 ( 株 ) 未来ねっと研究所.
データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識 データベース  特定のテーマや目的に毎のデータの集合体 データベースソフトウェア  データベースを作成、管理するソフトウェアの総 称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)
文字列処理: Perl, Java 等 徃住研究室 D2 村井 源 COE21-LKR 認知的知識資源論.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
HG/PscanServシリーズ Acrobatとなにが違うのか?
形態素周辺確率を用いた 分かち書きの一般化とその応用
制約に基づく言語処理から 制約なしの言語処理へ
「茶筌」/「南瓜」を用いた 形態素解析・係り受け解析
松本裕治(まつもと ゆうじ) 浅原正幸(あさはら まさゆき)
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
奈良先端科学技術大学院大学 情報科学研究科 松本裕治
WWW全文検索エンジン Vernoにおける 要素構造データベースの設計と実装
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
SLAT2/ChaKi.NET DB Model 解説資料 (兼 ChaKi-SLAT 統合状況の経過説明)
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
第4回 個人の動画配信補足のためのWeb構築
4Y-4 印象に残りやすい日本語パスワードの合成法
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
資料1-6 平成26年度 第1回技術委員会資料 支援ツール群整備方針
対応可否 スキル一覧 株式会社エージェント 2015年10月7日 Ver.1.0.
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
WWW上の効率的な ハブ探索法の提案と実装
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
データ工学特論 第六回 木村昌臣.
知識情報演習Ⅲ(後半第3回) 辻 慶太
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
知識情報演習Ⅲ(後半第3回) 辻 慶太
文書分類モデルの統計的性質に関する一考察
Spatial Linker - 空間コンテンツ融合の研究 -
東京工科大学 コンピュータサイエンス学部 亀田弘之
Qiwi: テキスト中の 数値表現マイニング
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
確率の生み出す新しい情報処理技術 東北大学 大学院情報科学研究科 田中 和之
コーパス管理システム 『ChaKi.NET』
構造的類似性を持つ半構造化文書における頻度分析
オープンソースソフトウェアに対する コーディングパターン分析の適用
大規模コーパスに基づく同義語・多義語処理
第14回放送授業.
Webページタイプによるクラスタ リングを用いた検索支援システム
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
地理情報コンテンツ・データベースコンテンツ新規作成
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

日本語解析済みコーパス管理ツール 「茶器」 松本裕治, 浅原正幸, 岩立将和 奈良先端科学技術大学院大学 情報科学研究科

茶器:コーパス管理・検索システム タグ付きコーパスのデータベース管理 種々の検索 タグ付きコーパスと辞書の連携 コーパスのタグ付け誤りの修正 形態素解析,文節区切り,文節係り受けを施したコーパスを格納し,各種検索機能や修正機能を提供 種々の検索 文字列検索,単語(列)検索,係り受け構造検索 タグ付きコーパスと辞書の連携 コーパスは辞書へのポインタとして管理 (コーパス/辞書の修正が他方へ同期して反映) コーパスのタグ付け誤りの修正 形態素,文節区切り,係り受け誤りの修正 コロケーション抽出機能 単語の共起出現頻度,単語N-gram,頻出単語列の抽出

茶器(ChaKi)の構成 ChaKi 解析済み 辞書 テキスト 関係データベース (MySQL) 文書データ (文集合) + 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 + 検索と 誤り修正

茶器(ChaKi)の構成 ChaKi 解析済み 辞書 テキスト 関係データベース (MySQL) 南瓜の出力フォーマット 文書データ 特になくてもよい. ない場合は,コーパス中の単語が辞書として取り扱われる 南瓜の出力フォーマット 茶器(ChaKi)の構成 1文が1行になったファイル 関係データベース (MySQL) 解析済み テキスト 文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書 + 検索と 誤り修正

茶器の機能 検索結果の表示機能 対象: 検索機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示 係り受け解析済みコーパス (日, 中, 英) 形態素解析のみタグ付けされたコーパスも可能. 全体が一つの文節であるかのように扱われる 検索機能 文字列 (正規表現) 検索 形態素情報(品詞,読み,活用など)を用いた単語列検索 係り受け木の検索 検索結果の表示機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示 すべてエクセル(csv形式)でファイル出力可 統計機能 単語の頻度統計,共起頻度統計,頻出系列マイニング 修正機能 検索結果の修正(形態素情報,係り受け情報) 形態素解析については,複数の文の一括修正が可能

文字列検索の例 target string

単語検索 search pattern specification

共起頻度の表示 target specification collocation counts

係り受け検索 specification of dependency structure search results

係り受け木の表示と修正インタフェース

茶器の情報 文部科学省科学研究費補助金 基盤研究B「言語研究のためのコーパスの作成と利用に関する研究」(2002-2005年度),および,文部科学省科学研究費補助金 特定研究「日本語コ-パス」(2006年度-2010年度)による支援 関連文献: Yuji Matsumoto, et al, “An Annotated Corpus Management Tool: ChaKi,” Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy, May 2006. 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生, 「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回年次大会論文集, pp.460-463, March 2006. 現メンバー 松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和技研) 公開ページ http://chasen.naist.jp/chaki/t/