日本語解析済みコーパス管理ツール「茶器」

Slides:

Advertisements

Similar presentations

R Basics 2013/12/09 Yamada. 今日の方針 Today’s plan テキスト・文字列を扱うにあたっての用語の理解をすることの方が、 R での操作を見るより有意義と思われるので、そちらを優先 Learning terms on text/strings is more.

Advertisements

英作文支援システムの構築に関する研究平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易稔中間発表.

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

言語情報を利用したテキストマイニング奈良先端科学技術大学院大学情報科学研究科工藤拓山本薫坪井裕太松本裕治.

2000/Mar/22 第 136 回自然言語処理研究会 1 Unicode を用いた N-gram 索引の一実現方式とその評価原田昌紀・風間一洋・佐藤進也日本電信電話 ( 株 ) 未来ねっと研究所.

データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識データベース  特定のテーマや目的に毎のデータの集合体データベースソフトウェア  データベースを作成、管理するソフトウェアの総称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)

文字列処理： Perl, Java 等徃住研究室 D2 村井源 COE21-LKR 認知的知識資源論.

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

テキストデータベースからの構文構造のマイニング

最大エントロピーモデルに基づく形態素解析と辞書による影響

HG/PscanServシリーズ Acrobatとなにが違うのか？

形態素周辺確率を用いた分かち書きの一般化とその応用

制約に基づく言語処理から制約なしの言語処理へ

「茶筌」/「南瓜」を用いた形態素解析・係り受け解析

松本裕治（まつもとゆうじ）浅原正幸（あさはらまさゆき）

知識情報演習Ⅲ（後半第1回）辻慶太（水）

情報学類吉田光男アドバイザー教官：山本幹雄先生

言語の統計統計の対象量単語 NグラムとKWIC HMMと形態素解析への応用.

奈良先端科学技術大学院大学情報科学研究科松本裕治

WWW全文検索エンジン Vernoにおける要素構造データベースの設計と実装

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

SLAT2/ChaKi.NET DB Model 解説資料（兼 ChaKi-SLAT 統合状況の経過説明）

テキストマイニング，データマイニングと社会活動のトレース

コーパス言語学実践 2006年度2学期第5回.

検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine

１．自然言語処理システム２．単語と形態素３．文節と係り受け

部分形態素解析を用いたコーパスの品詞体系変換

第4回個人の動画配信補足のためのWeb構築

4Y-4 印象に残りやすい日本語パスワードの合成法

東京工科大学コンピュータサイエンス学部亀田弘之

形態素解析および係り受け解析・主語を判別

DixChange プロジェクト～辞書共通化の試み～

メディア計算機工学特論 2003 年度Ｗｅｂにおける情報・知識の探索と検索の事例をとおして、現代的知識ベースとその利用法を理解する。

TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号

動詞の共起パターンを用いた動作性名詞の述語項構造解析

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具情報分析の道具.

自然言語処理及び実習第11回　形態素解析.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

複数の言語情報を用いたCRFによる音声認識誤りの検出

資料1-6 平成26年度第1回技術委員会資料支援ツール群整備方針

対応可否スキル一覧株式会社エージェント 2015年10月7日　Ver.1.0.

ChaIME: 大規模コーパスを用いた統計的仮名漢字変換

インラインスクリプトに対するデータフロー解析を用いた XHTML 文書の構文検証

WWW上の効率的なハブ探索法の提案と実装

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

データ工学特論第六回木村昌臣.

知識情報演習Ⅲ（後半第3回）辻　慶太

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

形態素解析ドライバモデルの実装とコーパスの品詞体系変換への応用

テキストマイニング，データマイニングと社会活動のトレース

超大規模ウェブコーパスを用いた分布類似度計算

知識情報演習Ⅲ（後半第3回）辻　慶太

文書分類モデルの統計的性質に関する一考察

Spatial Linker - 空間コンテンツ融合の研究 -

東京工科大学コンピュータサイエンス学部亀田弘之

Qiwi: テキスト中の数値表現マイニング

JavaScriptを含んだHTML文書に対するデータフロー解析を用いた構文検証手法の提案

確率の生み出す新しい情報処理技術東北大学大学院情報科学研究科田中和之

コーパス管理システム『ChaKi.NET』

構造的類似性を持つ半構造化文書における頻度分析

オープンソースソフトウェアに対するコーディングパターン分析の適用

大規模コーパスに基づく同義語・多義語処理

第14回放送授業.

Webページタイプによるクラスタリングを用いた検索支援システム

医療科学Ｂ演習のおさらい杏林大学医学図書館医療科学Ｂ.

地理情報コンテンツ・データベースコンテンツ新規作成

識別子の読解を目的とした名詞辞書の作成方法の一試案

Presentation transcript:

日本語解析済みコーパス管理ツール「茶器」松本裕治, 浅原正幸, 岩立将和奈良先端科学技術大学院大学情報科学研究科

茶器：コーパス管理・検索システムタグ付きコーパスのデータベース管理種々の検索タグ付きコーパスと辞書の連携コーパスのタグ付け誤りの修正形態素解析，文節区切り，文節係り受けを施したコーパスを格納し，各種検索機能や修正機能を提供種々の検索文字列検索，単語（列）検索，係り受け構造検索タグ付きコーパスと辞書の連携コーパスは辞書へのポインタとして管理 (コーパス／辞書の修正が他方へ同期して反映) コーパスのタグ付け誤りの修正形態素，文節区切り，係り受け誤りの修正コロケーション抽出機能単語の共起出現頻度，単語N-gram，頻出単語列の抽出

茶器(ChaKi)の構成 ChaKi 解析済み辞書テキスト関係データベース (MySQL) 文書データ (文集合) ＋言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書＋検索と誤り修正

茶器(ChaKi)の構成 ChaKi 解析済み辞書テキスト関係データベース (MySQL) 南瓜の出力フォーマット文書データ特になくてもよい．ない場合は，コーパス中の単語が辞書として取り扱われる南瓜の出力フォーマット茶器(ChaKi)の構成１文が１行になったファイル関係データベース (MySQL) 解析済みテキスト文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 ChaKi 辞書＋検索と誤り修正

茶器の機能検索結果の表示機能対象：検索機能 KWIC形式による文単位の表示文毎の係り受け木の表示統計抽出結果の表示係り受け解析済みコーパス (日, 中, 英) 形態素解析のみタグ付けされたコーパスも可能．全体が一つの文節であるかのように扱われる検索機能文字列 (正規表現) 検索形態素情報（品詞，読み，活用など）を用いた単語列検索係り受け木の検索検索結果の表示機能 KWIC形式による文単位の表示文毎の係り受け木の表示統計抽出結果の表示すべてエクセル（csv形式）でファイル出力可統計機能単語の頻度統計，共起頻度統計，頻出系列マイニング修正機能検索結果の修正（形態素情報，係り受け情報）形態素解析については，複数の文の一括修正が可能

文字列検索の例 target string

単語検索 search pattern specification

共起頻度の表示 target specification collocation counts

係り受け検索 specification of dependency structure search results

係り受け木の表示と修正インタフェース

茶器の情報文部科学省科学研究費補助金　基盤研究Ｂ「言語研究のためのコーパスの作成と利用に関する研究」(2002-2005年度)，および，文部科学省科学研究費補助金　特定研究「日本語コ－パス」(2006年度-2010年度)による支援関連文献： Yuji Matsumoto, et al, “An Annotated Corpus Management Tool: ChaKi,” Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy, May 2006. 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生, 「タグ付きコーパス管理/検索ツール『茶器』」, 言語処理学会第12回年次大会論文集, pp.460-463, March 2006. 現メンバー松本裕治，浅原正幸，岩立将和(以上，奈良先端大)，森田敏生(総和技研) 公開ページ http://chasen.naist.jp/chaki/t/