SLAT2/ChaKi.NET DB Model 解説資料 (兼 ChaKi-SLAT 統合状況の経過説明)

Slides:



Advertisements
Similar presentations
情報の交換・共有・蓄積を目的とした GIS リモートコミュニケーションシステム の実装 Sho Otake Graduate Department of Computer and Information Systems The University of Aizu 1 Hirohide Demura,
Advertisements

XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
論理回路 第 11 回
データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識 データベース  特定のテーマや目的に毎のデータの集合体 データベースソフトウェア  データベースを作成、管理するソフトウェアの総 称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
エンティティ・リレーションシップ・モデル
情報処理入門A・B 第7回 ワープロソフト入門(2)
2006年11月22日 植田龍男 Webサービス II (第9回) 年11月22日 植田龍男.
[グループ名]向けウェブナー [所属機関名] [日付] [発表者の氏名] [発表者の敬称/肩書]
SMART/InSightのセキュリティ機能と設計
【2.12】文字装飾機能内部設計書
コーパス言語学 第1回.
法人e名刺 ブログ運用マニュアル 社外秘 目次 □ブログ運用ルール
地方公共団体オープンデータ推進ガイドライン および手引書の見直し(案)
CSSを利用したWebデザイン 理工学部 情報学科 3回生 喜多 亮輔.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
Microsoft Office 2010 クイックガイド ~ファイルの互換性編~
3-5 クラス図の関係その3 福本研究室 神田 祐輔.
アクセス修飾子過剰性の変遷に着目したJavaプログラム部品の分析
情報工学概論 (アルゴリズムとデータ構造)
15分でわかる RefWorks 基本操作.
Visual Studio LightSwitchの概要
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
 データベースによる並列処理 情報論理工学研究室  三宅健太.
SAP & SQL Server テクニカルアーキテクチャ概要 マイクロソフト株式会社 SAP/Microsoft コンピテンスセンター
情報コミュニケーション入門b 第4回 ワープロソフト入門(2)
XSL-FO + MathML MathML表示、PDF生成、SVG生成
日本語解析済みコーパス管理ツール 「茶器」
川口真司 松下誠 井上克郎 大阪大学大学院情報科学研究科
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
IIR輪講復習 #1 Boolean retrieval
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
関数の変更履歴と呼出し関係に基づいた開発履歴理解支援システムの実現
その他の図 Chapter 7.
暗黙的に型付けされる構造体の Java言語への導入
第3回 2007年4月27日 応用Java (Java/XML).
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
理学部 情報科学科 指導教官 千葉 滋 助教授 学籍番号 03_03686 内河 綾
リコー「LIMEDIO」の紹介 LIMEDIOにおけるZ39.50の適用事例
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
プログラミング演習I 2003年5月7日(第4回) 木村巌.
リファクタリング支援のための コードクローンに含まれる識別子の対応関係分析
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
7-3. 移行データ登録簡易マニュアル Version 1.0
3-1.文書と構造 3-2.整形式文書と検証済み文書 兒玉 光太郎
データモデリング エンティティの切り出し.
1-3 UMLの図(ダイアグラム) コンポーネント図 システムの物理的な構成を表現 ソフトウェアコンポーネントの依存性を表現
プログラミングⅠ 平成30年10月22日 森田 彦.
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
プログラミング言語論 第六回 理工学部 情報システム工学科 新田直也.
コーディングパターンの あいまい検索の提案と実装
コーパス管理システム 『ChaKi.NET』
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
Excel 2002,2003基本7 名前機能.
Microsoft SharePoint Online の Web サイトを カスタマイズする方法
アルゴリズムとデータ構造1 2009年6月15日
CO-Client Opeartion 1.1 利用履歴データベースの設計 (スキーマ バージョン 対応)
Microsoft Office 2010 クイックガイド ~ファイルの互換性編~
ソフトウェア理解支援を目的とした 辞書の作成法
JCC画面 (JCCリスト) QRZ等検索 ・名前、・ゾーン、GL ・IOTA、マネージャ カントリーリスト検索 道の駅、温泉地検索
アルゴリズムとデータ構造 2010年6月17日
Copyright 2016 FIT Co., Ltd. All rights reserved.
情報処理Ⅱ 2005年11月25日(金).
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
Presentation transcript:

SLAT2/ChaKi.NET DB Model 解説資料 (兼 ChaKi-SLAT 統合状況の経過説明) 2009-06-26 (有)総 和 技 研 森田 敏生 morita@sowa.com

ChaKiとSLATの機能範囲 ChaKi.NET SLAT2 ・KWIC検索・表示 ・文節 / 係り受けアノテー ションに特化した編集 ・文節 / 係り受けアノテー  ションに特化した編集 ・文-語構造の表現 ・Lexiconの管理 ・コロケーション / 統計 ・用途に応じた複数の  RDBMSサポート ・Windows / Rich Client   ・Standalone or Client-Server ・アノテーションの  高度な編集 ・タグセットの作成支援 ・Web Application Thin Client ・Client-Server ・ドキュメントの表示 ・アノテーションの 表示/基本編集 ・アノテーションプロ  ジェクトの管理 SLAT ChaKi ~ 2008 ~ 2008 2009-06-26

別紙2: ChaKi.NET DB Model (ER図) 別紙3: ChaKi.NET のオブジェクトマッピング (クラス図) 現在のDatabase Model 別紙1: SLAT2 DB Model  (ER図) 別紙2: ChaKi.NET DB Model  (ER図) 別紙3: ChaKi.NET のオブジェクトマッピング (クラス図) 両者は共通部分において可能な限り互換に作成している。 2009-06-26

DocumentとDocumentSet コーパス(DB)は、1つ以上のDocumentを持つ。 Documentは、文字(内部表現はUCS-2)の一次元配列である。 文字インデックス(0, … , Ndoc-1) はDocumentに固有。 平文表現 {C(0), …, C(Ndoc-1)} をlarge textとして保持する。 ChaKiの”String Search”(文字列検索・正規表現検索)は、この平文に対して行われる。 Documentの例) bccwjの単一ファイル、新聞記事、書籍一冊、etc. DocumentSet アノテーション作業の対象とするDocumentの集合であり、コーパスに含まれるすべてのDocumentの部分集合である。 DocumentSet間でDocumentを共有することはできない。(任意のDocumentは必ず1つのDocumentSetに属する。) アノテーションを行う場合に必ず定義する必要がある。 ChaKiでは、文節・係り受け情報インポート(=最初のアノテーション)の際に、全Documentを含む唯一のDocumentSetを作成する。 つまり、ChaKiでは、コーパス=DocumentSetとみなす。 2009-06-26

DocumentSet – Project – User n : n User Projectとは、一連のアノテーションが実施・保持される作業環境であり、ひとつの Projectに複数の作業者が参加可能である。(※「一連の」=「同一基準によって付加された」) 2009-06-26

Project – TagSet ・ひとつのProjectで複数のTagSetを組み合わせて利用可能 n : n TagSet ・ひとつのProjectで複数のTagSetを組み合わせて利用可能 ・TagSetはProject間で共有可能 2009-06-26

Tagの特徴 Tag ::= Segment | Link | Group 1. SegmentはDocumentの連続部分文字列 [Cstart, Cend] Documentをまたぐことは不可。(0 ≦ start ≦ end < Ndoc) 2. Linkは2個のSegment間の関連であり、方向・推移性の有無が設定可能。 Linkは同一DBに属する限りDocumentをまたぐこともできる。 これを利用すると、本文外への参照要素とのLinkを作りたいような場合に、あらかじめ特別なDocumentを作成して本文に現れないSegmentを(いくつでも必要なだけ)収めておき、それらへのLinkを張ることでそのようなLinkを実現できる。 3. GroupはTagの集合である。 ※ Tagは個々のアノテーションインスタンスである。 Tagの種別・制約条件をあらかじめ定義したTagDefinitionとは区別しなければならない。 ※ Tagのインスタンス毎に、 複数のAttribute(Key-Valueペア)を付加可能 付加したUserを識別可能 更新時刻を取得可能 更新された時点で使用していたTagSetのバージョンを取得可能 2009-06-26

TagSetのバージョン管理(例) MyProject 定義の変遷 Rev.1 Rev.2 Rev.3 現在 Rev.4 アノテーション結果 TagDefinition の追加削除 TagSet1 Seg_Aを追加 Rev.1と関連付けられる。 Seg_A Rev.1 ・・・ ・・・ Seg_Bを追加 Rev.2と関連付けられる。 Seg_B 追加 ・・・ ・・・ Rev.2 Link_X (= Seg_A -> Seg_B) 追加 Link_Xを追加 Rev.3と関連付けられる。 Rev.3 ・・・ ・・・ 明示的に 削除 Seg_BとLink_Xを削除 残ったSeg_AはRev.1と関連付けられたまま。 × 無効j化 ・・・ ・・・ 現在 Rev.4 2009-06-26

アノテーションはDocument内のTextの文字位置に対して設定される。 Sentence/Word構造とDocument.Text アノテーションはDocument内のTextの文字位置に対して設定される。 一方、ChaKiではCorpus以下にSentence-Wordの構造があり、Document.Textと併存している。 Corpus Sentence Sentence … Word Word … Word … ※ … ※英語などでは、Word間に空白を自動挿入 Lexemeの表層形 + Lexemeの表層形 + 一致 T e x t … Document.Text = {C(0), …, C(Ndoc-1)} 2009-06-26

DBサイズの評価(ChaKi.NET) ※1) 改行は1文字とカウント ※2) 文節をSegment, 係り受けをLinkとして変換 CorpusName sanshiro OW_Core BK_PB 文字数 (※1) 166,850 352,595 13,233,948 Cabochaファイルサイズ bytes 4,726,028 (SJIS) 13,737,151 (UTF-8) 523,840,901 (UTF-8) Document数 1 62 2,584 Segment数 (※2) 50,177 76,885 3,307,254 Link数 (※2) 42,506 71,059 2,983,136 Group数 Sentence数 7,671 5,796 324,118 DB Size (SQLite) bytes 17,235,968 30,227,456 1,264,270,336 (参考) Lexeme数 8,931 9,072 126,023 ※1) 改行は1文字とカウント ※2) 文節をSegment, 係り受けをLinkとして変換 2009-06-26

ChaKi実装における既知の問題点 英語における空白自動挿入の問題 原文にない空白が挿入される 入れ子Sentenceの扱い Document.Textを密に分割する構造的なMain-Sentence (前頁のSentence)以外に、Segmentで表現されたSub-Sentenceを導入する予定。 複合語構造をSegmentとして扱うか? 複合語構造はLexiconの問題であり、Document内の出現毎にタグ付けするのはふさわしくないのではないか。 2009-06-26

本ドキュメントの保管場所 PowerPointファイル 付属のChaKi.NETモデルファイル(PDF) http://sourceforge.jp/projects/chaki/docs/?category_id=920 2009-06-26