Download presentation
Presentation is loading. Please wait.
1
GuideLink: ガイドラインの管理を同時に行う アノテーションツール
大内田賢太, 金進東, 辻井潤一 (東京大学)
2
本日の発表内容 背景 提案手法 実装 今後の予定 コーパスアノテーション アノテーションガイドライン アノテーションに関する3レイヤーモデル
データ構造 実装 GuideLinkについて 今後の予定
3
本日の発表内容 背景 提案手法 実装 今後の予定 コーパスアノテーション アノテーションガイドライン アノテーションに関する3レイヤーモデル
データ構造 実装 GuideLinkについて 今後の予定
4
コーパスアノテーションの例 テキストに、人間の言語知識を表す記述子を割り振る作業
例えば、固有表現(地名・人名など)の単語列に記述子を割り振る。 「ハドソン川の英雄」に称賛、USエアウェイズ機事故 米ニューヨーク(New York)で15日、乗客乗員155人が乗ったUSエアウェイズ(US Airways)旅客機がハドソン川(Hudson River)に不時着水した事故で、冷静沈着な手腕で奇跡的に惨事を防いだ機長に称賛が集まっている。米メディア報道によると、この機長は空軍戦闘機のパイロット経験をもつチェズレイ・サレンバーガー(Chesley Sullenberger)氏(57)。乗客らの証言によると、機長は機体を胴体から緩やかに川面に着水させた。乗員乗客は全員無事に機体から脱出することができたため、乗客や当局者らは機長を「ハドソン(川)の英雄」と呼んで称賛している。サレンバーガ機長の同僚のUSエアウェイズ操縦士で8年間のエアバスA320型機の操縦経験を持つジョン・シルコット(John Silcott)氏は、A320は主翼の下にエンジンがあるためサレンバーガ機長は機体を尾翼から着水させたのだろうと説明する。「エンジンが先に着水していれば、機首が水中に突っ込んでいただろう。素晴らしい着水だった」 AFPBB News(2009年01月16日)から抜粋
5
コーパスアノテーションとは 定義 特徴 問題点 テキストに人間の言語知識を表す記述子を割り振る作業
自然言語処理システム開発のための資源を提供 問題点 開発期間が長い。 多くの人手が必要。 アノテーションの一貫性を保つことが困難 ラベルやタグなどの記述子を
6
コーパスアノテーションの難しさ これは組織名? ・・・早稲田大学・・・ あの学生は早稲田に入りました。 ・・・東京大学・・・
・・・早稲田大学・・・ あの学生は早稲田に入りました。 ・・・東京大学・・・ ・・・・東京・・・・ 六大学野球、早稲田対東京が行われました。 方針が
7
コーパスアノテーションの難しさ 関係性がある? もっと難しいアノテーションもある(Event Annotation等)
「AとBは関係がある。」 → ○ 「AとBは関係がない。」 → × 「AとBは関係があるかもしれません」 → ? 「AとBの研究をします。」 → ? もっと難しいアノテーションもある(Event Annotation等) GENIA corpus (
8
情報交換の必要性 一貫性を保つため、アノテーション作業中の情報交換が必須
情報交換で得られた結論はアノテーションガイドラインとして残し、後で参照される メールのアーカイブ (例: Caderige) テキスト文書 (例:Penn Treebank) Web文書 (例: PennBioIE) Wiki (例: GENIA) 書籍 (例:Susanne) ・Caderige ( ・Susanne (書籍: English for the Computer: The Susanne Corpus and Analytic Scheme )
9
ガイドラインの管理の重要性 アノテーション作業中 アノテーション作業後 情報交換 アノテーションの一貫性の保持
アノテーションの結果を正しく理解する資料 ユーザビリティを高める コミュニケーションに用いられたデータは、アノテーション作業に関する重要な知識を多く含む しかし、今までこのようなコミュニケーションでやりとりされた知識がうまく管理されていなかった
10
本日の発表内容 背景 提案手法 実装 今後の予定 コーパスアノテーション アノテーションガイドライン アノテーションに関する3レイヤーモデル
データ構造 実装 GuideLinkについて 今後の予定
11
提案手法の目的と方針 目的 方針 アノテーション作業とガイドライン管理作業の統合
既存のアノテーションモデルを拡張したガイドライン管理可能な統合アノテーションフレームワーク
12
コーパスアノテーションの流れ 一般的なアノテーションツールでは、ガイドラインの管理を サポートしていない
アノテーション 可能か? はい 一般的なアノテーションツールでは、ガイドラインの管理を サポートしていない WordFreak , MMAX, Knowtator いいえ ガイドラインを参照する ガイドラインを参照する 既存のツールに3つの作業を支援するシステムを実装する アノテーション 可能か? はい WordFreak: An Open Tool for Linguistic Annotation (2003) MMAX: A tool for the annotation of multi-modal corpora (2001) Knowtator: a plug-in for creating training and evaluation data sets for biomedical natural language system (2006) いいえ ガイドラインを更新する ガイドラインを更新する アノテーションを行う WordFreak: An Open Tool for Linguistic Annotation (2003) MMAX: A tool for the annotation of multi-modal corpora (2001) Knowtator: a plug-in for creating training and evaluation data sets for biomedical natural language system (2006) 具体例をガイドラインに関連付ける 具体例をガイドラインに関連付ける
13
2レイヤーモデル 既存のアノテーションモデルは2レイヤーモデルで表現可能 アノテーションレイヤー テキストレイヤー 既存のツール
単語列へのポインタ、記述子 テキストレイヤー 単語の羅列 既存のツール
14
3レイヤーモデル 提案手法では3つのレイヤーを利用 既存の2レイヤーモデルを拡張 アノテーションガイドラインレイヤーを追加
提案システム アノテーションレイヤー 単語列へのポインタ、記述子 テキストレイヤー 単語の羅列 既存のツール
15
本日の発表内容 背景 提案手法 実装 今後の予定 コーパスアノテーション アノテーションガイドライン アノテーションに関する3レイヤーモデル
データ構造 実装 GuideLinkについて 今後の予定
16
テキストレイヤー アノテーション対象となるテキストの管理 テキストは文字の羅列によって表現 テキストレイヤー テキストインスタンス
テキスト(文字の羅列)
17
アノテーションレイヤー アノテーションされた単語列は、アノテーションインスタンスによって管理される。 id アノテーションレイヤー
記述子 テキストレイヤー テキストインスタンス テキスト(文字の羅列)
18
アノテーションガイドラインレイヤー アノテーションガイドラインによって参考になるインスタンスのIDのリストを管理することで、関連付けられる。
ガイドラインインスタンス ガイドライン キーワード 関連付けられたインスタンスリスト Since we maintain the annotation guidelines for later reference, we need a device to enable quick access to relevant annotation guidelines. アノテーションレイヤー アノテーションインスタンス id 記述子 テキストレイヤー テキストインスタンス テキスト(文字の羅列)
19
アノテーションガイドラインレイヤー アノテーションガイドラインによって参考になるインスタンスのIDのリストを管理することで、関連付けられる。
ガイドラインインスタンス 役職は人名には含まれない 役職 関連付けられたインスタンスリスト Since we maintain the annotation guidelines for later reference, we need a device to enable quick access to relevant annotation guidelines. アノテーションレイヤー アノテーションインスタンス id 人名 テキストレイヤー テキストインスタンス ・・・サレンバーガ機長の同僚の・・・
20
負例の管理 ガイドラインにとって、記述子を割り振られなかった単語列(負例)はよい具体例
既存のアノテーションインスタンスでは負例を表現することができない 拡張したアノテーションインスタンスで負例を表現
21
アノテーション正負判定の管理 正負判定により、負例をアノテーションインスタンスとして表現可能に id アノテーションガイドラインレイヤー
ガイドラインインスタンス ガイドライン キーワード 関連付けられたインスタンスリスト Since we maintain the annotation guidelines for later reference, we need a device to enable quick access to relevant annotation guidelines. アノテーションレイヤー アノテーションインスタンス id 記述子 正負判定 テキストレイヤー テキストインスタンス テキスト(文字の羅列)
22
アノテーション正負判定の管理 正負判定により、負例をアノテーションインスタンスとして表現可能に id アノテーションガイドラインレイヤー
ガイドラインインスタンス 役職は人名には含まれない 役職 関連付けられたインスタンスリスト アノテーションレイヤー アノテーションインスタンス id 人名 負例 テキストレイヤー テキストインスタンス ・・・サレンバーガ機長の同僚の・・・
23
関数の定義 ガイドラインインスタンスの 追加 編集 参照 削除 アノテーションレイヤーへのアクセスが必要 id
アノテーションガイドラインレイヤー ガイドライン構造体 ガイドライン キーワード 関連付けられたインスタンスリスト アノテーションレイヤー アノテーション構造体 id 記述子 正負判定
24
アノテーションレイヤーとの連携 ガイドラインレイヤーから呼ぶAPI アノテーションレイヤーが投げるメッセージ
getAnnotation (ガイドラインインスタンスからのアノテーション インスタンスの取得) アノテーションレイヤーが投げるメッセージ addAnnotation, deleteAnnotation (アノテーションインスタンスの追加・削除情報を ガイドラインへ通知)
25
アノテーションレイヤーの拡張 既存のアノテーションレイヤーを変更せずに、負例を扱えるようにする
アノテーションレイヤーにAPIやメッセージを追加する必要がある 拡張アノテーションレイヤーを追加する
26
拡張3レイヤーモデル アノテーションガイドラインレイヤー 拡張アノテーションレイヤー API メッセージ 既存のアノテーションレイヤー
ガイドラインインスタンス ガイドライン キーワード 関連付けられたインスタンスリスト 拡張アノテーションレイヤー API メッセージ 既存のアノテーションレイヤー ・正例の管理 ・負例の管理 テキストレイヤー テキストインスタンス テキスト(文字の羅列)
27
拡張3レイヤーモデルの利点 既存のアノテーションツールに最小限の変更で、アノテーションガイドラインとアノテーションレイヤーが連携できる
ガイドラインの編集を容易に行うことができる ガイドラインを参照するときに、テキストレイヤー上の情報を用いて検索することができる
28
本日の発表内容 はじめに 提案手法 実装 今後の予定 コーパスアノテーション アノテーションガイドライン
アノテーションに関する3レイヤーモデル データ構造 実装 GuideLinkについて 今後の予定
29
コーパスアノテーションの流れ(再掲) 一般的なアノテーションツールでは、ガイドラインの管理を サポートしていない
アノテーション 可能か? はい 一般的なアノテーションツールでは、ガイドラインの管理を サポートしていない WordFreak,MMAX, Knowtator… いいえ ガイドラインを参照する アノテーション 可能か? はい 既存のツールに3つの作業を支援するシステムを実装する いいえ ガイドラインを更新する ガイドラインを参照する アノテーションを行う ガイドラインを更新する 具体例をガイドラインに関連付ける 具体例をガイドラインに関連付ける
30
“GuideLink (Guideline+ Link)”
今回は、我々の 研究室で開発された アノテーションツール であるVex+ (in XCONC Suite)用のプラグイン として実装した ガイドラインを参照する ガイドラインを更新する 具体例をガイドラインに関連付ける Vex GuideLink
31
“GuideLink”と Vex+ Vex アノテーション編集 インスタンス管理 ガイドライン検索 ガイドライン編集
32
実装の結果 アノテーションガイドラインの管理のためには、既存のツールを変更せずに拡張可能
既存のツールとの連携を高めるためには、 最小限度の変更が必要 アノテーション位置へのカーソル移動機能 カーソル周辺の情報から、必要と思われるガイドラインを自動的に類推提示
33
本日の発表内容 はじめに 提案手法 実装 今後の予定 コーパスアノテーション アノテーションガイドライン
アノテーションに関する3レイヤーモデル データ構造 実装 GuideLinkについて 今後の予定
34
今後の予定 実際に“GuideLink” を用いてアノテーション作業を行いながらガイドラインの管理を行えるか検証を行う。
DBCLS (ライフサイエンス統合データベースセンター)にて現在 “GuideLink”を用いた実作業を進行中 辻井研究室の方々に協力してもらい、実際にアノテーション作業を行ってもらい、検証を行う予定。 他のアノテーションツールとの連携 Emacsなどのオープンソースのエディタ ライフサイエンス統合データベースセンター DBCLS: 辻井研究室:
35
まとめ ご清聴ありがとうございました 背景 提案手法と実装 進捗状況と今後の予定
コーパスアノテーションとは、テキストに人間の言語知識を表す記述子を割り振る作業 アノテーションガイドラインによって情報交換することで、一貫性のとれたアノテーションが行うことができる 提案手法と実装 ガイドラインを管理する手法として3レイヤーモデルを提案し、データ構造の設計を行った アノテーションシステム“GuideLink” を実装した 進捗状況と今後の予定 “GuideLink”を用いた検証を実行中・実行予定 ご清聴ありがとうございました
38
検証方法について アノテーションの過程での検証 アノテーションの後での検証 アノテーションにかかる日数 アノテーションの修正回数
修正にかかるコスト アノテーションの後での検証 コーパスを参照したとき、ガイドラインからコーパスの 特徴をどのように理解することができるか 既存のコーパスをどれぐらい再現できるか 同じガイドラインを使って、別のコーパスに対して アノテーションを行うとき、どれだけコストが下がるか
39
進捗状況 現在までに行ったこと アノテーションシステム“GuideLink” を実装した
GENIA Corpus(生命科学論文コーパス) のProtein Annotationで作られたアノテーションガイドラインを、“GuideLink” に よって管理 できるようにした Vex GuideLink
41
既存のアノテーションツールを生かしつつ、 アノテーションガイドラインの構造的な管理を行えるシステムが必要
コーパスアノテーションの現状 多くの有用なアノテーションツールが既に存在する 多くのユーザが既存のアノテーションツールを使い、そのツールに慣れてしまっている状態である。 新たなアノテーションツールを作成すると、慣れるまでに時間がかかる ガイドラインを構造的に管理するためのツールが、存在しない 既存のアノテーションツールを生かしつつ、 アノテーションガイドラインの構造的な管理を行えるシステムが必要
42
“GuideLink” を使って ガイドラインを更新する
②更新が随時 反映される ①ガイドラインの 詳細を更新する
43
“GuideLink (Guideline+ Link)”
今回は、我々の 研究室で開発された アノテーションツール であるVex+ (in XCONC Suite)用のプラグイン として実装した ガイドラインを参照する ガイドラインを更新する 具体例をガイドラインに関連付ける Vex GuideLink
44
“GuideLink” を使って 具体例を関連付ける
Vex (アノテーションレイヤー) (テキストレイヤー) GuideLink (アノテーションレイヤー) GuideLink (アノテーションガイドラインレイヤー)
45
“GuideLink” を使って 具体例を関連付ける
①一覧から、関連付けたい具体例となるインスタンスを選択する ②選択されたインスタンスに関連付けられているガイドラインが表示される ③“add” ボタンを押すと、選択された インスタンスが具体例として管理される
46
“GuideLink” を使って ガイドラインを参照する
Vex (アノテーションレイヤー) (テキストレイヤー) GuideLink (アノテーションレイヤー) GuideLink (アノテーションガイドラインレイヤー)
47
“GuideLink” を使って ガイドラインを参照する
①ガイドラインの 一覧を呼び出す ③ガイドラインの 詳細が表示される ②参照したいガイドラインを選択
48
“GuideLink (Guideline+ Link)”
今回は、我々の 研究室で開発された アノテーションツール であるVex+ (in XCONC Suite)用のプラグイン として実装した ガイドラインを参照する ガイドラインを更新する 具体例をガイドラインに関連付ける Vex GuideLink
49
アノテーションガイドライン 定義 利点 アノテーションでの判断が難しいときに参考になる指針
共有することで、一貫性を保ったアノテーションを行うことができる コーパスの利用者が、コーパスの特性を知るためにも必要
50
あの学生は早稲田に入りました A may not interact with B domain of C B part_of C interact A C
51
アノテーションガイドライン 定義 利点 アノテーションでの判断が 難しいときに参考になる指針
京都大学テキストコーパスの ガイドラインから抜粋 定義 アノテーションでの判断が 難しいときに参考になる指針 利点 共有することで、一貫性を 保ったアノテーションを行う ことができる コーパスの利用者が、 コーパスの特性を 知るためにも必要 3.3 固有名詞の扱い 固有名詞の問題は非常に複雑で,形態素解析誤りのかなりの部分は固有名詞に関連する誤りである.コーパスは固有名詞処理改善のための基礎データとなるので,以下の基準で注意深く作業する必要がある.なお,固有名詞辞書を整備するために,辞書登録を行う必要があると考えられる固有名詞の仮辞書登録,頻繁に解析誤りの原因となるような固有名詞の仮辞書削除をできるだけ行う. 3.3.1 品詞分類 固有名詞は再分類は以下のように行う. 人名 姓,名 地名 国,都市,地域,山,川,湖など 組織名 会社名,大学名,省庁名,政党名,寺,神社など その他 商品名(アコード,八ッ橋),品種(ゴールデ ンデリシャス),列車名(のぞみ),大会 名(インタコンチネンタル),法律名,年 号など(この「その他」のJUMANにお ける細分類名が「固有名詞」)
52
提案手法の目的と方針 目的 方針 アノテーション作業に関する部分は、既存のアノテーションツールで行えるようにする。
既存のアノテーションツールの操作方法は変えることなく、アノテーションガイドラインの管理を行えるようにする。 方針 一般的なアノテーションツールを拡張し、ガイドラインを管理するシステムを追加する 既存のアノテーションツールにいくつかのAPIを公開してもらえば、拡張可能にする。 ガイドラインに関わる部分は、拡張されたアノテーションツールに依存しない。
53
既存のアノテーションモデル 既存のアノテーションモデルは、以下のように表される
アノテーション作業を、あるデータを扱うレイヤーに、 新たな情報を扱うレイヤーを関連付ける作業と考える。 アノテーションレイヤーはテキストレイヤーに依存する。 アノテーションレイヤーには、記述子を付与する場所がテキスト レイヤー上のどの単語列についてなのか、保存しておく必要がある。 アノテーションレイヤー 単語列へのポインタ、記述子 テキストレイヤー 単語の羅列
54
3レイヤーモデル アノテーションガイドラインレイヤー
3レイヤーモデル アノテーションガイドラインレイヤー アノテーションガイドラインレイヤーはアノテーションレイヤーに 依存する。 ガイドラインは記述子や単語列に対して、知識を与える。 また、“サレンバーガ機長” のどの部分に対して固有名詞の記述子を割り振るという判断は、ガイドラインにとって良い具体例として扱われる。 アノテーションガイドラインレイヤー アノテーションガイドライン アノテーションレイヤー 単語列へのポインタ、記述子 テキストレイヤー 単語の羅列
55
コーパスアノテーションの具体例 一貫性を保てる例
例として、固有表現(人名)に記述子を割り振る作業を行ってみる 基本的に、記述子はアノテーション作業の前にあらかじめ定義され、 どの単語列に割り振られるか判断できるようになっている 人名の定義 チェズレイ・サレンバーガー 「ハドソン川の英雄」に称賛、USエアウェイズ機事故 米ニューヨーク(New York)で15日、乗客乗員155人が乗ったUSエアウェイズ(US Airways)旅客機がハドソン川(Hudson River)に不時着水した事故で、冷静沈着な手腕で奇跡的に惨事を防いだ機長に称賛が集まっている。米メディア報道によると、この機長は空軍戦闘機のパイロット経験をもつチェズレイ・サレンバーガー(Chesley Sullenberger)氏(57)。乗客らの証言によると、機長は機体を胴体から緩やかに川面に着水させた。乗員乗客は全員無事に機体から脱出することができたため、乗客や当局者らは機長を「ハドソン(川)の英雄」と呼んで称賛している。サレンバーガ機長の同僚のUSエアウェイズ操縦士で8年間のエアバスA320型機の操縦経験を持つジョン・シルコット(John Silcott)氏は、A320は主翼の下にエンジンがあるためサレンバーガ機長は機体を尾翼から着水させたのだろうと説明する。「エンジンが先に着水していれば、機首が水中に突っ込んでいただろう。素晴らしい着水だった」 チェズレイ・サレンバーガー USエアウェイズ操縦士 テキスト上の単語列 USエアウェイズ操縦士
56
コーパスアノテーションの具体例 一貫性を保ちにくい例
例として、固有表現(人名)に記述子を割り振る作業を行ってみる しかし、“サレンバーガ機長” のように、どの部分に記述子を割り振ればいいか難しい例も存在する 人名の定義 チェズレイ・サレンバーガー サレンバーガ ? 「ハドソン川の英雄」に称賛、USエアウェイズ機事故 米ニューヨーク(New York)で15日、乗客乗員155人が乗ったUSエアウェイズ(US Airways)旅客機がハドソン川(Hudson River)に不時着水した事故で、冷静沈着な手腕で奇跡的に惨事を防いだ機長に称賛が集まっている。米メディア報道によると、この機長は空軍戦闘機のパイロット経験をもつチェズレイ・サレンバーガー(Chesley Sullenberger)氏(57)。乗客らの証言によると、機長は機体を胴体から緩やかに川面に着水させた。乗員乗客は全員無事に機体から脱出することができたため、乗客や当局者らは機長を「ハドソン(川)の英雄」と呼んで称賛している。サレンバーガ機長の同僚のUSエアウェイズ操縦士で8年間のエアバスA320型機の操縦経験を持つジョン・シルコット(John Silcott)氏は、A320は主翼の下にエンジンがあるためサレンバーガ機長は機体を尾翼から着水させたのだろうと説明する。「エンジンが先に着水していれば、機首が水中に突っ込んでいただろう。素晴らしい着水だった」 サレンバーガ機長 ? チェズレイ・サレンバーガー USエアウェイズ操縦士 サレンバーガ サレンバーガ機長 テキスト上の単語列 USエアウェイズ操縦士
57
コーパスアノテーション アノテーションガイドラインの作成
このようにグレーゾーンに入る単語列に対しては、アノテーター自身でどのようにアノテーションすべきか決めなければいけない。 例えば、 “サレンバーガ” までを人名だと考えると決めたとする このガイドラインが、アノテーター間の 情報交換でやりとりされた知識である。 決定のあと、“機長” などの役職を除く文字列に対して記述子を割り振る、 という基準をまとめたアノテーションガイドラインを作成する ガイドラインに従うことで、類似の単語列に対してどのように記述子を割り振るかという判断を、容易に行うことができる。 e.g, “IkappaB” can be annotated consistently following the guideline. チェズレイ・サレンバーガー USエアウェイズ操縦士 サレンバーガ サレンバーガ機長 チェズレイ・サレンバーガー サレンバーガ ? サレンバーガ機長 ? USエアウェイズ操縦士
58
コーパスアノテーションとは テキストに、人間の言語知識を表す記述子を割り振る作業 統語情報 品詞 構文情報 述語項構造 意味情報
Penn Treebank, PennBioIE等 述語項構造 PropBank,京都大学テキストコーパス等 意味情報 固有表現(人名・地名) 共参照 GENIA corpus,MUC Coreference task, GNOME corpus等 「ハドソン川の英雄」に称賛、 USエアウェイズ機事故 米ニューヨーク(New York)で15日、乗客乗員155人が乗ったUSエアウェイズ(US Airways)旅客機がハドソン川(Hudson River)に不時着水した事故で、冷静沈着な手腕で奇跡的に惨事を防いだ機長に称賛が集まっている。米メディア報道によると、この機長は空軍戦闘機のパイロット経験をもつチェズレイ・サレンバーガー(Chesley Sullenberger)氏(57)。乗客らの証言によると、機長は機体を胴体から緩やかに川面に着水させた。乗員乗客は全員無事に機体から脱出することができたため、乗客や当局者らは機長を「ハドソン(川)の英雄」と呼んで称賛している。サレンバーガ機長の同僚のUSエアウェイズ操縦士で8年間のエアバスA320型機の操縦経験を持つジョン・シルコット(John Silcott)氏は、A320は主翼の下にエンジンがあるためサレンバーガ機長は機体を尾翼 から着水させたのだろうと説明する。 「エンジンが先に着水していれば、機 首が水中に突っ込んでいただろう。素 晴らしい着水だった」 統語情報・意味情報 レベル ・Penn Treebank (htt PennBioIE p:// ・PropBank ( ・京都大学テキストコーパス ( ・GDA ( ・Message Understanding Task (MUC) Coreference (CO) task ( ・GNOME corpus ( ・PennBioIE ( ・
59
アノテーションレイヤー (1/2) アノテーションされた単語列は、アノテーションインスタンスに よって管理される。
アノテーションインスタンスは次の3つの要素で構成される。 単語列へのポインタ : 記述子 : 正負判定 アノテーションレイヤー “サレンバーガ”に記述子を割り振る例 アノテーションインスタンス 記述子(人名) id 正負判定(正例) ポインタ テキストレイヤー 単語列の羅列 (・・・している。サレンバーガ機長の同僚の・・・)
60
アノテーションレイヤー (2/2) 正負判定を用いることで、記述子が割り振られなかった単語列も負例として、アノテーションインスタンスで管理できるようにした。 アノテーションレイヤー “サレンバーガ機長”を負例として扱う例 アノテーションインスタンス 記述子(人名) id 正負判定(負例) ポインタ テキストレイヤー 単語列の羅列 (・・・している。サレンバーガ機長の同僚の・・・)
61
アノテーションガイドラインレイヤー (1/2)
アノテーションガイドラインは、アノテーションでの 判断が難しいときに、判断の基準を示すことができる。 提案手法では、判断の基準は自然言語で記述できる。 ガイドラインにはキーワードを登録することができ、 キーワードによって必要なガイドラインを探すことができる。 アノテーションガイドライン 判断の基準は自然言語で記述できる。 キーワード キーワードよる検索ができる
62
アノテーションガイドラインレイヤー (2/2)
アノテーションガイドラインによって参考になるインスタンスのIDのリストを管理することで、関連付けられる。 アノテーションガイドラインレイヤー アノテーションガイドライン 判断の基準は自然言語で記述できる。 キーワード 関連付けられたインスタンス Since we maintain the annotation guidelines for later reference, we need a device to enable quick access to relevant annotation guidelines. キーワードよる検索ができる 参考になるインスタンスの IDが管理される。 アノテーションレイヤー id アノテーションインスタンス
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.