アノテーションガイドラインの管理を行う アノテーションシステムの提案

Slides:



Advertisements
Similar presentations
だい六か – クリスマスとお正月 ぶんぽう. て form review ► Group 1 Verbs ► Have two or more ひらがな in the verb stem AND ► The final sound of the verb stem is from the い row.
Advertisements

て -form - Making て -form from ます -form -. With て -form, You can say... ~てもいいですか? (= May I do…) ~てください。 (= Please do…) ~ています。 (= am/is/are doing…) Connecting.
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Essay writing rules for Japanese!!. * First ・ There are two directions you can write. ・よこがき / 横書き (same as we write English) ・たてがき / 縦書き (from right to.
VE 01 え form What is え form? え? You can do that many things with え form?
現在完了形 (present perfect tense)
五段動詞の歌 ごだんどうしのうた.
英語勉強会.
第1回レポートの課題 6月15日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
THE CONTINUOUS IMPROVEMENT MODEL called ADEC
Chapter 11 Queues 行列.
と.
3月6日(金曜日) 漢字 #6-10 Verbs! (continued) Particles Time References
Bellwork: English meaning? 1)はじめまして 2)どうぞ 3)すみません 4)おはようございます 5)しゅくだい
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
Location nouns.
GuideLink: ガイドラインの管理を同時に行う アノテーションツール
What did you do, mate? Plain-Past
AP 私の食生活 Write a paragraph summarizing the data you collected. Include some conclusions. Present to your partner. Up to 90 sec.
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
Noun の 間(に) + Adjective Verb てform + いる間(に) during/while.
How to quote what someone says or said
D. M. Rust and B. J. LaBonte 2005, ApJ, 622, L 年6月6日 太陽雑誌会(速報)
SP0 check.
テキストの類似度計算
Chapter 6 Jade 翡翠(ヒスイ).
Tohoku University Kyo Tsukada
A 02 I like sushi! I like origami!
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
Chapter 4 Quiz #2 Verbs Particles を、に、で
The Sacred Deer of 奈良(なら)
On / in / at Honoka Tanno.
“You Should Go To Kyoto”
VTA 02 What do you do on a weekend? しゅうまつ、何をしますか。
What is the English Lounge?
ストップウォッチの カード ストップウォッチの カード
Starter: Write the following dates in Mandarin
Topics on Japan これらは、過去のインターンが作成したパワポの写真です。毎回、同じような題材が多いため、皆さんの出身地等、ここにない題材も取り上げるようにしてください。
How long does it take かかります.
Causative Verbs Extensively borrowed from Rubin, J “Gone Fishin’”, Power Japanese (1992: Kodansha:Tokyo) Created by K McMahon.
Term paper, Report (1st, first)
My Favorite Movie I will introduce my favorite movie.
Volleyball club ZAURUS
Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus
逐次プログラムの正当性(2) 帰納的アサーション法(フロイド法)
Michael Jeffrey Jordan
第24回応用言語学講座公開連続講演会 後援:国際言語文化研究科教育研究プロジェクト経費
There is/are X (living thing)
Question Words….
クイズやゲーム形式で紹介した実例です。いずれも過去のインターン作です。
半構造化テキストに対する 文字列照合アルゴリズム
研究会 「LHCが切り拓く新しい素粒子物理学」
Suzaku and the Results ~1 years after launch Suzaku (朱雀)
データ圧縮技術による文字列照合処理の高速化に関する研究
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
Term paper, report (2nd, final)
SIGN LANGUAGE.
第1回レポートの課題 6月24日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
コーディングパターンの あいまい検索の提案と実装
ー生命倫理の授業を通して生徒の意識に何が生じたかー
Created by L. Whittingham
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
Please don’t… …so as not to…
The Facilitative Cues in Learning Complex Recursive Structures
Visualizing Japanese Grammar Appendix
Cluster EG Face To Face meeting
Grammar Point 2: Describing the locations of objects
ガウシアングラフィカルモデルにおける一般化された確率伝搬法
識別子の読解を目的とした名詞辞書の作成方法の一試案
Improving Strategic Play in Shogi by Using Move Sequence Trees
Presentation transcript:

アノテーションガイドラインの管理を行う アノテーションシステムの提案 東京大学 辻井研究室 D3 大内田賢太 .

人手によるアノテーション 人手によるテキストアノテーション 定義 目的 テキストアノテーションにおける問題点 テキストデータに対して、人間の言語知識を用いたラベルをつけていく作業 目的 アノテーションされたコーパスから機械学習で言語知識を得ることができる 得られた言語知識がアノテーションの影響を受けやすいため、できるだけ人の言語知識がうまく取り込められたアノテーションを行いたい テキストアノテーションにおける問題点 人手によるアノテーションにおける問題点 時間がかかる・多くの人数が必要 巨大なテキストデータを、同じ基準でアノテーションするのは困難 一貫性の無いアノテーションになってしまう問題点 複数のアノテーターによる、一貫性の喪失 (inter-annotator discrepancy) 同一のアノテーターによる、一貫性の喪失 (intra-annotator discrepancy).

アノテーションの具体例(1/2) 例として、4つの単語列 “IκBα,” “IL2R,” “IκB,” “serum”のうちProteinの固有表現を選ぶアノテーションを考えよう いくつかの単語列(ここでは、 “IκBα,” “serum”)は、容易にアノテーションできる しかし、いくつかの単語列(ここでは、 “IL2R,” “IκB,” )は、Proteinの定義があいまいなために、容易にアノテーションすることができない。 protein Figure 1 illustrates the borderline and the gray zone with an example of protein annotation. When we try to annotate a corpus with four instances of text expression, “IkappaBalpha,” “IL2R,” “IkappaB” and “serum,” the classification of each as a protein or not is easily determined, e.g. “IkappaBalpha” is a protein, and “serum” is not a protein. Often times, one annotator is involved in the same corpus annotation project. In such a case, maintaining the consistency between annotations made by different annotators becomes a serious problem. Sometimes, an annotation project takes quite a long time, e.g. several weeks, months, or even years. Then, it is also important to maintain the annotation consistency for a long time, even though the entire annotation is performed by the same annotator protein IκBα IκBα IL2R IκB serum ? ? IL2R IκB serum “IL2R” と“IκB”は、同じ特性をもったプロテインの集合を示す単語列

アノテーションの具体例(2/2) アノテーションが困難な単語列に対しては、アノテーターがどのようにアノテーションするか決定しなければならない 例えば、“IL2R”はプロテインの固有表現ではないと決定したとする 決定の後、プロテインの固有表現へのアノテーションにおいて、プロテインの集合に対してどのような決定を行うべきか、ガイドラインを作ることができる。 ガイドラインに従って、類似の単語列である“IκB”に対してもアノテーションを行わないという判断ができる。 e.g, “IkappaB” can be annotated consistently following the guideline. protein IκBα IL2R IκB serum ? protein IκBα IκB serum IL2R protein IκBα IκB IL2R ? ? serum

アノテーション作業を行いながら、同時に アノテーション・ガイドラインの管理する手法を提案する アノテーションガイドライン 定義 判断が難しい場合に手助けとなるガイドライン 一般的には、いくつかの例を列挙したリストになっている 目的 アノテーターに偏ったアノテーションを防ぎ、一貫性の高いアノテーションを行えるようになる 問題点 アノテーションを行う前から、アノテーション上の すべての問題を想定することは困難 アノテーション作業を行いながら、同時に アノテーション・ガイドラインの管理する手法を提案する