アノテーションガイドラインの管理を行う アノテーションシステムの提案 東京大学 辻井研究室 D3 大内田賢太 .
人手によるアノテーション 人手によるテキストアノテーション 定義 目的 テキストアノテーションにおける問題点 テキストデータに対して、人間の言語知識を用いたラベルをつけていく作業 目的 アノテーションされたコーパスから機械学習で言語知識を得ることができる 得られた言語知識がアノテーションの影響を受けやすいため、できるだけ人の言語知識がうまく取り込められたアノテーションを行いたい テキストアノテーションにおける問題点 人手によるアノテーションにおける問題点 時間がかかる・多くの人数が必要 巨大なテキストデータを、同じ基準でアノテーションするのは困難 一貫性の無いアノテーションになってしまう問題点 複数のアノテーターによる、一貫性の喪失 (inter-annotator discrepancy) 同一のアノテーターによる、一貫性の喪失 (intra-annotator discrepancy).
アノテーションの具体例(1/2) 例として、4つの単語列 “IκBα,” “IL2R,” “IκB,” “serum”のうちProteinの固有表現を選ぶアノテーションを考えよう いくつかの単語列(ここでは、 “IκBα,” “serum”)は、容易にアノテーションできる しかし、いくつかの単語列(ここでは、 “IL2R,” “IκB,” )は、Proteinの定義があいまいなために、容易にアノテーションすることができない。 protein Figure 1 illustrates the borderline and the gray zone with an example of protein annotation. When we try to annotate a corpus with four instances of text expression, “IkappaBalpha,” “IL2R,” “IkappaB” and “serum,” the classification of each as a protein or not is easily determined, e.g. “IkappaBalpha” is a protein, and “serum” is not a protein. Often times, one annotator is involved in the same corpus annotation project. In such a case, maintaining the consistency between annotations made by different annotators becomes a serious problem. Sometimes, an annotation project takes quite a long time, e.g. several weeks, months, or even years. Then, it is also important to maintain the annotation consistency for a long time, even though the entire annotation is performed by the same annotator protein IκBα IκBα IL2R IκB serum ? ? IL2R IκB serum “IL2R” と“IκB”は、同じ特性をもったプロテインの集合を示す単語列
アノテーションの具体例(2/2) アノテーションが困難な単語列に対しては、アノテーターがどのようにアノテーションするか決定しなければならない 例えば、“IL2R”はプロテインの固有表現ではないと決定したとする 決定の後、プロテインの固有表現へのアノテーションにおいて、プロテインの集合に対してどのような決定を行うべきか、ガイドラインを作ることができる。 ガイドラインに従って、類似の単語列である“IκB”に対してもアノテーションを行わないという判断ができる。 e.g, “IkappaB” can be annotated consistently following the guideline. protein IκBα IL2R IκB serum ? protein IκBα IκB serum IL2R protein IκBα IκB IL2R ? ? serum
アノテーション作業を行いながら、同時に アノテーション・ガイドラインの管理する手法を提案する アノテーションガイドライン 定義 判断が難しい場合に手助けとなるガイドライン 一般的には、いくつかの例を列挙したリストになっている 目的 アノテーターに偏ったアノテーションを防ぎ、一貫性の高いアノテーションを行えるようになる 問題点 アノテーションを行う前から、アノテーション上の すべての問題を想定することは困難 アノテーション作業を行いながら、同時に アノテーション・ガイドラインの管理する手法を提案する