コーパス言語学入門 2007年度1学期 第4回
本日の内容 前回のおさらい コーパスの作成,加工 コーパスの特徴 5つ コーパスへの情報付与 タグの話 どんな情報を付与するか SGMLの話 コーパスの特徴 5つ コーパスの作成,加工 コーパスへの情報付与 どんな情報を付与するか タグの話 SGMLの話 HTMLの話 XMLの話
前回のおさらい(1) コーパスの特徴 コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア
前回のおさらい(2) コーパスの特徴 収集する量の違いによる分類 大規模,中規模, 小規模, コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 収集する量の違いによる分類 大規模,中規模, 小規模,
前回のおさらい(3) コーパスの特徴 サンプルコーパス, (収集する量固定) モニタコーパス (常に更新) コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア サンプルコーパス, (収集する量固定) モニタコーパス (常に更新)
前回のおさらい(4) コーパスの特徴 汎用: 様々な研究 特殊目的: 決まった特殊な目的 その他: パラレルコーパスなど コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 汎用: 様々な研究 特殊目的: 決まった特殊な目的 その他: パラレルコーパスなど
前回のおさらい(5) コーパスの特徴 共時コーパス: 同時代に限って収集 通時コーパス: 複数の時代区分に 渡って収集 コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 共時コーパス: 同時代に限って収集 通時コーパス: 複数の時代区分に 渡って収集
前回のおさらい(6) コーパスの特徴 書き言葉 話し言葉 中間的 コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 書き言葉 新聞,小説,雑誌... 話し言葉 講演,ニュース,会話 中間的 blog, チャット,Web文書
前回のおさらい(7) 代表的なコーパス (こうした特徴を踏まえて,) 自分の目的に合う特徴を持った コーパスの選択が大事 Brown Corpus, LOB Corpus BNC Corpus … British National Corpus→ BNC2 Bank of English (こうした特徴を踏まえて,) 自分の目的に合う特徴を持った コーパスの選択が大事
コーパスの加工(作成) コーパスは言語データ ただ集めてきただけでは使いにくい (「生のデータ」という) 情報を付与して整備することで使いやすくする →どんな情報を付与するか? →どんなやり方で付与するか? などを学ぶ
コーパスに情報を付与(1) 付与する情報とはどんなものか? 例:毎日新聞 \ID\00000010 \C0\980101001 \AD\01 \AE\N \AF\980101M01 \T1\[社告]「第39回毎日芸術賞」決まる \S1\ ’98.1.1 朝刊 1頁 写図無 (全742文字) ... \KA\毎日芸術賞 \AA\シャコク \AA\ダイ39カイ \KB\100本 \KB\11月 \AB\ヤマモトリケン
コーパスに情報を付与(1) 付与する情報とはどんなものか? 例:毎日新聞 \ データの区切り(フィールド区切り) ID ...記事のID \ID\00000010 \C0\980101001 \AD\01 \AE\N \AF\980101M01 \T1\[社告]「第39回毎日芸術賞」決まる \S1\ ’98.1.1 朝刊 1頁 写図無 (全742文字) ... \KA\毎日芸術賞 \AA\シャコク \AA\ダイ39カイ \KB\100本 \KB\11月 \AB\ヤマモトリケン \ データの区切り(フィールド区切り) ID ...記事のID C0 ...記事の番号 AD ...セクション 01→1面,02→2面,03→3面,04→解説,05→社説,07→国際,08→経済,10→特集,12→総合,13→家庭,14→文化,15→読書,16→科学,18→芸能,35→スポーツ,41→社会 AE,AF ...? T1 ...見出し, T2...本文など \
コーパスに情報を付与(2) 情報の種類 1.ヘッダー情報 素材の管理のための情報 コーパス内部の表記規則など 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報
コーパスに情報を付与(3) 1.ヘッダー情報(素材の管理のための情報) その言語データを整理,管理,参照するときに 必要になるような情報
コーパスに情報を付与(3) 1.ヘッダー情報(素材の管理のための情報) その言語データを整理,管理,参照するときに 必要になるような情報 その言語データを整理,管理,参照するときに 必要になるような情報 ID ...記事のID C0 ...記事の番号 AD ...セクション 01→1面,02→2面,03→3面,04→解説,05→社説,07→国際,08→経済,10→特集,12→総合,13→家庭,14→文化,15→読書,16→科学,18→芸能,35→スポーツ,41→社会
コーパスに情報を付与(4) 1.ヘッダー情報(コーパス内部の表記規則など) コーパス中で用いる特殊な記号や使い方の説明 など.
コーパスに情報を付与(5) 1.ヘッダー情報(コーパス内部の表記規則など) コーパス中で用いる特殊な記号や使い方の説明 例:対話を記録したコーパス 話者が2人いるとすると,A: B:とする.A:えー B:はい 発話が重なったとき,A,B:とする A,B:はい などという表記上のルール フォントを使い分けてあればその意味 送り仮名や漢字の統一した使い方など
コーパスに情報を付与(6) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 言語研究での利用をしやすくするための情報 コンピュータは,言語データの詳細をうまく扱えない (言葉がわからないから) コンピュータでの利用をやりやすくする処理 言語研究にとって都合のよいように加工して 手間をかけることで価値を高める
コーパスに情報を付与(7) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 具体的には:例えば, 言語研究での利用をしやすくするための情報 具体的には:例えば, 品詞情報(名詞,動詞,形容詞,...) 単数,複数などの情報(英語など) 形態素の情報
コーパスに情報を付与(8) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 実際の例: 言語研究での利用をしやすくするための情報 実際の例: 京大コーパス(京大) 毎日新聞 ’95の記事 (1/1~17の全記事2万文+1月~12月の社説2万文) 形態素解析(JUMAN),構文解析(KNP)人手修正 PennTreebank (Univ. of Pennsylvania) WSJ,ATIS,Brown Corpus 品詞タグ,構文解析
コーパスに情報を付与(9) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 言語研究での利用をしやすくするための情報 韻律情報:イントネーション,ポーズ,ピッチなど 文章構造:単語,文,段落,節,章,テキスト 文<sentence> ~ </sentence> 段落<paragraph> ~ </paragraph> 文章全体 <text> ~ </text>
コーパスに情報を付与(10) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 固有名詞の属性: 言語研究での利用をしやすくするための情報 固有名詞の属性: 人名 <person>松井</person> 組織名<organization>東京外国語大学</organization> 役職 <title>社長</title> その他情報として欲しいものは何でも対象となる
タグ タグtag...商品タグ,プライスタグ タグで区別されたものに何かの属性があることを示す. /title/ こんな形のタグや <title></title> こんな形のタグがある
タグ(2) タグのつけ方,タグというものの定義 囲んだり,印をつけたものの属性を示す <属性>ほにゃらら</属性> /属性/ほにゃらら
タグ(3) タグのつけ方,タグというものの定義 囲んだり,印をつけたものの属性を示す タグの形式は基本的には何でもよい <>○○</> //
タグ(4) タグのつけ方,タグというものの定義 囲んだり,印をつけたものの属性を示す タグの形式は基本的には何でもよい 区別できるように定義され,曖昧でなく,境界をはっきりさせればよい
タグ(5) タグのつけ方,タグというものの定義 区別できるように定義され,曖昧でなく,境界をはっきりさせればよい 実際既存のコーパスでは独自の定義でタグの 集合(タグセット)が決められていることが多い
タグ(6) タグのつけ方,タグというものの定義 区別できるように定義され,曖昧でなく,境界をはっきりさせればよい 実際既存のコーパスでは独自の定義でタグの 集合(タグセット)が決められていることが多い →標準化(国際化を目指した)の試みもある 代表的なのはTEI(Text Encoding Initiative)形式 (SGML形式にのっとっている)
タグ(7) 表現例 著者名を表す: <author>赤川次郎</author> 作品名を表す: <title>三毛猫ホームズの...</title> 出典名:<source>角川文庫</source> 出版日:<pubdate>2004.03.31</pubdate> 加工者名:<tagger>mochi</tagger> 加工日:<tagdate>2006.04.25</tagdate>
代表的なタグ SGML(1) SGML(Standard Generalized Markup Language) 元のテキストにマーク(タグ)を付与する(これをマークアップするという)ことで,情報を付与する <要素名>元のテキスト</要素名> と記述 開始タグ 終了タグ こういうのをマークアップ言語と呼ぶ
SGML(2) SGML(Standard Generalized Markup Language) 世界標準のマークアップに関するルール タグの名前を決めているのではない タグの名前の決め方のルール 文書構造を決めているのではない 文書構造の決め方のルール →タグの集合(タグセット)を定義する方法 マークアップする言語を定義する「メタな言語」
SGML(3) SGMLで「タグをつける」 意味がわかり,使い方が一定ならなんでもよい (SGMLの決まりにあわせる必要はある) <要素名>元のテキスト</要素名> 使用する要素名を決める=タグの定義 テキストの論理構造などを記述する+ タグの出現順=文章構造の定義
SGML(4) SGMLの一例 TEI形式 DTD TEI(Text Encoding Initiative) 人文科学系の文書を中心としたテキストの電子文書化を推進しガイドラインを定める団体 <p> … </p> 段落 <q> … </q> 引用 <note> … </note> 注記 <text> … </text>文章全体 など
代表的なタグ HTML 他の代表的なMarkup Language HTML:Hyper Text Markup Language SGMLから派生,テキストの表示形式を記述する 主にWWWページ用の記述言語 タグは決められていて自分では定義できない タグを読めるブラウザが多いので使い勝手がよい (インターネットエクスプローラ,FireFox,Operaなど) <a href=“*****.html”>ほにゃららページ</a> <table><tr><td>0</td></tr></table>
代表的なタグ XML 他の代表的なMarkup Language XML:eXtended Markup Language やはりSGMLから派生(SGMLのサブセット) SGMLは自由度↑,コンピュータでの扱い↓ 複雑すぎ HTMLは自由度↓,コンピュータでの扱い↑ タグの定義ができる タグ定義の自由さを残しつつ,コンピュータでも扱いやすいマークアップ言語として登場 Webページも作れる→汎用性が高い
XML(2) HTML と XML (意味情報) <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer"> <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo>
XML(3) HTML と XML (意味情報) これは表を作っているが, 見ないと想像しにくい <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer"> <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo> これは表を作っているが, 見ないと想像しにくい
XML(4) HTML と XML (意味情報) <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer"> <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo> こちらのタグには意味を定義できる 例<price>..</price>
XML(5) XMLは分業みたいな文書の定義 内容はXMLで記述 構造はDTDに定義 見た目はスタイルシートXSL,CSSを利用 「文書の内容」「文書の構造」「文書の体裁」 この3つを分離して扱う 1つの文書 内容はXMLで記述 構造はDTDに定義 見た目はスタイルシートXSL,CSSを利用
XML(6) 説明が複雑になりすぎるので, またの機会に... XMLは分業みたいな文書の定義 内容はXMLで記述 構造はDTDに定義 「文書の内容」「文書の構造」「文書の体裁」 この3つを分離して扱う 説明が複雑になりすぎるので, またの機会に... 1つの文書 内容はXMLで記述 構造はDTDに定義 見た目はスタイルシートXSL,CSSを利用
どんなタグを使うか この授業では,SGML風タグを簡単に定義して使用することにする 文書の情報(header情報) 言語処理のための情報 品詞,固有名詞,文章構造など