コーパス言語学入門 2007年度1学期 第4回.

Slides:



Advertisements
Similar presentations
平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回.  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30.
Advertisements

1 情報処理基礎 2006 年 7 月 6 日. 2 本日の学習項目 HTML 文書の基礎知識を習得する。 ホームページ・ビルダーの基本的な使 い方を習得する。 ホームページの作成 自己紹介のためのホームページを作成する。
XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
第11章 プレゼンテーションの基本スキル 1 プレゼンテーションとは 2 プレゼンテーションの種類と特徴 3 プレゼンテーションツール
ISO 12083の概要 イースト株式会社 コミュニケーション事業部 渋谷 誠
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
MS-Word ⇒ XML 2001/10 マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
Webサービスに関する基本用語 Masatoshi Ohishi / NAOJ & Sokendai
画像展示サイト“Fragments” 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン
NC-2 情報通信基礎実験 WEBデザイン基礎実験 (2日目) 担当:清水,田代 副手:浦辺,石井.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
CEC公開授業 Webサイト制作にチャレンジ! 2007年11月20日 於:東京都立板橋有徳高校 学校インターネット教育推進協会.
ウェブページ制作の基礎 タグの直接入力によるウェブページの制作 次のスライドへ進んだり,戻ったりしたい時は,右下のボタンをクリック。 次へ.
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
背景 我々の研究室で開発しているJavaプログラム解析フレ ームワークでは,解析情報はメモリ上に保持される 問題点
HTMLの記述と WWWにおける情報公開 遠藤
早稲田大学大学院理工学研究科 情報科学専攻修士2年 後藤滋樹研究室 坂本義裕
第1回 HTML5入門.
ホームページの作り方.
ユースケース図 FM12012 比嘉久登.
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第1回.
コーパス言語学実践 2006年度2学期 第5回.
2007年12月16日 小笠原 宏 参考ファイル: \\Raid\研究室共通\卒業研究
部分形態素解析を用いた コーパスの品詞体系変換
徳山 豪 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野
XMLについて 蔡柏東.
論理式の表現を数学的に取り扱いやすくするために代数学の助けを借りる.
プレゼンテーションの仕方 学籍番号:?? 名前:?? 2017/3/17.
形態素解析および係り受け解析・主語を判別
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
セマンティクスを利用した 図書検索システム
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
情報処理基礎A・B 第6回 続・ワープロソフト入門 構造を持つ文書作成と その支援機能の活用
情報伝達・WWW・ソーシャルメディア CMSとHTMLの基礎
SGMLについて 2年8組  原口 文晃.
基礎プログラミング演習 第1回.
検索エンジンを利用した Covert Channelの検出
HTTPとHTML 技術領域専攻 3回 中川 晃.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
第3章 第2節 ネットワークを活用した 情報の収集・発信(2) 4 文書の構造と表現
第3章 第2節 ネットワークを活用した 情報の収集・発信 4 文書による情報開示
タグを使ったウェブページ作成 兵庫県立伊丹北高等学校 佐藤 勝彦.
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
第13回 XBRL.
情報スキル活用 第3週 基礎技術ー3 : 学部・学科紹介のページ作成.
XMLゼミ 1.3 XML文書の表示 1.4 XMLの役割 1.5 XMLとプログラミング M2 正木 裕一.
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
HTML の成り立ち 惑星物理学研究室 4年 安達 俊貴.
第1章 実世界のモデル化と形式化 3.地物インスタンスの表現
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
コンピュータ プレゼンテーション.
テキストマイニング, データマイニングと 社会活動のトレース
ウェッブページ書法の復習 ネットワーク論以前のお話.
XML Schema (1) ソフトウェア特論 第3回 /
XMLゼミ 3.5 DTD M2 正木 裕一.
ガイダンス 電子計算機 電気工学科 山本昌志 1E
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
第13回 XBRL.
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
Presentation transcript:

コーパス言語学入門 2007年度1学期 第4回

本日の内容 前回のおさらい コーパスの作成,加工 コーパスの特徴 5つ コーパスへの情報付与 タグの話 どんな情報を付与するか SGMLの話 コーパスの特徴 5つ コーパスの作成,加工 コーパスへの情報付与 どんな情報を付与するか タグの話 SGMLの話 HTMLの話 XMLの話

前回のおさらい(1) コーパスの特徴 コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア

前回のおさらい(2) コーパスの特徴 収集する量の違いによる分類 大規模,中規模, 小規模, コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 収集する量の違いによる分類  大規模,中規模, 小規模,

前回のおさらい(3) コーパスの特徴 サンプルコーパス, (収集する量固定) モニタコーパス (常に更新) コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア サンプルコーパス, (収集する量固定) モニタコーパス (常に更新)

前回のおさらい(4) コーパスの特徴 汎用: 様々な研究 特殊目的: 決まった特殊な目的 その他: パラレルコーパスなど コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 汎用:  様々な研究 特殊目的:  決まった特殊な目的 その他:  パラレルコーパスなど

前回のおさらい(5) コーパスの特徴 共時コーパス: 同時代に限って収集 通時コーパス: 複数の時代区分に 渡って収集 コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 共時コーパス:  同時代に限って収集 通時コーパス:  複数の時代区分に    渡って収集

前回のおさらい(6) コーパスの特徴 書き言葉 話し言葉 中間的 コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 書き言葉  新聞,小説,雑誌... 話し言葉  講演,ニュース,会話 中間的  blog, チャット,Web文書

前回のおさらい(7) 代表的なコーパス (こうした特徴を踏まえて,) 自分の目的に合う特徴を持った コーパスの選択が大事 Brown Corpus, LOB Corpus BNC Corpus … British National Corpus→ BNC2 Bank of English (こうした特徴を踏まえて,)    自分の目的に合う特徴を持った    コーパスの選択が大事

コーパスの加工(作成) コーパスは言語データ ただ集めてきただけでは使いにくい (「生のデータ」という) 情報を付与して整備することで使いやすくする →どんな情報を付与するか? →どんなやり方で付与するか? などを学ぶ

コーパスに情報を付与(1) 付与する情報とはどんなものか? 例:毎日新聞 \ID\00000010 \C0\980101001 \AD\01 \AE\N \AF\980101M01 \T1\[社告]「第39回毎日芸術賞」決まる \S1\    ’98.1.1 朝刊 1頁 写図無 (全742文字) ... \KA\毎日芸術賞 \AA\シャコク \AA\ダイ39カイ \KB\100本 \KB\11月 \AB\ヤマモトリケン

コーパスに情報を付与(1) 付与する情報とはどんなものか? 例:毎日新聞 \ データの区切り(フィールド区切り) ID ...記事のID \ID\00000010 \C0\980101001 \AD\01 \AE\N \AF\980101M01 \T1\[社告]「第39回毎日芸術賞」決まる \S1\    ’98.1.1 朝刊 1頁 写図無 (全742文字) ... \KA\毎日芸術賞 \AA\シャコク \AA\ダイ39カイ \KB\100本 \KB\11月 \AB\ヤマモトリケン \ データの区切り(フィールド区切り) ID  ...記事のID C0 ...記事の番号 AD ...セクション   01→1面,02→2面,03→3面,04→解説,05→社説,07→国際,08→経済,10→特集,12→総合,13→家庭,14→文化,15→読書,16→科学,18→芸能,35→スポーツ,41→社会 AE,AF ...? T1 ...見出し, T2...本文など \

コーパスに情報を付与(2) 情報の種類 1.ヘッダー情報 素材の管理のための情報 コーパス内部の表記規則など 2.コンピュータでの処理をしやすくする+   言語研究での利用をしやすくするための情報

コーパスに情報を付与(3) 1.ヘッダー情報(素材の管理のための情報) その言語データを整理,管理,参照するときに 必要になるような情報

コーパスに情報を付与(3) 1.ヘッダー情報(素材の管理のための情報) その言語データを整理,管理,参照するときに 必要になるような情報 その言語データを整理,管理,参照するときに 必要になるような情報 ID  ...記事のID C0 ...記事の番号 AD ...セクション   01→1面,02→2面,03→3面,04→解説,05→社説,07→国際,08→経済,10→特集,12→総合,13→家庭,14→文化,15→読書,16→科学,18→芸能,35→スポーツ,41→社会

コーパスに情報を付与(4) 1.ヘッダー情報(コーパス内部の表記規則など) コーパス中で用いる特殊な記号や使い方の説明 など.

コーパスに情報を付与(5) 1.ヘッダー情報(コーパス内部の表記規則など) コーパス中で用いる特殊な記号や使い方の説明 例:対話を記録したコーパス 話者が2人いるとすると,A: B:とする.A:えー                          B:はい 発話が重なったとき,A,B:とする A,B:はい などという表記上のルール フォントを使い分けてあればその意味 送り仮名や漢字の統一した使い方など

コーパスに情報を付与(6) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報  言語研究での利用をしやすくするための情報 コンピュータは,言語データの詳細をうまく扱えない (言葉がわからないから) コンピュータでの利用をやりやすくする処理 言語研究にとって都合のよいように加工して 手間をかけることで価値を高める

コーパスに情報を付与(7) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 具体的には:例えば,  言語研究での利用をしやすくするための情報 具体的には:例えば, 品詞情報(名詞,動詞,形容詞,...) 単数,複数などの情報(英語など) 形態素の情報

コーパスに情報を付与(8) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 実際の例:  言語研究での利用をしやすくするための情報 実際の例: 京大コーパス(京大) 毎日新聞 ’95の記事 (1/1~17の全記事2万文+1月~12月の社説2万文) 形態素解析(JUMAN),構文解析(KNP)人手修正 PennTreebank (Univ. of Pennsylvania) WSJ,ATIS,Brown Corpus 品詞タグ,構文解析

コーパスに情報を付与(9) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報  言語研究での利用をしやすくするための情報 韻律情報:イントネーション,ポーズ,ピッチなど 文章構造:単語,文,段落,節,章,テキスト 文<sentence> ~ </sentence> 段落<paragraph> ~ </paragraph> 文章全体 <text> ~ </text>

コーパスに情報を付与(10) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 固有名詞の属性:  言語研究での利用をしやすくするための情報 固有名詞の属性: 人名 <person>松井</person> 組織名<organization>東京外国語大学</organization> 役職 <title>社長</title> その他情報として欲しいものは何でも対象となる

タグ タグtag...商品タグ,プライスタグ タグで区別されたものに何かの属性があることを示す. /title/ こんな形のタグや <title></title> こんな形のタグがある

タグ(2) タグのつけ方,タグというものの定義 囲んだり,印をつけたものの属性を示す <属性>ほにゃらら</属性> /属性/ほにゃらら

タグ(3) タグのつけ方,タグというものの定義 囲んだり,印をつけたものの属性を示す タグの形式は基本的には何でもよい <>○○</> //

タグ(4) タグのつけ方,タグというものの定義 囲んだり,印をつけたものの属性を示す タグの形式は基本的には何でもよい 区別できるように定義され,曖昧でなく,境界をはっきりさせればよい

タグ(5) タグのつけ方,タグというものの定義 区別できるように定義され,曖昧でなく,境界をはっきりさせればよい 実際既存のコーパスでは独自の定義でタグの 集合(タグセット)が決められていることが多い

タグ(6) タグのつけ方,タグというものの定義 区別できるように定義され,曖昧でなく,境界をはっきりさせればよい 実際既存のコーパスでは独自の定義でタグの 集合(タグセット)が決められていることが多い →標準化(国際化を目指した)の試みもある 代表的なのはTEI(Text Encoding Initiative)形式  (SGML形式にのっとっている)

タグ(7) 表現例 著者名を表す: <author>赤川次郎</author> 作品名を表す: <title>三毛猫ホームズの...</title> 出典名:<source>角川文庫</source> 出版日:<pubdate>2004.03.31</pubdate> 加工者名:<tagger>mochi</tagger> 加工日:<tagdate>2006.04.25</tagdate>

代表的なタグ SGML(1) SGML(Standard Generalized Markup Language) 元のテキストにマーク(タグ)を付与する(これをマークアップするという)ことで,情報を付与する  <要素名>元のテキスト</要素名>  と記述   開始タグ         終了タグ こういうのをマークアップ言語と呼ぶ

SGML(2) SGML(Standard Generalized Markup Language) 世界標準のマークアップに関するルール タグの名前を決めているのではない  タグの名前の決め方のルール 文書構造を決めているのではない  文書構造の決め方のルール →タグの集合(タグセット)を定義する方法 マークアップする言語を定義する「メタな言語」

SGML(3) SGMLで「タグをつける」 意味がわかり,使い方が一定ならなんでもよい (SGMLの決まりにあわせる必要はある)    <要素名>元のテキスト</要素名> 使用する要素名を決める=タグの定義 テキストの論理構造などを記述する+ タグの出現順=文章構造の定義

SGML(4) SGMLの一例 TEI形式 DTD TEI(Text Encoding Initiative) 人文科学系の文書を中心としたテキストの電子文書化を推進しガイドラインを定める団体 <p> … </p> 段落 <q> … </q> 引用 <note> … </note> 注記 <text> … </text>文章全体 など

代表的なタグ HTML 他の代表的なMarkup Language HTML:Hyper Text Markup Language SGMLから派生,テキストの表示形式を記述する 主にWWWページ用の記述言語 タグは決められていて自分では定義できない タグを読めるブラウザが多いので使い勝手がよい (インターネットエクスプローラ,FireFox,Operaなど) <a href=“*****.html”>ほにゃららページ</a> <table><tr><td>0</td></tr></table>

代表的なタグ XML 他の代表的なMarkup Language XML:eXtended Markup Language やはりSGMLから派生(SGMLのサブセット) SGMLは自由度↑,コンピュータでの扱い↓ 複雑すぎ HTMLは自由度↓,コンピュータでの扱い↑ タグの定義ができる タグ定義の自由さを残しつつ,コンピュータでも扱いやすいマークアップ言語として登場 Webページも作れる→汎用性が高い

XML(2) HTML と XML (意味情報) <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer">   <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo>

XML(3) HTML と XML (意味情報) これは表を作っているが, 見ないと想像しにくい <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer">   <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo> これは表を作っているが, 見ないと想像しにくい

XML(4) HTML と XML (意味情報) <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer">   <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo> こちらのタグには意味を定義できる 例<price>..</price>

XML(5) XMLは分業みたいな文書の定義 内容はXMLで記述 構造はDTDに定義 見た目はスタイルシートXSL,CSSを利用 「文書の内容」「文書の構造」「文書の体裁」 この3つを分離して扱う 1つの文書 内容はXMLで記述 構造はDTDに定義 見た目はスタイルシートXSL,CSSを利用

XML(6) 説明が複雑になりすぎるので, またの機会に... XMLは分業みたいな文書の定義 内容はXMLで記述 構造はDTDに定義 「文書の内容」「文書の構造」「文書の体裁」 この3つを分離して扱う 説明が複雑になりすぎるので, またの機会に... 1つの文書 内容はXMLで記述 構造はDTDに定義 見た目はスタイルシートXSL,CSSを利用

どんなタグを使うか この授業では,SGML風タグを簡単に定義して使用することにする 文書の情報(header情報) 言語処理のための情報 品詞,固有名詞,文章構造など