コーパス言語学実践 2006年度2学期 第1回
コーパス言語学実践 授業科目名:言語情報学基礎 授業題目名:コーパス言語学実践 履修コード:4007 教室:216 2学期開講 授業の進め方 講義+コンピュータを使う.
評価方法 最終回にテストを実施 レポートを3回だす予定 テスト: 授業のフォローは,Web上で行う A4の紙を手書きに限り1枚持ち込み可 大学のトップページ→外国語学部案内→ 学内ポータル→言語・情報コース→望月のページ →講義関連のコーパス言語学実践へ
授業概要 おさらい 前半: 後半: コーパス言語学入門 パソコン演習: 実例を使った分析に挑戦: コーパスの準備,語彙表作成,Excelで整頓 プログラミング言語でテキスト処理など 後半: 実例を使った分析に挑戦: うらない,雑誌のキャッチコピーその他の素材で
おさらい コーパス言語学とは? 一般に...言語研究には 言語の構造に興味 言語の用法に興味 言語分析:形態素→単語→句→文→文章 言語とはどのように成り立っているのか? 言語の用法に興味 特定の言語構造に焦点 →どんな使用場面,使用傾向があるか?
言語の研究 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節
言語の研究 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 構造に興味... (1)(2)(3)の文法的な類似点,相違点を述べる
言語の研究 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 用法に興味... 同じような意味なのになぜ違うのか? どんな用法上の違いがあるのか?
用法の研究 分析 典型的なパターンはないだろうか? ある作家の文体,社会的グループの違い, 時代,性別,ジャンルなどの観点 変異に影響を与える文脈などの要因はないか? that節とto節では好みの傾向などがあるのか? 一緒に出てくる動詞の傾向は?文脈は?
用法の研究 分析 典型的なパターンはないだろうか? ある作家の文体,社会的グループの違い, 時代,性別,ジャンルなどの観点 変異に影響を与える文脈などの要因はないか? that節とto節では好みの傾向などがあるのか? 一緒に出てくる動詞の傾向は?文脈は? 客観性を持った分析 直感だけ,印象だけ,ではない
用法の研究 客観性を持った分析 直感だけ,印象だけ,ではない これが難しい!! 人間は印象的なもの,目立つものを重要視 →実際は稀な事例でも,よくあるように思ってしまう ある傾向がありそうだとして,何が効いているか,要因(候補)はたくさんある →ある程度の数がないと,偏りが出てしまう
用法の研究 客観性を持った分析 頻度統計 バリエーションの確保 しっかりと量的な裏づけが重要 直感だけ,印象だけ,ではない これが難しい!! 人間は印象的なもの,目立つものを重要視 →実際は稀な事例でも,よくあるように思ってしまう ある傾向がありそうだとして,何が効いているか,要因(候補)はたくさんある →ある程度の数がないと,偏りが出てしまう
用法の研究 しっかりと量的な裏づけが重要 頻度統計 バリエーションの確保 最近まで 大量の言語データを集めるのは実質無理だった 最近 コンピュータの発達で現実のものとなってきた コーパスの存在
コーパスに基づく研究法 実際に使われているテキストにおける用法,パターンを分析 分析の基礎,対象としてコーパス(大量に収集した言語データ)を用いる 分析にコンピュータの処理能力を利用する (利用の仕方はいろいろ) 数量的な面と,質的な面の両方を分析手法に取り入れる
コーパスに基づく研究法 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 違いはどこから来るのか? コーパスを用いれば調べる手立てがある.
例えば... 試してみましょう.
計量言語学 言語や言語行動の量的側面 コーパス言語学と近い 計量言語学から見ると... コーパス言語学 →コーパスを使った計量言語学 統計的な方法を用いて研究する学問分野 コーパス言語学と近い 計量言語学から見ると... コーパス言語学 →コーパスを使った計量言語学 と見える. *参考:計量言語学入門(伊藤雅光著,大修館書店)
計量言語学の分野 言語単位の利用率 文体の分析 言語の系統 方言区画 社会言語学 2つの言語が1つの言語から分裂(言語年代学) 方言の分類(どこからどこまでがどの方言か) 社会言語学
計量言語学の分野 言語単位の利用率 文体の分析 言語の系統 方言区画 社会言語学 計量文献学:年代推定,著者推定 計量文体論:文章心理学,文体研究 文体的特徴を統計的な手法で明らかにする学問 言語の系統 方言区画 社会言語学
計量言語学の分野 言語単位の利用率 文体の分析 言語の系統 方言区画 社会言語学:多様であり定義困難 社会的要因との相関で言語の多様性を見る コミュニケーション上のやり取りを社会的要因と見る向きもある
計量言語学の分野 言語単位の利用率 音素,文字,単語の頻度,使用率を求め,言語や記号の集合に関する使用率分布,量的な構成と性格,構造,一般法則などを明らかにしていく. 関連分野は,言語学のほとんど全部の分野 計量単位は,単音,音素,音節,形態素,単語,文節,文字など 固有の分野は,語彙を対象とした計量語彙論 計量語彙論が計量言語学の中心
コーパス言語学入門のおさらい(1) コーパスとは? 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) 代表例:新聞記事,小説など →コーパスを眺めていると, 言語の特徴が見えてくる(はず)
コーパス言語学入門のおさらい(2) コーパス言語学 言語学の一分野 コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント 電子化されたコーパス(機械可読)とコンピュータだからできる規模を生かす 検索,数え上げ,数値分析など
コーパス言語学入門のおさらい(3) コーパスにはどのような種類があるか コーパスは,どのように作るか,集めるか コーパスをどうやって使うか(ツールの話) コーパスを利用して出た結果を分析する技術,知識 といったことを学んだ.
コーパス言語学入門のおさらい(4) コーパスにはどんな種類があるか コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア
コーパス言語学入門のおさらい(5) コーパスにはどんな種類があるか コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 大規模,中規模,小規模 モニタコーパス,サンプルコーパス 特殊目的,汎用目的 通時的,共時的 書き言葉,読み言葉,中間的
コーパス言語学入門のおさらい(6) コーパスはどのように作るか コーパスは言語データ 情報を付与して整備することで使いやすく ただ集めてきただけでは使いにくい(「生のデータ」) 情報を付与して整備することで使いやすく どんな情報を付与するか? どんなやり方で付与するか?
コーパス言語学入門のおさらい(7) コーパスに情報を付与 情報の種類 1.素材の管理のための情報(header情報) 2.コーパス内部の表記規則など 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報
コーパス言語学入門のおさらい(8) 1.素材の管理のための情報(header情報) その言語データを整理,管理,参照するときに 必要になるような情報 他の例 表現例 著者名:<author>赤川次郎</author> 作品名:<title>三毛猫ホームズの...</title> 出典名:<source>角川文庫</source> 出版日:<pubdate>2004.03.31</pubdate> 加工者名:<tagger>mochi</tagger> 加工日:<tagdate>2006.04.25</tagdate>
コーパス言語学入門のおさらい(9) 2.コーパス内部の表記規則など コーパス中で用いる特殊な記号や使い方の説明 例:対話を記録したコーパス 話者が2人いるとすると,A: B:とする.A:えー B:はい 発話が重なったとき,A,B:とする A,B:はい などという表記上のルール フォントを使い分けてあればその意味 送り仮名や漢字の統一した使い方など
コーパス言語学入門のおさらい(10) 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 コンピュータは,言語データの詳細をうまく扱えない (言葉がわからないから) コンピュータでの利用をやりやすくする処理 言語研究にとって都合のよいように加工して 手間をかけることで価値を高める
コーパス言語学入門のおさらい(10) 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 文章構造:単語,文,段落,節,章,テキスト 文<sentence> ~ </sentence> 段落<paragraph> ~ </paragraph> 文章全体 <text> ~ </text> など
コーパス言語学入門のおさらい(11) コーパスの作成 タグづけにともなう問題 単語の区切りはどうするか? 品詞をどう定義するのか? 長い単位と短い単位 品詞をどう定義するのか? 学校文法,その他の文法 人間の揺らぎをどうやって抑えるか? ルールを厳格化し,揺らぎを排除 誰でもいつでも同じ基準で作業
コーパス言語学入門のおさらい(12) コーパスに関係するツール 言語解析ツール 日本語 形態素解析(茶筅,JUMAN) 構文解析(Cabocha,KNP) 英語 形態素解析(BrillTagger) 構文解析(ApplePieParser)などなど →利用できる言語解析ツールは存在する
コーパス言語学入門のおさらい(13) コーパスに関係するツール ブラウズツール KWIC (KeyWord In Context) ひまわり (国立国語研究所) KWIC Concordance for Windows Web Concordancer Web KWIC →利用できるブラウズツールも多数存在
コーパス言語学入門のおさらい(14) コーパスを利用して出た結果の分析 語彙調査 分析(問題によってやることは異なるが) 出現頻度の差の有意差 差異係数 ばらつきの検定など 考察 得られたデータから何が言えるかを考察 納得できる説明,視点を与える分析
コーパス言語学入門のおさらい(14) コーパスを利用して出た結果の分析 語彙調査 分析(問題によってやることは異なるが) 出現頻度の差の有意差 差異係数 ばらつきの検定など 考察 得られたデータから何が言えるかを考察 納得できる説明,視点を与える分析 必ず,統計的な検定をするというわけでもない 適用できる検定方法があるなら適用すべき 十分に納得のいく他の分析を用いる方法もある
授業の予定 10/3 10/10,17,24 語彙表作成 (データ収集) 10/31,11/7,14 統計的分析 (データ収集) 10/10,17,24 語彙表作成 (データ収集) 10/31,11/7,14 統計的分析 (データ収集) 11/21 外語祭準備日で休み 11/28,12/5,12 収集データの加工分析準備 12/19 金曜日の授業に振り替え 1/16,23,30 分析 2/6 テストの予定