平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回
授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム 担当部分:言語情報学演習(コーパス言語学入 門) 担当教員:藤 正明 日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30 分から 5 時 50 分( 10 月 12 日・ 10 月 19 日は休講) 教室:1号館教育用計算機室 授業概要
10 月 5 日: コーパス言語学入門 ネイティブの直観を解き明かす(1) ― 関係代名詞の省略 ― 11 月 2 日:コーパスによる言語分析演習 コーパスを使った言語分析(2) 授業の予定
1.課題レポート 3 回の授業で、それぞれ、課題が出される。 毎回、原則として、授業のあった週の金曜日午後 5 時ま でにその授業で出された課題をワードファイルで以下の アドレスまで送付すること。 ( 送付時間が〆切をすぎて いるレポートは受け取らないので、時間に十分な余裕を 持って送付すること。 ) ただし、初回の授業の課題に関しては、〆切を 10 月 22 日 ( 金 ) の午後5時とする。 メールの件名は、それぞれ、言語情報学1、言語情報学 2、言語情報学3とすること 評価の方法(1)
1.課題レポート (Cont’d) レポート作成にあたって、他人のレポートを見て書いた と判断される場合は、見た方も、見せた方も、不正行為 を行ったものとして処理するので、そのようなことは絶 対に行わないこと。 評価の方法(2)
1. コーパスとは何か? 2. コーパスを使って、ネイティヴスピーカー の直感に迫る コーパス言語学概論 目次
英英辞典 (Cambridge Advanced Learner ’ s Dictionary) の定義: a large amount of written and sometimes spoken material collected to show the state of a language (大 量の書かれた、時として話された文章で、ある言語 の状況を示すため集められたもの) 1.コーパスとは何か?
実用的な定義: 大量に集められた、機械可読 (machine-readable) 、す なわち、コンピューターで扱えるテキストの総体 1.コーパスとは何か?
サンプルコーパスとモニターコーパス 汎用コーパスと特殊目的コーパス 共時コーパスと通時コーパス 書き言葉コーパスと話し言葉コーパス コーパスの分類
サンプルコーパス:コーパスを構築する際に、大量の テキストを収集して作られたもので、一旦構築されれ ば、それ以後テキストの追加は行わない静的コーパス。 Brown Corpus (100 万語) Lancaster-Oslo/Bergen Corpus of British English (LOB, 100 万語) London-Lund Corpus (LLC, 50 万語) British National Corpus (BNC, 1 億語) サンプルコーパスと モニターコーパス(1)
モニターコーパス:古いコーパスを削除したり、 新しいコーパスを追加したりして、コーパスを 常に新しい状態にしておこうとする動的コーパ ス。 Bank of English ( BoE) 1995 年 11 月=>総語数 2 億語 2004 年 10 月=>総語数 5 億語 The Collins WordbanksOnline English Corpus ( CWEC)=> 総語数 5 千 6 百万語 CWEC ⊂ BoE サンプルコーパスと モニターコーパス(2)
問:日本語の「ハンサムな」という表現は男性に限 られる。例えば、「ハンサムなお兄さん /* ハンサム なお姉さん」。しかし英語の handsome の使い方は どうだろう。 a handsome と入力することにより、後 に来る名詞の種類が調べられる British National Corpus (BNC)
BNC: Top Page
BNC: About the BNC
BNC: Search the Corpus
Corpus Concordance Sampler px 問:日本語の「登る」は「上方向に」限られる。例 えば、「上に登る /* 下に登る」。英語の climb はど うだろうか? CWEC ⊂ BoE
一般コーパス:一般的な英語研究に使用する目的で、広 範囲の英語テキストを収集したコーパス。 Bank of English Brown Corpus British National Corpus 一般コーパスと 特殊コーパス(1)
特殊コーパス:特定分野の英語研究に使用する目的で、 当該分野の英語テキストを収集したコーパス。 CHILDES (Child Language Data Exchange Systems): 英語を母 語とする子供の発話データーを収集 JEFLL Corpus (Japanese EFL Learner Corpus): 日本の中学・高 校生英語学習者による自由英作文コーパス 一般コーパスと 特殊コーパス(2)
CHILDES
問1:日本語では、「~について議論する」と言え るが、英語では、 discuss about とは言えない。この間 違いをするケースは何パーセントか? 問2:「~は興奮している」を be+exciting などとす る間違いは何パーセントあるのか? JEFLL Corpus
共時コーパス:同時代のテキストのみを収集したコー パス。 Brown Corpus ( 1961 年の書き言葉) British National Corpus ( 1975 年以降のテキスト) 共時コーパスと通時コーパス (1)
通時コーパス:複数の時代のテキストを集めたコーパ ス。 Helsinki Corpus ( 750 年から 1710 年) A Representative Corpus of Historical English Registers (ARCHER) ( 1650 年から 1990 年) 共時コーパスと通時コーパス (2)
書き言葉コーパス:書かれたテキストを集めたコーパ ス。 Brown Corpus LOB Corpus Etc. 書き言葉コーパスと話し言葉コーパ ス(1)
話し言葉コーパス:会話を文字化したコーパス。 Santa Barbara Corpus of Spoken American English (CSAE) Michigan Corpus of Academic Spoken English (MICASE) 書き言葉コーパスと話し言葉コーパ ス(2)
譲歩を表す no matter 構文: no matter + 疑問詞( who, how, where, etc.) That would be a lie no matter who said it. ( 誰が言ったとしても、それはうそだろう。) No matter how tough the situation looks, it ‘ s always possible to succeed, as long as you give it an effort. ( 状況がいかに厳しく見えたとしても、 努力する限り、常に成功の可能性はある。) 2.コーパスを使って、ネイティヴス ピーカーの直感に迫る
問 1. 後に続く wh 語としてはどのようなものが可 能なのか?( what, how, where, when, who, whose, which, if, how come, why) 問 2. それらの間には頻度に関して差があるの か? 問 3. wh 語以外にどんな品詞・句が後続できるの か?(名詞句、前置詞句、 that 節、 etc.) 問 4. それらの品詞・句の中でも、可能なものと そうでないものがあるのか? 課題1: no matter 構文について: