Presentation is loading. Please wait.

Presentation is loading. Please wait.

平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回.  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30.

Similar presentations


Presentation on theme: "平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回.  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30."— Presentation transcript:

1 平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回

2  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30 分から 5 時 50 分( 10 月 12 日・ 10 月 19 日は休講)  教室:1号館教育用計算機室 授業概要

3  10 月 5 日:  コーパス言語学入門  ネイティブの直観を解き明かす(1) ― 関係代名詞の省略 ―  11 月 2 日:コーパスによる言語分析演習  コーパスを使った言語分析(2) 授業の予定

4 1.課題レポート  3 回の授業で、それぞれ、課題が出される。  毎回、原則として、授業のあった週の金曜日午後 5 時ま でにその授業で出された課題をワードファイルで以下の アドレスまで送付すること。 ( 送付時間が〆切をすぎて いるレポートは受け取らないので、時間に十分な余裕を 持って送付すること。 ) peachexcellence@gmail.com  ただし、初回の授業の課題に関しては、〆切を 10 月 22 日 ( 金 ) の午後5時とする。  メールの件名は、それぞれ、言語情報学1、言語情報学 2、言語情報学3とすること 評価の方法(1)

5 1.課題レポート (Cont’d)  レポート作成にあたって、他人のレポートを見て書いた と判断される場合は、見た方も、見せた方も、不正行為 を行ったものとして処理するので、そのようなことは絶 対に行わないこと。 評価の方法(2)

6 1. コーパスとは何か? 2. コーパスを使って、ネイティヴスピーカー の直感に迫る コーパス言語学概論 目次

7  英英辞典 (Cambridge Advanced Learner ’ s Dictionary) の定義:  a large amount of written and sometimes spoken material collected to show the state of a language (大 量の書かれた、時として話された文章で、ある言語 の状況を示すため集められたもの) 1.コーパスとは何か?

8  実用的な定義:  大量に集められた、機械可読 (machine-readable) 、す なわち、コンピューターで扱えるテキストの総体 1.コーパスとは何か?

9  サンプルコーパスとモニターコーパス  汎用コーパスと特殊目的コーパス  共時コーパスと通時コーパス  書き言葉コーパスと話し言葉コーパス コーパスの分類

10  サンプルコーパス:コーパスを構築する際に、大量の テキストを収集して作られたもので、一旦構築されれ ば、それ以後テキストの追加は行わない静的コーパス。  Brown Corpus (100 万語)  Lancaster-Oslo/Bergen Corpus of British English (LOB, 100 万語)  London-Lund Corpus (LLC, 50 万語)  British National Corpus (BNC, 1 億語) サンプルコーパスと モニターコーパス(1)

11  モニターコーパス:古いコーパスを削除したり、 新しいコーパスを追加したりして、コーパスを 常に新しい状態にしておこうとする動的コーパ ス。  Bank of English ( BoE) 1995 年 11 月=>総語数 2 億語 2004 年 10 月=>総語数 5 億語  The Collins WordbanksOnline English Corpus ( CWEC)=> 総語数 5 千 6 百万語  CWEC ⊂ BoE サンプルコーパスと モニターコーパス(2)

12 http://www.natcorp.ox.ac.uk/ 問:日本語の「ハンサムな」という表現は男性に限 られる。例えば、「ハンサムなお兄さん /* ハンサム なお姉さん」。しかし英語の handsome の使い方は どうだろう。 a handsome と入力することにより、後 に来る名詞の種類が調べられる British National Corpus (BNC)

13 BNC: Top Page

14 BNC: About the BNC

15 BNC: Search the Corpus

16 Corpus Concordance Sampler http://www.collins.co.uk/Corpus/CorpusSearch.as px 問:日本語の「登る」は「上方向に」限られる。例 えば、「上に登る /* 下に登る」。英語の climb はど うだろうか? CWEC ⊂ BoE

17

18

19  一般コーパス:一般的な英語研究に使用する目的で、広 範囲の英語テキストを収集したコーパス。  Bank of English  Brown Corpus  British National Corpus 一般コーパスと 特殊コーパス(1)

20  特殊コーパス:特定分野の英語研究に使用する目的で、 当該分野の英語テキストを収集したコーパス。  CHILDES (Child Language Data Exchange Systems): 英語を母 語とする子供の発話データーを収集  JEFLL Corpus (Japanese EFL Learner Corpus): 日本の中学・高 校生英語学習者による自由英作文コーパス 一般コーパスと 特殊コーパス(2)

21  http://childes.psy.cmu.edu/ http://childes.psy.cmu.edu/ CHILDES

22

23  http://jefll.corpuscobo.net/ http://jefll.corpuscobo.net/  問1:日本語では、「~について議論する」と言え るが、英語では、 discuss about とは言えない。この間 違いをするケースは何パーセントか?  問2:「~は興奮している」を be+exciting などとす る間違いは何パーセントあるのか? JEFLL Corpus

24

25

26

27  共時コーパス:同時代のテキストのみを収集したコー パス。  Brown Corpus ( 1961 年の書き言葉)  British National Corpus ( 1975 年以降のテキスト) 共時コーパスと通時コーパス (1)

28  通時コーパス:複数の時代のテキストを集めたコーパ ス。  Helsinki Corpus ( 750 年から 1710 年)  A Representative Corpus of Historical English Registers (ARCHER) ( 1650 年から 1990 年) 共時コーパスと通時コーパス (2)

29  書き言葉コーパス:書かれたテキストを集めたコーパ ス。  Brown Corpus  LOB Corpus  Etc. 書き言葉コーパスと話し言葉コーパ ス(1)

30  話し言葉コーパス:会話を文字化したコーパス。  Santa Barbara Corpus of Spoken American English (CSAE)  Michigan Corpus of Academic Spoken English (MICASE) 書き言葉コーパスと話し言葉コーパ ス(2)

31  譲歩を表す no matter 構文: no matter + 疑問詞( who, how, where, etc.)  That would be a lie no matter who said it. ( 誰が言ったとしても、それはうそだろう。)  No matter how tough the situation looks, it ‘ s always possible to succeed, as long as you give it an effort. ( 状況がいかに厳しく見えたとしても、 努力する限り、常に成功の可能性はある。) 2.コーパスを使って、ネイティヴス ピーカーの直感に迫る

32  問 1. 後に続く wh 語としてはどのようなものが可 能なのか?( what, how, where, when, who, whose, which, if, how come, why)  問 2. それらの間には頻度に関して差があるの か?  問 3. wh 語以外にどんな品詞・句が後続できるの か?(名詞句、前置詞句、 that 節、 etc.)  問 4. それらの品詞・句の中でも、可能なものと そうでないものがあるのか? 課題1: no matter 構文について:


Download ppt "平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回.  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30."

Similar presentations


Ads by Google