平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回.  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30.

Slides:



Advertisements
Similar presentations
コーパス言語学入門 第 2 回. 授業名:情報システムコース実験演習 ( 後期 ) 火曜第 2 フレーム 担当部分:言語情報処理(コーパス言語学 入門) 担当教員:藤 正明 日時: 10 月 5 日・ 10 月 7 日・ 10 月29日・ 11 月 2 日の 3 時 30 分から 5 時 50 分。
Advertisements

メンタルレキシコン4: ことばの意味を言語データから 探る. コーパス言語学とは? コーパス言語学とは、コーパス ( テキスト の総体 ) をつかった、言語の科学的研究の ことです。
英書購読 基礎現代文化学 ( 講読I ) 日本史学 ( 講読 ) 西洋史学 ( 講読 ) 担当:林晋 現代文化学系、情報・史料学教 授 月4 新7講義室.
統計学入門2 - 後期 第 1 回 - 1 統計学入門2 講義内容の紹介 推測統計とは. 統計学入門2 - 後期 第 1 回 - 2 教科書 & 参考書 教科書 特に使用しない 参考書 「統計解析の基本と仕組み」 ( 秀和システム ) 「データ分析のための統計入門」(共立出版)
自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
コーパス言語学入門 2007年度1学期 第4回.
自作コーパスを利用した学生研究 ~応用言語学者の養成
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
言語教育論演習プレゼン課題 A11LA042 鴨井みのり
コーパス言語学実践 2006年度2学期 第10回.
Note for How to Write an English Paper (2014 Second Semester)
英語特別講座 疑問文 #1    英語特別講座 2011 疑問文.
All Rights Reserved, Copyright (C) Donovan School of English
英語勉強会.
SPECIAL ASSIGNMENT What is the leadership and how can you be a good leader? I am going to give you the clues in the lecture, but please find the answer.
プレゼンテーションの方法 浅川伸一
間接疑問文 I know him. I know (that) he is a doctor. ↓ why he is a doctor.
第1回レポートの課題 6月15日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
コーパス言語学 第1回.
メンタルレキシコン: ことばの意味を言語データから探る
『演習3・4』ガイド 履修&初回の要点 Seminar 戦略的に行動する頭脳集団
連体修飾節 欧志豪 南台科技大学応日所院生.
なぜ 今の どうする どうやって なにを どのように だれが だれと (変える) どこで だれの 考え方9W4H(Ver.0) いつ から
関係代名詞(目的格).
中学3年 英語 主格の関係代名詞 (who, which).
~知ってる? 間接疑問文.
AP 私の食生活 Write a paragraph summarizing the data you collected. Include some conclusions. Present to your partner. Up to 90 sec.
コーパス言語学実践 2006年度2学期 第1回.
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
IDENTIFYING and using RESOURCES
Who Is Ready to Survive the Next Big Earthquake?
Criterionの利用について (2017年度版)
基礎プログラミング演習 第1回.
What is the English Lounge?
C-2 導入プレゼン1 国際交流って何?.
共通言語アイコンを用いたネットワーク コミュニケーション
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
関係代名詞(接触節) 目的格の関係代名詞の省略.
疑問詞 1年生で学習した疑問詞.
受け身の疑問文 Practice ~ed・・・?.
情報処理技法(リテラシ)II 第9回:Word (2/2) 産業技術大学院大学 情報アーキテクチャ専攻 助教  柴田 淳司.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報システム1及び演習 第一回 データベースの概要.
英語学習者のためのオンライン自学自習ソリューション
日本の高校における英語の授業は 英語がベストか?
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
立教大学現代心理学部心理学科 良く分かる 心理学科での学生生活講座.
3人称単数現在形 疑問詞を使った疑問文.
プレゼンテーションの方法 浅川伸一
The difference between adjectives and adverbs
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
ガイダンス 電子計算機 電気工学科 山本昌志 1E
英語勉強会:川口英語 Supporting of Continuing Life Habit Improvement Using the Theory of Cognitive Dissonance : System Extension and Evaluation Experiment B4 渡邉.
スケジュール ☆Schedule 授業: (52号館 303教室) 4/10, 4/17, 4/24, 5/1, 5/15, 5/22, 5/29, 6/5, 6/12, 6/19, 6/26, 7/3, 7/10, 7/17. 演習: (授業は行わない) 7/24, 7/31. ☆ Class:
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
Visualizing Japanese Grammar Appendix
Kinjo-Gakuin Univ. © 2008 Motohiro HASEGAWA
自然言語処理2015 Natural Language Processing 2015
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
自然言語処理2016 Natural Language Processing 2016
Indirect Speech 間接話法 Kaho.I.
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Elements of Style 第3回 2019年6月11日(火).
Presentation transcript:

平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回

 授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30 分から 5 時 50 分( 10 月 12 日・ 10 月 19 日は休講)  教室:1号館教育用計算機室 授業概要

 10 月 5 日:  コーパス言語学入門  ネイティブの直観を解き明かす(1) ― 関係代名詞の省略 ―  11 月 2 日:コーパスによる言語分析演習  コーパスを使った言語分析(2) 授業の予定

1.課題レポート  3 回の授業で、それぞれ、課題が出される。  毎回、原則として、授業のあった週の金曜日午後 5 時ま でにその授業で出された課題をワードファイルで以下の アドレスまで送付すること。 ( 送付時間が〆切をすぎて いるレポートは受け取らないので、時間に十分な余裕を 持って送付すること。 )  ただし、初回の授業の課題に関しては、〆切を 10 月 22 日 ( 金 ) の午後5時とする。  メールの件名は、それぞれ、言語情報学1、言語情報学 2、言語情報学3とすること 評価の方法(1)

1.課題レポート (Cont’d)  レポート作成にあたって、他人のレポートを見て書いた と判断される場合は、見た方も、見せた方も、不正行為 を行ったものとして処理するので、そのようなことは絶 対に行わないこと。 評価の方法(2)

1. コーパスとは何か? 2. コーパスを使って、ネイティヴスピーカー の直感に迫る コーパス言語学概論 目次

 英英辞典 (Cambridge Advanced Learner ’ s Dictionary) の定義:  a large amount of written and sometimes spoken material collected to show the state of a language (大 量の書かれた、時として話された文章で、ある言語 の状況を示すため集められたもの) 1.コーパスとは何か?

 実用的な定義:  大量に集められた、機械可読 (machine-readable) 、す なわち、コンピューターで扱えるテキストの総体 1.コーパスとは何か?

 サンプルコーパスとモニターコーパス  汎用コーパスと特殊目的コーパス  共時コーパスと通時コーパス  書き言葉コーパスと話し言葉コーパス コーパスの分類

 サンプルコーパス:コーパスを構築する際に、大量の テキストを収集して作られたもので、一旦構築されれ ば、それ以後テキストの追加は行わない静的コーパス。  Brown Corpus (100 万語)  Lancaster-Oslo/Bergen Corpus of British English (LOB, 100 万語)  London-Lund Corpus (LLC, 50 万語)  British National Corpus (BNC, 1 億語) サンプルコーパスと モニターコーパス(1)

 モニターコーパス:古いコーパスを削除したり、 新しいコーパスを追加したりして、コーパスを 常に新しい状態にしておこうとする動的コーパ ス。  Bank of English ( BoE) 1995 年 11 月=>総語数 2 億語 2004 年 10 月=>総語数 5 億語  The Collins WordbanksOnline English Corpus ( CWEC)=> 総語数 5 千 6 百万語  CWEC ⊂ BoE サンプルコーパスと モニターコーパス(2)

問:日本語の「ハンサムな」という表現は男性に限 られる。例えば、「ハンサムなお兄さん /* ハンサム なお姉さん」。しかし英語の handsome の使い方は どうだろう。 a handsome と入力することにより、後 に来る名詞の種類が調べられる British National Corpus (BNC)

BNC: Top Page

BNC: About the BNC

BNC: Search the Corpus

Corpus Concordance Sampler px 問:日本語の「登る」は「上方向に」限られる。例 えば、「上に登る /* 下に登る」。英語の climb はど うだろうか? CWEC ⊂ BoE

 一般コーパス:一般的な英語研究に使用する目的で、広 範囲の英語テキストを収集したコーパス。  Bank of English  Brown Corpus  British National Corpus 一般コーパスと 特殊コーパス(1)

 特殊コーパス:特定分野の英語研究に使用する目的で、 当該分野の英語テキストを収集したコーパス。  CHILDES (Child Language Data Exchange Systems): 英語を母 語とする子供の発話データーを収集  JEFLL Corpus (Japanese EFL Learner Corpus): 日本の中学・高 校生英語学習者による自由英作文コーパス 一般コーパスと 特殊コーパス(2)

 CHILDES

  問1:日本語では、「~について議論する」と言え るが、英語では、 discuss about とは言えない。この間 違いをするケースは何パーセントか?  問2:「~は興奮している」を be+exciting などとす る間違いは何パーセントあるのか? JEFLL Corpus

 共時コーパス:同時代のテキストのみを収集したコー パス。  Brown Corpus ( 1961 年の書き言葉)  British National Corpus ( 1975 年以降のテキスト) 共時コーパスと通時コーパス (1)

 通時コーパス:複数の時代のテキストを集めたコーパ ス。  Helsinki Corpus ( 750 年から 1710 年)  A Representative Corpus of Historical English Registers (ARCHER) ( 1650 年から 1990 年) 共時コーパスと通時コーパス (2)

 書き言葉コーパス:書かれたテキストを集めたコーパ ス。  Brown Corpus  LOB Corpus  Etc. 書き言葉コーパスと話し言葉コーパ ス(1)

 話し言葉コーパス:会話を文字化したコーパス。  Santa Barbara Corpus of Spoken American English (CSAE)  Michigan Corpus of Academic Spoken English (MICASE) 書き言葉コーパスと話し言葉コーパ ス(2)

 譲歩を表す no matter 構文: no matter + 疑問詞( who, how, where, etc.)  That would be a lie no matter who said it. ( 誰が言ったとしても、それはうそだろう。)  No matter how tough the situation looks, it ‘ s always possible to succeed, as long as you give it an effort. ( 状況がいかに厳しく見えたとしても、 努力する限り、常に成功の可能性はある。) 2.コーパスを使って、ネイティヴス ピーカーの直感に迫る

 問 1. 後に続く wh 語としてはどのようなものが可 能なのか?( what, how, where, when, who, whose, which, if, how come, why)  問 2. それらの間には頻度に関して差があるの か?  問 3. wh 語以外にどんな品詞・句が後続できるの か?(名詞句、前置詞句、 that 節、 etc.)  問 4. それらの品詞・句の中でも、可能なものと そうでないものがあるのか? 課題1: no matter 構文について: