Presentation is loading. Please wait.

Presentation is loading. Please wait.

コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

Similar presentations


Presentation on theme: "コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。"— Presentation transcript:

1

2 コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

3 定義:まとまりのある文書データベースのこと。
シェイクスピアコーパス 夏目漱石コーパス etc. 現在では、大規模なテキストデータベースのことをコーパスと呼ぶこともある。なお、近年は多くのものにタグが付けられている。

4 コーパスの例 Brown Corpus(米国の書籍・新聞・雑誌) LOB Corpus(英国の書籍・新聞・雑誌)
British National Corpus(BNC) (英国英語、多様なジャンル) Bank of English Penn Treebank(Wall Street Journal) EDRコーパス(日本語) 日本語話し言葉コーパス 日英新聞記事対応付けコーパス など

5 言語資料関係のサイト LDC(www.ldc.upenn.edu) ELRA(www.elra.info)
GSK(言語資源協会, RSC(音声資源コンソーシアム, research.nii.ac.jp/src/) 言語情報処理ポータル: nlp.kuee.kyoto-u.ac.jp/NLP_Portal/

6 情報検索 Information Retrieval(IR)はWebの発展に伴い、ますますその重要性を増している。多くのWebは自然言語で書かれており、また、自然言語による検索は多くの人にとって便利である。

7 機能語と内容語 自然言語は人間相互の意思疎通のための道具であり、それをコンピュータにより処理することは社会的に意義のあることである。 問:どれが機能語でどれが内容語か?

8 検索の方式 ディレクトリ方式 キーワード方式

9 語の重要度の計算法 tf・idf法

10 検索モデル ブーリアンモデル(Boolean model) ベクトル空間モデル

11 ブーリアンモデル 検索式1= コンピュータ and マック 検索式2= not マック and ハンバーガ

12 ベクトル空間モデル D1, D2, …, Dn: 「n個の文書」 これらの文書全体に「m個の索引語」 n×mの行列で表現できる!

13 コサイン尺度

14 例: 教科書p.143参照

15 検索結果の評価式 適合度(精度, Precision) 再現率(Recall) PとRの調和平均Fをとる。


Download ppt "コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。"

Similar presentations


Ads by Google