コーパスコーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

Slides:

Advertisements

Similar presentations

図書・雑誌・論文検索岩手大学情報メディアセンター図書館－２０１２年－. 検索とは文書やデータの中から必要な事項をさがし出すこと（広辞苑第６版）文書やデータの中から必要な事項をさがし出すこと（広辞苑第６版） – インデックス型文字列が検索キー

Advertisements

データモデリング Web ページの検索とランキング Google, Yahoo はこんなことをしている.

平成 22 年度言語情報学演習コーパス言語学入門第 1 回.  授業名：情報システムコース実験演習後期火曜第 2 フレーム  担当部分：言語情報学演習（コーパス言語学入門）  担当教員：藤正明  日時： 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30.

メンタルレキシコン４：ことばの意味を言語データから探る. コーパス言語学とは？コーパス言語学とは、コーパス ( テキストの総体 ) をつかった、言語の科学的研究のことです。

XML ゼミ独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造谷津哲平.

コーパス言語学実践 2006 年度 2 学期第 2 回. 2 本日の内容前半の作業について – 語彙調査の演習 – 用語の説明語彙，単位語，延べ語，異なり語，見出し語作成作業その１ – データ収集開始.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

プログラミング言語論第10回（演習）情報工学科　木村昌臣　篠埜　功.

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

東京工科大学コンピュータサイエンス学部亀田弘之

ソースプログラム・アーカイブ・サイト -関数依存グラフと検索への応用-

「わかりやすいパターン認識」第１章：パターン認識とは

④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP

情報処理基礎 2006年 6月 1日.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

コーパス言語学第１回.

前回までの配布資料（Webにないもの）：教室の後方

情報検索演習第2回前から4列目までに着席すること 2005年10月05日後期水曜5限江草由佳国立教育政策研究所

13回目複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法

情報検索演習の基礎１．どういう検索をするのかコンピュータを用いた検索である

形態素解析および係り受け解析・主語を判別

テキストの類似度計算

Webを利用した授業支援システムの開発北海道工業大学　電気電子工学科 H 渋谷　俊彦.

14回. まとめ情報のまとめかた DBの利用情報検索の留意点情報検索と情報収集 68 基礎知識の必要性 68

セマンティクスを利用した図書検索システム

ヒューマンインタフェース電子機械工学専攻第2学年後期開講

動詞の共起パターンを用いた動作性名詞の述語項構造解析

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

オントロジーを使用したプログラム開発支援システムの提案

HTTPとHTML 技術領域専攻　3回中川　晃.

村山祐司序章　地理情報科学概論２.　基本的な用語の定義村山祐司

東京工科大学コンピュータサイエンス学部亀田弘之

IIR輪講復習 #1 Boolean retrieval

データモデリング Webページの検索とランキング

複数の言語情報を用いたCRFによる音声認識誤りの検出

画像ピボットパラフレーズ抽出に向けて大阪大学 NAIST Chenhui Chu,1 大谷まゆ,2 中島悠太1

ＥＢＳＣＯの利用方法.

レッスン１情報の収集と整理からプレゼンへ（道具を使いこなす）

独習ＸＭＬ第２章ＸＭＬ文書の構成要素 2.1 ＸＭＬの文字と文字列 2.2 コメント

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

環境リスクマネジメントに関する検索システム

只見町インターネット・エコミュージアムの「キーワード」検索の改善

数学教育・工学教育における数式処理電卓の活用

知識情報演習Ⅲ（後半第3回）辻　慶太

パスファインダーの作成 ※ をダウンロードして読んで下さい。

Ibaraki Univ. Dept of Electrical & Electronic Eng.

階層的位置表現への広域化ビュー適用における追尾性向上

パスファインダーの作成 ※ sakura. ne. jp/CJE121023

知識情報演習Ⅲ（後半第2回）辻　慶太

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

音声認識・翻訳 Android アプリケーション制作

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

知識情報演習Ⅲ（後半第3回）辻　慶太

Spatial Linker - 空間コンテンツ融合の研究 -

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

図書館ガイダンス “30分でおさえる論文入手法”

東京工科大学コンピュータサイエンス学部亀田弘之

構造的類似性を持つ半構造化文書における頻度分析

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

大規模コーパスに基づく同義語・多義語処理

自然言語処理2015 Natural Language Processing 2015

人文、社会、自然、医療、理工等、総合分野を網羅した学術機関向けの全文データベース (2014年4月1日より開始)

Webページタイプによるクラスタリングを用いた検索支援システム

知識ベースの試作計画 ●●●研究所 ●●●技術部稲本□□ １９９７年１月.

医療科学Ｂ演習のおさらい杏林大学医学図書館医療科学Ｂ.

自然言語処理2016 Natural Language Processing 2016

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

Presentation transcript:

コーパスコーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

定義：まとまりのある文書データベースのこと。シェイクスピアコーパス夏目漱石コーパス etc. 現在では、大規模なテキストデータベースのことをコーパスと呼ぶこともある。なお、近年は多くのものにタグが付けられている。

コーパスの例 Brown Corpus(米国の書籍・新聞・雑誌) LOB Corpus(英国の書籍・新聞・雑誌) British National Corpus(BNC) （英国英語、多様なジャンル） Bank of English Penn Treebank(Wall Street Journal) EDRコーパス（日本語）日本語話し言葉コーパス日英新聞記事対応付けコーパス　など

言語資料関係のサイト LDC(www.ldc.upenn.edu) ELRA(www.elra.info) GSK(言語資源協会, www.gsk.or.jp) RSC(音声資源コンソーシアム, research.nii.ac.jp/src/) 言語情報処理ポータル: nlp.kuee.kyoto-u.ac.jp/NLP_Portal/

情報検索 Information Retrieval(IR)はWebの発展に伴い、ますますその重要性を増している。多くのWebは自然言語で書かれており、また、自然言語による検索は多くの人にとって便利である。

機能語と内容語自然言語は人間相互の意思疎通のための道具であり、それをコンピュータにより処理することは社会的に意義のあることである。問：どれが機能語でどれが内容語か？

検索の方式ディレクトリ方式キーワード方式

語の重要度の計算法 tf・idf法

検索モデルブーリアンモデル(Boolean model) ベクトル空間モデル

ブーリアンモデル検索式1＝　コンピュータ　and マック検索式2＝　not マック　and ハンバーガ

ベクトル空間モデル D1, D2, …, Dn：　「ｎ個の文書」これらの文書全体に「m個の索引語」ｎ×ｍの行列で表現できる！

コサイン尺度

例：教科書p.143参照

検索結果の評価式適合度(精度, Precision) 再現率(Recall) PとRの調和平均Fをとる。