コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

Slides:



Advertisements
Similar presentations
図書・雑誌・論文検 索 岩手大学情報メディアセンター図書館 - 2012年 -. 検索とは 文書やデータの中から必要な事項をさがし 出すこと(広辞苑第6版) 文書やデータの中から必要な事項をさがし 出すこと(広辞苑第6版) – インデックス型 文字列が検索キー
Advertisements

データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回.  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30.
メンタルレキシコン4: ことばの意味を言語データから 探る. コーパス言語学とは? コーパス言語学とは、コーパス ( テキスト の総体 ) をつかった、言語の科学的研究の ことです。
XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
東京工科大学 コンピュータサイエンス学部 亀田弘之
ソースプログラム・アーカイブ・サイト -関数依存グラフと検索への応用-
「わかりやすいパターン認識」 第1章:パターン認識とは
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
コーパス言語学 第1回.
前回までの配布資料(Webにないもの):教室の後方
情報検索演習 第2回 前から4列目までに着席すること 2005年10月05日 後期 水曜5限 江草由佳 国立教育政策研究所
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
情報検索演習の基礎 1.どういう検索をするのか コンピュータを用いた検索である
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
14回. まとめ 情報のまとめかた DBの利用 情報検索の留意点 情報検索と情報収集 68 基礎知識の必要性 68
セマンティクスを利用した 図書検索システム
ヒューマンインタフェース 電子機械工学専攻 第2学年 後期 開講
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
オントロジーを使用した プログラム開発支援システムの提案
HTTPとHTML 技術領域専攻 3回 中川 晃.
村山祐司 序章 地理情報科学概論 2. 基本的な用語の定義 村山祐司
東京工科大学 コンピュータサイエンス学部 亀田弘之
IIR輪講復習 #1 Boolean retrieval
データモデリング Webページの検索とランキング
複数の言語情報を用いたCRFによる音声認識誤りの検出
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
EBSCOの利用方法.
レッスン1 情報の収集と整理 から プレゼンへ (道具を使いこなす)
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
数学教育・工学教育における 数式処理電卓の活用
知識情報演習Ⅲ(後半第3回) 辻 慶太
パスファインダーの作成 ※ をダウンロードして読んで下さい。
Ibaraki Univ. Dept of Electrical & Electronic Eng.
階層的位置表現への 広域化ビュー適用における追尾性向上
パスファインダーの作成 ※ sakura. ne. jp/CJE121023
知識情報演習Ⅲ(後半第2回) 辻 慶太
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
音声認識・翻訳 Android アプリケーション制作
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
知識情報演習Ⅲ(後半第3回) 辻 慶太
Spatial Linker - 空間コンテンツ融合の研究 -
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
図書館ガイダンス “30分でおさえる論文入手法”
東京工科大学 コンピュータサイエンス学部 亀田弘之
構造的類似性を持つ半構造化文書における頻度分析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
人文、社会、自然、医療、理工等、総合分野を網羅した学術機関向けの 全文データベース (2014年4月1日より開始)
Webページタイプによるクラスタ リングを用いた検索支援システム
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
自然言語処理2016 Natural Language Processing 2016
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

定義:まとまりのある文書データベースのこと。 シェイクスピアコーパス 夏目漱石コーパス etc. 現在では、大規模なテキストデータベースのことをコーパスと呼ぶこともある。なお、近年は多くのものにタグが付けられている。

コーパスの例 Brown Corpus(米国の書籍・新聞・雑誌) LOB Corpus(英国の書籍・新聞・雑誌) British National Corpus(BNC) (英国英語、多様なジャンル) Bank of English Penn Treebank(Wall Street Journal) EDRコーパス(日本語) 日本語話し言葉コーパス 日英新聞記事対応付けコーパス など

言語資料関係のサイト LDC(www.ldc.upenn.edu) ELRA(www.elra.info) GSK(言語資源協会, www.gsk.or.jp) RSC(音声資源コンソーシアム, research.nii.ac.jp/src/) 言語情報処理ポータル: nlp.kuee.kyoto-u.ac.jp/NLP_Portal/

情報検索 Information Retrieval(IR)はWebの発展に伴い、ますますその重要性を増している。多くのWebは自然言語で書かれており、また、自然言語による検索は多くの人にとって便利である。

機能語と内容語 自然言語は人間相互の意思疎通のための道具であり、それをコンピュータにより処理することは社会的に意義のあることである。 問:どれが機能語でどれが内容語か?

検索の方式 ディレクトリ方式 キーワード方式

語の重要度の計算法 tf・idf法

検索モデル ブーリアンモデル(Boolean model) ベクトル空間モデル

ブーリアンモデル 検索式1= コンピュータ and マック 検索式2= not マック and ハンバーガ

ベクトル空間モデル D1, D2, …, Dn: 「n個の文書」 これらの文書全体に「m個の索引語」 n×mの行列で表現できる!

コサイン尺度

例: 教科書p.143参照

検索結果の評価式 適合度(精度, Precision) 再現率(Recall) PとRの調和平均Fをとる。