知識情報演習Ⅲ（後半第2回）辻　慶太 http://slis.sakura.ne.jp/cje3.

Slides:

Advertisements

Similar presentations

図書・雑誌・論文検索岩手大学情報メディアセンター図書館－２０１２年－. 検索とは文書やデータの中から必要な事項をさがし出すこと（広辞苑第６版）文書やデータの中から必要な事項をさがし出すこと（広辞苑第６版） – インデックス型文字列が検索キー

Advertisements

地図の重ね合わせに伴う位相関係の矛盾訂正手法萬上裕 † 阿部光敏＊高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部＊京都大学情報学研究科 ‡

雑誌記事 DB の使用方法. 8-3 MAGAZINEPLUS データベース 38) 概要 MAGAZINEPLUS （ NICHIGAI/WEB サービス） – 約 30,000 誌、 11,000,143 件（ 2010/01/22.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会

LZ符号化森田岳史.

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

最大エントロピーモデルに基づく形態素解析と辞書による影響

「わかりやすいパターン認識」第１章：パターン認識とは

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

知識情報演習Ⅲ（後半第5回）辻　慶太

形態素周辺確率を用いた分かち書きの一般化とその応用

④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP

コーパス言語学実践 2006年度2学期第10回.

言語体系とコンピュータ第5回.

国内線で新千歳空港を利用している航空会社はどこですか？

情報処理基礎 2006年 6月 1日.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

実験関数・記号付き文型パターンを用いた機械翻訳の試作と評価石上真理子水田理夫徳久雅人村上仁一池原悟（鳥取大） ◎評価方法１

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

ことばとコンピュータ 2007年度1学期第3回.

三上研究室学生のための文献検索および入手の基礎講習

テキストマイニング，データマイニングと社会活動のトレース

１．自然言語処理システム２．単語と形態素３．文節と係り受け

情報検索演習第2回前から4列目までに着席すること 2005年10月05日後期水曜5限江草由佳国立教育政策研究所

情報検索演習の基礎１．どういう検索をするのかコンピュータを用いた検索である

テキストの類似度計算

情報理工学部情報知能学科 H 柏木康志 2010年 2月 2日

ターム分布の確率モデル Zipfの法則：使用頻度の大きな語は語彙数が少なく，使用頻度の小さな語は語彙数が多い

Topic-Word Selection Based on Combinatorial Probability

Javaソフトウェア部品検索システムのための索引付け手法の提案と実装

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

プログラム実行時情報を用いたトランザクションファンクション抽出手法

自然言語処理及び実習第11回　形態素解析.

IIR輪講復習 #1 Boolean retrieval

複数の言語情報を用いたCRFによる音声認識誤りの検出

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

東京工科大学コンピュータサイエンス学部亀田弘之

利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成

東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への簡易ナビゲーションシステム-

環境リスクマネジメントに関する検索システム

知識情報演習Ⅲ（後半第3回）辻　慶太

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

第1章実世界のモデル化と形式化 3．地物インスタンスの表現

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

テキストマイニング，データマイニングと社会活動のトレース

様々な情報源（４章）.

平成16年度東京大学技術職員研修データベース検索

知識情報演習Ⅲ（後半第3回）辻　慶太

文書分類モデルの統計的性質に関する一考察

Number of random matrices

コーディングパターンのあいまい検索の提案と実装

東京工科大学コンピュータサイエンス学部亀田弘之

シソーラスとは？ ①文章作成用の類義語辞典 → 普通に書店に売っている。『日本語大シソーラス』（大修館書店）など。

構造的類似性を持つ半構造化文書における頻度分析

データ工学特論第六回木村昌臣.

設計情報の再利用を目的とした UML図の自動推薦ツール

コーパスコーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

自然言語処理2015 Natural Language Processing 2015

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

ソフトウェア理解支援を目的とした辞書の作成法

第７回 Q＆A メール講座 Next Stage：翻訳力アップ自己トレ（１）

テキストデータベース.

Webページタイプによるクラスタリングを用いた検索支援システム

情報処理Ⅱ ２００７年１２月３日（月）その１.

自然言語処理2016 Natural Language Processing 2016

Presentation transcript:

知識情報演習Ⅲ（後半第2回）辻　慶太 http://slis.sakura.ne.jp/cje3

情報検索システムの世界観生産登録検索支援計算機上のシステム検索エンジン，DB, インタフェースなど蓄積される情報図書，雑誌，画像，音声など情報の登録者 DB登録者，分類者，索引作成者など人間の仲介者代行検索者，図書館員など生産登録検索支援オフライン処理オンライン処理情報の生産者研究者，作家，記者など情報の最終利用者（エンドユーザ）

情報検索の基本モデル情報情報要求解釈文書検索質問索引付け内部表現内部表現照合狭義の情報検索

情報検索の基本モデル情報情報要求解釈文書検索質問索引付け内部表現内部表現照合狭義の情報検索

※索引付け？　　→ ブックマークでタグを付けるようなイメージ「南アジアの…」というページに対して，この人は： “University”， “Science”，「図書館」「オープンアクセス」といったタグを付けている＝索引を付けている。

情報検索の基本モデル情報情報要求解釈文書検索質問索引付け内部表現内部表現照合狭義の情報検索

情報検索の基本モデル情報情報要求解釈文書検索質問索引付け内部表現内部表現照合狭義の情報検索

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

完全一致ブーリアンモデルが代表的論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成論理式に一致する文書だけが検索される古典的なキーワード検索論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成例: 中華料理 AND レシピ NOT スープ論理式に一致する文書だけが検索されるただし，厳密なＮＯＴではないことが多い絞込み情報としての利用が中心例： NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致ブーリアンモデルが代表的論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成論理式に一致する文書だけが検索される古典的なキーワード検索論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成例: 中華料理 AND レシピ NOT スープ論理式に一致する文書だけが検索されるただし，厳密なＮＯＴではないことが多い絞込み情報としての利用が中心例： NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致ブーリアンモデルが代表的論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成論理式に一致する文書だけが検索される古典的なキーワード検索論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成例: 中華料理 AND レシピ NOT スープ論理式に一致する文書だけが検索されるただし，厳密なＮＯＴではないことが多い絞込み情報としての利用が中心例： NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致ブーリアンモデルが代表的論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成論理式に一致する文書だけが検索される古典的なキーワード検索論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成例: 中華料理 AND レシピ NOT スープ論理式に一致する文書だけが検索されるただし，厳密なＮＯＴではないことが多い絞込み情報としての利用が中心例： NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致ブーリアンモデルが代表的論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成論理式に一致する文書だけが検索される古典的なキーワード検索論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成例: 中華料理 AND レシピ NOT スープ論理式に一致する文書だけが検索されるただし，厳密なＮＯＴではないことが多い絞込み情報としての利用が中心例： NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致ブーリアンモデルが代表的論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成論理式に一致する文書だけが検索される古典的なキーワード検索論理演算子（ＡＮＤ，ＯＲ，ＮＯＴ）で式を構成例: 中華料理 AND レシピ NOT スープ論理式に一致する文書だけが検索されるただし，厳密なＮＯＴではないことが多い絞込み情報としての利用が中心例： NOT 犬 → 「犬」を含まない文書が全て出るわけではない

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

照合索引語を中継して検索質問と文書を照合し，条件に一致する文書を取得する２つの検索モデルに大別することができる完全一致（exact match）最良一致（best match） → 「図書館」というキーワードで検索してくる人がいたら，　　「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与　　された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても，何となく　　図書館に関する文書と判断できるならば出力する。

最良一致の代表的なモデルベクトル空間モデル確率型モデルどちらのモデルも1970年代に提案され，現在も改良が重ねられている　システムの例： SMART 確率型モデル　システムの例： OKAPI どちらのモデルも1970年代に提案され，現在も改良が重ねられている両モデルの検索精度に大きな違いはない

最良一致の代表的なモデルベクトル空間モデル確率型モデルどちらのモデルも1970年代に提案され，現在も改良が重ねられている　システムの例： SMART 確率型モデル　システムの例： OKAPI どちらのモデルも1970年代に提案され，現在も改良が重ねられている両モデルの検索精度に大きな違いはない → 文書と検索式を共に言葉の　　頻度ベクトルなどで表し，両者　　の内積が高い文書を出力する。

最良一致の代表的なモデルベクトル空間モデル確率型モデルどちらのモデルも1970年代に提案され，現在も改良が重ねられている　システムの例： SMART 確率型モデル　システムの例： OKAPI どちらのモデルも1970年代に提案され，現在も改良が重ねられている両モデルの検索精度に大きな違いはない → Gerald Salton が提案。

最良一致の代表的なモデルベクトル空間モデル確率型モデルどちらのモデルも1970年代に提案され，現在も改良が重ねられている　システムの例： SMART 確率型モデル　システムの例： OKAPI どちらのモデルも1970年代に提案され，現在も改良が重ねられている両モデルの検索精度に大きな違いはない

最良一致の代表的なモデルベクトル空間モデル確率型モデルどちらのモデルも1970年代に提案され，現在も改良が重ねられている　システムの例： SMART 確率型モデル　システムの例： OKAPI どちらのモデルも1970年代に提案され，現在も改良が重ねられている両モデルの検索精度に大きな違いはない → OKAPI BM25: 　　文書dがキーワードqに適合　　している確率を推定し，値が　　高いものを出力する。

最良一致の代表的なモデルベクトル空間モデル確率型モデルどちらのモデルも1970年代に提案され，現在も改良が重ねられている　システムの例： SMART 確率型モデル　システムの例： OKAPI どちらのモデルも1970年代に提案され，現在も改良が重ねられている両モデルの検索精度に大きな違いはない → Stephen Robertson が提案。 OKAPI BM25 の“BM”は　　文字通り“Best Match”（最良　　一致）の略。

最良一致の代表的なモデルベクトル空間モデル確率型モデルどちらのモデルも1970年代に提案され，現在も改良が重ねられている　システムの例： SMART 確率型モデル　システムの例： OKAPI どちらのモデルも1970年代に提案され，現在も改良が重ねられている両モデルの検索精度に大きな違いはない

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成「図書館システム」からバイグラムを切り出すと「図書」「書館」「館シ」「シス」…

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成「図書館システム」からバイグラムを切り出すと「図書」「書館」「館シ」「シス」…

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成「図書館システム」からバイグラムを切り出すと「図書」「書館」「館シ」「シス」…

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成

不要語（stopword）検索の役に立たない語（they, might など）不要語辞書を用意しておくことが多い語の分類高頻度語：「WWW」など機能語：「前置詞（of）」など語の分類内容語：名詞，動詞，形容詞など機能語：助詞，助動詞，冠詞，前置詞など

不要語（stopword）検索の役に立たない語（they, might など）不要語辞書を用意しておくことが多い語の分類高頻度語：「WWW」など機能語：「前置詞（of）」など語の分類内容語：名詞，動詞，形容詞など機能語：助詞，助動詞，冠詞，前置詞など

不要語（stopword）検索の役に立たない語（they, might など）不要語辞書を用意しておくことが多い語の分類高頻度語：「WWW」など機能語：「前置詞（of）」など語の分類内容語：名詞，動詞，形容詞など機能語：助詞，助動詞，冠詞，前置詞など

不要語（stopword）検索の役に立たない語（they, might など）不要語辞書を用意しておくことが多い語の分類高頻度語：「WWW」など機能語：「前置詞（of）」など語の分類内容語：名詞，動詞，形容詞など機能語：助詞，助動詞，冠詞，前置詞など

不要語（stopword）検索の役に立たない語（they, might など）不要語辞書を用意しておくことが多い語の分類高頻度語：「WWW」など機能語：「前置詞（of）」など語の分類内容語：名詞，動詞，形容詞など機能語：助詞，助動詞，冠詞，前置詞など

不要語（stopword）検索の役に立たない語（they, might など）不要語辞書を用意しておくことが多い語の分類高頻度語：「WWW」など機能語：「前置詞（of）」など語の分類内容語：名詞，動詞，形容詞など機能語：助詞，助動詞，冠詞，前置詞など

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれない

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれない

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれない “libraries”という表記で検索してきた人に対しては“library” という表記で索引付けされている文献も出力したい。

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれないだが“libraries”と“library”は文字列としては異なっており，コンピュータは同じ語とみなしてくれない。

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれないならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を削って“librar”などにしてしまえばよい。

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれないならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を削って“librar”などにしてしまえばよい。

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれないならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を削って“librar”などにしてしまえばよい。

接辞処理（stemming）活用形を原形に戻し，索引語の表記を統一いくつかの手法がある質問と文書における表記の違いを吸収いくつかの手法がある辞書の利用語尾の自動削除自動削除の場合は，必ずしも言語学的に意味のある単位ではない点に注意　例： facility（単数形），facilities（複数形）どちらも facilit になるかもしれないならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を削って“librar”などにしてしまえばよい。

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成

ホデレ賞（２００８年度）の受賞者が決まりました。形態素原形品詞ホデレホデレ未知語賞賞名詞（（記号２００８２００８数字年度年度助数詞））記号のの助詞受賞受賞名詞者者接尾辞がが助詞決まり決まる動詞まします助動詞たた助動詞。。記号手順（1）～（3）の例上の例文に対する形態素解析結果赤字部分を索引語として抽出する

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成

索引付けの手順概要索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。　　後で詳細を説明

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。　　これから詳細を説明

TF: 索引語頻度 Term Frequency（TF）と表す。文書 d における索引語 t の出現頻度 → なぜ用いるか？　→ なぜ用いるか？　　→ ある文書によく出現する索引語は，その文書　　　　をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency（TF）と表す。文書 d における索引語 t の出現頻度 → なぜ用いるか？　→ なぜ用いるか？　　→ ある文書によく出現する索引語は，その文書　　　　をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency（TF）と表す。文書 d における索引語 t の出現頻度 → なぜ用いるか？　→ なぜ用いるか？　　→ ある文書によく出現する索引語は，その文書　　　　をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency（TF）と表す。文書 d における索引語 t の出現頻度 → なぜ用いるか？　→ なぜ用いるか？　　→ ある文書によく出現する索引語は，その文書　　　　をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency（TF）と表す。文書 d における索引語 t の出現頻度 → なぜ用いるか？　→ なぜ用いるか？　　→ ある文書によく出現する索引語は，その文書　　　　をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TFの例犬 … 犬犬犬 … ネコ … ネコ … 犬犬文書Ａ文書B

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。　　これから詳細を説明

索引語の重み付けある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある完全一致（ブーリアンモデル）では不要　　　　　→ ブーリアンモデルでは索引語に「あるかないか」　　　　　　　　だけ考える。「どれくらいあるか」は考えない。　　これから詳細を説明

IDF: 逆文書頻度 Inverse Document Frequency（IDF）少数の文書にしか現れない索引語を重視する　df(t): 索引語 t が出現する文書数　　　→ なぜ用いるか？　　　　→ TFだけでは問題がある。TFが高い語は多くの　　　　　　文書に出現する為，特定の文書を弁別する能　　　　　　力が低い

IDF: 逆文書頻度 Inverse Document Frequency（IDF）少数の文書にしか現れない索引語を重視する　df(t): 索引語 t が出現する文書数　　　→ なぜ用いるか？　　　　→ TFだけでは問題がある。TFが高い語は多くの　　　　　　文書に出現する為，特定の文書を弁別する能　　　　　　力が低い

IDF: 逆文書頻度 Inverse Document Frequency（IDF）少数の文書にしか現れない索引語を重視する　df(t): 索引語 t が出現する文書数　　　→ なぜ用いるか？　　　　→ TFだけでは問題がある。TFが高い語は多くの　　　　　　文書に出現する為，特定の文書を弁別する能　　　　　　力が低い

IDF: 逆文書頻度 Inverse Document Frequency（IDF）少数の文書にしか現れない索引語を重視する　df(t): 索引語 t が出現する文書数　　　→ なぜ用いるか？　　　　→ TFだけでは問題がある。TFが高い語は多くの　　　　　　文書に出現する為，特定の文書を弁別する能　　　　　　力が低い

IDF: 逆文書頻度 Inverse Document Frequency（IDF）少数の文書にしか現れない索引語を重視する　df(t): 索引語 t が出現する文書数　　　→ なぜ用いるか？　　　　→ TFだけでは問題がある。TFが高い語は多くの　　　　　　文書に出現する為，特定の文書を弁別する能　　　　　　力が低い → 例えば「は」「が」などはTFが非常に高いが　　ほとんどどの文書にも現れる為，文書の特徴は　　表さない（弁別性に欠ける）。

逆文書頻度（つづき） N=100の場合 df(t) N/df(t) log(N/df(t)) log(N/df(t))+1 1 100 対数を取ることで変化分をなだらかにする 1を足して，重みを正数にする df(t) N/df(t) log(N/df(t)) log(N/df(t))+1 1 100 6.64 7.64 2 50 5.64 5 20 4.32 5.32 10 3.32

IDFの例 idf(動物) = 1 idf(犬) = 1.32 idf(ネコ) = 2.32 idf(ロボット) = 3.32 動物ネコ N = 5 df　動物=5，犬=4，ネコ=2，ロボット=1 動物=6，犬=5 idf(動物) = 1 idf(犬) = 1.32 idf(ネコ) = 2.32 idf(ロボット) = 3.32 idfの最小値「動物」では全文書が検索されてしまい，弁別性が低い

TF.IDF法による重みの計算簡単な計算方法以下のような行列で表現できる w(t2,d3)の値 d1 d2 d3 d4 d5 t1 t2

転置ファイルの例索引語文書ＩＤ索引語の重みハブ 001005 0.532 469032 12.54 980001 0.002 ハブ酒．．．．．．

オンライン処理検索質問から索引語（検索語）を抽出する各索引語について索引から以下を取得する各文書のスコアを計算するその索引語を含む文書の集合その索引語の重みw(t,d) 各文書のスコアを計算するその文書が含む検索語の重みを総和するスコアに基づいて文書を整列（ソート）する

オンライン処理の図解文書集合 D1～D10 検索犬ロボット索引付け（オフライン） ①索引語の抽出索引転置ファイル犬犬　ロボット索引付け（オフライン） ①索引語の抽出索引転置ファイル犬 → D2(0.1) D3(0.8) D5(1.2) D9(0.1) ロボット → D1(1.3) D3(0.7) D5(0.1) ②文書と重みの探索 ③スコアの計算 D1 = 1.3 D2 = 0.1 D3 = 0.8 + 0.7 = 1.5 D5 = 1.2 + 0.1 = 1.3 D9 = 0.1 1. D3 2. D5 3. D1 4. D2 5. D9 個別の文書を読む場合 ④文書の整列

演習：「Perl入門」が終了した人複数のテキストファイル（英文）を読み込んで，単語の重み w(t,d) を計算するプログラムを作成せよ入力や出力の形式は各自で決めてよい入力するファイルの件数の大きさは段階的に拡張すること少ない件数の小さなファイルから始める