知識情報演習Ⅲ(後半第2回) 辻 慶太 http://slis.sakura.ne.jp/cje3.

Slides:



Advertisements
Similar presentations
図書・雑誌・論文検 索 岩手大学情報メディアセンター図書館 - 2012年 -. 検索とは 文書やデータの中から必要な事項をさがし 出すこと(広辞苑第6版) 文書やデータの中から必要な事項をさがし 出すこと(広辞苑第6版) – インデックス型 文字列が検索キー
Advertisements

地図の重ね合わせに伴う 位相関係の矛盾訂正手法 萬上 裕 † 阿部光敏* 高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部 * 京都大学情報学研究科 ‡
雑誌記事 DB の使用方法. 8-3 MAGAZINEPLUS データベース 38) 概要 MAGAZINEPLUS ( NICHIGAI/WEB サービス) – 約 30,000 誌、 11,000,143 件( 2010/01/22.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会
LZ符号化 森田 岳史.
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
知識情報演習Ⅲ(後半第5回) 辻 慶太
形態素周辺確率を用いた 分かち書きの一般化とその応用
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
コーパス言語学実践 2006年度2学期 第10回.
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
ことばとコンピュータ 2007年度1学期 第3回.
三上研究室学生のための 文献検索および入手の基礎講習
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
情報検索演習 第2回 前から4列目までに着席すること 2005年10月05日 後期 水曜5限 江草由佳 国立教育政策研究所
情報検索演習の基礎 1.どういう検索をするのか コンピュータを用いた検索である
テキストの類似度計算
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
Topic-Word Selection Based on Combinatorial Probability
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
平成22年6月15日 図書系職員のための アプリケーション開発講習会
プログラム実行時情報を用いたトランザクションファンクション抽出手法
自然言語処理及び実習 第11回 形態素解析.
IIR輪講復習 #1 Boolean retrieval
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
東京工科大学 コンピュータサイエンス学部 亀田弘之
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
知識情報演習Ⅲ(後半第3回) 辻 慶太
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
第1章 実世界のモデル化と形式化 3.地物インスタンスの表現
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
様々な情報源(4章).
平成16年度東京大学技術職員研修 データベース検索
知識情報演習Ⅲ(後半第3回) 辻 慶太
文書分類モデルの統計的性質に関する一考察
Number of random matrices
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
シソーラスとは? ①文章作成用の類義語辞典 → 普通に書店に売っている。 『日本語大シソーラス』 (大修館書店) など。
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
設計情報の再利用を目的とした UML図の自動推薦ツール
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
自然言語処理2015 Natural Language Processing 2015
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
ソフトウェア理解支援を目的とした 辞書の作成法
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
テキストデータベース.
Webページタイプによるクラスタ リングを用いた検索支援システム
情報処理Ⅱ 2007年12月3日(月) その1.
自然言語処理2016 Natural Language Processing 2016
Presentation transcript:

知識情報演習Ⅲ(後半第2回) 辻 慶太 http://slis.sakura.ne.jp/cje3

情報検索システムの世界観 生産 登録 検索 支援 計算機上のシステム 検索エンジン,DB, インタフェースなど 蓄積される情報 図書,雑誌,画像,音声など 情報の登録者 DB登録者,分類者,索引作成者など 人間の仲介者 代行検索者,図書館員など 生産 登録 検索 支援 オフライン処理 オンライン処理 情報の生産者 研究者,作家,記者など 情報の最終利用者 (エンドユーザ)

情報検索の基本モデル 情報 情報要求 解釈 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索

情報検索の基本モデル 情報 情報要求 解釈 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索

※索引付け?  → ブックマークでタグを付けるようなイメージ 「南アジアの…」と いうページに対し て,この人は: “University”, “Science”, 「図書館」 「オープンアクセス」 といったタグを付け ている=索引を付 けている。

情報検索の基本モデル 情報 情報要求 解釈 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索

情報検索の基本モデル 情報 情報要求 解釈 文書 検索質問 索引付け 内部表現 内部表現 照合 狭義の情報検索

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

完全一致 ブーリアンモデルが代表的 論理演算子(AND,OR,NOT)で式を構成 論理式に一致する文書だけが検索される 古典的なキーワード検索 論理演算子(AND,OR,NOT)で式を構成 例: 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし,厳密なNOTではないことが多い 絞込み情報としての利用が中心 例: NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致 ブーリアンモデルが代表的 論理演算子(AND,OR,NOT)で式を構成 論理式に一致する文書だけが検索される 古典的なキーワード検索 論理演算子(AND,OR,NOT)で式を構成 例: 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし,厳密なNOTではないことが多い 絞込み情報としての利用が中心 例: NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致 ブーリアンモデルが代表的 論理演算子(AND,OR,NOT)で式を構成 論理式に一致する文書だけが検索される 古典的なキーワード検索 論理演算子(AND,OR,NOT)で式を構成 例: 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし,厳密なNOTではないことが多い 絞込み情報としての利用が中心 例: NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致 ブーリアンモデルが代表的 論理演算子(AND,OR,NOT)で式を構成 論理式に一致する文書だけが検索される 古典的なキーワード検索 論理演算子(AND,OR,NOT)で式を構成 例: 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし,厳密なNOTではないことが多い 絞込み情報としての利用が中心 例: NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致 ブーリアンモデルが代表的 論理演算子(AND,OR,NOT)で式を構成 論理式に一致する文書だけが検索される 古典的なキーワード検索 論理演算子(AND,OR,NOT)で式を構成 例: 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし,厳密なNOTではないことが多い 絞込み情報としての利用が中心 例: NOT 犬 → 「犬」を含まない文書が全て出るわけではない

完全一致 ブーリアンモデルが代表的 論理演算子(AND,OR,NOT)で式を構成 論理式に一致する文書だけが検索される 古典的なキーワード検索 論理演算子(AND,OR,NOT)で式を構成 例: 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし,厳密なNOTではないことが多い 絞込み情報としての利用が中心 例: NOT 犬 → 「犬」を含まない文書が全て出るわけではない

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

照合 索引語を中継して検索質問と文書を照合し,条件に一致する文書を取得する 2つの検索モデルに大別することができる 完全一致(exact match) 最良一致(best match) → 「図書館」というキーワードで検索してくる人がいたら,   「図書館」という索引語が付与された文書がないか探す。 → 「図書館」という索引語が付与   された文書だけを出力する。 → 「図書館」という索引語が付与されていなくても,何となく   図書館に関する文書と判断できるならば出力する。

最良一致の代表的なモデル ベクトル空間モデル 確率型モデル どちらのモデルも1970年代に提案され,現在も改良が重ねられている  システムの例: SMART 確率型モデル  システムの例: OKAPI どちらのモデルも1970年代に提案され,現在も改良が重ねられている 両モデルの検索精度に大きな違いはない

最良一致の代表的なモデル ベクトル空間モデル 確率型モデル どちらのモデルも1970年代に提案され,現在も改良が重ねられている  システムの例: SMART 確率型モデル  システムの例: OKAPI どちらのモデルも1970年代に提案され,現在も改良が重ねられている 両モデルの検索精度に大きな違いはない → 文書と検索式を共に言葉の   頻度ベクトルなどで表し,両者   の内積が高い文書を出力する。

最良一致の代表的なモデル ベクトル空間モデル 確率型モデル どちらのモデルも1970年代に提案され,現在も改良が重ねられている  システムの例: SMART 確率型モデル  システムの例: OKAPI どちらのモデルも1970年代に提案され,現在も改良が重ねられている 両モデルの検索精度に大きな違いはない → Gerald Salton が提案。

最良一致の代表的なモデル ベクトル空間モデル 確率型モデル どちらのモデルも1970年代に提案され,現在も改良が重ねられている  システムの例: SMART 確率型モデル  システムの例: OKAPI どちらのモデルも1970年代に提案され,現在も改良が重ねられている 両モデルの検索精度に大きな違いはない

最良一致の代表的なモデル ベクトル空間モデル 確率型モデル どちらのモデルも1970年代に提案され,現在も改良が重ねられている  システムの例: SMART 確率型モデル  システムの例: OKAPI どちらのモデルも1970年代に提案され,現在も改良が重ねられている 両モデルの検索精度に大きな違いはない → OKAPI BM25:   文書dがキーワードqに適合   している確率を推定し,値が   高いものを出力する。

最良一致の代表的なモデル ベクトル空間モデル 確率型モデル どちらのモデルも1970年代に提案され,現在も改良が重ねられている  システムの例: SMART 確率型モデル  システムの例: OKAPI どちらのモデルも1970年代に提案され,現在も改良が重ねられている 両モデルの検索精度に大きな違いはない → Stephen Robertson が提案。 OKAPI BM25 の“BM”は   文字通り“Best Match”(最良   一致)の略。

最良一致の代表的なモデル ベクトル空間モデル 確率型モデル どちらのモデルも1970年代に提案され,現在も改良が重ねられている  システムの例: SMART 確率型モデル  システムの例: OKAPI どちらのモデルも1970年代に提案され,現在も改良が重ねられている 両モデルの検索精度に大きな違いはない

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成 「図書館システム」からバイグラムを 切り出すと「図書」「書館」「館シ」「シス」…

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成 「図書館システム」からバイグラムを 切り出すと「図書」「書館」「館シ」「シス」…

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成 「図書館システム」からバイグラムを 切り出すと「図書」「書館」「館シ」「シス」…

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成

不要語(stopword) 検索の役に立たない語 (they, might など) 不要語辞書を用意しておくことが多い 語の分類 高頻度語: 「WWW」など 機能語: 「前置詞(of)」など 語の分類 内容語: 名詞,動詞,形容詞など 機能語: 助詞,助動詞,冠詞,前置詞など

不要語(stopword) 検索の役に立たない語 (they, might など) 不要語辞書を用意しておくことが多い 語の分類 高頻度語: 「WWW」など 機能語: 「前置詞(of)」など 語の分類 内容語: 名詞,動詞,形容詞など 機能語: 助詞,助動詞,冠詞,前置詞など

不要語(stopword) 検索の役に立たない語 (they, might など) 不要語辞書を用意しておくことが多い 語の分類 高頻度語: 「WWW」など 機能語: 「前置詞(of)」など 語の分類 内容語: 名詞,動詞,形容詞など 機能語: 助詞,助動詞,冠詞,前置詞など

不要語(stopword) 検索の役に立たない語 (they, might など) 不要語辞書を用意しておくことが多い 語の分類 高頻度語: 「WWW」など 機能語: 「前置詞(of)」など 語の分類 内容語: 名詞,動詞,形容詞など 機能語: 助詞,助動詞,冠詞,前置詞など

不要語(stopword) 検索の役に立たない語 (they, might など) 不要語辞書を用意しておくことが多い 語の分類 高頻度語: 「WWW」など 機能語: 「前置詞(of)」など 語の分類 内容語: 名詞,動詞,形容詞など 機能語: 助詞,助動詞,冠詞,前置詞など

不要語(stopword) 検索の役に立たない語 (they, might など) 不要語辞書を用意しておくことが多い 語の分類 高頻度語: 「WWW」など 機能語: 「前置詞(of)」など 語の分類 内容語: 名詞,動詞,形容詞など 機能語: 助詞,助動詞,冠詞,前置詞など

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない “libraries”という表記で検索 してきた人に対しては“library” という表記で索引付けされて いる文献も出力したい。

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない だが“libraries”と“library”は 文字列としては異なっており, コンピュータは同じ語とみなし てくれない。

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない ならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を 削って“librar”などにしてしま えばよい。

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない ならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を 削って“librar”などにしてしま えばよい。

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない ならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を 削って“librar”などにしてしま えばよい。

接辞処理(stemming) 活用形を原形に戻し,索引語の表記を統一 いくつかの手法がある 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は,必ずしも言語学的に意味のある単位ではない点に注意  例: facility(単数形),facilities(複数形) どちらも facilit になるかもしれない ならば“libraries”は“library” に変形すればよい。あるいは “libraries”も“library”も末尾を 削って“librar”などにしてしま えばよい。

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成

ホデレ賞(2008年度)の受賞者が決まりました。 形態素 原形 品詞 ホデレ ホデレ 未知語 賞 賞 名詞 ( ( 記号 2008 2008 数字 年度 年度 助数詞 ) ) 記号 の の 助詞 受賞 受賞 名詞 者 者 接尾辞 が が 助詞 決まり 決まる 動詞 まし ます 助動詞 た た 助動詞 。 。 記号 手順(1)~(3)の例 上の例文に対する形態素解析結果 赤字部分を索引語として抽出する

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成

索引付けの手順概要 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。   後で詳細を説明

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。   これから詳細を説明

TF: 索引語頻度 Term Frequency(TF) と表す。 文書 d における索引語 t の出現頻度 → なぜ用いるか?  → なぜ用いるか?   → ある文書によく出現する索引語は,その文書     をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency(TF) と表す。 文書 d における索引語 t の出現頻度 → なぜ用いるか?  → なぜ用いるか?   → ある文書によく出現する索引語は,その文書     をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency(TF) と表す。 文書 d における索引語 t の出現頻度 → なぜ用いるか?  → なぜ用いるか?   → ある文書によく出現する索引語は,その文書     をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency(TF) と表す。 文書 d における索引語 t の出現頻度 → なぜ用いるか?  → なぜ用いるか?   → ある文書によく出現する索引語は,その文書     をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TF: 索引語頻度 Term Frequency(TF) と表す。 文書 d における索引語 t の出現頻度 → なぜ用いるか?  → なぜ用いるか?   → ある文書によく出現する索引語は,その文書     をよく特徴付けるだろうという仮説に基づく → ここで言うTermとは索引語を表す

TFの例 犬 … 犬犬 犬 … ネコ … ネコ … 犬 犬 文書A 文書B

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。   これから詳細を説明

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF法がある 完全一致(ブーリアンモデル)では不要      → ブーリアンモデルでは索引語に「あるかないか」         だけ考える。「どれくらいあるか」は考えない。   これから詳細を説明

IDF: 逆文書頻度 Inverse Document Frequency(IDF) 少数の文書にしか現れない索引語を重視する  df(t): 索引語 t が出現する文書数    → なぜ用いるか?     → TFだけでは問題がある。TFが高い語は多くの       文書に出現する為,特定の文書を弁別する能       力が低い

IDF: 逆文書頻度 Inverse Document Frequency(IDF) 少数の文書にしか現れない索引語を重視する  df(t): 索引語 t が出現する文書数    → なぜ用いるか?     → TFだけでは問題がある。TFが高い語は多くの       文書に出現する為,特定の文書を弁別する能       力が低い

IDF: 逆文書頻度 Inverse Document Frequency(IDF) 少数の文書にしか現れない索引語を重視する  df(t): 索引語 t が出現する文書数    → なぜ用いるか?     → TFだけでは問題がある。TFが高い語は多くの       文書に出現する為,特定の文書を弁別する能       力が低い

IDF: 逆文書頻度 Inverse Document Frequency(IDF) 少数の文書にしか現れない索引語を重視する  df(t): 索引語 t が出現する文書数    → なぜ用いるか?     → TFだけでは問題がある。TFが高い語は多くの       文書に出現する為,特定の文書を弁別する能       力が低い

IDF: 逆文書頻度 Inverse Document Frequency(IDF) 少数の文書にしか現れない索引語を重視する  df(t): 索引語 t が出現する文書数    → なぜ用いるか?     → TFだけでは問題がある。TFが高い語は多くの       文書に出現する為,特定の文書を弁別する能       力が低い → 例えば「は」「が」などはTFが非常に高いが   ほとんどどの文書にも現れる為,文書の特徴は   表さない(弁別性に欠ける)。

逆文書頻度(つづき) N=100の場合 df(t) N/df(t) log(N/df(t)) log(N/df(t))+1 1 100 対数を取ることで変化分をなだらかにする 1を足して,重みを正数にする df(t) N/df(t) log(N/df(t)) log(N/df(t))+1 1 100 6.64 7.64 2 50 5.64 5 20 4.32 5.32 10 3.32

IDFの例 idf(動物) = 1 idf(犬) = 1.32 idf(ネコ) = 2.32 idf(ロボット) = 3.32 動物 ネコ N = 5 df 動物=5,犬=4,ネコ=2,ロボット=1 動物=6,犬=5 idf(動物) = 1 idf(犬) = 1.32 idf(ネコ) = 2.32 idf(ロボット) = 3.32 idfの最小値 「動物」では全文書が検索されてしまい,弁別性が低い

TF.IDF法による重みの計算 簡単な計算方法 以下のような行列で表現できる w(t2,d3)の値 d1 d2 d3 d4 d5 t1 t2

転置ファイルの例 索引語 文書ID 索引語の重み ハブ 001005 0.532 469032 12.54 980001 0.002 ハブ酒 ......

オンライン処理 検索質問から索引語(検索語)を抽出する 各索引語について索引から以下を取得する 各文書のスコアを計算する その索引語を含む文書の集合 その索引語の重みw(t,d) 各文書のスコアを計算する その文書が含む検索語の重みを総和する スコアに基づいて文書を整列(ソート)する

オンライン処理の図解 文書集合 D1~D10 検索 犬 ロボット 索引付け (オフライン) ①索引語の抽出 索引 転置ファイル 犬 犬 ロボット 索引付け (オフライン) ①索引語の抽出 索引 転置ファイル 犬 → D2(0.1) D3(0.8) D5(1.2) D9(0.1) ロボット → D1(1.3) D3(0.7) D5(0.1) ②文書と重みの探索 ③スコアの計算 D1 = 1.3 D2 = 0.1 D3 = 0.8 + 0.7 = 1.5 D5 = 1.2 + 0.1 = 1.3 D9 = 0.1 1. D3 2. D5 3. D1 4. D2 5. D9 個別の文書を読む場合 ④文書の整列

演習: 「Perl入門」が終了した人 複数のテキストファイル(英文)を読み込んで,単語の重み w(t,d) を計算するプログラムを作成せよ 入力や出力の形式は各自で決めてよい 入力するファイルの件数の大きさは段階的に拡張すること 少ない件数の小さなファイルから始める