テキストデータベース.

Slides:



Advertisements
Similar presentations
データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
動的計画法を用いたアラインメント  小菅孝史.
人工知能特論 8.教師あり学習と教師なし学習
パネル型クエリ生成インタフェース画像検索システムの改良
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
コーパス言語学実践 2006年度2学期 第10回.
情報処理基礎 2006年 6月 1日.
SPA 報告
チュートリアル講演 特定物体認識 大阪府立大学大学院 黄瀬浩一.
初級ミクロ経済学 -生産者行動理論- 2014年10月20日 古川徹也 2014年10月20日 初級ミクロ経済学.
データモデリング 推薦のための集合知プログラミング.
岩村雅一 知能情報工学演習I 第9回(C言語第3回) 岩村雅一
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
夢見る図書館情報システム The Cards Challenge !
教育学部「文章作成法I」 (水)1講時 茨城大学図書館・情報支援係
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
小樽観光調査結果.
情報検索演習の基礎 1.どういう検索をするのか コンピュータを用いた検索である
テキストの類似度計算
IIR輪講復習 #5 Index compression
平成22年6月15日 図書系職員のための アプリケーション開発講習会
表計算 Excel 演習 4.検索,条件付き書式設定,並べ替え.
IIR輪講復習 #1 Boolean retrieval
WWWとブラウザ.
データモデリング Webページの検索とランキング
ビデオデータベース.
IIR輪講復習 #10 XML retrieval
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
繰り返し計算 while文, for文.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
岩村雅一 知能情報工学演習I 第9回(後半第3回) 岩村雅一
執筆者:伊東 昌子 授業者:寺尾 敦 atsushi [at] si.aoyama.ac.jp
IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
知識情報演習Ⅲ(後半第3回) 辻 慶太
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
主成分分析 Principal Component Analysis PCA
知識情報演習Ⅲ(後半第2回) 辻 慶太
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
岩村雅一 知能情報工学演習I 第9回(C言語第3回) 岩村雅一
知識情報演習Ⅲ(後半第3回) 辻 慶太
実空間における関連本アウェアネス 支援システム
文書分類モデルの統計的性質に関する一考察
阿部研究室学生のための 文献検索および入手の講習会
既存ソフトウェア中の 頻出コード片を用いた コード補完手法の提案
計算機プログラミングI 第6回 2002年11月14日(木) アルゴリズムと計算量 第1回課題の説明 平方根を計算するアルゴリズム 計算量
コーディングパターンの あいまい検索の提案と実装
岩村雅一 知能情報工学演習I 第9回(後半第3回) 岩村雅一
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
データ解析 静岡大学工学部 安藤和敏
第16章 動的計画法 アルゴリズムイントロダクション.
データ工学特論 第六回 木村昌臣.
九州大学大学院 情報学専攻特別講義 (8) ニューラルネットワークの 離散モデル
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
自然言語処理2015 Natural Language Processing 2015
ヒープソート.
Webページタイプによるクラスタ リングを用いた検索支援システム
より分かりやすい ユースケースモデルを作る
自然言語処理2016 Natural Language Processing 2016
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
逆運動学(Inverse Kinematics) 2007.5.15
岩村雅一 知能情報工学演習I 第9回(C言語第3回) 岩村雅一
Presentation transcript:

テキストデータベース

テキスト検索の技術 テキストデータのベクトル表現 検索

テキスト検索を行う局面 図書館で本を探す 特許出願で,関連の特許を探す 論文執筆で,関連研究を探す 新聞等から株価情報を抜き出す WWWを使って,興味のある情報を探す 判例を探す

テキスト検索 テキスト2 テキスト1 テキスト3 検索条件 テキスト4 テキスト6 条件に合致するテキスト テキスト5 (検索の単位はテキスト) テキスト5

テキストのベクトル表現例 テキスト1 テキスト2 テキスト3 テキスト4 テキスト5 あり あり あり あり あり あり あり あり あり term 1 term 2 term 3 term 4 term 5 term 6 term 7 あり あり あり あり あり あり あり あり あり あり あり あり あり あり あり これで1ベクトル

テキストのベクトル表現 term の有無や登場回数を使って,ベクトル表現 「検索条件」も,キーワードによるベクトル表現 非常に長いベクトルで表現(理由: キーワードの数が多い) 「検索条件」も,キーワードによるベクトル表現 類似検索を,ベクトルマッチングで行う 検索時には,「term ごとに重要度を変えたい」こともある

content word とは content word non-content word 検索に使う単語 テキスト中の有無/登場回数を使って,検索を行う non-content word 検索に使わない単語 of, a, 「の」,「が」 など

テキストのベクトル表現例 テキスト [f1 ... fi ... fn] n : term の総数 fi : i番目の term の有無/登場回数 問い合わせ [d1, ..., di, ..., dn] di : i番目の term の重要度

document frequency term (Xとする)について,Xが登場する文章の数を document frequency という

document frequency document frequency が低い document frequency が高い あまり多くの文章に登場する 「文章を区別するのに役に立つ term だ」と考える document frequency が高い たくさんの文章に登場する

inverse document frequency (idf) log (m/d) m: document の総数 d: term の document frequency d=m ならば log(m/d) = 0 d=1 ならば log(m/d) = log m

log (m/d) のグラフ m=10 のとき log (m/d) (inverse document frequency) d (document frequency)

term occurrence frequency(tf) 筆者は,意図して何度も使っているはず その文章において, その term は, 「重要度が高い」と考える

tf/idf f・log (m/d) m: document の総数 d: term の document frequency f: term の term occurrence frequency 単語ごと, 文章ごとに定まる値

テキストのベクトル表現例 テキスト [x1 ... xi ... xn] n : term の総数 xi : i番目の term の 「tf/idf」値

Retrieval ベクトル表現 テキスト1 ベクトル表現 ベクトル表現 テキスト2 検索条件 ベクトル表現 テキスト3 各々,ベクトルマッチングを行い, ベクトル空間中での「距離」が近いもの同士を 類似度が高いとみなす(→解とする)

ベクトルの距離 dot product による距離 x1y1 + x2y2 + ・・・ +xnyn (x1, x2, ..., xn) (y1, y2, ..., yn)

dot product を使用しない理由 各 xi 値は,tf/idf 値 → dot product による距離に代わる何かが必要

Cosine距離 X・Y Cosine(X,Y)= √(X・X)・(Y・Y) Cosineθ のこと(2つのベクトルのなす角:θ) Cosine(X, Y) = Cosine(cX, Y) = Cosine(X, cY) (x1, x2, ..., xn) (y1, y2, ..., yn) 原点 θ

テキスト検索における課題 Relevance Feedback インデックス tf/idf 以外のベクトル表現法 など

Performance もれ もれ 真の正解 間違い 問い合わせの解

Relevance Feedback(1/3) Q Qの解

Relevance Feedback(2/3) Q Qの解 ユーザは,どれが正しくて,どれが正しくないか分かる

Relevance Feedback(3/3) Q’ Q システムは,新しい Q’ を自動的に求め,再度問い合わせを実行

Relevance Feedback Q’ RR Q RI Q` = Q + C1・f(RR) - C2・f(RI)

Relevance Feedback Relevant Documents RR User Query Q Retrieved Similarity Retrieval Irrelevant Documents RI Feedback Query Q’

インデックス inverted file signature file ← ハッシュを利用 Clustering 

inverted file t1 t2 t3 (D1, 3), (D3, 3), (D5, 1) (D2, 2), (D5,2) term t3 は,D4, D5 にのみ登場し, それぞれのtf/idf 値は 1, 3

inverted file Q( 0, 2, 1 )に対して t1 t2 t3 (D1, 3), (D3, 3), (D5, 1) ことが分かる

inverted file t1 t2 t3 tn この部分は普通 B+-tree

ベクトル表現での課題 単語は違うが(ほぼ)同じ意味 2単語で無く,1単語とみなすべき 「おいしい」,「美味しい」 「不思議」,「謎」 「オペレーティング」,「システム」 → 「オペレーティングシステム」

ベクトル表現の限界 文章の意味には立ち入らない 人が魚を食べた 魚が人を食べた   登場する term は同じだが,意味は違う