データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.

Slides:



Advertisements
Similar presentations
データベースと情報検索 情報検索 ( 5 ) 検索エンジンの仕組み 教員 岩村 雅一. 日程(情報検索:担当 岩村)  12/9 検索エンジンを使ってみる  12/16 メディア検索を使ってみる  12/25 ウェブアプリケーションを 使ってみる  1/9 検索エンジンを用いた演習  1/20.
Advertisements

北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
雑誌記事 DB の使用方法. 8-3 MAGAZINEPLUS データベース 38) 概要 MAGAZINEPLUS ( NICHIGAI/WEB サービス) – 約 30,000 誌、 11,000,143 件( 2010/01/22.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
0章 数学基礎.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
到着時刻と燃料消費量を同時に最適化する船速・航路計画
      ベクトル空間   実数体 体:数の集合で四則がその中で行えるもの 例)有理数全体、実数全体、複素数全体 R:実数体     C:複素数体  ベクトル空間
検索エンジン最適化.
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
情報処理基礎 2006年 6月 1日.
4.3 連立1次方程式   Ax = b   (23) と書くことができる。
第三回 線形計画法の解法(1) 標準最大値問題 山梨大学.
データモデリング 推薦のための集合知プログラミング.
5.チューリングマシンと計算.
5.チューリングマシンと計算.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
早稲田大学 理工学術院 基幹理工学部 情報理工学科 後藤滋樹
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
PageRankの仕組 林晋.
テキストの類似度計算
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
3次元での回転表示について.
Topic-Word Selection Based on Combinatorial Probability
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
平成22年6月15日 図書系職員のための アプリケーション開発講習会
IIR輪講復習 #1 Boolean retrieval
Googleのページランク 基本的な仕組は数学的 グラフの行列による表現 隣接行列(推移行列、遷移行列) 固有値と固有ベクトル W大学
WWWとブラウザ.
データモデリング Webページの検索とランキング
遺伝的アルゴリズムへの 統計力学的アプローチ 大阪大学 大学院理学研究科 鈴木譲 CISJ2005 於早稲田大学理工学部
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
The Web as a graph 末次 寛之 清水 伸明.
3次元での回転表示について.
知識情報演習Ⅲ(後半第2回) 辻 慶太
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
様々な情報源(4章).
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
プログラミング 4 探索と計算量.
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
実空間における関連本アウェアネス 支援システム
文書分類モデルの統計的性質に関する一考察
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
問題作成、解説担当:中島 副担当:坪坂、松本
データ解析 静岡大学工学部 安藤和敏
重み付き投票ゲームにおける 投票力指数の計算の高速化
行列式 方程式の解 Cramerの公式 余因数展開.
構造的類似性を持つ半構造化文書における頻度分析
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
テキストデータベース.
Presentation transcript:

データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる

検索の精度を示す指標 適合率 (Precision) 検索結果内の正解文書数 検索された文書の数 再現率 (Recall) 検索結果内の正解文書数 全文書内の適合文書の数 F 値 F = 1R1R 1P1P + 2 検索結果内の 正解文書数 検索された 文書の数 全文書内の 適合文書の数 (本当の解集合) 全文書 条件が厳しくなると P が上がり R が下がる 条件が緩くなると P が下がり R が上がる RP P =P = R =R =

キーワードらしさ tf-idf 文章中の特徴的な単語(キーワード)を抽出する ためのアルゴリズム 文書の集合 { D 1, D 2, …., D n } 内の文書 D i を単語の 集合 { W 1, W 2, …, W m } とみる 個々の単語の評価 – tf ( Term Frequency )は単語の頻度 繰り返される 単語は評価が高い 文書 D k での W i の出現数 / D k の単語数 – Idf(Inverse Document Frequency) W i は,特定の文書 D i にしか出現しない なら、評価が高い。 逆に W i は,すべての文書に出現するなら、その 評価は低い 文書の集合 { D 1, D 2, …., D n } のなかで W i が現れる比の逆数 そのままでは大きすぎるので log をとる 単語の評価 = 頻度・ log ( 総文書数 / 出現文書数 )

クローリング (Crawling) リンクの自動航行 – クローラと呼ばれるプログラムが、インターネット 上の Web ペー ジのリンクをたどりながら情報を収集 – クローラは スパイダ(蜘蛛) とも呼ばれる クローラが収集するもの – 各ページに含まれる各単語の tf-idf 値 を計算 – ページごとに文書ベクトル化 文書ベクトル D k D k = ( W 1 の tf-idf 値, W 2 の tf-idf 値, …, W n の tf-idf 値 ) – 各ページのリンク先を記録( PageRank で利用) 一度、訪問したサイトはそこからのリンクを辿ら ない クローリングは 定期的 に実施される

空間ベクトル法 ページの文書ベクトル D k と問合せのベクトル Q の類似度で検索を実施 D k = ( W 1 の tf-idf, W 2 の tf-idf, …, W n の tf-idf) Q = ( W 1 の tf-idf, W 2 の tf-idf, …, W n の tf-idf) 2 つのベクトルのコサイン類似度 似ているときに1、逆方向の時に -1 文書「空間ベクトル法」 – 類似度は 0.7, Web は 0.2, 検索は 1.4 問合せ(類似度 Web 検索) – 類似度 1, Web 1, 検索 1 類似度が高いものを選択 類似度 Web 検索 文書 問合せ

PageRank Algorithm 多くの検索結果を順位づけて並べたい Google 創始者の Larry Page と Sergey Brin が米 スタンフォード大学大学院在籍中に開発 論文の評価にヒントを得て考え出された PageRank とは – 「多くの良質なページからリンクされているペー ジは、 やはり良質なページである」 という再帰 的な関係をもとに、すべての Web ページの重要度 を判定したもの – PageRank 自体はユーザが検索式に与えた語句とは まったく無関係な、 すでに定まった量

Google の紹介ページより ページAからページBへのリンクをページ A によ るページ B への支持投票と みなし、 Google はこの 投票数によりそのページの重要性を判断します。 しかし Google は単に票数、つまり リンク数を見 るだけではなく、票を投じた ページについても分 析します。「重要度」 の高いページによって投じ られた票はより高く評価されて、それを受け取っ たページ を「重要なもの」 にしていくのです。 PageRank は ページの重要度を示す総合的な指標で あり、各検索に影響 されるものではありません

PageRank の意味の図示 あるページの PageRank を、そのページに 存在する発リンク数で 割った数が、リン ク先のページの PageRank に加算される

数式を使って表現 すべての Web ページの集合を V とし,それらの 間のリンクの集合を E とすると Web 空間は G = ( V, E ) で表現できる ページの総数を n とし,ページ i の PageRank ス コアを P(i) , ページ j からの外向けリンクの 数を O j とすると ただし、 (j i) はページ j からページ i へのリンク P(i) = Σ P(j) OjOj (j i) ∈ E (式1)

ベクトルと行列で表現 PageRank のスコアを値とする n 次元ベクトルを P, ページ間のリンクを表現する行列を A とすると、 先の式は と表される P = P(1) P(2) : P(n) A i j = OiOi 1 (i j) ∈ E の場合 ページ i から j にリンクがあれば リンク元ページ i の外向きリンク数の逆数 0 それ以外 P = A T P (式 2 ) (式 3 ) (式 4 )

どうして A の転置行列 A T な の? さきの ( 式 1) と A の定義 ( 式 3) をよく見比べると,リンクの出るページと 入るページで i と j が入れ替わっている. ページ i ( 1 ≦ i ≦ n )からページ j にリンクがある場合に,ページ j の ページランク P( j) は P(j) = A 11 P(1) + A 21 P(2) + ... +A n1 P(n) = (1/o 1 ) P(1) + (1/o 2 ) P(2) + ... + (1/o n ) P(n) となる. A の2つある添字のうち,さきにある添字が増える式になって いる.ページランクの計算を,通常の行列とベクトルの積で表現する には P(i) = A 11 P(1) + A 12 P(2) + ... +A 1n P(n) となって, A の2つある添字のうち,後にある添字が増える式になって 欲しい.どうすればよいか? i と j をひっくり返せば良い. つまり 転置した行列を用いれば良い.

図による例示 0 1/5 1/5 1/5 1/5 0 1/ /2 1/ /3 1/3 0 1/ /4 0 1/4 1/4 0 1/4 0 1/ / A =A = この図を表現す る行列 A は A 21 だから, ページ 2 から 1 へリンクがあるかどうか.

各ページの PageRank は不変な値 不変なベクトル P は A をかけても P のまま これは、行列とベクトルの固有値問題 P ≠ 0 が存在するためには これは λ の n 次方程式で、 λ の実数解は高々 n 個 この場合 P は固有値 λ = 1 に対応する固有ベクトル 固有値 λ = 1 の存在には特定条件の成立が必要 成立すれば 、 n 元連立方程式 P = A T P より、べき乗 法で P も計算可能 P = A T P λ P = M P ( M – λ E) P = 0 | M– λ E | = 0

Page と Brin はマルコフモデルに着 目 ユーザがリンクを無作為にたどるとすると、 ページ遷移はマルコフ遷移モデル 次の条件が満たされると、固有値 λ = 1 が存 在 – A がマルコフ推移の遷移確率行列である 各行の値を総和すると 1 外部にリンクを持たないページがない – グラフが強連結である どのページからも、どのページへも辿り着ける – グラフが非周期的である あるページからそこに戻るパスの長さが k (>1) の整数 倍であれば周期的、そうでなければ非周期的 ( すなわち k = 1) このような A が見つかるということは、ユー ザがリンクをクリックし続けると、ある特定 のページに行き着く確率を計算できることを 意味する

Page と Brin のアイデア 遷移確率行列を修正 ① 外部リンクが無いページからは、各ページに同じ確 率で遷移 – このページに相当する A の行はすべて 1/n ② ユーザは確率 d でリンクを辿る( 1-d で新ページを検 索) – 各ページからすべてのページへのリンク追加(確率は 1- d ) 要素がすべて 1 のベクトルが e のとき、遷移確 率は Page と Brin の論文では d = 0.85 (1 – d) e + d A T p = (1– d) + d p 11:111:1 A 11 A 21 ・・ : 1/n 1/n ・・ :

[ 補助 ] Page と Brin は考えた! ①について,外部にリンクを持たないページからは n 個あるページのどれにでも同じ確率( 1/n )で移動す る.(これで A がマルコフ推移の遷移確率行列になっ た) ②について,あるページから出ているリンクをたどる 確率は d で,リンクを辿らず無作為に新しいページに 移る確率は (1-d) である.(これで,どのページへも辿 り着けるようになった.また周期kが1となったので、 周期グラフでもなくなった) 式の中で, (1-d) e の項はリンクを辿らず無作為に新 しいページに移行した時を表し, d A T p の項は現在の ページからのリンクを辿った時を表す.

すべてのページの PageRank を計算 不変になるまで遷移確率行列を繰り返し適用 3. 22億個のリンクがある場合、 52 回の繰り返し で収束 P 0 = e / n k = 1 do { P k = (1 – d ) e + d A T P k-1 k = k + 1 } while( | P k – P k-1 | < ε ) return P k

検索エンジンの概要 クローリングしてインデックスと 行列 A を作っておく。 インデックスは、ページごとの文書ベクトル D k D k = ( W 1 の tf-idf 値, W 2 の tf-idf 値, …, W n の tf-idf 値 ) PageRank を計算しておく ユーザが指定した検索式とインデックス から、類似度を使って検索結果の集合を 作成 検索結果の集合の要素を PageRank で整列