The Web as a graph 末次 寛之 清水 伸明.

Slides:



Advertisements
Similar presentations
データベースと情報検索 情報検索 ( 5 ) 検索エンジンの仕組み 教員 岩村 雅一. 日程(情報検索:担当 岩村)  12/9 検索エンジンを使ってみる  12/16 メディア検索を使ってみる  12/25 ウェブアプリケーションを 使ってみる  1/9 検索エンジンを用いた演習  1/20.
Advertisements

11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu.
データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
2.Web2.0 とは. 2-1. Web とは Web とは・・・インターネットなどのネットワークに接続されているコンピュータを利用して、 誰もが情報を閲覧することができるように公開する システム 1989 年に欧州核物理学研究所 (CERN) の Berners-Lee が学術論文や資料の管理を.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
JSP を利用した 書店検索サイトの構築 佐々木研究室 03k1012 川村禎恵. 内容  背景  目的  サイトの説明  デモンストレーション  今後の課題.
インターネットの利用 教科書 P22~27,36~41 埼玉県立大宮武蔵野高等学校・情報科.
正規表現からのDFA直接構成.
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
検索エンジン最適化.
開発者支援を目的とした WWWソフトウェア検索エンジンの構築
情報処理基礎 2006年 6月 1日.
秘密のリンク構造を持つグラフのリンク解析
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
分散コンピューティング環境上の Webリンク収集システムの実装
参照共起分析の Webディレクトリへの適用
知能システム論 森下真一 講義日程 10/3, 10/10, 10/17, 10/24, 10/31 内容 Web グラフと検索エンジン
前回までの配布資料(Webにないもの):教室の後方
前回までの配布資料(Webにないもの):教室の後方
An Algorithm for Enumerating Maximal Matchings of a Graph
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
検索サイトの話 情報社会と情報倫理 1/22/09.
PageRankの仕組 林晋.
検索エンジンの使い方.
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
第11講: 平成18年12月 8日 (金) 4限 E352教室 グラフ (1).
情報検索演習 第8回 パソコンを起動しておくこと 前から4列目までに着席すること 2005年11月30日 後期 水曜5限
5.5 The Linear Arboricity of Graphs (グラフの線形樹化数)
リンク構造解析によるページの 価値計算とネットワーク分析
チーム よせあつめ 検索エンジンについて.
Googleのページランク 基本的な仕組は数学的 グラフの行列による表現 隣接行列(推移行列、遷移行列) 固有値と固有ベクトル W大学
データモデリング Webページの検索とランキング
Javaソースコード蓄積・ 検索システムSPARS-Jの概要
アルゴリズムとデータ構造 2013年7月16日
Speaker: Kazuhiro Inaba
授業に役立つホームページを探したい ~検索サイト・リンク集の紹介~
副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan,
環境リスクマネジメントに関する 検索システム
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
インターネット利用法実習 経営工学基礎演習a(第3週).
Internet広域分散協調サーチロボット の研究開発
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
アルゴリズムとデータ構造 2012年7月17日
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
リンク構造解析によるページの 価値計算とネットワーク分析
北陸先端科学技術大学院大学 中田豊久,金井秀明,國藤進
実空間における関連本アウェアネス 支援システム
御中 ~ WEBサイトアクセス解析レポート.
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
Webページのグループ化による 静的動的スコアリング
Webからの 人間関係ネットワークの抽出と 情報支援
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
アルゴリズムとデータ構造 2011年7月11日
Max Cut and the Smallest Eigenvalue 論文紹介
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
2009/11/27 グラフ (1) 第9講: 平成21年11月27日 (金) 4限 E252教室 コンピュータアルゴリズム.
識別子の読解を目的とした名詞辞書の作成方法の一試案
アップデート.
Presentation transcript:

The Web as a graph 末次 寛之 清水 伸明

目標 wwwのリンク構造をグラフ化し, HIT,Hab & Authority,PageRank等の アルゴリズムを利用して,解析する

Hubs&Authorities Hubs Authorities

Hubs&authorities Hubs Authorities

The HITS algorithm 1 a sampling step 探したいクエリに対して関係すると思われるwebページを約200探す その200のページからリンクを何度かたどり1000~3000のページを集める

The HITS algorithm 2 a weight-propagation step sampling stepで集めたサイトを隣接行列にしhubやAuthorityにweightをつけていく hubやAuthorityを見つける

Hubs&Authorities 高い 高い Hubs weight Authorities weight 低い 低い

Updated of hubs and authority Non-negative authority weight : Xp Non-negative hub weight :Yp (each page p∈V) Xp = Σ Yq  ←authority weight increased Yp = Σ Xq  ← hub weight increased q→p q→p

Update hubs and authority A : adjacency matrix (隣接行列) x = (x1,x2,…,xN) y = (y1,y2,…,yN) x = A y  ←update rule y = Ax   ←update rule x ← A y← A Ax = (A A)x y ← Ax← AA y = (AA )y T T T T T T

Hubs & Authorities adjacency matrix (隣接行列) A 1 0 1 1 0 2 0 0 1 1          1 0 1 1 0             2 0 0 1 1          3 0 0 0 1          4 0 0 0 0          adjacency matrix (隣接行列)  1 3 A = 2 4

Hubs & Authorities Hub authority Weight weight 1 2 0 1 1 0 1 1  2   0 1 1 0   1 2  2   0 0 1 1   1 3  1   0 0 0 1   1 4  0   0 0 0 0   1   Hub authority Weight weight 1 3 = 2 4

Hubs & Authorities A authority Hub = 1 3 2 4 = 1 0 0 0 0 0 2 1  0   0 0 0 0   2 2  2   1 0 0 0   2 3  4   1 1 0 0   1 4  3   0 1 1 0   0   authority Hub weight weight              1 0 0 0 0               2 1 0 0 0               3 1 1 0 0              4 0 1 1 0 = 1 3 T 2 4 A =

Authorities weight            0 0 0 0               0 1 1 0            0 1 2 1            0 0 1 2      0   0   0   0   1   61  19   6   2   1    136  42  13   4   1  108  33  10   3   1   1 3 T A A = 2 4 … ← ← ← ← ←

Authority Weightの正規化 Authority Weight が無意味に増大しないように毎回の正規化(Hub Weightについても同様) Authority weight a Initialize a = (1,…1) For I = 0,1,2,… a i+1 = A A a i  Normalize a s.t. || a i+1||=1 → → T → → T → →

検索エンジンの種類 ロボット型 ロボットがWEB上を自動的に巡回してwebページを収集し、データベースを作成する ディレクトリ型 エディタ、サーファーなどと呼ばれる人間の閲覧者がwebサイトを審査し、ユーザーにとって有益であると認めたサイトをデータベースに登録する 複合型 ロボット型とディレクトリ型を複合して検索を行う ほとんどの検索エンジンポータルで、使われている

ロボット型検索エンジンの運営プロセス クローラー(スパイダー)と呼ばれるプログラムがWWW上のドキュメントを自動的に巡回する クローラーで集めた情報をインデクサと呼ばれるプログラムでデータベース(インデックス)を作成する 与えられてた検索キー(クエリ)に対して、検索アルゴリズムに従ってデータベースの中を検索し、与えられた検索キーに対する適合度の高い順にURLをリストする

自身が情報源を持っているもの : 背景に着色 R : ロボットの検索結果 D : ディレクトリーの検索結果 PPC : ペイパークリック 破線 : 結果の一部を提供 検索結果で優先して表示されるもの : 赤字 自身が情報源を持っているもの : 背景に着色 E-japan(株)調べ

          -PageRank- 50 100 54 50 4 12 50 4 4 ページAからページBへのリンクをページAからページBへの支持投票とみなし その票数からそのページの重要度(PageRank)を算出する

-PageRank- web pageをノード,hyper-linkを有向辺とし www全体を有向グラフとみなす Rank(u):ページvへのリンクをもつのuのPageRank Nu : ページ u からの外向きのリンク数 Bv : vを指しているページの集合 i : 更新の回数 u1 u2 v u3

-PageRank- web pageをノード,hyper-linkを有向辺として www全体を有向グラフとみなす 初期値を1 A0 1 C0 1 A C = B

-PageRank- 1.リンク先に重要度を均等に分配 2.分配された和を重要度として更新 Ai+1 1/2 0 1/2 Ai A Bi+1 0 0 1/2 Bi Ci+1 1/2 1 0 Ci 1.Aは重要度をAとBに均等に分配 2.Ai+1 = 1/2 Ai+1 + 1/2 Ci+1 A B = C

          -PageRank- i = 0 初期値 = 1 均等に分配 A=1 B=1 C=1

          -PageRank- i = 1 1/2 分配された和を 均等に配分 A=1 1/2 1/2 B=1/2 1 C=3/2 1/2

          -PageRank- i = 2 1/2 分配された和を 均等に配分 A=5/4 3/4 1/2 B=3/4 1/2 C=1 3/4

          -PageRank- i = 3 5/8 分配された和を 均等に配分 A=8/9 1/2 5/8 B=1/2 3/4 C=11/8 1/2

-PageRank- A=5/4 B=11/16 C=17/16 i = 4 9/16 分配された和を 均等に配分 11/16 9/16 1/2 C=17/16 11/16

-PageRank- lim … A0 1 B0 1 C0 1 = Ai+1 1/2 0 1/2 Ai A Bi+1 0 0 1/2 Bi Ci+1 1/2 1 0 Ci Ai 6/5 5/4 9/8 5/4 1 1 Bi 3/5 11/16 1/2 3/4 1/2 1 Ci 6/5 17/16 11/8 1 3/2 1 = A B = C lim … = i→∞

-PageRank- Spider Trap lim … Ai+1 1/2 0 1/2 Ai Bi+1 0 0 1/2 Bi Ci+1 1/2 0 0 Ci Ai 0 1/2 5/8 3/4 1 1 Bi 3 35/16 2 7/4 3/2 1 Ci 0 5/16 3/8 1/2 1/2 1 Spider Trap A B = C 1 lim … = i→∞

-PageRank- Dead End lim … Ai+1 1/2 0 1/2 Ai Bi+1 0 0 1/2 Bi Ci+1 1/2 0 0 Ci Ai 0 1/2 5/8 3/4 1 1 Bi 0 3/16 1/4 1/4 1/2 1 Ci 0 5/16 3/8 1/2 1/2 1 Dead End A B = C lim … = i→∞

-PageRank- lim … Dead End 効果の回避 Spider Trapの回避 税金の再配分 重要度の1部を 税金として徴収 Ai+1 1/2 0 1/2 Ai 1 Bi+1 (1-tax) 0 1 1/2 Bi +tax 1 Ci+1 1/2 0 0 Ci 1 sample tax = 0.2 Ai 7/11 1 Bi 21/11 1 Ci 5/11 1 = Dead End 効果の回避 税金の再配分 Spider Trapの回避 重要度の1部を 税金として徴収 lim … = i→∞

-PageRank- Rank(v):vのPageRank Rank(u):ページvへのリンクをもつのuのPageRank Nu : ページ u からの外向きのリンク数 Bv : vを指しているページの集合 N : ノードの総数 c : dampening factor (通常0.1~0.2に設定) i : 更新の回数