WWW上の効率的な ハブ探索法の提案と実装

Slides:



Advertisements
Similar presentations
1 安全性の高いセッション管理方 式 の Servlet への導入 東京工業大学 理学部 千葉研究室所属 99-2270-6 松沼 正浩.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ハノイグラフの生成と最短経路の導出 東京電機大学 理工学部 村田和也 松浦昭洋
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
2009/12/4 グラフ (2) 第10講: 平成21年12月4日 (金) 4限 E252教室 コンピュータアルゴリズム.
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
CCC DATAset における マルウェアの変遷
国内線で新千歳空港を利用している航空会社はどこですか?
秘密のリンク構造を持つグラフのリンク解析
分散コンピューティング環境上の Webリンク収集システムの実装
Webネットワークにおける 研究者間の分析
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
参照共起分析の Webディレクトリへの適用
神奈川大学大学院工学研究科 電気電子情報工学専攻
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
検索サイトの話 情報社会と情報倫理 1/22/09.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
第11講: 平成18年12月 8日 (金) 4限 E352教室 グラフ (1).
第4章 空間解析 2.ネットワーク分析 (3) ネットワーク構造分析
線形計画法 スケールフリーネットワーク 須藤 孝秀.
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
リンク構造解析によるページの 価値計算とネットワーク分析
ソースコードの変更履歴における メトリクス値の変化を用いた ソフトウェアの特性分析
アルゴリズムとデータ構造 2011年7月4日
Javaソースコード蓄積・ 検索システムSPARS-Jの概要
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
動的依存グラフの3-gramを用いた 実行トレースの比較手法
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
ソフトウェア部品分類手法への コンポーネントランク法の応用
仮想メモリを用いた VMマイグレーションの高速化
環境リスクマネジメントに関する 検索システム
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
The Web as a graph 末次 寛之 清水 伸明.
ランダムグラフ エルデシュとレーニイによって研究された.→ER-model p:辺連結確率 N:ノード総数 分布:
Internet広域分散協調サーチロボット の研究開発
コンポーネントランク法を用いたJavaクラス分類手法の提案
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
Webネットワークにおける 研究者間の分析
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
リンク構造解析によるページの 価値計算とネットワーク分析
適応的近傍を持つ シミュレーテッドアニーリングの性能
情報コミュニケーション入門b 第11回 Web入門(2)
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
情報コミュニケーション入門e 第12回 Part1 Web入門(2)
JAVAバイトコードにおける データ依存解析手法の提案と実装
秘匿リストマッチングプロトコルとその応用
保守請負時を対象とした 労力見積のためのメトリクスの提案
メソッドの同時更新履歴を用いたクラスの機能別分類法
情報コミュニケーション入門e 第12回 Part1 Web入門(2)
アルゴリズムとデータ構造 2013年7月8日
2009/11/27 グラフ (1) 第9講: 平成21年11月27日 (金) 4限 E252教室 コンピュータアルゴリズム.
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
Webページタイプによるクラスタ リングを用いた検索支援システム
Jan 2015 Speaker: Kazuhiro Inaba
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
識別子の読解を目的とした名詞辞書の作成方法の一試案
プログラム依存グラフを用いた ソースコードのパターン違反検出法
アルゴリズムとデータ構造 2012年7月9日
Presentation transcript:

WWW上の効率的な ハブ探索法の提案と実装 北陸先端科学技術大学院大学 知識科学研究科 ○松久保 潤,林 幸雄

概要 有益なページを優先して収集 未探索かつ最大のIn-degreeをもつ ページを優先して収集 クローラによる探索実験 Webコミュニティ内の重要なページを 経由しながら探索しているように動作

背景 Webページの総数は急激に増加 Lawrence’99では約8億 山名’03では約70億 Googleの推定カバー率は約40% すべてのページをカバーするのは困難 できるだけ有益なページを優先

多くの興味・関心を集めているページを できるだけ多く収集する 目的 オーソリティ A ハブ H 高いIn-degreeをもつページは 多くの興味・関心を集めている 多くの興味・関心を集めているページを できるだけ多く収集する

従来法(1/2) Cho, et al ’98 更新されたページの再探索を効率化するため 高い重要度をもつページを優先して探索 ページの内容とIn-degreeやOut-degree 及びPageRankなどを組み合わせて評価 Web全体のリンク構造を使用

従来法(2/2) Adamic, et al ’00 無向グラフ上で任意の二頂点間の経路長が できるだけ短くなるように探索する 高い次数をもつ頂点を経由すると 任意の二頂点間の経路長が比較的短くなる 最大の次数をもつ最近傍を優先する 最近傍の正確な次数が既知である

提案手法 適宜,最大のIn-degreeをもつ 未探索ページを優先的に探索 発見された未探索ページが全て探索候補 探索の優先順位は適応的に変化 以下,本提案手法を入次数優先探索 (In-degree First Search; IFS)と表記

クローラの動作 探索URL pに探索開始URLを格納 pのソースのダウンロード・構文解析を行い URLを抽出 探索キューW内のURLと重複しない場合 Wに格納 重複する場合 そのURLの優先順位を更新 W内の最大のIn-degreeをもつURLをpに格納 ②に戻る

探索実験 入次数優先探索(In-degree First Search; IFS) と幅優先探索(Breadth First Search; BFS) の比較 比較項目 オーソリティの累積獲得数 低い次数をもつページの累積獲得数

オーソリティだけでなくハブも効率的に収集 A及びHの累積獲得数 IFS BFS IFS BFS 図3 オーソリティの累積獲得数 図4 ハブの累積獲得数 IFSで収集したページがもつ次数の 上位0.1%に含まれる最小の次数 オーソリティだけでなくハブも効率的に収集

図6 低いOut-degreeをもつページの 次数の低いページの累積獲得数 IFS BFS IFS BFS 図5 低いIn-degreeをもつページの 累積獲得数 図6 低いOut-degreeをもつページの 累積獲得数 次数が低い頂点の累積獲得数が少ない

次数に対するページ数の分布 Pennock’02 特定のトピックを扱うページの分布が 対数正規分布に従う IFS BFS IFS BFS 図1 In-degreeに対するページ数 図2 Out-degreeに対するページ数 Pennock’02 特定のトピックを扱うページの分布が 対数正規分布に従う

最近傍の結合相関 nn k <kin > BFS IFS

コミュニティ間の移動の様子 IFS BFS IFSを用いた場合,A及びHが含まれるドメイン内の頁が 重点的に収集されている.

考察 Newman, et al ’03, Vázquez ’02 社会的ネットワークでは高い次数をもつ 頂点同士の結合頻度が高い H コミュニティの核となるオーソリティやハブを 経由しながらWeb上を探索している

Þコミュニティの核となるオーソリティやハブを 経由しながらWeb上のページを収集 まとめ 探索中に適宜,最大のIn-degreeをもつ未探索ページを 優先して探索する手法を提案し,クローラを実装した 実験結果 幅優先探索を用いた場合よりも効率的に オーソリティを収集できた 収集したページのリンク構造上で高い次数をもつ ページ同士の結合頻度が高くなっていた Þコミュニティの核となるオーソリティやハブを 経由しながらWeb上のページを収集

最近傍の結合相関(Out-degree) IFS BFS 入次数優先探索を用いた場合の方が 平均出次数が全体的に高くなっている

結果6:次数に対する最近傍の 平均次数(無向グラフ) IFS BFS 図11 入次数優先探索を用いた場合 図12 幅優先探索を用いた場合 どちらの場合も高い入次数をもつページに対する最近傍の平均出次数が低くなる傾向がある 幅優先探索を用いた場合の方が上述の傾向が強い

クローラの実装 <A>のHREF属性, <META>の転送を 他のページへのリンクとして扱う <FRAME SRC>で参照されるページ内の リンクは元のページからのリンクとして扱う 拡張子htm, html, asp, jsp, php, cfmをもつ ページへのURLをリンクとする 全てのcgi,及びhttp,https以外のプロトコルを用いるURLはリンクとして扱わない

クローラの実装 Wから最大の入次数をもつURLを取り出し pに格納する 探索URL pに探索開始URLを格納する pを探索済みリストSに追加する pのソースをダウンロードする 構文解析を行ってS内のURLと重複しないように URLを抽出する 抽出されたURLが探索キューW内のURLと 重複する場合にそのURLの入次数を1だけ増やす 重複しない場合にはWに格納する Wから最大の入次数をもつURLを取り出し pに格納する ②に戻る