Reported by Kan Matsuda

Slides:



Advertisements
Similar presentations
IBMユーザ研究会九州研T3 3.Web2.0を実際に使ってみた. Web2.0を実際に使ってみました 研究会をプロジェクトに見立 てて “ Google SpreadSheet ” で会議を開く “ SNS ” でコミュニケーションを補助する “ Wiki ” で成果物を共有する.
Advertisements

1 ENUM における 個人情報保護システム 2004 年度卒業論文 横澤 一 岐 発表者:梶 沙夜香.
情報基礎A 情報科学研究科 徳山 豪.
Webプロキシサーバにおける 動的資源管理方式の提案と実装
The Perl Conference Japan ’98 朝日奈アンテナによる コンテンツ情報の取得と利用
最新ファイルの提供を保証する代理FTPサーバの開発
情報処理基礎 2006年 6月 1日.
秘密のリンク構造を持つグラフのリンク解析
第1回レポートの課題 6月19日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
分散コンピューティング環境上の Webリンク収集システムの実装
知能システム論 森下真一 講義日程 10/3, 10/10, 10/17, 10/24, 10/31 内容 Web グラフと検索エンジン
神奈川大学大学院工学研究科 電気電子情報工学専攻
WWW (=World Wide Web)とは
「コンピュータと情報システム」 07章 インターネットとセキュリティ
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
Z39.50プロトコルを用いた 検索クライアントの開発
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
HTTPプロトコルとJSP (1) データベース論 第3回.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
①データ構造 ②アルゴリズム ③プログラム言語 ④マークアップ言語
HTTPプロトコル J2EE I 第7回 /
PlanetLab における 効率的な近隣サーバ選択法
情報コミュニケーション入門 総合実習(1) 基礎知識のポイント(2)
第2章 第1節 情報通信の仕組み 1 ネットワークの仕組み 2 通信プロトコル 3 認証と情報の保護
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
IPv6アドレスによる RFIDシステム利用方式
サーバ負荷分散におけるOpenFlowを用いた省電力法
2004年度 サマースクール in 稚内 JavaによるWebアプリケーション入門
2003年度 データベース論 安藤 友晴.
ウイルスについて I98N044 久野耕介 I98N114 藤田和久
セキュリティ(6) 05A2013 大川内 斉.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan,
セキュリティ 05A2013 大川内 斉.
実行時情報に基づく OSカーネルのコンフィグ最小化
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
The Web as a graph 末次 寛之 清水 伸明.
Internet広域分散協調サーチロボット の研究開発
私の立場 OSカーネルを手がけるエンジニア 大阪市立大学 創造都市研究科の学生
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
25. Randomized Algorithms
端末およびサービス透過的な 情報閲覧支援システムの構築
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
非対称リンクにおける ジャンボフレームの性能評価
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
データベース設計 第7回 実用データベースの運用例 クライアント=サーバシステム(1)
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
ISO23950による分散検索の課題と その解決案に関する検討
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
売れるためのWEBサイト構築.
GbEにおける TCP/IP の研究について
アドホックルーティングにおける 省電力フラッディング手法の提案
Amicus: A Group Abstraction for Mobile Group Communications
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
特定ユーザーのみが利用可能な仮想プライベート・ネットワーク
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
MAUI Project 2009 インターネットにおける近接性
慶應義塾大学 政策・メディア研究科 修士課程 2年 間 博人
P2P & JXTA Memo For Beginners
インセンティブにより自律ユーザに 高品質なオーバーレイマルチキャスト木を 構築させるプロトコルの提案
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
Presentation transcript:

Reported by Kan Matsuda 第2回副テーマ中間報告 Reported by Kan Matsuda Nishimto Libratory

今回の発表について Trawling the Web for emerging cyber-communities 前回発表した論文の補足 Internet広域分散協調サーチロボットの研究開発

Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan, Sridhar Ragopalan, Andrew Tomkins

Overview Web上に数千の有名ではっきり定義されたコミュニティが存在 あいまいに定義されたコミュニティをトローリングにより抽出 抽出する理由 ユーザに良い情報を供給するため Webの発達を社科学的な観点から研究可能 ターゲットを絞った広告を出すことができる。

Strongly-connected bipartite sub graphs and cores IBMとコンパックは相互リンクを張っていない 他のページでこの両方にリンクを張っているページがある 確かな価値判断ではないが、リンクの合計はページのクォリティを示す 関係の深いページどうしてはcoreを形成

Strongly-connected bipartite sub graphs and cores F C core 仮説:web上のランダムで十分大きくて濃度の濃いサブグラフはコアが確実にある

Strongly-connected bipartite sub graphs and cores ノードに入ってくる枝の数iと、出て行くノードの数jからcoreかどうかを判断 Fans:リンクを張っているページ Centers:リンクを張られているページ (2,0) (2,1) (3,3) (1,1) i:入ってくるの数 j:出て行く数

Data source and resource データは1年半以上前の若干古いもの HTMLデータのみ1テラバイト分 約2億ページ分のデータ(やや少ない) PⅡ300MHz、Linuxで2週間未満の実験

Fans fans=hubsと考える 最低でも6個のリンクを持っているページ リンク以外の情報は捨てる リンクのみの情報での効果的な改善が図れるか? i,jが3~9の間で本当のコミュニティを見つけだせることを立証するため Fans:HITSやClever等のアルゴリズムにより発見された潜在的なfans 500以上の良好なCleverの結果をfansとみる

Mirrors and shingles ミラーサイトがあると偽りのcoreが見つかってしまう→ミラーサイトを見つけ除去する必要がある 見つける方法 http://assoft.co.at/~schaller/shop 2千4百万ぺージのfansで約60%ページ数が減少 減り過ぎのような気がしたのでいくつか拾い上げて確認したが、やはりミラーだった

In-degree distribution 最大で410のリンクを張られたサイトをプロット それ以上リンクを張られる確率は100万分の1以下 カーブのスロープは約1/2 i個の入力を持つ確立は約1/i2

Pruning centers by in-degree 参照の多いページを削除 製作者のブックマークとして使われているページなどを除去するため 明らかに有名なページは40以上のリンクが張られていることが経験的に知られている 有名なページは興味の対象外なので、リンクが50以上張られているページは除去

Trawling algorithm and system これだけ刈り込んでも6千万を超えるリンク、約2千万以上の潜在的なcentersそして数百マンのfansが存在する 更なる刈り込みが必要

Iterative Pruning メインメモリに入るリンクの数は約4千万で不足している→刈り込みを繰り返して対応 Fansをソートするときにリンクの数の少ないものを削除 Centersのリンクの少ないものを削除 1,2を繰り返す

Inclusion-exclusion pruning 抱合されている集合は除去する fans centers iは5以上 iは6以上 jは5以上 jは6以上

Finixhing it off 約13万5千のcoreが発見される (3.3)の場合で約7万5千のcoreが存在

Evaluation of communities 得られたcoreの中から無作為に400((3.3)、(3.5))のcoreを選ぶ 現在のweb上で同じcoreが存在するかを調査 400中130(約35%)のcoreが現存

Internet広域分散協調サーチロボット の研究開発 早稲田大学 村岡洋一

概要 Jpドメインのみでもデータを集めきるのに1ヶ月以上かかる 24時間以内にjpドメインのデータを集めきることを目的とする研究の報告書 7個所に分散されたプロトタイプで103のWWWサーバーを対象に収集実験を行い、有効性を確認 ランダムな分散をした場合で2.6から10.6倍、負荷均一化を行なうと5.5から22倍の高速化が可能であることを確認 

はじめに Internet広域分散協調サーチロボットの研究 期待される成果 WWWロボットをネットワーク上に分散して複数配置 分散したロボットが担当するサーバーを自動的に決定させ、かつ協調動作させる 期待される成果 24時間以内に収集可能 最新データによる質の高い検索 国レベルおよび世界レベルでの協調収集した場合、ロボットによる負荷を大幅に削減可能

WWWロボットの問題 検索サービス毎にロボットを使用→サーバーへの負担 WWWページの取得に時間がかかる 収集データの陳腐化

分散協調サーチロボットのプロトコルの検討

モデル説明 PRSM Web server Search Service Server(SSS) PRS サイト間距離 Web server 制御 Search Service Server(SSS) 制御 PRS サイト間距離 Web server PRS Web server

PRSとPRSMのプロトコル設計 プロトコル (P1)担当するサーバーのリスト配布プロトコル (P2)発見したサーバーリストの配布プロトコル

PRSとPRSMの動作 動作 担当サーバーリストを送信(P1) WWWページを収集 WWWページを解析して道のWWWサーバをPRSMに通知(P2) ページ収集情報(サイズ,転送時間)をPRSMに通知(P3) PRMSはPRSからの情報を元に次の担当サーバリストを作成

RPSの動作 PRSの動作 PRSMにアクセスし担当リストを取得 担当分を収集する 平日午前2時から午前8時、土日は午前2時から午後10時まで収集 100個のサーバーに同時にアクセス 1つのサーバーに対し20秒おきにアクセス 午前9時ごろ収集ログをPRSMに転送

PRSMの動作 現在はプロトタイプのためサーバーリストの更新は行なわず、手動で設定したリストをPRSへ送っている 次節で分散エリアを決定する方法について述べる

分散エリア決定法の検討 「負荷均等化アルゴリズム」の提案 負荷均等化の有用性を示す 当初pingによる時間を利用する予定 実際にサーバにアクセスし50ファイルをhttpにより収集したほうが良いことが判明

Web空間のモデル化 Web空間の構成要素 スケーラビリティを考えホストを接点とした連結有効グラフとして表現 HTMLで記述されたWebページ Webサーバーが動作している計算機 インターネット スケーラビリティを考えホストを接点とした連結有効グラフとして表現

ロボットのモデル化 ロボット:HTTPクライアントの一種 ロボットが保持する情報 負荷の均一化を行なうためにロボット間の通信が必要 自分が収集を担当しているホストのリスト 収集したWebページのデータ 各ホストのドキュメント量(KBytes) 各ホストの収集に要した時間 負荷の均一化を行なうためにロボット間の通信が必要 ロボットの数が増えるとパフォーマンスが落ちる ロボット間の距離を枝の重みとし,最小木をつくり、情報交換

パラメータの定義 Web空間にロボットがm個所あるとし、その集合を とし、ロボットは最小木をなしているとする 収集対象となるホスト

コストの定義 ロボットのコストは収集にかかった時間で定義 ロボットriの担当ホストHi=(hi1,hi2,…hini)に属するページを収集するのに要した時間tij(j=1,2,…,ni)(単位はmsec) 当然成り立つこと

距離の定義 ネットワーク的な距離 =収集に要した時間/ドキュメント量 距離によるコスト w:hに含まれる総ドキュメント量、d:rからhまでの距離

アルゴリズム プリムのアルゴリズムにより最小木を構築 プリム法はたいへん効率の良いアルゴリズムとして知られている。

隣接ロボット間のコスト均等化1 ロボットは担当ホストでの収集を終えるとコストを計算 隣接ロボット間でコストの均等化を行なう

隣接ロボット間のコスト均等化2 A E A E 4 2 10 D 12 10 D 12 C C 2 2 4 4 F B 6 F B 6 8 3.5 -4.5 -2.5 C 2 2 10.5 4 F B 8 1.5 F B 6 -0.5 7.5 -2.5 8 8 10

隣接ロボット間のコスト均等化3 コストはロボットとホストの距離に依存する コストの均等化に注目している 隣接ロボットにホストを渡した結果かえってコストが増加することがある 複数ステップ先のホストで距離が短くなる場合も考えられる →複数ステップ先のコストを知る必要がある