Internet広域分散協調サーチロボット の研究開発

Slides:



Advertisements
Similar presentations
プラグイン作成講座 Control System Studio 3.0 Takashi Nakamoto
Advertisements

1 安全性の高いセッション管理方 式 の Servlet への導入 東京工業大学 理学部 千葉研究室所属 99-2270-6 松沼 正浩.
情報基礎A 情報科学研究科 徳山 豪.
Webプロキシサーバにおける 動的資源管理方式の提案と実装
最新ファイルの提供を保証する代理FTPサーバの開発
第1回.
ネットワークを利用した 環境情報データ自動収集 サーバシステムの開発
join NASS ~つながりあうネットワーク監視システム~
第2章 ネットサービスとその仕組み(前編) [近代科学社刊]
不特定多数の発信者を考慮した ストリーミングシステムの実現
分散コンピューティング環境上の Webリンク収集システムの実装
ネット時代のセキュリティ2(脅威の例) 2SK 情報機器工学.
神奈川大学大学院工学研究科 電気電子情報工学専攻
WWW (=World Wide Web)とは
時空間データからのオブジェクトベース知識発見
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
「コンピュータと情報システム」 07章 インターネットとセキュリティ
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
福盛 秀雄, 浜中 征志郎, 菅原 健一, 吉川 潤, 中山 周平 早稲田大学 村岡研究室
モバイルエージェントの応用 概要 モーバイルエージェントの応用分野 AgentSpaceシステム エージェント移動 応用:ソフトウェアの配信
インターネット メールサーバ DNSサーバ WWWサーバ ファイアウォール/プロキシサーバ クライアント.
HTTPプロトコルとJSP (1) データベース論 第3回.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
Curlの仕組み.
HTTPプロトコル J2EE I 第7回 /
PlanetLab における 効率的な近隣サーバ選択法
情報コミュニケーション入門 総合実習(1) 基礎知識のポイント(2)
「コンピュータと情報システム」 06章 通信ネットワーク
第2章 第1節 情報通信の仕組み 1 ネットワークの仕組み 2 通信プロトコル 3 認証と情報の保護
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
通信トラヒックの相関構造を利用した通信品質の劣化検出
サーバ負荷分散におけるOpenFlowを用いた省電力法
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
特定ユーザーのみが利用可能な仮想プライベート・ネットワーク
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan,
Reported by Kan Matsuda
セキュリティ 05A2013 大川内 斉.
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
私の立場 OSカーネルを手がけるエンジニア 大阪市立大学 創造都市研究科の学生
Web - 01 IIS を インストールしよう.
端末およびサービス透過的な 情報閲覧支援システムの構築
ご提案書 観光施設向けWi-Fiサービス 2015年03月25日 アイビーソリューション株式会社.
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
DNSクエリーパターンを用いたOSの推定
データベース設計 第7回 実用データベースの運用例 クライアント=サーバシステム(1)
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
国立国会図書館の インターネット上の 情報資源に対する取り組み
仮想環境を用いた 侵入検知システムの安全な構成法
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
秘匿リストマッチングプロトコルとその応用
ISO23950による分散検索の課題と その解決案に関する検討
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
アドホックルーティングにおける 省電力フラッディング手法の提案
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
マルチエージェントシステムにおける 通信コストの構造依存性に関する解析
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
MAUI Project 2009 インターネットにおける近接性
神奈川県立川崎北高等学校 「情報A」 インターネットで検索しよう WWWと情報検索.
インセンティブにより自律ユーザに 高品質なオーバーレイマルチキャスト木を 構築させるプロトコルの提案
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
情報スキル活用 第1週    ガイダンス.
Presentation transcript:

Internet広域分散協調サーチロボット の研究開発 早稲田大学 村岡洋一

概要 Jpドメインのみでもデータを集めきるのに1ヶ月以上かかる 24時間以内にjpドメインのデータを集めきることを目的とする研究の報告書 7個所に分散されたプロトタイプで103のWWWサーバーを対象に収集実験を行い、有効性を確認 ランダムな分散をした場合で2.6から10.6倍、負荷均一化を行なうと5.5から22倍の高速化が可能であることを確認 

はじめに Internet広域分散協調サーチロボットの研究 期待される成果 WWWロボットをネットワーク上に分散して複数配置 分散したロボットが担当するサーバーを自動的に決定させ、かつ協調動作させる 期待される成果 24時間以内に収集可能 最新データによる質の高い検索 国レベルおよび世界レベルでの協調収集した場合、ロボットによる負荷を大幅に削減可能

WWWロボットの問題 検索サービス毎にロボットを使用→サーバーへの負担 WWWページの取得に時間がかかる 収集データの陳腐化

分散協調サーチロボットの プロトコルの検討 Public Robot Server manager Web server PRSM 制御 Search Service Server(SSS) 制御 PRS サイト間距離 Web server PRS Web server

PRSとPRSMのプロトコル設計 プロトコル (P1)担当するサーバーのリスト配布プロトコル (P2)発見したサーバーリストの配布プロトコル

PRSとPRSMの動作 動作 担当サーバーリストを送信(P1) WWWページを収集 WWWページを解析して未知のWWWサーバをPRSMに通知(P2) ページ収集情報(サイズ,転送時間)をPRSMに通知(P3) PRMSはPRSからの情報を元に次の担当サーバリストを作成

RPSの動作 PRSの動作 PRSMにアクセスし担当リストを取得 担当分を収集する 平日午前2時から午前8時、土日は午前2時から午後10時まで収集 100個のサーバーに同時にアクセス 1つのサーバーに対し20秒おきにアクセス 午前9時ごろ収集ログをPRSMに転送

PRSMの動作 現在はプロトタイプのためサーバーリストの更新は行なわず、手動で設定したリストをPRSへ送っている 次節で分散エリアを決定する方法について述べる

分散エリア決定法の検討 「負荷均等化アルゴリズム」の提案 負荷均等化の有用性を示す

Web空間のモデル化 Web空間の構成要素 スケーラビリティを考えホストを接点とした連結有効グラフとして表現 HTMLで記述されたWebページ Webサーバーが動作している計算機 インターネット スケーラビリティを考えホストを接点とした連結有効グラフとして表現

ロボットのモデル化 ロボット:HTTPクライアントの一種 ロボットが保持する情報 負荷の均一化を行なうためにロボット間の通信が必要 自分が収集を担当しているホストのリスト 収集したWebページのデータ 各ホストのドキュメント量(KBytes) 各ホストの収集に要した時間 負荷の均一化を行なうためにロボット間の通信が必要 ロボットの数が増えるとパフォーマンスが落ちる ロボット間の距離を枝の重みとし,最小木をつくり、情報交換

パラメータの定義 Web空間にロボットがm個所あるとし、その集合を とし、ロボットは最小木をなしているとする 収集対象となるホスト

コストの定義 ロボットのコストは収集にかかった時間で定義 当初pingによる時間を利用する予定 実際にサーバにアクセスし50ファイルをhttpにより収集したほうが良いことが判明 ロボットriの担当ホストHi=(hi1,hi2,…hini)に属するページを収集するのに要した時間tij(j=1,2,…,ni)(単位はmsec)

距離の定義 ネットワーク的な距離 =収集に要した時間/ドキュメント量 距離によるコスト w:hに含まれる総ドキュメント量、d:rからhまでの距離

隣接ロボット間のコスト均等化1 ロボットは担当ホストでの収集を終えるとコストを計算 プリムのアルゴリズムにより最小木を構築 隣接ロボット間でコストの均等化を行なう 参考:http://www-b2.is.tokushima-u.ac.jp/~ikeda/suuri/dijkstra/Prim-jp.html

隣接ロボット間のコスト均等化2 A E A E 4 2 10 D 12 10 D 12 C C 2 2 4 4 F B 6 F B 6 8 3.5 -4.5 -2.5 C 2 2 10.5 4 F B 8 1.5 F B 6 -0.5 7.5 -2.5 8 8 10

隣接ロボット間のコスト均等化3 コストはロボットとホストの距離に依存する コストの均等化に注目している 隣接ロボットにホストを渡した結果かえってコストが増加することがある 複数ステップ先のホストで距離が短くなる場合も考えられる →複数ステップ先のコストを知る必要がある

負荷均等化アルゴリズム ロボット間で最小木を作る ホストを各ロボットにランダムに割り当てる 割り当てられたホストを収集する 隣接ロボット間でコスト均等化する 3に戻る

分散協調サーチロボットのプロトタイプシステムの設計と先行評価 103のWWWサーバーを対象に7PRSで収集 3つのケースについて比較 同一データを収集 ランダムに分 負荷均一化を測った場合

実験結果(均一時)

実験結果(ランダムに分散)

実験結果(均一化後)

考察と検討 ランダムな分散をした場合で2.6から10.6倍、負荷均一化を行なうと5.5から22倍の高速化が可能 1~2週間で、収集時間の曜日の差がどの程度出るか 同じ平日でも収集時間の差によりサーバーを分類できるか