分散コンピューティング環境上の Webリンク収集システムの実装

分散コンピューティング環境上の Webリンク収集システムの実装
林研究室０５００１１　伊藤　正敬

目次研究の背景と動機システム構成の概要システム全体の処理フローシステムの評価実験結果のまとめと考察

研究の背景と動機システム構成の概要システム全体の処理フローシステムの評価実験結果のまとめと考察

WWWについていかに有用な情報を探せるか？ WWWの特徴 Webページ検索の問題点と現状大規模：１０億ページ以上
大規模：１０億ページ以上変化が速い：更新・削除などが頻繁多様性：個人の日記から映像メディアまで存在構造的：HTML記述やハイパーリンクによって構成 Webページ検索の問題点と現状キーワード検索のみでは限界？ハイパーリンク構造に注目したサービスが多くなってきた Google、Lycos、Yahoo！、Excite、BIGLOBEなどいかに有用な情報を探せるか？

システムの構築方法や問題点までは公開されていない
Ｗｅｂページの収集方法 WWWソフトウェアロボット開始点となるURLからリンクを辿り、Webページを収集分散コンピューティング時間のかかる処理を複数マシンで並列実行情報収集システムの事例はあるが、システムの構築方法や問題点までは公開されていない構築方法や技術的な課題を明らかにしたい

研究の目的と方法研究の目的仕様、機能の定義構成する諸技術全体の処理フローパフォーマンスの評価実験 Webリンク収集システムの構築
構築方法や技術的な問題点を明らかにする仕様、機能の定義構成する諸技術全体の処理フローパフォーマンスの評価実験そこで、研究の目的として、 Webリンク収集システムの構築を行い、今回の構築の試みからわかった構築方法や技術的な問題点を明らかにするそこで、具体的な方法として、システムの仕様、機能を定め、その仕様に基づいたシステムを構成する諸技術を決定し、システム全体の処理の流れを定め、構築したシステムのパフォーマンスを評価するために実験を行いました

研究の背景と動機システム構成の概要システム全体の処理フローシステムの評価実験結果のまとめと考察

システムの仕様と機能開発言語分散システムデータベース Webリンクの収集分散環境の構築リンクデータの処理 Webページを解析
並列処理可能分散環境の構築複数台PCによる負荷分散リンクデータの処理膨大なデータを格納できる検索やデータの更新などが容易メモリ管理の考慮排他制御が必要開発言語分散システムデータベース

開発言語の選択分散システムに対応 HTML 処理が容易並列処理可能メモリ管理が容易データベース接続が容易 Java言語

分散システム技術分散システム：RPC、Java RMI、CORBA、HORB 他技術との比較比較した上での
Ｊａｖａ用分散オブジェクト技術ＨＯＲＢを用いた他技術との比較比較した上でのＨＯＲＢのメリット RPC 関数の使い方などが容易Ｊａｖａ　ＲＭＩ実行処理速度が2倍非同期メソッドをサポートＣＯＲＢＡＩＤＬ記述不要非同期メソッドの記述が容易ＣＯＲＢＡ　ＩＩＯＰをサポート

データベースの選択 Javaとの接続が容易排他制御が可能容量制限が大きい PostgreSQL7.1.3

システム全体の処理フロー研究の背景と動機システム構成の概要システム全体の処理フローシステムの評価実験結果のまとめと考察

システムの全体像 Master PC DB Slave PC タスクURL数と深さだけ収集 Web リンク収集 HORBによる
ハイパーリンク Slave PC Web リンク収集タスクURL数と深さだけ収集 HORBによる分散環境構築 DB リンクデータの格納 Master PC Slaveのタスク管理

並列処理の必要性 Slave PC １ Slave PC ２同時にデータが送られてくるかもしれない Master PC DB

非同期メソッドとマルチスレッド処理を同時並行的に進める複数人で仕事を行う Slave タスク Master タスク Slave タスク

非同期メソッドとマルチスレッド Slave Master Hisyo Slave それぞれが別スレッド非同期メソッド Slave

システムの評価実験研究の背景と動機システム構成の概要システム全体の処理フローシステムの評価実験結果のまとめと考察

実験の方法実験１：時間量とSlave PC台数の変化実験２：初期値設定の変化（60分間で計測） Slave PCの｛２、５、１０｝台
30分、60分、90分タスクURL数３、リンクの深さ４実験２：初期値設定の変化（60分間で計測）タスクURL数の変化｛１、３、５｝リンク収集の深さ｛２、４、６｝実験は各3回ずつ行った「解析Webページ数」と「獲得リンク数」の平均値で評価初期URLデータは日本の大学Web TOP Page100個解析するドメイン対象をJPドメインに限定した

全実験データの結果 1ページあたり約１２リンク約５％の割合でエラーページに遭遇実験時間：63時間解析ページ数：２０５１７７ページ
実験時間：63時間解析ページ数：２０５１７７ページ獲得リンク数：エラーページの接続回数：９７６７回 1ページあたり約１２リンク約５％の割合でエラーページに遭遇

実験１：時間量の変化解析したWebページ数解析ページ数時間量

実験１：時間量の変化（1台あたり）台数が多い場合ほど解析ページ数が減少している 2台 5台 10台

実験２：タスクURL数の変化（1台あたり） 10台２台解析ページ数どの台数でも解析ページ数が上昇 5台タスクURL数

実験２：深さの変化（1台あたり） 10台解析ページ数５台、10台の場合、解析ページが増加 2台 5台深さ

実験２：タスクURL数の変化（1台あたり） 10台解析ページ数 5台２台ネットワークトラフィックの影響が考えられるタスクURL数

結果のまとめと考察研究の背景と動機システム構成の概要システム全体の処理フローシステムの評価実験結果のまとめと考察

結果のまとめと考察台数が多い程、1台あたりの解析ページ数は時間とともに減少する重複チェックにかかる処理時間が大きくなる
タスクURL数、深さを大きく設定すると 1台あたりの解析ページ数が増加する広く、深い範囲を収集するため、解析ページが増加但し、時間がたてば異なるSlaveが同時期に　同一領域を解析する可能性がある収集時間帯によるネットワークトラフィックの影響

パフォーマンス低下の要因同じURLを解析しているかもしれない Slave Master Hisyo Slave Slave

システムの問題点重複したURLチェックに要するオーバーヘッド WWWロボットの収集範囲の指針データベースのリンクデータ処理
エラーページの回避収集時間帯の考慮

よりよいシステムにするために分散処理方式の変更データベースの処理速度の向上 Master Master Slave Slave
データベースの分散化高速アルゴリズムの適用 Master Master Slave Slave Slave Master Master Slave

おわり

Webページハイパーリンクタスク URL数：３深さ：３深さ１深さ２深さ３

本システムの問題点無反応サーバへの接続問題サーバが生きてて、８０番ポートは空いているが、
http daemonが（少なくとも８０番ポートでは）動いていない。 CSSへの非対応使っているAPIではスタイルシートには非対応

但し、ＭａｓｔｅｒＰＣはメモリを198Ｍに、ＤＢはＨＤＤを４０Ｇに増設
使用ＰＣについてＷｅｂページを解析してＵＲＬを収集する「ＳｌａｖｅＰＣ」ＳｌａｖｅＰＣのタスク管理などを行う「ＭａｓｔｅｒＰＣ」ＵＲＬデータを格納しておく「データベースサーバ」ＯＳは全てＶｉｎｅＬｉｎｕｘ２．１．５を使用マシン名ＨＩＴＡＣＨＩ　ＦＬＯＲＡ３７０ＣＰＵＰｅｎｔｉｕｍ２－４００ＭＨｚメモリ１２８ＭＬＡＮ１０ＢＡＳＥ－ＴＨＤＤ６Ｇ但し、ＭａｓｔｅｒＰＣはメモリを198Ｍに、ＤＢはＨＤＤを４０Ｇに増設

ＤＢサーバＭａｓｔｅｒＰＣＳｌａｖｅＰＣ

Documentクラスによってドキュメント化
ＨＴＭＬの解析方法 HTML Documentクラスによってドキュメント化ドキュメントを要素ツリー構造化構造化した要素一つ一つのタグチェック HTML.Tag.FRAME HTML.Tag.A SRC タグの属性値を取得 HREF URL取得

マルチスレッドについて Master Slave 役割スレッド各スレッドの仕事内容 Mainメソッド runメソッドタスクURL先の
DBからタスクURLの取得 Slaveへのタスク割り当て Slave監視 runメソッド SlaveからのURLデータの受取り URLデータをチェック URLデータをDBへ格納 Slave タスクURL先の Webページ解析割り当てられたURL先のWebページを順に解析していく指定の深さまでWebページを解析する HTTP URL確認 Webページの解析前に，URL先に接続してWebページが正常かを確認する

分散コンピューティング環境上の Webリンク収集システムの実装

Similar presentations

Presentation on theme: "分散コンピューティング環境上の Webリンク収集システムの実装"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

分散コンピューティング環境上の Webリンク収集システムの実装

Similar presentations

Presentation on theme: "分散コンピューティング環境上の Webリンク収集システムの実装"— Presentation transcript:

Similar presentations

About project

フィードバック