副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan,

Slides:



Advertisements
Similar presentations
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
Advertisements

Japan Registry Service Copyright © 2002 株式会社日本レジストリサービス 国際化ドメイン名について -その仕組みと動向- 2002 年 12 月 16 日 InternetWeek2002/ ドメイン名に関する最新動向 株式会社日本レジストリサービス (JPRS)
The Enterprise-class Monitoring Solution for Everyone
4.ユーザー登録マニュアル              Version 年6月10日 国立情報学研究所.
  スケジュール管理手法PERT-Time      解 説    “最早開始時間計算のアルゴリズム”
情報基礎A 情報科学研究科 徳山 豪.
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
Chapter11-4(前半) 加藤健.
検索エンジン最適化.
ハルビン絵葉書コレクションシステムの再構築と機能追加 -サーバ側:PHPとMySQLを用いて
LZ圧縮回路の設計とハード・ソフト 最適分割の検討 電子情報デザイン学科 高性能計算研究室 4回生 中山 和也 2009/2/27.
情報処理基礎 2006年 6月 1日.
IGD Working Committee Update
Web2.0とは? テクノロジー、コミュニティ、ビジネス
分散コンピューティング環境上の Webリンク収集システムの実装
Webネットワークにおける 研究者間の分析
参照共起分析の Webディレクトリへの適用
知能システム論 森下真一 講義日程 10/3, 10/10, 10/17, 10/24, 10/31 内容 Web グラフと検索エンジン
EpWWWサーバ 北海道大学 理学院 宇宙理学専攻 M1 古田裕規.
WWW (=World Wide Web)とは
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
Piggy Bank: Experience the Semantic Web Inside Your Web Browser
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
検索エンジンの使い方.
セマンティクスを利用した 図書検索システム
情報検索演習 第8回 パソコンを起動しておくこと 前から4列目までに着席すること 2005年11月30日 後期 水曜5限
PlanetLab における 効率的な近隣サーバ選択法
サーバ構成と運用 ここから私林がサーバ構成と運用について話します.
アクセスログ解析 専修大学 ネットワーク情報学部.
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
ホームページリニューアル時 社内ヒアリングシート
2004年度 サマースクール in 稚内 JavaによるWebアプリケーション入門
2003年度 データベース論 安藤 友晴.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
リモートホストの異常を検知するための GPUとの直接通信機構
Reported by Kan Matsuda
実行時情報に基づく OSカーネルのコンフィグ最小化
環境リスクマネジメントに関する 検索システム
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
The Web as a graph 末次 寛之 清水 伸明.
パスファインダーの作成 ※ をダウンロードして読んで下さい。
Internet広域分散協調サーチロボット の研究開発
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
パスファインダーの作成 ※ sakura. ne. jp/CJE121023
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
Webネットワークにおける 研究者間の分析
第二回 Javaの開発環境 04A2029           古賀慎也.
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
コーディングパターンの あいまい検索の提案と実装
Webアプリケーションと JSPの基本 ソフトウェア特論 第4回.
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
Microsoft SharePoint Online の Web サイトを カスタマイズする方法
売れるためのWEBサイト戦略.
自然言語処理2015 Natural Language Processing 2015
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
企業ファイナンス 2009年10月21日 実物投資の意志決定(2) 名古屋市立大学 佐々木 隆文.
関数の変更履歴と呼び出し関係に 基づいた開発履歴理解支援システム
神奈川県立川崎北高等学校 「情報A」 インターネットで検索しよう WWWと情報検索.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan, Sridhar Ragopalan, Andrew Tomkins Reported by Kan Matsuda

Development of a Scale Web Crawler NECの検索サービスNETPLAZAで用いられている検索サービスのwebロボット“Nexplorer”の製作、実験について 実際に検索サービスに利用し検証 2000年11月9日 副テーマ中間報告

INTRODUCTION 検索サービスの主な機能は次の三つから成る. 1.WWWのページを集める. 2.データベース内の集めたページを蓄え,管理する. 3.ユーザーが要求するページを探してくる. Web crawler:WWWのページを集めてくるエージェントシステム Webページは大量→素早い収集・最適化可能な基本構造が必要 Nexplorer:これらの要求を満たすWeb crawler 2000年11月9日 副テーマ中間報告

REQUIREMENTS FOR WEB CRAWLER 1ホスト100枚とすると 約4億3千万の ホスト 約430億のWebページ JPドメイン 約2億枚 Web crawlerの基本的な機能 HTMLからURLを見つける→それらのURLへ行ってドキュメントを得る Web crawlerの設計 ハードウェア:複数のCPUを用いる ソフトウェア:並列処理ができる構成にする Web crawler:検索サービスのためにページを集めてくる. Web crawlerの基本的な機能 l          HTMLからURLを見つける→それらのURLへ行ってドキュメントを得る,を繰り返す→時間がかかる l          1日に1億枚のページを集めてきても全て集めるには1ヶ月以上かかる Web crawlerの設計 l          ハードウェア:複数のCPUを用いる l          ソフトウェア:並列処理ができる構成にする l          その他:サーバにかかる負荷を軽減、不完全な応答が帰ってくること、ドキュメントそのものが不完全であることを考慮 l          情報は新しいほうが良いため更新する必要がある Web crawlerに求められるもののまとめ l          出来るだけ早くWWWページを集められる l          HTTPやHTMLの進化に対応でき、かつ不完全なドキュメントに対しロバストである l          巡回の戦略は構成、制御可能 l          サービスの要求に十分な効率を供給できる調整が出来る 2000年11月9日 副テーマ中間報告

Functional Requirements WWWページを出来るだけ早く集める 重要なサイトに優位性を加える 重要でないサイトの優位性を下げる コンテンツの種類によりページをフィルタリングする 巡回するサイトを選ぶ 予約語を含むページを除去する 深いディレクトリまたは特殊なものは無視する 2.2 Functional Requirements WWWページを集める基本的なアルゴリズム 1.          URLデータベースにあるページのURLを得る 2.          URLにあるHTTPのWebサーバにアクセスしてURLにあうドキュメントを集める 3.          アクセス状態をURLデータベースにURLの属性としてセットする 4.          ダウンロードしたドキュメントにHTTPのURLがあったなら抽出する 5.          抽出したURLをデータベースに追加する 6.          1から5のステップを繰り返す Web Crawが考慮すべき構成 l          URLデータベースはURLを蓄える l          データベースを管理するシステム l          Webサーバと対話する方法 l          HTMLを分析してURLを抽出する方法 サービスの観点からWeb Crawが考慮すべき構成 l          WWWページを出来るだけ早く集める l          重要なサイトに優位性を加える l          重要でないサイトの優位性を下げる l          コンテンツの種類によりページをフィルタリングする l          巡回するサイトを選ぶ l          予約語を含むページを除去する l          深いディレクトリまたは特殊なものは無視する 2000年11月9日 副テーマ中間報告

BULDING A SERCH SERVICE NexplorerをNETPLAZAで使用 CGIでキーワードを入力する JPドメインからWWWのページを集めてくる サーバを増やせば効率が良くなる goo等に負けないスピードを実現 2000年11月9日 副テーマ中間報告

CONCLUSION Nexplorerを作成 NETPLAZAで検索サービスとして利用し、検索サービスに十分な速さを実現している より小さな規模へ適用し、スケーラビリティを確かめたい より戦略的なクルーリングへの機能拡張 2000年11月9日 副テーマ中間報告

Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan, Sridhar Ragopalan, Andrew Tomkins

Overvew Web上に数千の有名ではっきり定義されたコミュニティが存在 あいまいに定義されたコミュニティをトローリングにより抽出 抽出する理由 ユーザに良い情報を供給するため Webの発達を社科学的な観点から研究可能 ターゲットを絞った広告を出すことができる。 2000年11月9日 副テーマ中間報告

Strongly-connected bipartite subgraphs and cores IBMとコンパックは相互リンクを張っていない 他のページでこの両方にリンクを張っているページがある 確かな価値判断ではないが、リンクの合計はページのクォリティを示す 関係の深いページどうしてはcoreを形成 2000年11月9日 副テーマ中間報告

Strongly-connected bipartite subgraphs and cores F C core 仮説:web上のランダムで十分大きくて濃度の濃いサブグラフはコアが確実にある 2000年11月9日 副テーマ中間報告

Data source and resource データは1年半以上前の若干古いもの HTMLデータのみ1テラバイト分 約2億ページ分のデータ(やや少ない) PⅡ300MHz、Linuxで2週間未満の実験 2000年11月9日 副テーマ中間報告

Trawling system ノードに入ってくる枝の数iと、出て行くノードの数jからcoreかどうかを判断 Yahooなどのサイトは排除する (2,0) (2,1) (3,3) (1,1) i:入ってくるの数 j:出て行く数 2000年11月9日 副テーマ中間報告

Finixhing it off 約13万5千のcoreが発見される (3.3)の場合で約7万5千のcoreが存在 2000年11月9日 副テーマ中間報告

Evaluation of communities 得られたcoreの中から無作為に400((3.3)、(3.5))のcoreを選ぶ 現在のweb上で同じcoreが存在するかを調査 400中130(約35%)のcoreが現存 2000年11月9日 副テーマ中間報告