大学院情報理工学研究科 冬学期講義 ウェブ工学

Slides:



Advertisements
Similar presentations
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
Advertisements

コンピュータリテラシ インターネット検索 (中級) ◆ ログインしウェブブラウザで遊んでいて 下さい。 ◆ 本日は、授業開始後、他のクラスの実習 のために、ファイルサーバへの負荷が急 上昇することが予想されます。
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
Flashプレイヤーを使った動画配信 情報工学科 宮本 崇也.
第2章 ネットサービスとその仕組み(前編) [近代科学社刊]
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
秘密のリンク構造を持つグラフのリンク解析
分散コンピューティング環境上の Webリンク収集システムの実装
第1回 ガイダンス 工学部担当 教員 吉岡 理文 ・ 岩村 雅一
参照共起分析の Webディレクトリへの適用
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
Googleの行方 ~検索のGoogleの新たな試み~
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
オペレーティングシステムⅡ 第3回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.
Piggy Bank: Experience the Semantic Web Inside Your Web Browser
モバイルエージェントの応用 概要 モーバイルエージェントの応用分野 AgentSpaceシステム エージェント移動 応用:ソフトウェアの配信
PageRankの仕組 林晋.
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
HTTPプロトコルとJSP (1) データベース論 第3回.
高性能コンピューティング論2 第1回 ガイダンス
HTTPプロトコル J2EE I 第7回 /
 データベースによる並列処理 情報論理工学研究室  三宅健太.
To appear in ACM Transactions on Graphics (Proc. SIGGRAPH 2015)
課題4:無線ネットワーク 大学院技術英語 湯 素華 授業:6/12~6/26の3回、西9-115
朝日大学大学院 経営学研究科 奥山 徹 データベース論 朝日大学大学院 経営学研究科 奥山 徹 2006/05/29 データベース論(7回目)
基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
基礎プログラミング演習 第1回.
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
「串刺し」研究アプローチの例 e-learning e-space 動画配信 システム SOI Smart Web ストリーミング技術
第8章 Web技術とセキュリティ   岡本 好未.
2004年度 サマースクール in 稚内 JavaによるWebアプリケーション入門
2003年度 データベース論 安藤 友晴.
IIR輪講復習 #4 Index construction
型付きアセンブリ言語を用いた安全なカーネル拡張
IIR輪講復習 #1 Boolean retrieval
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan,
WebGIS開発 総合政策学部2年 飯塚直 2004年10月14日 厳網林研究会.
環境リスクマネジメントに関する 検索システム
IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)
WWW上の効率的な ハブ探索法の提案と実装
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
The Web as a graph 末次 寛之 清水 伸明.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
Internet広域分散協調サーチロボット の研究開発
Satoru Ishikawa Satoru Satake Denis Vazhenin
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
端末およびサービス透過的な 情報閲覧支援システムの構築
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
情報処理Ⅱ 第2回:2003年10月14日(火).
実空間における関連本アウェアネス 支援システム
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
情報処理基礎A・B 坂口利裕 横浜市立大学・商学部
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
Webアプリケーションと JSPの基本 ソフトウェア特論 第4回.
基礎技術ー3 : Webページの標準規格について
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
卒業研究 JCSPを用いたプログラム開発  池部理奈.
自然言語処理2015 Natural Language Processing 2015
使用する CSS・JavaScrpitも指定
情報検索(4) 検索エンジンを用いた演習 教員 岩村 雅一
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
Presentation transcript:

大学院情報理工学研究科 冬学期講義 ウェブ工学 大学院情報理工学研究科 冬学期講義 ウェブ工学 2007年10月1日 生産技術研究所 豊田正史

講義の進め方 11回の講義を予定 評価はレポート 2回くらい? 出席は特に取らない 講義中の発言・質問は考慮するかも

研究対象としてのウェブ 膨大な文書集合 膨大なグラフ構造 動的 サービス提供の場 200億を超えるテキスト・画像・動画(Yahoo!発表2005/8) 自然言語処理、情報検索、情報抽出、テキストマイニング 膨大なグラフ構造 文書=ノード、リンク=エッジの膨大かつ疎な有向グラフ グラフ理論、複雑ネットワーク理論、情報検索への応用(PageRank, HITS) 動的 持続的な成長(サーバ数は2000年から年平均36%増加 米Netcraft社) 無数の著者が日々文書を生成する一方、消滅する文書も多い。 時系列解析(成長率、内容の変化、構造の変化)、社会学 サービス提供の場 広告、通信販売、メール、ブログ、写真共有、企業間取引 XML、Webサービス、セキュリティ、経済学

検索エンジンのサイズ 2004年 GG: 8.1B, 2005年 Y!: 20B http://searchenginewatch.com

ウェブの継続的な成長傾向 米Netcraft社の調査

人間が入力できるテキスト情報の量 WWW2007 Keynote by Prabhakar Raghavan (Yahoo 人間が入力できるテキスト情報の量 WWW2007 Keynote by Prabhakar Raghavan (Yahoo! Research) Bytes/minの間違い?

今この辺?

WWW2008 Refereed Paper Tracks Browsers and User Interfaces Data Mining (Highly competitive) Industrial Practice and Experience Internet Monetization (New!) Mobility Performance and Scalability Rich Media Search (Highly competitive) Security and Privacy Semantic / Data Web Social Networks and Web 2.0 (New!) Technology for Developing Regions Web Engineering WWW in China XML and Web Data

講義の内容 検索エンジンの仕組みと技術 グラフ・ネットワーク理論とウェブ 最新のトピック紹介 検索エンジンの構成法 情報検索 (Information Retrieval) リンク解析 (PageRank, HITS) グラフ・ネットワーク理論とウェブ ウェブグラフの構造と特徴 最新のトピック紹介

Why writing your own search engine is hard Anna Patterson (ACM QUEUE 2004) Internet Archiveで30B文書を検索するサーチエンジンを書いた人(1998) その後、Googleへ 現在GoogleからスピンアウトしCuillという検索エンジンを開発中 数人のチームがガレージで検索エンジンを作ろうとするとき何を考えなくてはいけないか

Super short overview of SE Crawlerがページを集める 大量のディスクが要る インデックスを作成する どのページがどの語を持っているか 普通Crawlerがページを貯めたディスクでローカルに行われる インデックスをまとめる たいてい1台でまかなえないほど大きくなるので複数のマシンに分散する ランタイムシステムを作る ユーザからの質問を受け付け 検索結果をインデックスを持つマシンから得る 質問に応じて検索結果をre-rankingする 素早く応答しなくてはならない

リソースに関する注意 Bandwidth CPU Disk Storing Files Networking ディスクは安い。高くつくのはネットワーク帯域 CPU Crawlerは遅いCPUで良く、インデックス、サービスに速いCPUを使う クロックよりキャッシュサイズが重要 Disk SCSIはより速いがIDEはより大きく安い。IDEがベター 今ならSAS,SATA IDEなら1台のマシンで1TBは余裕 SCSIの速さはユーザに分かるほどではない。並列化のほうが効果的 耐故障性はSCSIのほうが上。 Storing Files 大きなファイルに多数の文書、URLを詰め込むのが良い。ディスクのシークを大幅に減らせる。 百万単位の文書を処理するのに10KB程度の文書を読むたびシークするのは大変 Networking NFSは使うな。シビアな利用には対応していない

ソフトウェア Crawler Indexing Ranking Serving 最初はURLのリストをGETするだけのシンプルなもので 取ったページのアウトリンクを抽出して重複を除き再取得を繰り返す。内容の重複は取った後で考える 動的に重複を除くのは非常に難しい。 Indexing 最初は語を索引するだけのシンプルなものでよい あまりややこしいことはせずランキングを頑張る Ranking 最初からPageRankなど使わず、HTMLソースの特徴を使う PageRankには余計なコストがかかる Serving インデックスから結果を得て、結果を適合度でソートし、綺麗な結果ページとして出力する。簡単そうに見えて結構大変 2語以上のクエリではリストの積を高速に取る必要がある。リストを事前にソート。 リストを得たらそれをランキングする。事前にランキングしておいてそれを用いてソートするのが一番早いが、結果が一般的なものになる。クエリに応じてランキングを変えるにはインデックスに少しデータを追加する必要がある

次回以降の予定 10月8日は休日 10月15日 第2回 10月22日 休講 10月15日 第2回 The Anatomy of a Search Engineを読む予定 Sergey Brin, Lawrence Page. 1999. http://infolab.stanford.edu/~backrub/google.html Googleの元論文 10月22日 休講