大学院情報理工学研究科冬学期講義ウェブ工学

Slides:

Advertisements

Similar presentations

人間とコンピュータインターネット検索 11 月 10 日， 11 月 17 日， 11 月 24 日.

Advertisements

コンピュータリテラシインターネット検索（中級） ◆ ログインしウェブブラウザで遊んでいて下さい。 ◆ 本日は、授業開始後、他のクラスの実習のために、ファイルサーバへの負荷が急上昇することが予想されます。

北海道大学理学部地球科学科地球物理学惑星物理学研究室 B4 加藤学

ウェブの時空間解析技術東京大学生産技術研究所戦略情報融合国際研究センター成果概要ウェブアーカイブウェブ空間解析ウェブ時系列解析

Flashプレイヤーを使った動画配信情報工学科宮本崇也.

第２章ネットサービスとその仕組み（前編）［近代科学社刊］

情報処理基礎 2006年 6月 1日.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

秘密のリンク構造を持つグラフのリンク解析

分散コンピューティング環境上の Webリンク収集システムの実装

第１回ガイダンス工学部担当教員吉岡理文・岩村雅一

参照共起分析の Webディレクトリへの適用

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

Googleの行方～検索のGoogleの新たな試み～

検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine

オペレーティングシステムⅡ 第３回講師　松本章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.

Piggy Bank: Experience the Semantic Web Inside Your Web Browser

モバイルエージェントの応用概要モーバイルエージェントの応用分野 AgentSpaceシステムエージェント移動応用：ソフトウェアの配信

PageRankの仕組林晋.

図書館ツール発想日記～「東京大学内のサイトから関連学術用語のデータを得る」（仮称）システムへの寄り道思考経路～

HTTPプロトコルとJSP (1) データベース論第3回.

高性能コンピューティング論２第１回ガイダンス

HTTPプロトコル J2EE I 第7回 /

　データベースによる並列処理情報論理工学研究室　三宅健太.

To appear in ACM Transactions on Graphics (Proc. SIGGRAPH 2015)

課題4：無線ネットワーク大学院技術英語湯素華授業：6/12～6/26の3回、西9-115

朝日大学大学院経営学研究科奥山徹データベース論朝日大学大学院経営学研究科奥山　徹 2006/05/29 データベース論（７回目）

基幹理工学研究科情報理工学専攻後藤研究室修士１年魏元

基礎プログラミング演習第１回.

Java ソフトウェア部品検索システム SPARS-J のためのリポジトリ自動更新機能の実現

「串刺し」研究アプローチの例 e-learning e-space 動画配信システム SOI Smart Web ストリーミング技術

第8章 Web技術とセキュリティ　　岡本　好未.

2004年度サマースクール in 稚内 JavaによるWebアプリケーション入門

2003年度データベース論安藤　友晴.

IIR輪講復習 #4 Index construction

型付きアセンブリ言語を用いた安全なカーネル拡張

IIR輪講復習 #1 Boolean retrieval

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

副テーマ中間報告 Development of a Scale Web Crawler By hajime TAKANO and Nobuya KUBO Trawling the Web for emerging cyber-communities Ravi Kumar, Prabhakar Rabhavan,

WebGIS開発総合政策学部2年飯塚直 2004年10月14日厳網林研究会.

環境リスクマネジメントに関する検索システム

IIR輪講復習 #3 Dictionaries and tolerant retrieval (前半)

WWW上の効率的なハブ探索法の提案と実装

プリムのアルゴリズム重み付きグラフG=（V,E)の任意の点集合　U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝ｌを含むような最小木が存在する。

ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門　SEOの基本.

The Web as a graph 末次　寛之清水　伸明.

情報検索(６) メディア検索の仕組み教員岩村雅一

Internet広域分散協調サーチロボットの研究開発

Satoru Ishikawa Satoru Satake Denis Vazhenin

オープンソース開発支援のためのソースコード及びメールの履歴対応表示システム

端末およびサービス透過的な情報閲覧支援システムの構築

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

情報処理Ⅱ 第２回：２００３年１０月１４日（火）.

実空間における関連本アウェアネス支援システム

早稲田大学大学院基幹理工学研究科情報理工学専攻後藤研究室修士１年魏元

情報処理基礎Ａ・Ｂ坂口利裕横浜市立大学・商学部

Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化

Webアプリケーションと JSPの基本ソフトウェア特論第4回.

基礎技術ー３ : Ｗｅｂページの標準規格について

構造的類似性を持つ半構造化文書における頻度分析

設計情報の再利用を目的とした UML図の自動推薦ツール

卒業研究 JCSPを用いたプログラム開発　池部理奈.

自然言語処理2015 Natural Language Processing 2015

使用する CSS・JavaScrpitも指定

情報検索（４）検索エンジンを用いた演習教員岩村雅一

The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+,

Webページタイプによるクラスタリングを用いた検索支援システム

自然言語処理2016 Natural Language Processing 2016

Presentation transcript:

大学院情報理工学研究科冬学期講義ウェブ工学大学院情報理工学研究科　冬学期講義ウェブ工学 2007年10月1日生産技術研究所　豊田正史

講義の進め方 11回の講義を予定評価はレポート 2回くらい？出席は特に取らない講義中の発言・質問は考慮するかも

研究対象としてのウェブ膨大な文書集合膨大なグラフ構造動的サービス提供の場 200億を超えるテキスト・画像・動画(Yahoo!発表2005/8) 自然言語処理、情報検索、情報抽出、テキストマイニング膨大なグラフ構造文書＝ノード、リンク＝エッジの膨大かつ疎な有向グラフグラフ理論、複雑ネットワーク理論、情報検索への応用（PageRank, HITS) 動的持続的な成長(サーバ数は2000年から年平均36％増加米Netcraft社) 無数の著者が日々文書を生成する一方、消滅する文書も多い。時系列解析(成長率、内容の変化、構造の変化)、社会学サービス提供の場広告、通信販売、メール、ブログ、写真共有、企業間取引 XML、Webサービス、セキュリティ、経済学

検索エンジンのサイズ 2004年　GG: 8.1B, 2005年 Y!: 20B http://searchenginewatch.com

ウェブの継続的な成長傾向米Netcraft社の調査

人間が入力できるテキスト情報の量 WWW2007 Keynote by Prabhakar Raghavan (Yahoo 人間が入力できるテキスト情報の量 WWW2007 Keynote by Prabhakar Raghavan (Yahoo! Research) Bytes/minの間違い？

今この辺？

WWW2008 Refereed Paper Tracks Browsers and User Interfaces Data Mining (Highly competitive) Industrial Practice and Experience Internet Monetization (New!) Mobility Performance and Scalability Rich Media Search (Highly competitive) Security and Privacy Semantic / Data Web Social Networks and Web 2.0 (New!) Technology for Developing Regions Web Engineering WWW in China XML and Web Data

講義の内容検索エンジンの仕組みと技術グラフ・ネットワーク理論とウェブ最新のトピック紹介検索エンジンの構成法情報検索　(Information Retrieval) リンク解析　(PageRank, HITS) グラフ・ネットワーク理論とウェブウェブグラフの構造と特徴最新のトピック紹介

Why writing your own search engine is hard Anna Patterson (ACM QUEUE 2004) Internet Archiveで30B文書を検索するサーチエンジンを書いた人(1998) その後、Googleへ現在GoogleからスピンアウトしCuillという検索エンジンを開発中数人のチームがガレージで検索エンジンを作ろうとするとき何を考えなくてはいけないか

Super short overview of SE Crawlerがページを集める大量のディスクが要るインデックスを作成するどのページがどの語を持っているか普通Crawlerがページを貯めたディスクでローカルに行われるインデックスをまとめるたいてい1台でまかなえないほど大きくなるので複数のマシンに分散するランタイムシステムを作るユーザからの質問を受け付け検索結果をインデックスを持つマシンから得る質問に応じて検索結果をre-rankingする素早く応答しなくてはならない

リソースに関する注意 Bandwidth CPU Disk Storing Files Networking ディスクは安い。高くつくのはネットワーク帯域 CPU Crawlerは遅いCPUで良く、インデックス、サービスに速いCPUを使うクロックよりキャッシュサイズが重要 Disk SCSIはより速いがIDEはより大きく安い。IDEがベター今ならSAS,SATA IDEなら1台のマシンで1TBは余裕 SCSIの速さはユーザに分かるほどではない。並列化のほうが効果的耐故障性はSCSIのほうが上。 Storing Files 大きなファイルに多数の文書、ＵＲＬを詰め込むのが良い。ディスクのシークを大幅に減らせる。百万単位の文書を処理するのに１０KB程度の文書を読むたびシークするのは大変 Networking NFSは使うな。シビアな利用には対応していない

ソフトウェア Crawler Indexing Ranking Serving 最初はURLのリストをGETするだけのシンプルなもので取ったページのアウトリンクを抽出して重複を除き再取得を繰り返す。内容の重複は取った後で考える動的に重複を除くのは非常に難しい。 Indexing 最初は語を索引するだけのシンプルなものでよいあまりややこしいことはせずランキングを頑張る Ranking 最初からPageRankなど使わず、HTMLソースの特徴を使う PageRankには余計なコストがかかる Serving インデックスから結果を得て、結果を適合度でソートし、綺麗な結果ページとして出力する。簡単そうに見えて結構大変 2語以上のクエリではリストの積を高速に取る必要がある。リストを事前にソート。リストを得たらそれをランキングする。事前にランキングしておいてそれを用いてソートするのが一番早いが、結果が一般的なものになる。クエリに応じてランキングを変えるにはインデックスに少しデータを追加する必要がある

次回以降の予定 10月8日は休日 10月15日第2回 10月22日休講 10月15日　第2回 The Anatomy of a Search Engineを読む予定 Sergey Brin, Lawrence Page. 1999. http://infolab.stanford.edu/~backrub/google.html Googleの元論文 10月22日　休講