PageRankの仕組 林晋.

Slides:



Advertisements
Similar presentations
データベースと情報検索 情報検索 ( 5 ) 検索エンジンの仕組み 教員 岩村 雅一. 日程(情報検索:担当 岩村)  12/9 検索エンジンを使ってみる  12/16 メディア検索を使ってみる  12/25 ウェブアプリケーションを 使ってみる  1/9 検索エンジンを用いた演習  1/20.
Advertisements

組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
模型を用いたジェットコターの 力学的原理の検討 06522 住友美香 06534 秦野夏希. 平成22年度 卒業研究発表 山田研究室 研究目的 ジェットコースターのコースは、どのような計算に 基づいて作られているのか、研究を通じて理解し、 計算を用いた模型製作を行う。
0章 数学基礎.
C G M 集合知 メディアコミュニケーション論Ⅲ 第9回.
Web2.0まとめ  ー 2.0 から 3.0へ メディアコミュニケーション論Ⅲ 第7回.
ド・プロニーの計算プロジェクト 林晋
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
検索エンジン最適化.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2015/07/02
Android と iPhone (仮題) 情報社会とコンピュータ 第13回
情報技術演習Ⅰ 人文学研究のための情報技術入門 2013/06/26
情報処理基礎 2006年 6月 1日.
ファイルやフォルダを検索する ①「スタート」→「検索」→「ファイルとフォルダ」とクリックする。
ホームページの作り方.
Googleの行方 ~検索のGoogleの新たな試み~
Bias2 - Variance - Noise 分解
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
早稲田大学 理工学術院 基幹理工学部 情報理工学科 後藤滋樹
オペレーティングシステムⅡ 第3回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.
CHAPTER1 UMLとオブジェクト指向の基本概念(2)
検索サイトの話 情報社会と情報倫理 1/22/09.
9 Microsoft Word(1).
経済データのダウンロードと グラフの作成 経済データ解析 2011年度.
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
形態素解析および係り受け解析・主語を判別
ONLINE植物アルバム 運営のサポート 情報数理専攻   D8691 根本亜由美 1.
最終課題 Webアプリケーション 〜ページのしおり機能〜
コンピュータ基礎実習上級 #10 絶対パスによる指定
発表者 2011/01/08 楽しい256バイトイントロの 世界 発表者 2011/01/08.
理論試験速報 理論問題部会長 鈴木 亨 先生 (筑波大学附属高等学校) にインタビュー.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
10 Microsoft Word(1) 10.1 Microsoft Word v.Xの概要 起動 終了
チーム よせあつめ 検索エンジンについて.
インタネットマーケティング グーグルの戦略
Googleのページランク 基本的な仕組は数学的 グラフの行列による表現 隣接行列(推移行列、遷移行列) 固有値と固有ベクトル W大学
データモデリング Webページの検索とランキング
第1部 第1篇 第1章 第3節 価値形態または交換価値(A2b)
教育工学を始めよう ~研究テーマの選び方から論文の書き方まで~ (第1章)
Webの世界へ飛びだそう! 情報の海で溺れないために
経済データのダウンロードと グラフの作成 経済データ解析 2009年度.
環境リスクマネジメントに関する 検索システム
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
The Web as a graph 末次 寛之 清水 伸明.
Internet広域分散協調サーチロボット の研究開発
レポート課題#1の考え方 2010年9月30日(10月1日追加版) 藤田 健.
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
北陸先端科学技術大学院大学 中田豊久,金井秀明,國藤進
実空間における関連本アウェアネス 支援システム
Webからの 人間関係ネットワークの抽出と 情報支援
基礎技術ー3 : Webページの標準規格について
ISO23950による分散検索の課題と その解決案に関する検討
Googleの マーケティング戦略 馬 橋琳.
構造的類似性を持つ半構造化文書における頻度分析
自然言語処理2015 Natural Language Processing 2015
学校名 チーム名 代表者 共同執筆者1 共同執筆者2 共同執筆者3 共同執筆者4.
ネット時代のセキュリティ3(暗号化) 2SK 情報機器工学.
情報処理Ⅱ 2007年12月3日(月) その1.
情報ネットワークと コミュニケーション 数学領域3回 山本・野地.
中等情報科教育Ⅱ 情報セキュリティの確保.
G l o o g e の戦略 MR9082 土屋 雅嵩.
自然言語処理2016 Natural Language Processing 2016
Presentation transcript:

PageRankの仕組 林晋

グーグル の検索方式 2 グーグル検索では、まず、WEB上の「すべて」のページに PageRank (ページランク)という数値を与える。 ただし,これは原理的な話. 実際には,検索者がどの国にいるか,などの情報も「ランク」の判定に使われている.だから,世界のどこで検索するか, どの言語のグーグル検索のページを使うかなどで順位が変わる. また、「すべてのページ」が実際にグーグルのデータセンター上にあるわけではない。「「すべて」の意味は大幅に割り引いて見たほうがよい。 キーワードが含まれる1万件くらいのページが見つかるのは珍しくないので,より重要な情報が,より前に表示されるかどうか,つまり,PageRank が「ユーザーの期待」にどれだけ合致しているかで検索エンジンの良し悪しが決まることに注意。 グーグル検索は,登場当初,この「ユーザーの期待への合致度」が,他の検索に比べて,遥かに良かったため、それがグーグルが現在のように成長した一つの原因と言われる。 3/20/2017

グーグル の PageRanking 創業者 Larry Page(ラリー・ページ), Sergey Brin (セルゲイ・ブリン)が, スタンフォード大学 CS (Computer Science Department) の大学院生だったころに書いた共著論文(1,2)のアイデアである)ペイジ・ランク PageRank の有効性を確かめるために始めたサービス. ペイジ・ランクの「ペイジ」は,頁ではなくて Page という姓から来ているということになっている. 最初は スタンフォード大のサーバーを使う実験的サービスだったが,会社を設立後,驚異的な成長をとげ,2004年には,同じ スタンフォード大 CS の学生が設立した Yahoo を時価総額で追い抜いた。 3/20/2017

Page の PageRank formula ページ x の PageRank を R(x)とする. ページ u にリンクを張っている page の集合を Buとし,そのメンバーとなる page v から伸びているリンクの総数を Nvとし,R(u)を次のように計算する(Page, Brin の論文より): 3/20/2017

PageRank の算出法 信用のおける重要なページには,大きな PageRank が与えられるようにしておき,すべての page u に大して,前頁の式が成り立つように,PageRank の計算を何度も繰り返す(正確にいうと,page の数だけの行と列を持つ行列の固有値計算というものを行う. ) これは大学初年級レベルの数学だが,行列の大きさが膨大な場合は難しいテクニックが必要となる. 3/20/2017

社会テクノロジー PageRank その結果は,それ以前のどの検索エンジンをも,はるかに凌ぐ的中率を示した. Google以前の検索エンジンは,あるページが検索キーワードに関係が強いか否かを,そのページの「構造」だけから判定していた.あるいは,Yahoo のように,人間(検索会社の社員)が,一つ一つのページをブラウズして分類,ランク付けしていた. 一方でペイジ・ランクを使う Google 検索は,WEB という現実社会の「像」から関係性を全自動で算出している.つまり,ひとつの文章(ページ)の構造でなく, その文章が置かれている社会的位置により,そのページが理解される.また,その計算が機械により行われ,それを分類しランク付けする「賢い社員」の知的労働を必要としなかった. つまり,ペイジ・ランクというテクノロジーは,人間の判断・社会の判断を反映する「社会テクノロジー」であり,それ故に「的中率」が飛躍的に向上した.そして,同時に学生2名だけでも,多数のコンピュータという「労働者」があれば運用できるものだった. 3/20/2017

リンクはだれが「生産」するのか? 「PageRankの原料」ともいえる,個々のリンクは誰が作ったのか?個々のリンクは,個人あるいは団体が,自らの目的のために作ったものでグーグル検索のために作られたわけではない. Googleはある意味では他人の家に土足で入ってきているようなもの.ページがその持ち主の意思で公開されていることから,この表現は強すぎるが,「道に面した商店に何も買わない人がやってきて商品の写真を写して出て行く,あるいは店頭にならべられた商品のリストを作って『ありがとう』も言わずにでていく」,この状況に例えることが出来る. 実際,グーグルが無名だった頃,「自分のページに勝手にグーグルのクローラがアクセスして情報を持っていった」という抗議がグーグルに寄せられていた時期があった。 現在は,逆で,グーグルがあるページを無視すれば「グーグル八分」としてグーグルが非難され、訴訟になりかねない。