WWWとブラウザ.

Slides:



Advertisements
Similar presentations
Absolute Orientation. Absolute Orientation の問題 二つの座標系の間における剛体 (rigid body) 変換を復元す る問題である。 例えば: 2 台のステレオカメラから得られた3次元情報の間の関 係を推定する問題。 2 台のステレオカメラから得られた3次元情報の間の関.
Advertisements

データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
1 1)外部の図書館の利用のしかた ①国立国会図書館 ( 東京本館・・・千代田区永田町 ) 国会議事堂の近く。 ● 満 18 歳以上であれば、だれでも施設・資料を利用することができる。 ● インターネットによる複写サービスもある。 ●NDL-OPAC というシステムから、インターネットを使ってどこからでも.
コンピュータリテラシ インターネット検索 (中級) ◆ ログインしウェブブラウザで遊んでいて 下さい。 ◆ 本日は、授業開始後、他のクラスの実習 のために、ファイルサーバへの負荷が急 上昇することが予想されます。
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
到着時刻と燃料消費量を同時に最適化する船速・航路計画
インターネットの利用 教科書 P22~27,36~41 埼玉県立大宮武蔵野高等学校・情報科.
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
コーパス言語学実践 2006年度2学期 第10回.
情報処理基礎 2006年 6月 1日.
ファイルやフォルダを検索する ①「スタート」→「検索」→「ファイルとフォルダ」とクリックする。
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
秘密のリンク構造を持つグラフのリンク解析
参照共起分析の Webディレクトリへの適用
プログラミング演習Ⅱ 第12回 文字列とポインタ(1)
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
夢見る図書館情報システム The Cards Challenge !
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
WWW (=World Wide Web)とは
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
早稲田大学 理工学術院 基幹理工学部 情報理工学科 後藤滋樹
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
Paper from PVLDB vol.7 (To appear in VLDB 2014)
PageRankの仕組 林晋.
テキストの類似度計算
数 学 の か た ち 第3講 暗号を作ろう 早苗 雅史 数学とソフトウエア
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
IIR輪講復習 #1 Boolean retrieval
Googleのページランク 基本的な仕組は数学的 グラフの行列による表現 隣接行列(推移行列、遷移行列) 固有値と固有ベクトル W大学
データモデリング Webページの検索とランキング
数学のかたち 暗号を作ろう Masashi Sanae.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
環境リスクマネジメントに関する 検索システム
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
The Web as a graph 末次 寛之 清水 伸明.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
インターネット利用法実習 経営工学基礎演習a(第3週).
知識情報演習Ⅲ(後半第3回) 辻 慶太
知識情報演習Ⅲ(後半第2回) 辻 慶太
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
知識情報演習Ⅲ(後半第3回) 辻 慶太
実空間における関連本アウェアネス 支援システム
コンピュータにログイン 第1章 コンピュータにログイン 啓林館 情報A最新版 (p.6-13)
コーディングパターンの あいまい検索の提案と実装
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
Webからの 人間関係ネットワークの抽出と 情報支援
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
構造的類似性を持つ半構造化文書における頻度分析
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
Max Cut and the Smallest Eigenvalue 論文紹介
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
自然言語処理2015 Natural Language Processing 2015
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
テキストデータベース.
コンパイラ 2012年10月11日
自然言語処理2016 Natural Language Processing 2016
Presentation transcript:

WWWとブラウザ

WWWとは WWW:World Wide Web:インターネット上にシームレスに張り巡らされたハイパーテキストのネットワーク ハイパーテキスト:文書の中に,他の文書を指し示すようなリンクを持った文書 URL:URL(Uniform Resource Locator)といって,世界中にあるウェブページを一意に特定する住所 リンク:WWW でウェブページに他のウェブページを結び付ける情報

ブラウザ Safariの使い方はここだが、もはやみんな使っているので、詳細を知りたい人は読んでみて。 ブックマーク:ウェブブラウザなどにおいて,よく訪れる場所を,あとで簡単にそこの場所に戻ってこられるように登録したもの 表示が文字化けして乱れたら、文字コードを適当に選択しなおす。

Googleの検索 おなじみのGoogleにおける検索のヒント GoogleのHPにおける 検索オプション  表示設定  言語ツール を開いてみよう。

その他の検索エンジン Yahoo!:ディレクトリー型(一種に情報ポータル:いろいろな情報源への玄関のこと) AltaVista,Goo などなど(これらにアクセスしてみるにはどうしたらよいか?) こういった検索エンジンの仕掛けについて考えてみよう。 これらの検索エンジンはどうやって、WWW上のページを集めてくるのだろうか? 集めてきたページをどうやって検索できるようにしているのだろうか? どのような順番で表示しているのだろうか? 以下のスライドはこの問題の答えを記しているが、少々難しいので、根性の無い方はここで引き返してください。 簡単な問題をやってみしょう。ここ

サーチエンジンを使うってどういう要求なのか? ユーザがある問題を解決するために、現有の知識だけでは不十分であると感じている状態が情報要求(information need) な状態。 直感的要求(visceral need): 要求を認識しているが言語化できない状態 意識された要求(conscious need): あいまいな、あるいはまとまりのない表現でしか言語化できない状態 形式化された要求(formalized need): 具体的な言語表現 調整済み要求(compromised need): 問題解決に必要な情報源が同定できるくらいに具体化された要求

情報要求 ユーザがある問題を解決するために、現有の知識だけでは不十分であると感じている状態が情報要求(information need) な状態。 広義の情報検索:ユーザの持つ問題を解決できる情報を見つけ出す事。問題はユーザが与える。 狭義の情報検索:ユーザの検索質問に適合する文書を文書集合中から見つけ出す事 情報の解釈をユーザが行なう= 情報検索 情報の解釈をシステムが行なう= 人工知能 データベースの場合、ユーザはデータベースの構造、内容まで知った上で定型的な検索質問を行なう。つまり、文書集合を対象とする情報検索よりもさらにユーザは情報内容に通じていなければならない。実際、ユーザにとっては大変な負担であり、データベース検索の専門家が必要になったり、典型的な質問例を利用したりすることになる。

検索システムおよび インデクシング 検索エンジンの仕掛け

情報集め:crawling Googleなどの検索エンジンは世界中のHPを機械的に集めてくる。 2週間に1回世界を回る URLを辿ってHPを見つける、つまり皆さんが行っている検索と同じことを機械が組織的に行っている。具体的には 多数の起点のHPを見る。 次にそのページからリンクされているHPを集めて、 またそのHPからリンクされているHPを集めて …….

検索システムの構造:crawlしたHPからこのデータベースを作る Posting file 検索エンジン: Qに一致する Webページへの ポインタを探す URL1 URL2 URL3 : URL1 質問:Q URL2 URL3 所在 URL HP本体 あるいは snippet

転置インデックス Web全体 ポスティングファイル インデックスターム ヒット 件数 ポインタ 科学 2 研究費 1 申請 3 URL

検索システムの構造 検索対象の文書各々は、それに現れる複数の語( 以下「ターム(term) 」と呼ぶ) によって特徴付けられる。タームによる文書の特徴付けをインデクシング(indexing) という。 利用者は自分が欲しい文献を特定する記述を質問Q として検索システムに与える。質問は、1 個以上のキーワード、あるいは自然言語文で記述される 検索エンジンは、Q を解釈して、それに適合する文書を検索する。適合する文書は一般的には複数存在する。したがって、検索結果は、ポスティングファイルへのポインタの集合である。ポスティングファイルは、URLの集合。 利用者には検索結果として検索されたURL などのアドレスが返される。多くの場合、文献名には文献のURL へアクセスできるリンクが張ってあり、クリックすればURL にアクセスして文献が表示できる。

ターム と 検索 統制ターム: 予め決められたタームだけを使う。タームの質は統制により維持されるが、利用者が統制タームしか質問に使えない。 ターム と 検索 統制ターム: 予め決められたタームだけを使う。タームの質は統制により維持されるが、利用者が統制タームしか質問に使えない。 自由ターム: 任意のタームを質問に使える。後に述べる全文検索では文書中のタームを網羅するので、自由タームになる 完全一致検索(ブーリアン検索) 最良優先検索(ベクトル空間法など)

ブーリアン検索 質問は論理式。例えば、Q= 科学or( 研究費and 申請) 転置ファイルを検索して、タームt に対応する文書の集合D(t) が得られるとしよう。すると、質問の論理式(1) によって検索した結果は次のようになる。 D( 科学) or (D( 研究費) and D( 申請)) 質問論理式を作ることが素人には難しい。 検索結果の文書数が多過ぎたり、あるいは0 だったりすると、論理式を調整して適当な大きさの結果集合にするのだが、この調整が非常に難しい。

ベクトル空間法 最良優先検索 タームの重み付けと類似度

各タームを次元にし、質問と文書をベクトルで表現するベクトル空間 ターム:知識 質問q:「人工知能 と知識の関係について の論文」 人工知能=1.0 知識=1.0 論理プログラム=0 文書D:「第5世代の失敗」 ターム:知識=0.7     :人工知能=0     :論理プログラム       =2.5 1.0 0.7 Dとqのなす角=類似度 1.0 2.5 ターム:人工知能 ターム:論理プログラム

タームの重み その1ターム頻度 ターム頻度(Term Frequency: tf ) タームの重み その1ターム頻度 ターム頻度(Term Frequency: tf ) freq(i; j) = 文書Dj におけるタームt i の出現頻度。 変形版tf

タームの重み その2 文書頻度 文書頻度 Document frequency ただし、Dfreq(i)はタームtiが出現する文書数 タームの重み その2 文書頻度 文書頻度 Document frequency ただし、Dfreq(i)はタームtiが出現する文書数 実際はその逆数      を使う 文書総数Nによる正規化

タームの重み  その3 tf ·idf 文書Djに現れるタームtiの重みwijは、Djには数多く現れ、他の文書にはあまり現れないという性質をもつべき。つまり、文書Djをよく特徴つけることが大切。そこで、前記のtfとidfをかけたものがよい。つまり、 tf ·idf

文書ベクトルと質問ベクトルとそれらの類似度 その1 文書ベクトルと質問ベクトルとそれらの類似度 その1 このようにしてタームtiの重みが決まったので、文書Djのベクトルは、各タームを次元に割り当てた多次元空間におけるベクトルとして表現できる。つまり、 一方質問qもタームtiを含めば1、含まなければ0という値にしてベクトルで表現できる。つまり ただし、mは文書集合における全ての異なりターム数

文書ベクトルと質問ベクトルとそれらの類似度 その2 文書ベクトルと質問ベクトルとそれらの類似度 その2 さて、情報検索とは、質問qに対して類似度の高い文書Djを探すことなので、類似度simを以下に定義する。これは、ベクトル空間におけるqとDjのなす角θが0に近いほど類似度が高いと考える方法。  sim の大きい順に検索結果をに並べて質問者に提示する。

ページ間リンクを利用する重みつけ Webのホームページはリンクが張られている。これは図書の引用索引に似ている。 基本原理:多くの良質なページからリンクされているページは、 良質なページである この原理によるアルゴリズムとして有名なのが GoogleのPageRank algorithm

Webページのランキング Webページ検索の特異性 文書DBからの検索の場合、使える情報は文書中のテキスト、単語 tf×idfによるベクトル空間の類似度ではない重み付けはできないか? Webページの検索の場合、テキスト、単語に加え、リンク情報が使える リンクは(テキストや単語と異なり)、Web(=データベース)の大域的構造 リンクを利用する検索結果のランキングについて説明する。代表的なPageRankについて説明する。

PageRank algorithm のアイデア 多くの良質なページからリンクされているページは、 やはり良質なページである 利用者がページをリンクをたどってサーフする状況を模擬する。(良いページには沢山の利用者がいると考えればよい)  ページの重みが決められている リンク元ページからの流入する重み総和がそのページの重み リンク先へ流入する重みは、そのページの重みをリンク先の本数で割ったもの

ページ重みの概念図 10 10+5=15 30 10 5 10 10 10 5

ところが問題は あるページPiの重みはPiへのリンク元のページの重みが確定しないと計算できない。  各ページの重みを要素とし、全ページ数の次元を持つベクトル R を考え、このベクトルを数学的に求めることにする

ページ重みの計算法 接続行列A=(aij)で表現 ページのベクトル R は以下の式を満足する R=cAR つまり ここからしばらくは難しいのでスキップ 接続行列A=(aij)で表現 if ページiからページjにリンク then aij=1/Ni (Niはiからでるリンク数)  otherwise aij=0 ページのベクトル R は以下の式を満足する R=cAR つまり

しかし、その1 2つのページの間だけでループしている状態に他からのリンクがあり、そこに重みがどんどん吸収されてしまう場合 ページがいくつかのグループにまとまり、グループ間にはリンクがない このような場合には、全ページにわたっての重みが均等に行き渡らない。 ある割合(15%)で、ランダムにページを探したと仮定 Aに全要素が一定値の行列を加算して計算 R=(cA+(1-c)E)R Eは全要素が1の行列、c=0.85としている

しかし、その2 流出すれだけで、流入する全くリンクのないページとは 勝手に他人にリンクを張っているだけの権威のないページ  無視する 勝手に他人にリンクを張っているだけの権威のないページ  無視する 機械的に張ったリンクの問題 PageRankのアイデアの基本は、人間がWebページを評価しリンクを張った状況、すなわち人間の判断を利用しようとしているので、機械が張ったリンクは悪影響を与える

ページベクトルの計算: R=(cA+(1-c)E)R これはベクトルの固有値問題で Rは固有ベクトル。これを以下の繰り返し計算で解く。 Eは全要素が1の行列、c=0.85としてみた これはベクトルの固有値問題で Rは固有ベクトル。これを以下の繰り返し計算で解く。 R(0)適当な初期値 R(i+1) (cA+(1-c)E) R(i) D||R(i)||ー||R(i+1)|| R(i+1)R(i+1)+dE δ ||R(i+1)ーR(i)|| if δ>ε then goto 2 なお ||x||はベクトルの全要素2乗の和の√

計算例 簡単な例で繰り返し計算すると(ε=0.001) Rは と確率になるように正規化 1/20.18 a: 0.365 b:0.204 1/20.102 10.321 1/2 0.102 c:0.321 d:0.110

考察 a,b,c,d ページともほぼ流れ込むリンクの重みに近い リンク重みとページ重みのズレは、0.15の確率でランダムにページを移動する分 良いページcからリンクされているaは重みが大きい 多くのページからリンクされているcも重みが大きい あまりたいしたことのないページbだけからリンクされているdは重みが小さい 以上、ほぼ我々の意図したページの重みになっている。

数値計算の問題 これまで述べてきたページ重みの繰り返し計算はうまく収束するのか、十分早いのか? Googleの10億ページでは100億のリンクがあるので、まっとうに線形代数の計算をしていたのでは無理。 数値計算法ではかなり工夫をしているはず。企業秘密らしく公開されていない Googleのマシンルームの様子からみると、 PCクラスタによる並列計算 疎な行列を適当に分解すればまとまったページ群を独立に計算できるかも

収束の問題(以下の論文の数値例グラフ) Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 1998 1回前との誤差 107 106 105 0 15 30 45 繰り返し回数 リンク数 161,000,000 322,000,0000

情報検索システムの評価法 評価法 再現率、適合率 F値など 社会科学における調査でも重要な考え方ですぞ!

一般的な検索結果の状態 質問qで結果のHP集合が得られた。しかし、結果の中には間違いもあるし、得られなかったHPの中にも正解がありうる。 文書集合全体 質問qに適合している HP 質問qで検索されたHP fp fn tp tn

検索エンジンの性能評価 再現率 適合率あるいは精度

再現率 vs 適合率 よく使う評価の表現法 1.0 適合率 再現率100%の自明な検索システム?? 0.0 0 0.5 1.0 再現率

再現率 vs 適合率に関連した尺度 Break even point 再現率と適合率が一致する点 再現率 vs 適合率に関連した尺度 Break even point   再現率と適合率が一致する点 11点平均適合率 再現率=0.0 , 0.1, 0.2, ….. 0.9, 1.0 の11点における適合率の平均値 F値  ただし、bは適合率が再現率よりどれだけ重視されているかを示すパラメタ― b=1がよく使われる。

順位つき検索結果の評価 ブーリアン検索では検索結果は全て同等 ベクトル空間法やPageRankでは検索結果が質問に適合した順番に並ぶ。(表示も適合順) この場合の評価法について

Recall , Precision 質問qに適合する結果(以下、正解、という)の数: |Dq | 検索エンジンの順位つけられた結果:  (d1…….dn) di が質問qへの正解なら ri=1、 そうでなければ ri=0   とする。すると、 第k順位まで拾ったときの

検索した HP 質問に一致するHP ○ 検索エンジンが ここまで拾った

平均適合率:average precision 例: 順位 正解か 1 〇 2 3 4 5 6

平均逆順位:Mean Reciprocal Rank(MRR) 例 順位 正解か 1 〇 2 3 4 5 6

WWWと情報検索の課題

計算機をフランス語、中国語で何というか? ミシシッピー川のスペルを調べよ。(Kiwiを使う手もあり) アーカンソウ州のスペルを調べよ。 日本で1番目から5番目までの高い山は? 世界で1番目から5番目までの高い山は? 計算機をフランス語、中国語で何というか? ミシシッピー川のスペルを調べよ。(Kiwiを使う手もあり) アーカンソウ州のスペルを調べよ。 アーノルドシュワルツネガーのスペルは? 最近、社長が交代した企業名と新旧の社長名をリストアップせよ。 きほん3