Presentation is loading. Please wait.

Presentation is loading. Please wait.

11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu.

Similar presentations


Presentation on theme: "11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu."— Presentation transcript:

1 11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu

2 ロボット型検索エンジンの使 い方 目的のページの作成者はどんな単語を 使うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT 検索をする コアラ AND 動物 コアラ OR koala コアラ – ネット -ADSL

3 一度検索して見つからなかっ たら 同義語で検索する シソーラス検索 http://www.gengokk.co.jp/thesaurus/ 用語辞典 http://e-words.jp/ IT 用語辞典 http://e-words.jp/ 検索されたページを読んで使えそうな専門用 語を見つけ,その専門用語で検索する

4 goo で検索してみよう http://www.goo.ne.jp 画像,カテゴリー,タウンページ,ケータイ 検索オプションを使う いろいろな検索オプションを使う http://search.goo.ne.jp/advanced.jsp 教えて! goo みんなの疑問、みんなで解決! ブログの検索 キャッシュページを見てみる Web サーバーが一時的に利用できない場合や頻繁に書き 換えを行っている Web ページを見るときに便利

5 Google で検索してみよう http://www.google.co.jp I ’ m Feeling Lucky を使う 会社のホームページを見る 検索オプションを使う いろいろな検索オプションを使う 関連ページを検索する 検索結果の関連ページリンク キャッシュページを見てみる Web サーバーが一時的に利用できない場合や頻繁に書き 換えを行っている Web ページを見るときに便利 分野を絞って検索する その他 荷物検索,会社情報検索,株価検索,辞書検索,路線検 索

6 ロボット型検索エンジンの仕 組み 1. スパイダ(ロボット)と呼ばれる自動プログラムを 使って Web サイトのページをダウンロードする 2. インデクサと呼ばれる自動プログラムでページの可 視部分を抽出し,キーワード,タイトル,リンク, などの重要な情報を用いてページ解析する. 3. データベースに Web サイトの解析結果を追加し, ユーザが検索可能な状態にする.ランキングアルゴ リズムにより,検索結果の順位が決定される

7 スパイダ ウェブ上のリンクをたどって情報を収集する こと ウェブ(蜘蛛の巣)のリンク(糸)をたどっ て目的の情報(獲物)を捕らえる → スパ イダ(蜘蛛)

8 インデクサ 検索したいコンテンツをあらかじめ検 索しやすい形のファイルに変換するプ ログラム 各コンテンツを形態素解析技術を用い て単語を分解し,それらの単語をイン デックスファイルに記録する

9 形態素解析 (インデクサ) 形態素 = 意味を担う最小の言語要素 形態素解析 単語の出現形から原形を求める処理(英語など) solving → solve + ing (進行形) easier → easy + er (比較級) problems → problem + s (複数) 単語分割と語の活用(日本語など) 日本的 → 日本 + 的 言語モデル → 言語 + モデル 使い込む → 使う + 込む

10 形態素解析の手法 (インデクサ) 最長一致法 分割数最小法 例:畜産物価格安定法 畜産物|価格|安定|法

11 最長一致法 (インデクサ) 文字列の先頭から解析を始め,後続する可能 性がある単語が複数あるときは,最長の単語 を選択して先に進む ○ (8) 畜産物|価格|安定|法 × (4) 畜産 価 安

12 分割数最小法 (インデクサ) 入力文字列を構成する単語の総数が最 小になる解釈を優先する方法 例:言語学入門講座 ○ (3) 言語学|入門|講座 × (4) 言語|学|入門|講座 × (4) 言語学|入|門|講座

13 ランキングアルゴリズム Google の中身(ちょっとだ け) Google の検索結果の順位付け 如何にすれば自分の作ったページを高順位に表示 させられるか. Google は何を基準に検索結果を順位付けしている のか PageRank とその他のランキングアルゴリズ ム

14 キーワード(検索語)の埋め 込み方( Google に好かれるに は) キーワード : w が入力された時,検索結果の上 位に表示されるためには キーワード w を Web ページのタイトル内に使う イメージファイル名, ALT 属性, title 属性に使う 大きな字で表示する トップページからのリンクで使用する 別のサイトや内部サイトへのリンクテキストで使用する メジャーなサイトへのリンクで使用する などなど

15 キーワード(検索語)の埋め込 み方( Google に好かれるには) 続き last modified (最終更新日)ヘッダを使う HTML の構文誤りのない Web ページを作る 1 つのファイルのサイズを大きくしない( 20k バ イト以下) HTML ファイル中のテキストの比率を高くする などなど

16 PageRank 学術論文の重要度 他の研究論文から何度引用されているかによっ て評価できる Web ページの重要度 他の Web ページからのハイパーリンクの数で評 価できる

17 PageRank の式 Web ページ A の PageRank は Web ページ A にリンクしている 各ページの PageRank を,それぞれのページからの外向き リンク数で割った値の総和

18 PageRank の図 1 A B ページ B の方がページ A よりも重要なページ ハイパーリンク

19 PageRank の図 2 A B ページ B の方がページ A よりも重要なページ ハイパーリンク たくさんの 外部リンクを 持つページ

20 個人で手軽に使える検索システ ム Namazu URL: http://www.namazu.orghttp://www.namazu.org 自分の管理している Web サイト内の検 索 例: http://ir.cs.yamanashi.ac.jp/~ysuzuki

21 最後に インターネット検索での注意 Web に書いてあることを鵜呑みにしな い 検索結果をいくつか読んでみる できれば他のメディアでも確認する いろいろな検索サイトで検索を試して みる 検索サイトの「使い方」のページをよ く読む 検索方法が頻繁に改良されているので,た まには読み直す

22 授業資料 http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine.html 参考にした文献 インターネット 最強の検索術 関裕司著 リブロス刊 検索の鉄人 / 関裕司 http://www.shikencho.com/ GOOGLE HACKS オライリー・ジャパン SPIDERING HACKS オライリー・ジャパン

23 レポート ロボット型の検索エンジン( Google,goo など)を 使って検索してください. 検索して調べたいことを明確に書く 利用したキーワード,検索オプションを書く 目的のページの URL とその表示順位を書く 授業の前と後でインターネット検索についての考え 方に変化はありましたか.あればどのように変化し たか書いてください.なければ検索の方法について 書いてください. 授業の感想を書いてください(悪く書いても減点は しません)

24 レポート(提出期限,提出方 法) 提出期限 12 月 01 日 17:00 提出方法 Email ysuzuki@yamanashi.ac.jp 宛て ysuzuki@yamanashi.ac.jp Subject は人間とコンピュータ レポート レポート用紙 A3 号館 5 階 K514 号室の前のレポート入れ


Download ppt "11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu."

Similar presentations


Ads by Google