11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu.

Slides:



Advertisements
Similar presentations
11 月 17 日 インターネット検索の基礎 インターネット検索 最近の話題 宿題披露 興味を持っているものを検索してみ よう どんな時にインターネット検索するか 宿題 授業資料
Advertisements

1 共通科目 コンピュータ・リテラシ b 第 2 回 WWW における情報検索とブラウ ザ 担当: 遠藤 美純
1 通信教育学部 コンピュータ演習 WWW における情報検索とブラウザ 担当: 遠藤 美純
データベースと情報検索 情報検索(1) 検索エンジンを使ってみる 工学部担当 教員 岩村 雅一. 日程(情報検索:担当 岩村)  12/9 検索エンジンを使ってみる  12/16 メディア検索を使ってみる  12/25 ウェブアプリケーションを 使ってみる  1/9 検索エンジンを用いた演習.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
電子ジャーナルサービス Science Direct 演習と解説 茨城大学図書館 1. 本日の概要 Science Direct とは? Science Direct の利用方法 注意事項 検索演習 便利な機能 2.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
カーリルを利用した 書籍活用 / 蔵書管理システム 研究者: J0639 山中勇太 指導教員:越田高志.
1 WORD の起動法と終了法 ● WORD の起動法 (1) デスクトップの Microsoft Word アイ コンをダブルクリックする。 * (2) 「スタート」 ― 「すべてのプログラ ム」 ― 「 Microsoft Word 」と選ぶ。 (3) Word で作成された文書があるとき は、そのアイコンをダブルクリック.
雑誌記事 DB の使用方法. 8-3 MAGAZINEPLUS データベース 38) 概要 MAGAZINEPLUS ( NICHIGAI/WEB サービス) – 約 30,000 誌、 11,000,143 件( 2010/01/22.
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
最大エントロピーモデルに基づく形態素解析と辞書による影響
検索エンジン最適化.
ブラウザの基本操作 前のページに戻る ブラウザの左上にある 「戻る」ボタンで、自分がたどってきた一つ前のページに戻ることができます。
6年 国語 ガイドブックを作ろう 効果を考えて書こう.
IT講習会 MicrosoftWord(2007ver.)編 (Wed) Edited by KON
画像展示サイト“Fragments” 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン
情報処理基礎 2006年 6月 1日.
Excel による データベース入門 Ver /9.
ファイルやフォルダを検索する ①「スタート」→「検索」→「ファイルとフォルダ」とクリックする。
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
HTMLの記述と WWWにおける情報公開 遠藤
前回までの配布資料(Webにないもの):教室の後方
前回までの配布資料(Webにないもの):教室の後方
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
テキストマイニング, データマイニングと 社会活動のトレース
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
Webサイト制作の流れ CEC公開授業 ~テーマ決定からサイト公開まで~ 2007年11月20日 於:東京都立板橋有徳高校
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
検索サイトの話 情報社会と情報倫理 1/22/09.
検索エンジンの使い方.
HTTPプロトコルとJSP (1) データベース論 第3回.
情報検索演習 第8回 パソコンを起動しておくこと 前から4列目までに着席すること 2005年11月30日 後期 水曜5限
HTTPプロトコル J2EE I 第7回 /
ゆめクラブ藤沢 パソコン教室 テキスト (中級1:インターネット)
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
中間発表 アリの王国更新 金華山の写真整理 柏崎 奈々 中間発表を始めます。
基礎プログラミング演習 第1回.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
ホームページ作成・更新講座 夏のコンピュータ学習会 画像
HTTPとHTML 技術領域専攻 3回 中川 晃.
情報通信システム(13) plala. or 情報通信システム(13) 年7月24日 火曜日  午後4時10分~5時40分 NTT-TX Corp. 加藤 洋一.
チーム よせあつめ 検索エンジンについて.
文献の整理術 ―文献管理ソフトを使ってみよう―!
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
インターネット利用法実習 経営工学基礎演習a(第3週).
パスファインダーの作成 ※ をダウンロードして読んで下さい。
図書館員のためのインターネット ~ インターネットの基礎知識 ~
パスファインダーの作成 ※ sakura. ne. jp/CJE121023
一人暮らしの男性のための料理検索システムの設計
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
すべて読む Microsoft SharePoint ニュース
テキストマイニング, データマイニングと 社会活動のトレース
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
1. “Web of Science”とは 論文を検索する
東京工科大学 コンピュータサイエンス学部 亀田弘之
構造的類似性を持つ半構造化文書における頻度分析
Microsoft SharePoint Online の Web サイトを カスタマイズする方法
自然言語処理2015 Natural Language Processing 2015
情報検索(4) 検索エンジンを用いた演習 教員 岩村 雅一
自然言語処理2016 Natural Language Processing 2016
Presentation transcript:

11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu

ロボット型検索エンジンの使 い方 目的のページの作成者はどんな単語を 使うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT 検索をする コアラ AND 動物 コアラ OR koala コアラ – ネット -ADSL

一度検索して見つからなかっ たら 同義語で検索する シソーラス検索 用語辞典 IT 用語辞典 検索されたページを読んで使えそうな専門用 語を見つけ,その専門用語で検索する

goo で検索してみよう 画像,カテゴリー,タウンページ,ケータイ 検索オプションを使う いろいろな検索オプションを使う 教えて! goo みんなの疑問、みんなで解決! ブログの検索 キャッシュページを見てみる Web サーバーが一時的に利用できない場合や頻繁に書き 換えを行っている Web ページを見るときに便利

Google で検索してみよう I ’ m Feeling Lucky を使う 会社のホームページを見る 検索オプションを使う いろいろな検索オプションを使う 関連ページを検索する 検索結果の関連ページリンク キャッシュページを見てみる Web サーバーが一時的に利用できない場合や頻繁に書き 換えを行っている Web ページを見るときに便利 分野を絞って検索する その他 荷物検索,会社情報検索,株価検索,辞書検索,路線検 索

ロボット型検索エンジンの仕 組み 1. スパイダ(ロボット)と呼ばれる自動プログラムを 使って Web サイトのページをダウンロードする 2. インデクサと呼ばれる自動プログラムでページの可 視部分を抽出し,キーワード,タイトル,リンク, などの重要な情報を用いてページ解析する. 3. データベースに Web サイトの解析結果を追加し, ユーザが検索可能な状態にする.ランキングアルゴ リズムにより,検索結果の順位が決定される

スパイダ ウェブ上のリンクをたどって情報を収集する こと ウェブ(蜘蛛の巣)のリンク(糸)をたどっ て目的の情報(獲物)を捕らえる → スパ イダ(蜘蛛)

インデクサ 検索したいコンテンツをあらかじめ検 索しやすい形のファイルに変換するプ ログラム 各コンテンツを形態素解析技術を用い て単語を分解し,それらの単語をイン デックスファイルに記録する

形態素解析 (インデクサ) 形態素 = 意味を担う最小の言語要素 形態素解析 単語の出現形から原形を求める処理(英語など) solving → solve + ing (進行形) easier → easy + er (比較級) problems → problem + s (複数) 単語分割と語の活用(日本語など) 日本的 → 日本 + 的 言語モデル → 言語 + モデル 使い込む → 使う + 込む

形態素解析の手法 (インデクサ) 最長一致法 分割数最小法 例:畜産物価格安定法 畜産物|価格|安定|法

最長一致法 (インデクサ) 文字列の先頭から解析を始め,後続する可能 性がある単語が複数あるときは,最長の単語 を選択して先に進む ○ (8) 畜産物|価格|安定|法 × (4) 畜産 価 安

分割数最小法 (インデクサ) 入力文字列を構成する単語の総数が最 小になる解釈を優先する方法 例:言語学入門講座 ○ (3) 言語学|入門|講座 × (4) 言語|学|入門|講座 × (4) 言語学|入|門|講座

ランキングアルゴリズム Google の中身(ちょっとだ け) Google の検索結果の順位付け 如何にすれば自分の作ったページを高順位に表示 させられるか. Google は何を基準に検索結果を順位付けしている のか PageRank とその他のランキングアルゴリズ ム

キーワード(検索語)の埋め 込み方( Google に好かれるに は) キーワード : w が入力された時,検索結果の上 位に表示されるためには キーワード w を Web ページのタイトル内に使う イメージファイル名, ALT 属性, title 属性に使う 大きな字で表示する トップページからのリンクで使用する 別のサイトや内部サイトへのリンクテキストで使用する メジャーなサイトへのリンクで使用する などなど

キーワード(検索語)の埋め込 み方( Google に好かれるには) 続き last modified (最終更新日)ヘッダを使う HTML の構文誤りのない Web ページを作る 1 つのファイルのサイズを大きくしない( 20k バ イト以下) HTML ファイル中のテキストの比率を高くする などなど

PageRank 学術論文の重要度 他の研究論文から何度引用されているかによっ て評価できる Web ページの重要度 他の Web ページからのハイパーリンクの数で評 価できる

PageRank の式 Web ページ A の PageRank は Web ページ A にリンクしている 各ページの PageRank を,それぞれのページからの外向き リンク数で割った値の総和

PageRank の図 1 A B ページ B の方がページ A よりも重要なページ ハイパーリンク

PageRank の図 2 A B ページ B の方がページ A よりも重要なページ ハイパーリンク たくさんの 外部リンクを 持つページ

個人で手軽に使える検索システ ム Namazu URL: 自分の管理している Web サイト内の検 索 例:

最後に インターネット検索での注意 Web に書いてあることを鵜呑みにしな い 検索結果をいくつか読んでみる できれば他のメディアでも確認する いろいろな検索サイトで検索を試して みる 検索サイトの「使い方」のページをよ く読む 検索方法が頻繁に改良されているので,た まには読み直す

授業資料 参考にした文献 インターネット 最強の検索術 関裕司著 リブロス刊 検索の鉄人 / 関裕司 GOOGLE HACKS オライリー・ジャパン SPIDERING HACKS オライリー・ジャパン

レポート ロボット型の検索エンジン( Google,goo など)を 使って検索してください. 検索して調べたいことを明確に書く 利用したキーワード,検索オプションを書く 目的のページの URL とその表示順位を書く 授業の前と後でインターネット検索についての考え 方に変化はありましたか.あればどのように変化し たか書いてください.なければ検索の方法について 書いてください. 授業の感想を書いてください(悪く書いても減点は しません)

レポート(提出期限,提出方 法) 提出期限 12 月 01 日 17:00 提出方法 宛て Subject は人間とコンピュータ レポート レポート用紙 A3 号館 5 階 K514 号室の前のレポート入れ