環境リスクマネジメントに関する 検索システム

Slides:



Advertisements
Similar presentations
11 月 24 日 インターネット検索の応用 ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu.
Advertisements

11 月 17 日 インターネット検索の基礎 インターネット検索 最近の話題 宿題披露 興味を持っているものを検索してみ よう どんな時にインターネット検索するか 宿題 授業資料
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
JSP を利用した 書店検索サイトの構築 佐々木研究室 03k1012 川村禎恵. 内容  背景  目的  サイトの説明  デモンストレーション  今後の課題.
1 安全性の高いセッション管理方 式 の Servlet への導入 東京工業大学 理学部 千葉研究室所属 99-2270-6 松沼 正浩.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
OWL-Sを用いたWebアプリケーションの検査と生成
北海道大学理学部地球科学科地球物理学 惑星物理学研究室 B4 加藤 学
検索エンジン最適化.
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
JavaによるCAI学習ソフトウェアの開発
前回までの配布資料(Webにないもの):教室の後方
前回までの配布資料(Webにないもの):教室の後方
KeyGraphを活用した 食品安全リスクの 早期警告支援
卒業論文のタイトルをここに (発表時間は5分です。 PPTスライドは10枚程度にまとめる事)
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
Webサイト運営 09fi118 橋倉伶奈 09fi131 本間昂 09fi137 三上早紀.
F5 を押すか、または [スライド ショー] > [最初から] をクリックして、コースを開始してください。
オペレーティングシステムⅡ 第3回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.
研究室入退室システムの評価 学校に来なくても卒論は進むのか?
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
検索サイトの話 情報社会と情報倫理 1/22/09.
検索エンジンの使い方.
近畿大学理工学部情報学科3年 自然言語処理研究室 小野 実
セマンティクスを利用した 図書検索システム
EBSCOhost 詳細検索 チュートリアル support.ebsco.com.
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
1DS05196G 豊田 真大 1DS05200R 橋元 史記 1DS05211K 李 子真 指導教員・・・角准教授
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
平成22年6月15日 図書系職員のための アプリケーション開発講習会
管理画面操作マニュアル <サイト管理(1)> 基本設定 第9版 改訂 株式会社アクア 1.
チーム よせあつめ 検索エンジンについて.
インタネットマーケティング グーグルの戦略
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
Yahoo! JAPANと広告の関係 大東文化大学 7班 鈴木  惇 瀬戸 祥雄 長嶺 麻乃.
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
売れるためのWEBサイト構築.
The Web as a graph 末次 寛之 清水 伸明.
売れるためのWEBサイト構築.
一人暮らしの男性のための料理検索システムの設計
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
付属書Ⅰ.7 予備危険源分析 (PHA).
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
実空間における関連本アウェアネス 支援システム
御中 ~ WEBサイトアクセス解析レポート.
コーディングパターンの あいまい検索の提案と実装
Googleの マーケティング戦略 馬 橋琳.
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
地域生活支援システムの開発 越田研究室 j0431 野津洋二.
第4回 プログラム作成,情報検索 伊藤 高廣 計算機リテラシーM 第4回 プログラム作成,情報検索 伊藤 高廣
Microsoft SharePoint Online の Web サイトを カスタマイズする方法
第14回放送授業.
自然言語処理2015 Natural Language Processing 2015
Googleマップを活用した 生物調査データベースの構築
ソフトウェア理解支援を目的とした 辞書の作成法
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
地理情報コンテンツ・データベースコンテンツ新規作成
代表申請社名:〇〇 実施体制:〇〇〇/〇〇〇/…
Presentation transcript:

環境リスクマネジメントに関する 検索システム 前田研究室 4年 石垣 泰 環境リスクマネジメントに関する検索システム。前田研究室。石垣泰が発表します。

発表の流れ 1.背景と目的 2.本検索システムの概要 3.結果と考察 4.結論 はじめに発表の流れを示します。 「背景と目的」「本検索システムの概要」「結果と考察」「結論」の順番になっています。

ロボット型検索エンジンの検索キーワード入力フォーム 既存の検索エンジンの種類 ロボット型検索エンジンの検索キーワード入力フォーム ディレクトリ型検索エンジン ロボット型検索エンジン 背景と目的 既存の検索エンジンにはロボット型検索エンジンとディレクトリ型検索エンジンが存在します。 ロボット型検索エンジンとはクローラー・スパイダーなどといわれるロボットがWeb上を自動的に巡回してWebページを収集し、データベースを作成します。そして、ユーザーが検索キーワードを検索フォームに入力すると検索キーワードを含むHPを紹介します。 Yahoo! JAPAN http://www.yahoo.co.jp/

代表的なスコアリング手法 キーワード出現頻度 タグごとの重み付け キーワードの近接度 出現位置 クリック人気 リンクポピュラリティ 検索エンジンは検索キーワードに対して、適切なページを検索結果の先頭に表示するためにランキングを行います。このランキングを行うために、検索結果に重み付けを行う処理をスコアリングと呼びます。スコアリングの代表的手法としては、 “キーワード出現頻度”、 “タグによる重み付け”などがある。 ( “キーワードの近接度”、重要な概念はページや節の先頭付近に存在することが多いという考えに基づいた“キーワード出現位置”、 多くの人に参照されるページは、他の人にとっても有用であることが多いという考えに基づいた“クリック人気”、 GoogleのPageRankに代表される“リンクポピュラリティ”などがあげられます。 )

検索エンジンは検索キーワードに対して、適切なページを表示する工夫をしている  検索エンジンは検索キーワードに対して、適切なページを表示する工夫をしている       しかし、  検索キーワードを含んでいても利用者の知りたい情報は含まれていないこともある 前述のようなスコアリング手法を用いることにより、既存の検索エンジンは検索キーワードに対して、適切なページを検索結果の先頭に表示する工夫をしています。しかし、現実には利用者の求める情報のキーワードを含んでいても利用者の知りたい情報は含まれていないこともあります。それは例えば環境リスクマネジメントに関する情報を知りたいときも同様です。

Web上で作動する環境リスクマネジメントに関する検索システム. 本などの検索に目的特化 そこで、環境リスクマネジメントにウエイトを置いた検索システムを構築することにより環境リスクマネジメントに関する情報を効率よく取り出せるのではないかと言う考えの下に、川角、舟久保による先行研究では、「環境リスクマネジメントに関する良質な情報を入手でき、Web上から利用可能な検索システム」が構築されました。 舟久保弘明. Web上で作動する環境リスクマネジメントに関する検索システム. 静岡大学工学部卒業論文、2002

先行研究について(1) “川角友美. 環境リスクマネジメントに関するインターネット検索ロボットの構築. 静岡大学工学部卒業論文、2001”の研究結果 ・文字数が多く専門用語が多く存在する ・キーワード単語を含んでいてもキーワード自体の情報が得れないこともある ・検索時間は約2時間 ・収集データは約12万件 先行研究について 川角による先行研究の結果としては、文字数が多く、専門用語が多く存在する傾向が見られ、キーワード単語を含んでいてもキーワード自体の情報が必ずしも得ることができませんでした。

先行研究について(2) “舟久保弘明. Web上で作動する環境リスクマネジメントに関する検索システム. 静岡大学工学部卒業論文、2002”の研究結果 ・川角友美「環境リスクマネジメントに関するインターネット検索ロボットの構築」よりも良質な情報 ・検索時間は約2時間 ・収集データは約12万件 舟久保による先行研究の結果としてはページタイトル部分に検索語が見られることが川角の研究結果との大きな違いでした。これは川角の構築した検索システムよりも、良質な情報を含むホームページを紹介することができたと考えることができます。

先行研究の課題 ・検索時間の短縮 ・収集データが少ない ・Webから利用可能にする 先行研究の大きな課題として、どちらも、検索時間が数時間かかる点と、収集データが既存の検索システムと比較して少ない点があげられます。

本研究の目的 先行研究により構築された環境リスクマネジメントに特化した検索システムを改善し、実際にWeb上で運営できるようにすること。

新たな検索システム 長所の融合を目指す 先行研究 検索時間が長い 収集データ量が少ない 環境RMに特化 既存の検索システム 検索時間が短い 収集データ量が多い 環境RMに特化せず そこで紹介する情報の質を落とさずに検索時間短縮を実現するために、本研究では先行研究で構築された検索システムと、既存の検索システムの長所の融合を目指し、既存の検索システムを利用することを考えました。 長所の融合を目指す

corporate/index.htmlより 検索エンジンシェア 検索対象のWebページ 80億以上 Google 57.2% Yahoo! 21.3% MSN    8.6% http://www.google.co.jp/intl/ja/ corporate/index.htmlより OneStat.com(オランダ)社 2005年1月調査 そして、既存の検索システムとしてGoogleを利用することにしました。 理由としては、検索対象のWebページ数は80億ページ以上、シェアは約60%と多くの人に利用されており、多くの人に利用される検索システムは有用な検索システムであろうと考えたからです。

各HTMLファイル中の、検索キーワードに GoogleWebAPIsによる検索結果を専門 関する専門用語の種類数を調べる 上位100件のURLを取得 GoogleWebAPIsによる検索結果を専門 用語の種類数順に再ランキング 再ランキング結果の出力 ユーザー側処理 サーバー側処理 上位100件のHTMLファイル収集 再ランキング結果 次に、本検索システムの概要について述べます。まず、本検索システムの処理の流れとしましては、ユーザーが検索キーワードを入力すると、サーバー側はまず、GoogleWebAPIsを利用し検索キーワードについてGoogle検索を行い、上位100位のHTMLファイルを収集します。そして、それらのHTMLファイルに検索キーワードに関する専門用語が何種類含まれるかを調べます。この専門用語とは、日本リスク研究学会編集のリスク学事典の索引にある用語を専門用語としました。そして、最後にランキングアルゴリズムによりランキングし、結果を出力します。尚、プログラミン言語にはPerlを用いました。

ランキングアルゴリズム Ⅰ HTMLファイルに含まれる検索キーワードに関する専門用語の種類数が多い Ⅱ HTMLファイルのGoogle順位が高い (優先順位Ⅰ>Ⅱ) ランキングアルゴリズムは Ⅰ HTMLファイルに含まれる検索キーワードに関する専門用語の種類数が多い Ⅱ HTMLファイルのGoogle順位が高い (優先順位Ⅰ>Ⅱ)としました。

検索フォーム http://kiso.sys.eng.shizuoka.ac.jp/search_engine/index.html 尚、本研究で構築したシステムは現在Web上に公開しています。 http://kiso.sys.eng.shizuoka.ac.jp/search_engine/index.html

結果:先行研究と比較して ・検索時間は短縮された ・より良質な情報を得ることができた 結果と考察について述べます。 先行研究と比較して検索時間は検索結果100件表示で約2分と短縮されました。 また、検索結果全てのHTMLファイルに検索キーワードが含まれることから、先行研究よりも良質な情報を得ることができたと考えます。

結果:Googleと比較して 順位の変化 また、Googleの検索結果を検索キーワードに関する専門用語の種類順にランキングするので、Googleの検索結果と比較しても、専門的な内容を含むページを上位で紹介することができたと考えます。

結論:先行研究と比較して ・検索時間は短縮 ・良質な情報 結論として、 先行研究と比較して、検索時間は短縮されました。 また、Google検索でAND検索をしたことにより、検索結果全てのHTMLファイルに検索キーワードが含まれていた。このことより、先行研究と比較して、良質な情報を紹介することができたと考える。

課題 ・検索時間の短縮 ・GooglePageRankを、もう少し考慮に入れたランキングアルゴリズムを ・新規リスクへの対応 課題としましては、まず検索時間の短縮です。 そして、本検索システムのランキングアルゴリズムではGooglePageRankが再ランキング後の順位にあまり影響しないので、GooglePageRankをもう少し考慮にいれたランキングアルゴリズムを提案するべきではないかと考えます。 また、デオキシニバレノールというような新規リスクについて検索した場合、そのような新規リスクはリスク学事典には、掲載されていません。つまり、新規リスクに関する専門用語を選定することができないといった問題点への対策を考えていく必要があります。