環境リスクマネジメントに関する 検索システム 前田研究室 4年 石垣 泰 環境リスクマネジメントに関する検索システム。前田研究室。石垣泰が発表します。
発表の流れ 1.背景と目的 2.本検索システムの概要 3.結果と考察 4.結論 はじめに発表の流れを示します。 「背景と目的」「本検索システムの概要」「結果と考察」「結論」の順番になっています。
ロボット型検索エンジンの検索キーワード入力フォーム 既存の検索エンジンの種類 ロボット型検索エンジンの検索キーワード入力フォーム ディレクトリ型検索エンジン ロボット型検索エンジン 背景と目的 既存の検索エンジンにはロボット型検索エンジンとディレクトリ型検索エンジンが存在します。 ロボット型検索エンジンとはクローラー・スパイダーなどといわれるロボットがWeb上を自動的に巡回してWebページを収集し、データベースを作成します。そして、ユーザーが検索キーワードを検索フォームに入力すると検索キーワードを含むHPを紹介します。 Yahoo! JAPAN http://www.yahoo.co.jp/
代表的なスコアリング手法 キーワード出現頻度 タグごとの重み付け キーワードの近接度 出現位置 クリック人気 リンクポピュラリティ 検索エンジンは検索キーワードに対して、適切なページを検索結果の先頭に表示するためにランキングを行います。このランキングを行うために、検索結果に重み付けを行う処理をスコアリングと呼びます。スコアリングの代表的手法としては、 “キーワード出現頻度”、 “タグによる重み付け”などがある。 ( “キーワードの近接度”、重要な概念はページや節の先頭付近に存在することが多いという考えに基づいた“キーワード出現位置”、 多くの人に参照されるページは、他の人にとっても有用であることが多いという考えに基づいた“クリック人気”、 GoogleのPageRankに代表される“リンクポピュラリティ”などがあげられます。 )
検索エンジンは検索キーワードに対して、適切なページを表示する工夫をしている 検索エンジンは検索キーワードに対して、適切なページを表示する工夫をしている しかし、 検索キーワードを含んでいても利用者の知りたい情報は含まれていないこともある 前述のようなスコアリング手法を用いることにより、既存の検索エンジンは検索キーワードに対して、適切なページを検索結果の先頭に表示する工夫をしています。しかし、現実には利用者の求める情報のキーワードを含んでいても利用者の知りたい情報は含まれていないこともあります。それは例えば環境リスクマネジメントに関する情報を知りたいときも同様です。
Web上で作動する環境リスクマネジメントに関する検索システム. 本などの検索に目的特化 そこで、環境リスクマネジメントにウエイトを置いた検索システムを構築することにより環境リスクマネジメントに関する情報を効率よく取り出せるのではないかと言う考えの下に、川角、舟久保による先行研究では、「環境リスクマネジメントに関する良質な情報を入手でき、Web上から利用可能な検索システム」が構築されました。 舟久保弘明. Web上で作動する環境リスクマネジメントに関する検索システム. 静岡大学工学部卒業論文、2002
先行研究について(1) “川角友美. 環境リスクマネジメントに関するインターネット検索ロボットの構築. 静岡大学工学部卒業論文、2001”の研究結果 ・文字数が多く専門用語が多く存在する ・キーワード単語を含んでいてもキーワード自体の情報が得れないこともある ・検索時間は約2時間 ・収集データは約12万件 先行研究について 川角による先行研究の結果としては、文字数が多く、専門用語が多く存在する傾向が見られ、キーワード単語を含んでいてもキーワード自体の情報が必ずしも得ることができませんでした。
先行研究について(2) “舟久保弘明. Web上で作動する環境リスクマネジメントに関する検索システム. 静岡大学工学部卒業論文、2002”の研究結果 ・川角友美「環境リスクマネジメントに関するインターネット検索ロボットの構築」よりも良質な情報 ・検索時間は約2時間 ・収集データは約12万件 舟久保による先行研究の結果としてはページタイトル部分に検索語が見られることが川角の研究結果との大きな違いでした。これは川角の構築した検索システムよりも、良質な情報を含むホームページを紹介することができたと考えることができます。
先行研究の課題 ・検索時間の短縮 ・収集データが少ない ・Webから利用可能にする 先行研究の大きな課題として、どちらも、検索時間が数時間かかる点と、収集データが既存の検索システムと比較して少ない点があげられます。
本研究の目的 先行研究により構築された環境リスクマネジメントに特化した検索システムを改善し、実際にWeb上で運営できるようにすること。
新たな検索システム 長所の融合を目指す 先行研究 検索時間が長い 収集データ量が少ない 環境RMに特化 既存の検索システム 検索時間が短い 収集データ量が多い 環境RMに特化せず そこで紹介する情報の質を落とさずに検索時間短縮を実現するために、本研究では先行研究で構築された検索システムと、既存の検索システムの長所の融合を目指し、既存の検索システムを利用することを考えました。 長所の融合を目指す
corporate/index.htmlより 検索エンジンシェア 検索対象のWebページ 80億以上 Google 57.2% Yahoo! 21.3% MSN 8.6% http://www.google.co.jp/intl/ja/ corporate/index.htmlより OneStat.com(オランダ)社 2005年1月調査 そして、既存の検索システムとしてGoogleを利用することにしました。 理由としては、検索対象のWebページ数は80億ページ以上、シェアは約60%と多くの人に利用されており、多くの人に利用される検索システムは有用な検索システムであろうと考えたからです。
各HTMLファイル中の、検索キーワードに GoogleWebAPIsによる検索結果を専門 関する専門用語の種類数を調べる 上位100件のURLを取得 GoogleWebAPIsによる検索結果を専門 用語の種類数順に再ランキング 再ランキング結果の出力 ユーザー側処理 サーバー側処理 上位100件のHTMLファイル収集 再ランキング結果 次に、本検索システムの概要について述べます。まず、本検索システムの処理の流れとしましては、ユーザーが検索キーワードを入力すると、サーバー側はまず、GoogleWebAPIsを利用し検索キーワードについてGoogle検索を行い、上位100位のHTMLファイルを収集します。そして、それらのHTMLファイルに検索キーワードに関する専門用語が何種類含まれるかを調べます。この専門用語とは、日本リスク研究学会編集のリスク学事典の索引にある用語を専門用語としました。そして、最後にランキングアルゴリズムによりランキングし、結果を出力します。尚、プログラミン言語にはPerlを用いました。
ランキングアルゴリズム Ⅰ HTMLファイルに含まれる検索キーワードに関する専門用語の種類数が多い Ⅱ HTMLファイルのGoogle順位が高い (優先順位Ⅰ>Ⅱ) ランキングアルゴリズムは Ⅰ HTMLファイルに含まれる検索キーワードに関する専門用語の種類数が多い Ⅱ HTMLファイルのGoogle順位が高い (優先順位Ⅰ>Ⅱ)としました。
検索フォーム http://kiso.sys.eng.shizuoka.ac.jp/search_engine/index.html 尚、本研究で構築したシステムは現在Web上に公開しています。 http://kiso.sys.eng.shizuoka.ac.jp/search_engine/index.html
結果:先行研究と比較して ・検索時間は短縮された ・より良質な情報を得ることができた 結果と考察について述べます。 先行研究と比較して検索時間は検索結果100件表示で約2分と短縮されました。 また、検索結果全てのHTMLファイルに検索キーワードが含まれることから、先行研究よりも良質な情報を得ることができたと考えます。
結果:Googleと比較して 順位の変化 また、Googleの検索結果を検索キーワードに関する専門用語の種類順にランキングするので、Googleの検索結果と比較しても、専門的な内容を含むページを上位で紹介することができたと考えます。
結論:先行研究と比較して ・検索時間は短縮 ・良質な情報 結論として、 先行研究と比較して、検索時間は短縮されました。 また、Google検索でAND検索をしたことにより、検索結果全てのHTMLファイルに検索キーワードが含まれていた。このことより、先行研究と比較して、良質な情報を紹介することができたと考える。
課題 ・検索時間の短縮 ・GooglePageRankを、もう少し考慮に入れたランキングアルゴリズムを ・新規リスクへの対応 課題としましては、まず検索時間の短縮です。 そして、本検索システムのランキングアルゴリズムではGooglePageRankが再ランキング後の順位にあまり影響しないので、GooglePageRankをもう少し考慮にいれたランキングアルゴリズムを提案するべきではないかと考えます。 また、デオキシニバレノールというような新規リスクについて検索した場合、そのような新規リスクはリスク学事典には、掲載されていません。つまり、新規リスクに関する専門用語を選定することができないといった問題点への対策を考えていく必要があります。