卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装 環境情報学部4年 栗本 亜実 ami@sfc.wide.ad.jp
背景・目的
背景・目的 WWW情報検索の普及 問題:情報検索能力に個人差 目的:情報検索が不得手なユーザを補助 Web上での情報検索というのが、広く一般的になっています。 ところが、情報の検索能力には個人差があり、不得手なユーザがいます。 そこで、本研究では、情報検索の不得手なユーザを補助することを目的とします。
問題の整理 情報検索が不得手なユーザは、何が問題なのか、具体的に整理していきます。
ユーザの視点での情報検索 Webページ閲覧 検索結果を得る・吟味 キーワード入力・再検索 検索結果を得る・吟味 キーワード入力・検索要求 目的発生 まず、ユーザの視点で情報検索の流れをみてみると、 目的が発生し、それをキーワードとして表現、検索要求を出します。 検索結果を受け取り、吟味します。 目的が果たせなければ再検索をおこない、最終的に目的を果たすwebページにたどりつきます。 ②keyword思案 ①keyword思案
既存の検索エンジンの機能 機能 説明 情報 情報源 ロボット Webページの収拾 URL,webページ内容 WWW 結果表示 index 結果のランキング 有用なページを上位表示 リンク構造など Webページ ディレクトリサービス 予めディレクトリを用意 Webページ内容 結果の動的カテゴライズ 検索結果をカテゴリ分けして表示 リンク構造,webページ内容 絞込みキーワードの提示 検索結果とともに絞込みキーワードを提示 次に、検索エンジンの機能を見てみると、 ロボットやランキング、カテゴライズの技術が日々開発されています。
情報検索のモデル A B C 情報検索 キーワード 目的 情報提供者側 ユーザ側 WWW ユーザの情報検索の流れと、検索エンジンの機能を整理すると、 検索エンジンは、情報提供者の生成した情報、 Webから取得した情報をもとに、開発をおこなっています。 一方、ユーザは自らの目的をキーワードで表現しています。 情報検索というのは、情報提供者側のAのエリアと、 ユーザ側のBのエリアを合わせたCのエリアで示されます。 よって、Cのエリア情報検索全体で向上しなければならないのですが、 現在、検索エンジンはAの情報提供者側でのみ工夫を行っています。 ユーザと情報提供者を結ぶのは、キーワードのみであり、 この部分はあまり焦点があてられていません。 検索エンジン A B 情報提供者側 ユーザ側 C 情報検索
問題の整理 情報検索能力の個人差 キーワード設定に問題 機会損失 ロボット型検索エンジンはindex数の多さが魅力 キーワード検索はバックグラウンド(経験・能力)が必要 同じ検索エンジンを使用していても個人差 キーワード設定に問題 機会損失 既知の言葉のみの使用 ロボット型検索エンジンはindex数の多さが魅力 バックグラウンド キーワード検索は経験・能力が必要 同じ検索エンジンを使用していても個人差
キーワード設定に関する調査 仮定 プレ実験:問題に対するキーワード設定 同じ目的に対するキーワードの共通性 個人差:連想力,検索スキル 同じ目的を持った検索者は共通性のあるキーワードを用いる キーワード設定能力には個人差がある プレ実験:問題に対するキーワード設定 共通性:被験者の7割が同じキーワード1~3個 個人差:キーワード数 2~5個 テクニック “”, “とは”, “いわゆる”, “” 同じ目的に対するキーワードの共通性 個人差:連想力,検索スキル キーワードを提示するにあたって、 キーワード設定について調査しました。
keywordの提示 Webページ閲覧 検索結果を得る・吟味 キーワード入力・再検索 検索結果を得る・吟味 キーワード入力・検索要求 目的発生 再検索のキーワードを思い浮かべることができないユーザに、 キーワードを提示するというアプローチを取りました。 ②keyword思案 ①keyword思案 keyword提示
設置場所の自由度 ただし同じ目的じゃない人同士がシェアしても、役立たない Aグループ Bグループ 検索エンジン Cグループ 本システム 同じ目的を持ったグループごとに、ナレッジを蓄積する。 今の検索エンジンは、目的別にはできない。画一的な結果表示 ナレッジシェアには役立たない仕組み 目的を 検索エンジン Cグループ 本システム
設計
設計 検索エンジンへのインターフェース機能 使用キーワード蓄積機能 絞り込みキーワード提示機能 検索要求・結果を処理 ユーザの使用したキーワードをデータベースに登録 絞り込みキーワード提示機能 検索結果とともに、再検索用のキーワードを提示 本システム自身は、検索エンジンの機能を持たないので、 外部エンジンへのインターフェースが必要です。 今回は、googleを使用しました。
設計 2 1 3 4 keyword 検索要求 検索要求 検索結果 検索結果 提示keyword 本システム 検索エンジン ブラウザ データフロー
実装
実装 ~開発環境~ OS:Vine Linux (Kernel version 2.4.18) 実装 ~開発環境~ OS:Vine Linux (Kernel version 2.4.18) Servletエンジン:jakarta tomcat 4.1.12 データベース:mysql 3.23.49 コンパイラ:Java2SDK J2SE 1.4.1
データベース 遺伝子 遺伝子組み換え食品 遺伝子 現状 遺伝子 問題 遺伝子 食品 input_keys table 遺伝子 解決策 ユーザが複数キーワード使用した際に登録 ユーザが使用したキーワードに対して提示キーワードを出力 遺伝子 遺伝子組み換え食品 遺伝子 現状 遺伝子 問題 遺伝子 食品 遺伝子 解決策 ソートして登録しています
評価
評価項目 目的:情報検索の不得手なユーザの補助 キーワード設定に着目、補助するシステムの構築 システムの評価 実際、ユーザが使用する仕組みか ユーザにkeywordを提示 システムの評価 実際、ユーザが使用する仕組みか 実験
実験 システムが機能する条件の検証 被験者:12名, 時間:90分 実験の方法 それぞれの条件で被験者にアンケート グループ…趣味で分けた3グループ(野球,車,料理) 問題…3種類(野球,車,料理) 検索…3種類(全体像把握,詳細把握,一問一答) それぞれの条件で被験者にアンケート 問題(分野)ごとにDBを用意した
実験の流れ Ⅰ Ⅱ Ⅲ 車グループ 車 得意分野 野球 料理 野球グループ 料理グループ 時間 グループ 時間(DBの成長) それぞれのグループにすべての分野の問題を解いてもらった 時間(DBの成長)
システムが機能する条件の仮説 機能する条件 使用頻度 満足度 得意分野<得意でない分野 データベース成長前<成長後 仮説 条件の設定 得意でない分野の検索をする際は提示キーワードを頻繁に使用する グループと問題の分野をローテーション データベース成長前よりも成長後の方が提示キーワードを頻繁に使用する データベースの成長(時間の変遷) 詳細を把握する検索よりも、全体像把握する検索の方が提示キーワードを使用する 詳細把握<全体像把握 システムを長期間運用することで、データベースが成熟し、有用な提示キーワードとなる データベース運用時間・人数 有益だと感じた場合に、提示キーワードは使用される 検索の種類によってバックグラウンドの必要性が変化 量(キーワード数)・質(ゴミなし) アンケートで調査した
実験結果:提示キーワードの使用度 5 4 3 2 1 得意分野の検索 得意でない分野の検索 最大値・最小値 使用度 車Ⅰ 野球Ⅱ 料理Ⅲ 6 5 最大値 4 平均値 3 2 1 最小値 車Ⅰ 野球Ⅱ 料理Ⅲ 料理Ⅰ 車Ⅱ 野球Ⅲ 野球Ⅰ 料理Ⅱ 車Ⅲ 問題 車 野球 料理 グループ 得意分野の検索 得意でない分野の検索 最大値・最小値
提示キーワードの使用度②DBの成長 使用度 時間 データベース 5 4 3 2 1 Ⅰ Ⅱ Ⅲ Ⅰ Ⅱ Ⅲ Ⅰ Ⅰ Ⅱ Ⅲ 車 野球 料理 Ⅰ Ⅰ Ⅱ 時間 時間 データベース Ⅱ Ⅲ Ⅲ Ⅰ Ⅰ Ⅱ Ⅱ Ⅲ Ⅲ Ⅰ Ⅰ Ⅰ Ⅱ Ⅱ Ⅲ Ⅲ データベース 車 野球 料理
実験のまとめ 結果 考察 3回の実験で、データベースの成長は見られず 得意でない分野の検索をする際、提示キーワードの使用度は高まる 得意でない分野で使用される ⇒不得手な人にキーワードを提示することは有効といえるのではないか
まとめ
まとめ WWW情報検索における個人差は、keyword入力の部分に左右されると考えた Keyword設定に関する調査 運用した結果、分野によって提示キーワードを使用する頻度に差 情報検索の不得手なユーザにキーワード設定時の機会損失を減少
今後の課題 提示キーワードの見せ方の工夫 提示キーワードのランキング(重み付け) 有益なキーワードの見つけ方 データベースの成長の条件の検証
キーワードのランキングアルゴリズム 重み付け 上級者,バックグラウンドのある者の入力キーワード 実際に使用されたもの ページを参照した時使用したキーワード(要Feedback機能) 一連の検索で、最後にひっかけたもの