Presentation is loading. Please wait.

Presentation is loading. Please wait.

卒論中間発表 WWW検索キーワードナビゲーションシステムの設計と実装

Similar presentations


Presentation on theme: "卒論中間発表 WWW検索キーワードナビゲーションシステムの設計と実装"— Presentation transcript:

1 卒論中間発表 WWW検索キーワードナビゲーションシステムの設計と実装
栗本亜実

2 背景 インターネットのWWWは巨大なデータベース ほしい情報をいかに効率的に得るかが重要 専門分野外の検索をする機会の増加
情報検索能力に個人差 バックグラウンドの有無 専門分野外の検索をする機会の増加 専門分野外は皆素人 バックグラウンドが活かされない ⇒バックグラウンドのない時の検索が困難   検索要求を検索キーワードに反映することが困難 まず、問題意識として、インターネット上にはさまざま情報が溢れていて、 雑多な情報が、整理されていません。 そのような中で、ほしい情報をいかに効率的に得るか、という事が重要です。 しかし、情報検索能力には個人差があります。 それは、バックグラウンドの有無による部分が大きいと思います。 また、膨大な情報源であることから、 日常生活でも、わからない事をwebで調べたりする機会も増えると思います。 必然的に自分で専門分野でない検索をすることも増え、 自分の持っているバックグラウンドが活かすことができません。 バックグラウンドのない分野の検索をする時には、 経験則に基づいた検索ができないため、 検索要求を検索キーワードに的確に反映する事ができず、 情報にたどりつくのが困難になります。

3 目的 バックグラウンドのない人の検索を効率化 潜在キーワードを引き出す キーワード案の提示 目的 バックグラウンド 検索技術 ナビゲーション
そこで、 検索したい要求を100%言葉にする能力 そこで私の研究では、 他人の経験則をとりこむことと、整理して提示することで、 検索結果の絞込みを補助します。 無限の可能性を有限の選択肢に絞込んであげることで、 バックグラウンドのない分野でも勘所のようなものを使えて、 効率的に検索ができるようにしたいです。

4 言葉の定義 バックグラウンド…検索する時に活かされるその分野の基礎知識・経験・全体像 検索キーワード…検索エンジンに入力したキーワード
潜在キーワード…ほしい情報を手に入れるためのキーワード キーワード案…潜在キーワードを探し当てるための提案キーワード

5 現状①片方向検索エンジン ディレクトリサービス…提示されたカテゴリを元にほしい情報を絞り込む ⇒検索結果の並び替えの工夫のみ
ex. Yahoo!, vivisimo, wisenut ⇒検索結果の並び替えの工夫のみ キーワード検索… page view, 相互リンクによるrankingを元にほしい情報にたどりつく ex.goo, google ⇒自由度が高すぎる 「絞込み」という観点で検索エンジンをみた時、 ディレクトリサービスは提示されたカテゴリを元にほしい情報を絞り込みます。 動的にカテゴリ分けされ、わかりやすいものがありますが、 結果の並び替えの工夫であって、結果の数を減らすことにはなっていません。 また、キーワード検索においては、page view, 相互リンクによる重み付けを元に 有用な情報が上の方にランクされるよう工夫されていますが、 これも結果の数は減るわけではないので、 ひとつのキーワードでほしい情報にたどり着くことは困難です。

6 現状②双方向検索エンジン ex. Infoseek 「つぼシーク」 ⇒カテゴリ分け無し ⇒限定された検索にのみ対応
キーワード検索+絞込み補助…関連キーワードの提示によって絞込み、ほしい情報にたどりつく ⇒カテゴリ分け無し ⇒限定された検索にのみ対応  ⇒Infoseek特有の機能 そこで検索結果をさらに絞り込むことがユーザに求められるわけですが、 この時、バックグラウンドのない人の絞込みをナビゲーションしてあげることで、 上手に絞込むことができるというものがあります。 Infoseekの「つぼシーク」というのが、この機能を持っています。 しかし、「つぼシーク」は一覧が出るのみなので、 カテゴリ分けの必要性を感じました。 また「つぼシーク」では、ナビゲーションが表示される場合が限定されており、 汎用的ではないです。 さらに、このナビゲーションは、infoseek内でしか使えないことが問題だと思いました。

7 解決するための要件 検索者が選びやすくする 複数の検索エンジンに対応 複数カテゴリある際には提示 カテゴリ・キーワードのランキング
キーワードの頻出度によって提案数を変える 複数の検索エンジンに対応 それらの問題を考慮し、私のシステムで解決すべき事は、 検索者が選びやすくするためのしくみをつくる事です。 ただ一覧を表示するのではなく、カテゴリ分けすることで、 自分のほしい情報の分野がわかり、必要なキーワードを選びやすくなります。 また、表示方法において、カテゴリ・キーワードのランキングや、 キーワードの頻出度で提案数を変えるなどの工夫が必要になってくると思います。 さらに、検索結果のナビゲーションが複数の検索エンジンで使えるようになれば、 特定の検索エンジンを利用する時だけでなくナビゲーションを受けることが可能になります。

8 提案「しぼりこみアシスタント」 しょうゆ 「塩」 梅干 アルカリ ナトリウム 海水 検索結果 検索結果と ナビゲーション Proxy サーバ
これは、私のシステムのユーザから見たイメージです。 このように検索要求する際にproxyサーバを介し、 検索結果と一緒にナビゲーションも表示される、というものです。 この場合は、塩のミネラルの多さを検索したい時に、 そもそも「塩」にはこれだけの分野があり、キーワードがあるという事を提示し、 検索結果を自分の知りたい事に絞るためのナビゲーションをしています。 検索エンジン

9 ナビゲーションのカテゴリ分け Pointを利用して動的に カテゴリ分けする 保存 梅干 アルカリ ナトリウム 海水
私のナビゲーションでは、動的なカテゴリ分けを行いますが、 キーワード間の関係性に重み付けをし、 それを利用して関連性のあるもの同士を同じカテゴリとしています。 Pointを利用して動的に カテゴリ分けする

10 重みづけ 検索エンジンに入力したキーワード 見に行ったページ内のキーワード ユーザが入れたキーワード同士にpoint加算
「…伝統製法で漬け込んで丹念に仕上げた無添加梅干です。だから、減塩タイプではなく、真の梅干好きな方にはたまらない逸品。」 「伝統製法 梅干」1point 「無添加 梅干」1point, 「伝統製法 無添加」1point カテゴリ分けに利用する重みづけの方法は その重み付けは、二通りです。 一つは、ユーザが検索エンジンに入力したキーワードで、 AND検索をした時に、二つのキーワード間に10point加えます。 この時、バックグラウンドのある人はデータベースに対する貢献度も高いと考え、 バックグラウンドの有無は、区別していません。 もう一つの重み付けは、実際に見に行ったページ内を解析して行います。 検索キーワードの前後二つの名詞を取り出し、それらとの関係にpointを加えます。

11 設計 検索要求 1 塩 梅干 13point しょうゆ 5point 10point Proxy サーバ キーワード ブラウザ
また、重み付けを蓄積するナビゲーションDBもつくります。 まずユーザは、検索要求をします。 この時、検索キーワードがproxyサーバに送られ、 梅干 13point しょうゆ 5point 10point 「塩 しょうゆ」

12 設計 検索要求 1 2 キーワードと point登録 2 塩 梅干 13point しょうゆ 5point 20point Proxy
サーバ 検索要求 1 2 キーワードと point登録 ブラウザ そのまま検索エンジンにフォワードします。 それと同時に、そのキーワード間にpointを加算してデータベースに登録します。 2 梅干 13point しょうゆ 5point 20point 「塩 しょうゆ」

13 設計 検索結果 1 2 3 関連キーワード 2 3 塩 梅干 13point しょうゆ 5point 10point 「梅干」 Proxy
サーバ 検索結果 1 2 3 ブラウザ 次に、検索エンジンからは検索結果が返ってくるのと同時に、 検索キーワードに関連するキーワードをデータベースから取り出します。 関連キーワード 2 3 梅干 13point しょうゆ 5point 10point 「梅干」

14 設計 1 2 4 3 検索結果と 関連キーワード(ナビゲーション) 2 3 塩 梅干 13point しょうゆ 5point 10point
Proxy サーバ 1 2 4 3 検索結果と 関連キーワード(ナビゲーション) ブラウザ 検索結果とナビゲーションを一緒にユーザに返します。 2 3 梅干 13point しょうゆ 5point 10point

15 設計 閲覧 URL 5 2 1 4 3 5 塩 梅干 13point しょうゆ 5point 10point Proxy サーバ ブラウザ
すると、ユーザは検索結果の中からひとつのページを選び、閲覧します。 その際に、どの選んだURLをproxyサーバに送ります。 梅干 13point しょうゆ 5point 10point

16 設計 ページ内解析 6 5 2 1 4 3 塩 梅干 13point しょうゆ 5point 10point Proxy サーバ ブラウザ
するとproxyサーバは受け取ったURLをたどり、ページを解析します。 梅干 13point しょうゆ 5point 10point

17 設計 キーワードとpointを登録 6 5 2 1 4 3 7 塩 梅干 13point しょうゆ 5point 10point 減塩
Proxy サーバ 6 5 2 1 4 3 ブラウザ キーワードとpointを登録 解析結果からキーワードとpointをデータベースに登録します。 このような流れになっています。 形態素解析エンジン 文章を単語に切り出して それが何の品詞かを解析する そういうエンジンを利用する Chasenとか。 フリーであるから。 7 梅干 13point しょうゆ 5point 10point 減塩 1point

18 実装 Proxyサーバ データベース 実装は今お話したような機能を持つproxyサーバをつくること、 データベースをつくることになります。

19 評価 定量評価 定性評価 検索時間の計測(実験) 検索回数 規模性 キーワード案の妥当性 分かりやすさ・使いやすさ・満足度
評価に関しては悩んでいるのですが、 定量評価として、検索時間の計測と、 検索回数というのは、ひとつの事を調べるのにかかったステップ、 またシステムの規模性を測ることを考えています。 定性評価としては、検索キーワードの妥当性や、分かりやすさ、 システムの使いやすさや満足度になると思います。

20 まとめ バックグラウンドのない分野での検索に注目 絞込みアシスタントの提案 使いやすいシステムの提案
ひとつの検索エンジンに依存しないシステムの実現 まとめとして、 私はバックグラウンドのない分野での検索に注目しました。 そこで、検索結果の絞込みアシスタントを提案します。 これは、カテゴリ分けをする、など、使いやすいシステムになる事を目指します。 ひとつの検索エンジンに依存しないシステムを実現したいと思っています。


Download ppt "卒論中間発表 WWW検索キーワードナビゲーションシステムの設計と実装"

Similar presentations


Ads by Google