卒論中間発表 WWW検索キーワードナビゲーションシステムの設計と実装

Slides:



Advertisements
Similar presentations
1 Travel Memory's Map ~咲いた草花は地域への想い~ 大学生になると、サークルやアルバイトで出会った友達と旅行に行く機会が多くなる。 無計画の旅はそれなりに楽しいかもしれないが、事前に地域の魅力や情報を知っていたら、より充実した旅になるであろう。 一方、旅に来てもらう側では、訪れる人が少ないと地域経済が停滞し、地域社会が衰退する結果になってしまうので、積極的に地元の魅力.
Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
卒業論文審査会 Web の読みやすさ実験ツールの開発 岩手県立大学 ソフトウェア情報学部 ソフトウェア情報学部 4 年 柴田 大樹 指導教員:鈴木克明 藤原康宏 市川尚.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
ユーザーイメージ収集 インターフェイスの開発
インターネットの利用 教科書 P22~27,36~41 埼玉県立大宮武蔵野高等学校・情報科.
詳細検索の方法- EBSCOhost Guided Style 検索フィールド
検索エンジン最適化.
ブラウザの基本操作 前のページに戻る ブラウザの左上にある 「戻る」ボタンで、自分がたどってきた一つ前のページに戻ることができます。
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
Twitterの発言に基づくウェブページ推薦システム
手を動かしながら考える法人営業・ワークシート
~ 企業内の情報共有のために~ 暗黙知を→形式知へ キッズウェイナレッジのご提案 2003年7月 24日 - 第1版 -
情報処理基礎 2006年 6月 1日.
分散コンピューティング環境上の Webリンク収集システムの実装
Shelf-Navigator ユーザ動作による書籍相関抽出機構
電子社会設計論 第11回 Electronic social design theory
参照共起分析の Webディレクトリへの適用
Googleの行方 ~検索のGoogleの新たな試み~
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
形態素解析および係り受け解析・主語を判別
ASPを利用して最適なSEOを Plus be corpo.
ONLINE植物アルバム 運営のサポート 情報数理専攻   D8691 根本亜由美 1.
14回. まとめ 情報のまとめかた DBの利用 情報検索の留意点 情報検索と情報収集 68 基礎知識の必要性 68
ユビキタス環境における コミュニケーション・ツール選択支援機構の提案
変数のスコープの設計判断能力 を育成するプログラミング教育
中間発表 アリの王国更新 金華山の写真整理 柏崎 奈々 中間発表を始めます。
CiNIIほかに関連語提示機能を ~つっこみの第二回~
P2P型ウェブ閲覧者間コミュニケーションに関する研究
技術参照モデルとシステム要件定義 に関する学習システム
大規模アドホックネットワークにおける 階層的な名前解決法
研究内容発表用資料 渡邉拓也 2018/11/8.
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
2003年度 データベース論 安藤 友晴.
関数の変更履歴と呼出し関係に基づいた開発履歴理解支援システムの実現
Yahoo! JAPANと広告の関係 大東文化大学 7班 鈴木  惇 瀬戸 祥雄 長嶺 麻乃.
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
 ソフトウェアの活用  コンピュータネットワークの利用.
WEBアプリケーションの開発 2002年度春学期 大岩研究会2.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
情報システムゼミA  結果報告 社会情報システム学講座 高橋 拓志 2006/7/29(土)
ソフトウェア設計検証 研究室の紹介 知能情報学部 准教授 新田直也.
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
DynaMed 新しい検索インターフェースについて support.ebsco.com.
一人暮らしの男性のための料理検索システムの設計
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
ディスカバリーサービス プリモ ~ Discovery & Delivery ~
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
日本の高校における英語の授業は 英語がベストか?
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
人を幸せにするアプリケーションの開発 2004年度春学期 大岩研究プロジェクト2 2004年4月8日(木) 発表:武田林太郎.
構造的類似性を持つ半構造化文書における頻度分析
Googleマップを活用した 生物調査データベースの構築
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
複数活動履歴を基にしたユーザの関心情報の抽出
関数の変更履歴と呼び出し関係に 基づいた開発履歴理解支援システム
 ソフトウェアの活用  コンピュータネットワークの利用.
アルゴリズム ~すべてのプログラムの基礎~.
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

卒論中間発表 WWW検索キーワードナビゲーションシステムの設計と実装 栗本亜実 ami@sfc.wide.ad.jp

背景 インターネットのWWWは巨大なデータベース ほしい情報をいかに効率的に得るかが重要 専門分野外の検索をする機会の増加 情報検索能力に個人差 バックグラウンドの有無 専門分野外の検索をする機会の増加 専門分野外は皆素人 バックグラウンドが活かされない ⇒バックグラウンドのない時の検索が困難   検索要求を検索キーワードに反映することが困難 まず、問題意識として、インターネット上にはさまざま情報が溢れていて、 雑多な情報が、整理されていません。 そのような中で、ほしい情報をいかに効率的に得るか、という事が重要です。 しかし、情報検索能力には個人差があります。 それは、バックグラウンドの有無による部分が大きいと思います。 また、膨大な情報源であることから、 日常生活でも、わからない事をwebで調べたりする機会も増えると思います。 必然的に自分で専門分野でない検索をすることも増え、 自分の持っているバックグラウンドが活かすことができません。 バックグラウンドのない分野の検索をする時には、 経験則に基づいた検索ができないため、 検索要求を検索キーワードに的確に反映する事ができず、 情報にたどりつくのが困難になります。

目的 バックグラウンドのない人の検索を効率化 潜在キーワードを引き出す キーワード案の提示 目的 バックグラウンド 検索技術 ナビゲーション そこで、 検索したい要求を100%言葉にする能力 そこで私の研究では、 他人の経験則をとりこむことと、整理して提示することで、 検索結果の絞込みを補助します。 無限の可能性を有限の選択肢に絞込んであげることで、 バックグラウンドのない分野でも勘所のようなものを使えて、 効率的に検索ができるようにしたいです。

言葉の定義 バックグラウンド…検索する時に活かされるその分野の基礎知識・経験・全体像 検索キーワード…検索エンジンに入力したキーワード 潜在キーワード…ほしい情報を手に入れるためのキーワード キーワード案…潜在キーワードを探し当てるための提案キーワード

現状①片方向検索エンジン ディレクトリサービス…提示されたカテゴリを元にほしい情報を絞り込む ⇒検索結果の並び替えの工夫のみ ex. Yahoo!, vivisimo, wisenut ⇒検索結果の並び替えの工夫のみ キーワード検索… page view, 相互リンクによるrankingを元にほしい情報にたどりつく ex.goo, google ⇒自由度が高すぎる 「絞込み」という観点で検索エンジンをみた時、 ディレクトリサービスは提示されたカテゴリを元にほしい情報を絞り込みます。 動的にカテゴリ分けされ、わかりやすいものがありますが、 結果の並び替えの工夫であって、結果の数を減らすことにはなっていません。 また、キーワード検索においては、page view, 相互リンクによる重み付けを元に 有用な情報が上の方にランクされるよう工夫されていますが、 これも結果の数は減るわけではないので、 ひとつのキーワードでほしい情報にたどり着くことは困難です。

現状②双方向検索エンジン ex. Infoseek 「つぼシーク」 ⇒カテゴリ分け無し ⇒限定された検索にのみ対応 キーワード検索+絞込み補助…関連キーワードの提示によって絞込み、ほしい情報にたどりつく ⇒カテゴリ分け無し ⇒限定された検索にのみ対応  ⇒Infoseek特有の機能 そこで検索結果をさらに絞り込むことがユーザに求められるわけですが、 この時、バックグラウンドのない人の絞込みをナビゲーションしてあげることで、 上手に絞込むことができるというものがあります。 Infoseekの「つぼシーク」というのが、この機能を持っています。 しかし、「つぼシーク」は一覧が出るのみなので、 カテゴリ分けの必要性を感じました。 また「つぼシーク」では、ナビゲーションが表示される場合が限定されており、 汎用的ではないです。 さらに、このナビゲーションは、infoseek内でしか使えないことが問題だと思いました。

解決するための要件 検索者が選びやすくする 複数の検索エンジンに対応 複数カテゴリある際には提示 カテゴリ・キーワードのランキング キーワードの頻出度によって提案数を変える 複数の検索エンジンに対応 それらの問題を考慮し、私のシステムで解決すべき事は、 検索者が選びやすくするためのしくみをつくる事です。 ただ一覧を表示するのではなく、カテゴリ分けすることで、 自分のほしい情報の分野がわかり、必要なキーワードを選びやすくなります。 また、表示方法において、カテゴリ・キーワードのランキングや、 キーワードの頻出度で提案数を変えるなどの工夫が必要になってくると思います。 さらに、検索結果のナビゲーションが複数の検索エンジンで使えるようになれば、 特定の検索エンジンを利用する時だけでなくナビゲーションを受けることが可能になります。

提案「しぼりこみアシスタント」 しょうゆ 「塩」 梅干 アルカリ ナトリウム 海水 検索結果 検索結果と ナビゲーション Proxy サーバ これは、私のシステムのユーザから見たイメージです。 このように検索要求する際にproxyサーバを介し、 検索結果と一緒にナビゲーションも表示される、というものです。 この場合は、塩のミネラルの多さを検索したい時に、 そもそも「塩」にはこれだけの分野があり、キーワードがあるという事を提示し、 検索結果を自分の知りたい事に絞るためのナビゲーションをしています。 検索エンジン

ナビゲーションのカテゴリ分け Pointを利用して動的に カテゴリ分けする 保存 梅干 アルカリ ナトリウム 海水 私のナビゲーションでは、動的なカテゴリ分けを行いますが、 キーワード間の関係性に重み付けをし、 それを利用して関連性のあるもの同士を同じカテゴリとしています。 Pointを利用して動的に カテゴリ分けする

重みづけ 検索エンジンに入力したキーワード 見に行ったページ内のキーワード ユーザが入れたキーワード同士にpoint加算 「…伝統製法で漬け込んで丹念に仕上げた無添加梅干です。だから、減塩タイプではなく、真の梅干好きな方にはたまらない逸品。」 「伝統製法 梅干」1point 「無添加 梅干」1point, 「伝統製法 無添加」1point カテゴリ分けに利用する重みづけの方法は その重み付けは、二通りです。 一つは、ユーザが検索エンジンに入力したキーワードで、 AND検索をした時に、二つのキーワード間に10point加えます。 この時、バックグラウンドのある人はデータベースに対する貢献度も高いと考え、 バックグラウンドの有無は、区別していません。 もう一つの重み付けは、実際に見に行ったページ内を解析して行います。 検索キーワードの前後二つの名詞を取り出し、それらとの関係にpointを加えます。

設計 検索要求 1 塩 梅干 13point しょうゆ 5point 10point Proxy サーバ キーワード ブラウザ また、重み付けを蓄積するナビゲーションDBもつくります。 まずユーザは、検索要求をします。 この時、検索キーワードがproxyサーバに送られ、 塩 梅干 13point しょうゆ 5point 10point 「塩 しょうゆ」

設計 検索要求 1 2 キーワードと point登録 2 塩 梅干 13point しょうゆ 5point 20point Proxy サーバ 検索要求 1 2 キーワードと point登録 ブラウザ そのまま検索エンジンにフォワードします。 それと同時に、そのキーワード間にpointを加算してデータベースに登録します。 2 塩 梅干 13point しょうゆ 5point 20point 「塩 しょうゆ」

設計 検索結果 1 2 3 関連キーワード 2 3 塩 梅干 13point しょうゆ 5point 10point 「梅干」 Proxy サーバ 検索結果 1 2 3 ブラウザ 次に、検索エンジンからは検索結果が返ってくるのと同時に、 検索キーワードに関連するキーワードをデータベースから取り出します。 関連キーワード 2 3 塩 梅干 13point しょうゆ 5point 10point 「梅干」

設計 1 2 4 3 検索結果と 関連キーワード(ナビゲーション) 2 3 塩 梅干 13point しょうゆ 5point 10point Proxy サーバ 1 2 4 3 検索結果と 関連キーワード(ナビゲーション) ブラウザ 検索結果とナビゲーションを一緒にユーザに返します。 2 3 塩 梅干 13point しょうゆ 5point 10point

設計 閲覧 URL 5 2 1 4 3 5 塩 梅干 13point しょうゆ 5point 10point Proxy サーバ ブラウザ すると、ユーザは検索結果の中からひとつのページを選び、閲覧します。 その際に、どの選んだURLをproxyサーバに送ります。 塩 梅干 13point しょうゆ 5point 10point

設計 ページ内解析 6 5 2 1 4 3 塩 梅干 13point しょうゆ 5point 10point Proxy サーバ ブラウザ するとproxyサーバは受け取ったURLをたどり、ページを解析します。 塩 梅干 13point しょうゆ 5point 10point

設計 キーワードとpointを登録 6 5 2 1 4 3 7 塩 梅干 13point しょうゆ 5point 10point 減塩 Proxy サーバ 6 5 2 1 4 3 ブラウザ キーワードとpointを登録 解析結果からキーワードとpointをデータベースに登録します。 このような流れになっています。 形態素解析エンジン 文章を単語に切り出して それが何の品詞かを解析する そういうエンジンを利用する Chasenとか。 フリーであるから。 7 塩 梅干 13point しょうゆ 5point 10point 減塩 1point

実装 Proxyサーバ データベース 実装は今お話したような機能を持つproxyサーバをつくること、 データベースをつくることになります。

評価 定量評価 定性評価 検索時間の計測(実験) 検索回数 規模性 キーワード案の妥当性 分かりやすさ・使いやすさ・満足度 評価に関しては悩んでいるのですが、 定量評価として、検索時間の計測と、 検索回数というのは、ひとつの事を調べるのにかかったステップ、 またシステムの規模性を測ることを考えています。 定性評価としては、検索キーワードの妥当性や、分かりやすさ、 システムの使いやすさや満足度になると思います。

まとめ バックグラウンドのない分野での検索に注目 絞込みアシスタントの提案 使いやすいシステムの提案 ひとつの検索エンジンに依存しないシステムの実現 まとめとして、 私はバックグラウンドのない分野での検索に注目しました。 そこで、検索結果の絞込みアシスタントを提案します。 これは、カテゴリ分けをする、など、使いやすいシステムになる事を目指します。 ひとつの検索エンジンに依存しないシステムを実現したいと思っています。