Presentation is loading. Please wait.

Presentation is loading. Please wait.

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。

Similar presentations


Presentation on theme: "電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。"— Presentation transcript:

1 電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿

2 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。

3 背景 電子書籍の便利になった機能として検索機 能がある。電子書籍ならば索引を参照する 手間がなく、複数のページを検索すること が可能になった。

4 「私」というキーワードで検索 検索結果 キーワードを含む文とページ がリスト表示される。 夏目漱石 「こころ」

5 「私」と「先生」という二 語のキーワードで検索 検索結果 「一致する検索結果があり ません。」と表示。 実際には「私」と「先生」 という二語のキーワードを 含む文がある。 改善 私が先生と知り合い になったのは鎌倉で ある。.

6 テキスト 自動要約 要約率 重要文 書籍は基本的に一つの題目,テーマに沿っ て書かれているものであるため,書籍にお いて出でくるワードは一つの題目,テーマ に関係のある言葉であるものと考えられる . 二語で検索をするということは、一語目と 二語目は何らかの関係があり、その二語が 全く関連性のない語とは考えにくい。

7 電子書籍のユーザーにとって便利な検索機 能 適当な二語の検索 一語から二語目を 抽出 私友人 私 先生 ユーザーの欲しい情報が得られる 関係のある言葉を 選んでから検索。

8 目的 ユーザーが二語選ぶのではなく、システ ムが二語目を選ぶことで、ユーザーが欲 しい情報を効率よく得る検索システムの 提案。

9 ネット上のページ キーワードを含むページ 索引全体集合結果 インターネット上の 情報 ランキング 上位 キーワード 検索 収集 集合結果 ( ランキング処理後 ) キーワードに 適合したもの を取り出す より正解とな るものを取り 出す Web 検索では検索元のデータが日々新しくな るランキング上位が変わる (検索対象が無限) 電子書籍は 不変のデータ ( 有限 ) ランキング上位は 変わらない

10 5 5 7 7 6 6 6 6 7 7 3 3 4 4 3 3 4 4 6 6 索引全体 集合結果 電子書籍のデータ 第 2 キーワー ド決定 第 2 キーワード 抽出 収集 集合結果 ( ランキング処理後 ) 5 5 6 6 あらかじめいくつの キーワードを抽出す るか決めておく。 数値の大きさで決める 第 2 キーワードの決め方 書籍内の単語 キーワードを含む書籍内の単語 単語の共起頻度を数値化し、数値の大小で 第 2 キーワードを決める。

11 提案 1. 第1キーワードから最も関係のある単語 を第2キーワードとし抽出を行う。 2. 第2キーワードの抽出方法として tf-idf 法 の応用である Okapi-BM25 を使用する。ま た tf-idf 法と Okapi-BM25 の2つの検索をし、 検索結果の表を比べることで、どちらが 優れているかを示す。

12 検索方法 1. 第1キーワードで検索をする。 2. 第1キーワードを含む文を抜き出す。 3.2 .で取り出した文から単語をとりだし第 2キーワード候補群の配列に格納する。 4. 第2キーワード候補群の配列から第2 キーワードを決める。 5. 第2キーワードで検索をする。

13 私 先生 わたくし その人 常 …. 出掛ける 事 「私」というキーワードで検索 「先生」を第 2 キーワー ドとし、検索をかける。

14 tf – idf 法による抽出 ( 方式 A) ある単語の文書内での出現頻度をtf(t erm f requency ) ある単語が含まれている文書の頻度を df(document frequency) 全文書数 N idf(inverse document frequency )は,df の逆数であり,df と の対数をとったものとする

15 Okapi-BM25 ( 方式 B) 文書の長さ(文書数)の平均化をはかり、 スコアリングする文書が大体どれくらいの 長さなのかを比率的に計算することで特徴 語のスコアのムラを小さくしている。

16 結果 先生鎌倉西洋人 tf-idf23.847.199.09 Okapi-BM2510.679.818.94 tf-idf 法では「先生」「西洋人」「鎌倉」の順に数値が 大きい Okapi-BM25 では「先生」「鎌倉」「西洋人」の順と なった。 文の文字数を考慮した結果、数値の差が縮まり、 ランキング上位が入れ変わった。

17 考察 そのほかの書籍ジャンル ( 参考書など ) で同 様に検索を行う。書籍ジャンルごとの結 果を比較することで tf-idf 法と Okapi-BM25 はジャンルごとでどちらを使う方が良い かを考察する。

18 おわり


Download ppt "電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。"

Similar presentations


Ads by Google