電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿
背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
背景 電子書籍の便利になった機能として検索機 能がある。電子書籍ならば索引を参照する 手間がなく、複数のページを検索すること が可能になった。
「私」というキーワードで検索 検索結果 キーワードを含む文とページ がリスト表示される。 夏目漱石 「こころ」
「私」と「先生」という二 語のキーワードで検索 検索結果 「一致する検索結果があり ません。」と表示。 実際には「私」と「先生」 という二語のキーワードを 含む文がある。 改善 私が先生と知り合い になったのは鎌倉で ある。.
テキスト 自動要約 要約率 重要文 書籍は基本的に一つの題目,テーマに沿っ て書かれているものであるため,書籍にお いて出でくるワードは一つの題目,テーマ に関係のある言葉であるものと考えられる . 二語で検索をするということは、一語目と 二語目は何らかの関係があり、その二語が 全く関連性のない語とは考えにくい。
電子書籍のユーザーにとって便利な検索機 能 適当な二語の検索 一語から二語目を 抽出 私友人 私 先生 ユーザーの欲しい情報が得られる 関係のある言葉を 選んでから検索。
目的 ユーザーが二語選ぶのではなく、システ ムが二語目を選ぶことで、ユーザーが欲 しい情報を効率よく得る検索システムの 提案。
ネット上のページ キーワードを含むページ 索引全体集合結果 インターネット上の 情報 ランキング 上位 キーワード 検索 収集 集合結果 ( ランキング処理後 ) キーワードに 適合したもの を取り出す より正解とな るものを取り 出す Web 検索では検索元のデータが日々新しくな るランキング上位が変わる (検索対象が無限) 電子書籍は 不変のデータ ( 有限 ) ランキング上位は 変わらない
索引全体 集合結果 電子書籍のデータ 第 2 キーワー ド決定 第 2 キーワード 抽出 収集 集合結果 ( ランキング処理後 ) あらかじめいくつの キーワードを抽出す るか決めておく。 数値の大きさで決める 第 2 キーワードの決め方 書籍内の単語 キーワードを含む書籍内の単語 単語の共起頻度を数値化し、数値の大小で 第 2 キーワードを決める。
提案 1. 第1キーワードから最も関係のある単語 を第2キーワードとし抽出を行う。 2. 第2キーワードの抽出方法として tf-idf 法 の応用である Okapi-BM25 を使用する。ま た tf-idf 法と Okapi-BM25 の2つの検索をし、 検索結果の表を比べることで、どちらが 優れているかを示す。
検索方法 1. 第1キーワードで検索をする。 2. 第1キーワードを含む文を抜き出す。 3.2 .で取り出した文から単語をとりだし第 2キーワード候補群の配列に格納する。 4. 第2キーワード候補群の配列から第2 キーワードを決める。 5. 第2キーワードで検索をする。
私 先生 わたくし その人 常 …. 出掛ける 事 「私」というキーワードで検索 「先生」を第 2 キーワー ドとし、検索をかける。
tf – idf 法による抽出 ( 方式 A) ある単語の文書内での出現頻度をtf(t erm f requency ) ある単語が含まれている文書の頻度を df(document frequency) 全文書数 N idf(inverse document frequency )は,df の逆数であり,df と の対数をとったものとする
Okapi-BM25 ( 方式 B) 文書の長さ(文書数)の平均化をはかり、 スコアリングする文書が大体どれくらいの 長さなのかを比率的に計算することで特徴 語のスコアのムラを小さくしている。
結果 先生鎌倉西洋人 tf-idf Okapi-BM tf-idf 法では「先生」「西洋人」「鎌倉」の順に数値が 大きい Okapi-BM25 では「先生」「鎌倉」「西洋人」の順と なった。 文の文字数を考慮した結果、数値の差が縮まり、 ランキング上位が入れ変わった。
考察 そのほかの書籍ジャンル ( 参考書など ) で同 様に検索を行う。書籍ジャンルごとの結 果を比較することで tf-idf 法と Okapi-BM25 はジャンルごとでどちらを使う方が良い かを考察する。
おわり