電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。

Slides:



Advertisements
Similar presentations
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
Advertisements

データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
リスク情報サイト横断検索システム 静岡大学システム工学科 前田研究室 高柳真吾.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
SlothLib.LinearAlgebra.FeatureVector 特徴ベクトル. SlothLib.LinearAlgebra.FeatureVector でできること ► 特徴ベクトル  次元は可変に増やすことができる  次元としてあらゆるデータ型が利用可能 ► string 型がよく使われる=文書の特徴ベクトル.
カーリルを利用した 書籍活用 / 蔵書管理システム 研究者: J0639 山中勇太 指導教員:越田高志.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会
2行+αチョンプに関する考察 京都大学 ○後藤順一 伊藤大雄.
パネル型クエリ生成インタフェース画像検索システムの改良
コーパス言語学実践 2006年度2学期 第10回.
~ 企業内の情報共有のために~ 暗黙知を→形式知へ キッズウェイナレッジのご提案 2003年7月 24日 - 第1版 -
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
国際政治経済特殊研究Ⅷ  飯野光浩 プレゼン 総括.
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
Shelf-Navigator ユーザ動作による書籍相関抽出機構
ファーストイヤー・セミナーⅡ 第8回 データの入力.
参照共起分析の Webディレクトリへの適用
図書DBの使用方法 NDL-OPAC 国立国会図書館 Webcat PLUS 国立情報学研究所 Books 日本書籍出版協会
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
テキストマイニング, データマイニングと 社会活動のトレース
ネットで百科 for Library の使いかた
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
T17E011 大塚 恭平 T17E046 柳下 慶輔 顧問 高橋 宗雄教授
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
テキストの類似度計算
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
EBSCOhost 詳細検索 チュートリアル support.ebsco.com.
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
Topic-Word Selection Based on Combinatorial Probability
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
平成22年6月15日 図書系職員のための アプリケーション開発講習会
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
チーム よせあつめ 検索エンジンについて.
IIR輪講復習 #1 Boolean retrieval
データモデリング Webページの検索とランキング
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
環境リスクマネジメントに関する 検索システム
WWW上の効率的な ハブ探索法の提案と実装
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
知識情報演習Ⅲ(後半第3回) 辻 慶太
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
予後因子(入院時年齢・FIM・発症後日数)の階層化による回復期リハの成果測定法の提唱
知識情報演習Ⅲ(後半第2回) 辻 慶太
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Fortranについて 高エネルギー加速器研究機構 平山 英夫.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
知識情報演習Ⅲ(後半第3回) 辻 慶太
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
コーディングパターンの あいまい検索の提案と実装
Webページのグループ化による 静的動的スコアリング
構造的類似性を持つ半構造化文書における頻度分析
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
設計情報の再利用を目的とした UML図の自動推薦ツール
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
自然言語処理2015 Natural Language Processing 2015
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
識別子の読解を目的とした名詞辞書の作成方法の一試案
Presentation transcript:

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿

背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。

背景 電子書籍の便利になった機能として検索機 能がある。電子書籍ならば索引を参照する 手間がなく、複数のページを検索すること が可能になった。

「私」というキーワードで検索 検索結果 キーワードを含む文とページ がリスト表示される。 夏目漱石 「こころ」

「私」と「先生」という二 語のキーワードで検索 検索結果 「一致する検索結果があり ません。」と表示。 実際には「私」と「先生」 という二語のキーワードを 含む文がある。 改善 私が先生と知り合い になったのは鎌倉で ある。.

テキスト 自動要約 要約率 重要文 書籍は基本的に一つの題目,テーマに沿っ て書かれているものであるため,書籍にお いて出でくるワードは一つの題目,テーマ に関係のある言葉であるものと考えられる . 二語で検索をするということは、一語目と 二語目は何らかの関係があり、その二語が 全く関連性のない語とは考えにくい。

電子書籍のユーザーにとって便利な検索機 能 適当な二語の検索 一語から二語目を 抽出 私友人 私 先生 ユーザーの欲しい情報が得られる 関係のある言葉を 選んでから検索。

目的 ユーザーが二語選ぶのではなく、システ ムが二語目を選ぶことで、ユーザーが欲 しい情報を効率よく得る検索システムの 提案。

ネット上のページ キーワードを含むページ 索引全体集合結果 インターネット上の 情報 ランキング 上位 キーワード 検索 収集 集合結果 ( ランキング処理後 ) キーワードに 適合したもの を取り出す より正解とな るものを取り 出す Web 検索では検索元のデータが日々新しくな るランキング上位が変わる (検索対象が無限) 電子書籍は 不変のデータ ( 有限 ) ランキング上位は 変わらない

索引全体 集合結果 電子書籍のデータ 第 2 キーワー ド決定 第 2 キーワード 抽出 収集 集合結果 ( ランキング処理後 ) あらかじめいくつの キーワードを抽出す るか決めておく。 数値の大きさで決める 第 2 キーワードの決め方 書籍内の単語 キーワードを含む書籍内の単語 単語の共起頻度を数値化し、数値の大小で 第 2 キーワードを決める。

提案 1. 第1キーワードから最も関係のある単語 を第2キーワードとし抽出を行う。 2. 第2キーワードの抽出方法として tf-idf 法 の応用である Okapi-BM25 を使用する。ま た tf-idf 法と Okapi-BM25 の2つの検索をし、 検索結果の表を比べることで、どちらが 優れているかを示す。

検索方法 1. 第1キーワードで検索をする。 2. 第1キーワードを含む文を抜き出す。 3.2 .で取り出した文から単語をとりだし第 2キーワード候補群の配列に格納する。 4. 第2キーワード候補群の配列から第2 キーワードを決める。 5. 第2キーワードで検索をする。

私 先生 わたくし その人 常 …. 出掛ける 事 「私」というキーワードで検索 「先生」を第 2 キーワー ドとし、検索をかける。

tf – idf 法による抽出 ( 方式 A) ある単語の文書内での出現頻度をtf(t erm f requency ) ある単語が含まれている文書の頻度を df(document frequency) 全文書数 N idf(inverse document frequency )は,df の逆数であり,df と の対数をとったものとする

Okapi-BM25 ( 方式 B) 文書の長さ(文書数)の平均化をはかり、 スコアリングする文書が大体どれくらいの 長さなのかを比率的に計算することで特徴 語のスコアのムラを小さくしている。

結果 先生鎌倉西洋人 tf-idf Okapi-BM tf-idf 法では「先生」「西洋人」「鎌倉」の順に数値が 大きい Okapi-BM25 では「先生」「鎌倉」「西洋人」の順と なった。 文の文字数を考慮した結果、数値の差が縮まり、 ランキング上位が入れ変わった。

考察 そのほかの書籍ジャンル ( 参考書など ) で同 様に検索を行う。書籍ジャンルごとの結 果を比較することで tf-idf 法と Okapi-BM25 はジャンルごとでどちらを使う方が良い かを考察する。

おわり