定兼邦彦今井浩東京大学理学系研究科情報科学専攻

Slides:

Advertisements

Similar presentations

組合せ最適化輪講 2.3 連結性川原純. 2.3 連結性内容 – グラフ上の節点をすべてたどるアルゴリズム計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズムトポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.

Advertisements

A Simple Constant Time Enumeration Algorithm for Free Trees 中野眞一宇野毅明群馬大学情報学研究所 2003 年 9 月 19 日アルゴリズム研究会.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

到着時刻と燃料消費量を同時に最適化する船速・航路計画

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム

４．３　マージソート.

LZ符号化森田岳史.

情報処理第12回.

XHTML構文検証手法におけるスクリプト要素の静的解析アルゴリズム

LZ圧縮回路の設計とハード・ソフト最適分割の検討電子情報デザイン学科高性能計算研究室４回生　中山　和也 2009/2/27.

極小集合被覆を列挙する実用的高速アルゴリズム

離散システム特論整列(sorting)アルゴリズム　２.

ヒープソートの演習第13回.

アルゴリズムイントロダクション第２章主にソートに関して

情報・知能工学系山本一公プログラミング演習Ⅱ 第4回配列（２）情報・知能工学系山本一公

第12回ソート（3）: シェルソート、クイックソート

近似アルゴリズム第１０章終了時刻最小化スケジューリング

第11回整列～シェルソート，クイックソート～

第11回整列～バケットソート，基数ソート，ヒープソート～

データ構造とアルゴリズム論第６章探索のアルゴリズム

全体ミーティング (4/25) 村田雅之.

On the Enumeration of Colored Trees

ファーストイヤー･セミナーⅡ 第８回　データの入力.

４－３：高度なソートアルゴリズム① （分割統治法にもとづくソート）

KeyGraphを活用した食品安全リスクの早期警告支援

全文検索のためのデータ構造と構成の効率について

情報知能学科「アルゴリズムとデータ構造」

第10回ソート（1）：単純なソートアルゴリズム

時空間データからのオブジェクトベース知識発見

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

動的ハフマン符号化の例入力：ABCDEからなる文字列出力：動的に作ったハフマン木.

データ構造とアルゴリズム分割統治～マージソート～.

日本大学文理学部情報システム解析学科谷研究室益田真太郎

岩井儀雄コンピュータ基礎演習　ー探索、整列ー岩井　儀雄

第７章　データベース管理システム７．１データベース管理システムの概要７．２データベースの格納方式７．３問合せ処理.

疑似頻出アイテム集合の多項式遅延列挙アルゴリズム

最短路問題のための LMS(Levelwise Mesh Sparsification)

第11回整列～シェルソート，クイックソート～

二分探索木によるサーチ.

７－３．高度な木（平衡木）ＡＶＬ木平衡２分木。回転操作に基づくバランス回復機構により平衡を保つ。Ｂ木

IIR輪講復習 #1 Boolean retrieval

k 個のミスマッチを許した点集合マッチング・アルゴリズム

第25章単一始点最短路 3節 Bellman-Fordのアルゴリズム

グラフアルゴリズムの可視化数理科学コース　福永研究室高橋　優子 2018/12/29.

情報工学概論 (アルゴリズムとデータ構造)

ソートアルゴリズムの種類選択ソート (selection sort) バブルソート (bubble sort)

環境リスクマネジメントに関する検索システム

WWW上の効率的なハブ探索法の提案と実装

講義では、Cプログラミングの基本を学び演習では、やや実践的なプログラミングを通して学ぶ

Internet広域分散協調サーチロボットの研究開発

トーリックイデアルのグレブナ基底を求めるアルゴリズム – F4およびF5 –

P n ポインタの基礎 5 q m 5 7 int* p; int 型の変数を指すポインタ int* q; int 型の変数を指すポインタ int n=5, m=7; int 型の変数 int array[3]; int* pArray[3]; p = &n; ポインタにアドレスを代入しているのでOK.

先進的計算基盤システムシンポジウム SACSIS2007併設企画マルチコアプログラミングコンテスト「Cellスピードチャレンジ2007」

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

第５章　計算とプログラム本章で説明すること・計算の概観と記述法・代表的な計算モデル・プログラムとプログラム言語.

Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化

アルゴリズムとデータ構造1 2006年7月11日

ナップサック問題クマさん人形をめぐる熱いドラマの結末.

JavaScriptを含んだHTML文書に対するデータフロー解析を用いた構文検証手法の提案

データ構造とアルゴリズム (第5回) 静岡大学工学部安藤和敏

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

構造的類似性を持つ半構造化文書における頻度分析

設計情報の再利用を目的とした UML図の自動推薦ツール

バブルソート，バケツソート，クイックソート

情報工学概論 (アルゴリズムとデータ構造)

ソートのプログラムの流れ配列の中身を小さい順に並び替える a[1],a[2],…a[n]の値を順に出力する

ヒープソート.

Webページタイプによるクラスタリングを用いた検索支援システム

参考：大きい要素の処理.

プログラミング論バイナリーサーチ 1.

Presentation transcript:

定兼邦彦今井浩東京大学理学系研究科情報科学専攻 k単語近接検索について定兼邦彦　今井浩東京大学理学系研究科情報科学専攻

内容 k 単語の近接検索(proximity search)の時間アルゴリズム平面走査アルゴリズムの検索速度の実験平面走査による方法分割統治による方法平面走査アルゴリズムの検索速度の実験 htmlファイル 185MB

背景電子化された文書の普及 WWW, メール新聞, 辞書, 書籍ゲノムデータベース大量の文書からの検索文書のランキングが必要

文書のランキング検索結果が多い場合に重みをつけるキーワードの重要度参照回数近接検索 (proximity search) tf*idf法参照回数近接検索 (proximity search)

Proximity Search キーワードが近くに現れている場所を探す狭い範囲に全てのキーワードが含まれているならそこは有益な情報を含むと考える

問題の定義(Proximity Search) 問題1 (naive proximity search) 入力: k 種類の単語のテキスト T[1..N] での出現位置(合計 n 個) 出力: 全ての単語の出現位置を含む　　　テキスト中の区間 [l,r] （区間は、幅 r-l の小さい順にならべる）区間内の単語の出現順は任意

既存研究 Manber, Baeza-Yates 91 Gonnet, Baeza-Yates, Snider 92 メモリ Gonnet, Baeza-Yates, Snider 92 距離 d 以内の2単語を時間 Aref, Barbara, Johnson, Mehrotra 95 距離 d 以内の k 単語の列挙を時間

既存の方法の問題点３単語以上の場合に良いアルゴリズムがない２単語用のアルゴリズムを繰り返す本研究単語間の距離 d を決めておく必要がある距離 d 以内の単語の組は　　　　　個答えの数が多くなる本研究３単語以上で効率のよいアルゴリズムを提案「極小」なもののみ求める

本研究の方法 k 単語を含む極小な区間の列挙を時間区間の最大値 d の制限はないメモリ２つのアルゴリズム平面走査アルゴリズムの拡張分割統治法

極小性定義1 k 単語を含む区間が極小　　　　別の区間を含まない A B C 極小 A B C 極小ではない A B C 極小

naive proximity searchの問題点検索結果に冗長なものが入る極小ではない区間を含む極小: 他の区間を含まない区間区間の数が個ある問題2 (proximity search) naive proximity searchにおいて、極小な区間のみを幅の狭い順に求める極小な区間は n 個未満

アルゴリズム(平面走査) 各単語の出現位置のリストをソート各リストの先頭のものを取り出しソートし区間 [l,r] を求める区間の左端の単語を取り除き、同じ単語をリストから取り出す。空なら 6 へ。区間と単語の順序を更新し、3へ。ヒープの中の区間をソートして出力

例 A B C A B A C B A C 現在の区間は極小ではない次のAは現在の区間に含まれる次のAは現在の区間に含まれる左端の単語を捨て、同じ単語を入れる

計算量定理1: k 種類、合計 n 個の単語の出現位置が与えられたとき、問題2 (proximity search)は時間でできる。証明: 出現位置のソート: 出現位置のリストのマージ: 極小な区間のソート:

分割統治による方法単語の位置をソートする必要がない定理2: 最も少ない単語の頻度が l のとき、m 個の極小な区間は時間。ある単語の頻度が小さいときに有効定理2: 最も少ない単語の頻度が l のとき、m 個の極小な区間は時間。

アルゴリズム(分割統治) n 個の単語の位置の中間値 v を求める。単語の位置を v より小さいもの(L)と大きいもの (R)に分ける。k 個の単語に対し L 中で最右のものと R 中で最左のものを求める。 L, R 両方にまたがる区間を平面走査で求める。 L (R) が k 個の単語を全て含んでいればその中の区間を再帰的に求める。

例中間値 A B C A B C L R R L A B C

実際的な高速化出現位置は整数 radix sortを使う区間の幅の最大値 d を設定する区間の数の上限を設定するヒープの根に幅が最大のものを入れ、それより大きいものはヒープに入れない区間の数の上限がない場合区間を配列に入れておき最後にradix sort

検索速度の実験データマシン htmlファイル51,783個テキストサイズ: 185Mバイト (１つは平均3.5KB) suffix arrayサイズ: 639Mバイト (91-95年の毎日新聞全記事 485Mバイト) マシン Sun Ultra60 UltraSPARC-II 360MHz, メモリ2GB, ディスク18GB

実装方法平面走査アルゴリズム位置のソートは基数のradixソート区間の幅の最大値は1000 区間の数は無制限

1キーワードの検索時間個数に比例した時間 (radix sort) キーワード http www jp h t p e n 個数 283719 214524 319914 3747125 7304053 2610014 6939739 4371063 検索時間(秒) 0.698 0.505 0.778 2.333 4.721 1.820 4.410 2.752 個数に比例した時間 (radix sort)

極小な区間の検索時間検索時間の約半分は極小な区間を求める時間時間はキーワードの総数にほぼ比例キーワード http www jp h t p e t h n キーワード数 818157 13661192 22361980 区間数 377405 3180532 4400220 検索時間(秒) 2.414 16.351 26.811 ソート以外 0.443 7.487 12.595 検索時間の約半分は極小な区間を求める時間時間はキーワードの総数にほぼ比例

まとめ k 単語近接検索を時間で行うアルゴリズムの提案実際にはほぼ時間 htmlファイルでの検索速度の実験実際にはほぼ時間 htmlファイルでの検索速度の実験通常の検索では速度は問題ない

課題分割統治アルゴリズムの実装、平面走査との比較高次元への拡張(分割統治アルゴリズム) 計算量の下限を求めるセブンイレブン、ローソン、ファミリーマートが近くにあるところを見つける計算量の下限を求める