データ圧縮技術による文字列照合処理の高速化に関する研究

Slides:



Advertisements
Similar presentations
R Basics 2013/12/09 Yamada. 今日の方針 Today’s plan テキスト・文字列を扱うにあたっての用 語の理解をすることの方が、 R での操作を 見るより有意義と思われるので、そちら を優先 Learning terms on text/strings is more.
Advertisements

簡潔データ構造 国立情報学研究所 定兼 邦彦.
Collage System 圧縮テキストパターン照合のための統一的枠組み
圧縮テキストに対する文字列照合問題 竹田研究室 博士課程二年 喜田 拓也.
文法変換に基づく圧縮 九州大学附属図書館 研究開発室 喜田拓也.
透過的データ圧縮 Transparent Data Compression
情報生命科学特別講義III (1) 文字列マッチング
情報検索概説II 第8回 パソコン組み立てと記憶装置 1999/11/25.
情報知識ネットワーク 有村・喜田研究室 ex. 7678, 7679
~補助記憶装置~  主記憶装置に記憶されるデータは,パソコンの電源を切ると記憶内容が消えてしまう。また,容量にも限界があるので,補助記憶装置にデータを記憶させる。補助記憶装置はパソコンの電源を切っても記憶内容は消えない。補助記憶装置の内容は主記憶装置上で利用することができる。 電源OFF 電源OFF.
アルゴリズムとデータ構造 2012年7月19日
アルゴリズムとデータ構造 第9回演習解答.
記 憶 管 理(2) オペレーティングシステム 第10回.
THE PLAIN FORM An Adventure in verbs.
Japanese verbs informal forms
東京工科大学 コンピュータサイエンス学部 亀田弘之
Chapter 6 Jade 翡翠(ヒスイ).
Tohoku University Kyo Tsukada
図書館と 情報スキルアップ教育 ―情報検索講習会報告と今後の展望―.
十年生の 日本語 Year 10 Writing Portfolio
Provisioning on Multiple Network(NIC) env
The Sacred Deer of 奈良(なら)
IIR輪講復習 #5 Index compression
基礎情報科学のトピックス (平成15年度版) 喜田拓也 (
Chapter 1 Hamburger History
文字列照合アルゴリズム 情報知識ネットワーク特論 喜田拓也 参考文献:
アルゴリズムとデータ構造 2013年7月18日
What is the English Lounge?
A Unifying Framework for Compressed Pattern Matching
データ構造とプログラミング技法 (第10回) ー文字列照合(KMP法、BM法)ー.
ネット時代の情報センス 基礎情報科学のトピックス.
情報検索技術のトピックス (平成16年度版) 喜田拓也 (
九州大学大学院システム情報科学研究科 情報理学専攻 竹田研究室 博士課程3年 喜田 拓也
Pattern Matching on Compressed Texts
生物情報ソフトウェア特論 (1) 文字列マッチング・データ構造
Topics on Japan これらは、過去のインターンが作成したパワポの写真です。毎回、同じような題材が多いため、皆さんの出身地等、ここにない題材も取り上げるようにしてください。
k 個のミスマッチを許した点集合マッチング・アルゴリズム
喜田 拓也,竹田 正幸,篠原 歩 九州大学大学院システム情報科学府 情報理学専攻
Session 8: How can you present your research?
コンピュータを知る 1E16M009-1 梅津たくみ 1E16M017-8 小沢あきら 1E16M035-0 柴田かいと
動画ファイル形式 コンピュータでは、文字や画像、動画、音声といった様々な種類の情報を扱うことができるが、記憶装置に記録されるデータそのものは0と1の情報でしかない。動画ファイルの形式としてはMPEGやAVIです。
Fast Pattern Matching Algorithms in Compressed Texts
文字列照合を用いた XMLデータアクセス機構の提案
Proceedings of the Third South American Workshop on String Processing.
データ構造とアルゴリズム 第14回 文字列の照合.
-Get test signed and make corrections
にほんご JPN101 Oct. 5, 2009 (Monday).
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
コンピュータの仕組み 1E16M048 圓谷 英一 1E16M050 徳弘 徹也 1E16M051 戸張 将義 1E16M052 飛田 優輝
アルゴリズムとデータ構造 2011年7月12日
半構造化テキストに対する 文字列照合アルゴリズム
テキスト検索は 文字列検索でも木検索でもない
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
長さの制限付きギャップと 文字クラスを含むパタンに対する 照合アルゴリズムの改善
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
北大MMCセミナー 第97回 附属社会創造数学センター主催 Date: 2019年3月5日(火) 11:00~12:00
iSeries Site 人事・給与C/S版のハードウェア・ソフトウェア要件
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
英語音声学(7) 音連結.
構造的類似性を持つ半構造化文書における頻度分析
LZW 圧縮テキストに対する 高速文字列照合アルゴリズム 喜田 拓也 竹田 正幸 篠原 歩 九州大学大学院システム情報科学研究科
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
NDL Search Screen Okuinshi/Sakai 09/15/04.
「コンピュータと情報システム」 02章 ハードウェア
データ構造とアルゴリズム 第14回 文字列の照合.
8.文字列処理 8.1 C#の文字列 C#では, “ABCD”のように文字列を2重引用符で挟んで指定します。ASCIIコード体系のとき,以下のような内部形式となります。 1 1 文字 ‘A’ ナル文字 1 1 文字 ‘B’ A B C D \ 文字 ‘C’ 1 1 文字 ‘D’ ナル文字‘\0’
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Improving Strategic Play in Shogi by Using Move Sequence Trees
Presentation transcript:

データ圧縮技術による文字列照合処理の高速化に関する研究 九州大学附属図書館研究開発室

Knuth-Morris-Pratt (1974) 文字列照合問題 パタン matching テキスト Pattern matching is one of the most fundamental operations in string processing. Recently, a new trend for accelerating pattern matching has emerged: Speeding up pattern matching by text compression. From the traditional criteria for data compression, i.e., compression ratio and compression/decompression time, adaptive dictionary methods such as the Lempel-Ziv family are often preferred. However, such methods cannot speed up the pattern matching since an extra work is needed to keep track of compression mechanism. Knuth-Morris-Pratt (1974) Boyer-Moore (1977) Aho-Corasick (1975) Shift-Or (1992)

文字列照合を用いた検索システム RDBほか 文字列照合を基にした独自の方式 索引構造作成エンジン 索引 項目検索用 エンジン 検索プログラム テキストデータ 項目検索用DB 索引 全文検索用 エンジン 全文検索用DB 文字列照合を基にした独自の方式 検索プログラム テキストデータ 全文検索用 項目検索用 エンジン 全文検索用DB

本研究の目的 復号 文字列照合 アルゴリズム 転送 文字列照合 アルゴリズム 転送 転送 圧縮文字列照合 アルゴリズム テキスト データ 二次記憶装置上 テキスト データ 文字列照合 アルゴリズム 転送 メモリ上 二次記憶装置上 圧縮テキスト メモリ上 文字列照合 アルゴリズム 復号 転送 メモリ上 二次記憶装置上 圧縮テキスト 転送 メモリ上 圧縮文字列照合 アルゴリズム

BPE圧縮法 困難さと解決策 BM型文字列照合 そのまま 圧縮テキストを 高速に照合 Boyer-Moore type PM algorithm Byte Pair Encoding BPE圧縮法 圧縮テキストを そのまま 高速に照合

実験結果 (非圧縮テキスト上のアルゴリズムとの対比) 0.0 0.3 0.4 0.5 0.8 0.1 0.2 0.6 0.7 AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F Medline(英文テキスト) 60.3Mbyte CPU時間(秒) 我々の手法 非圧縮テキストをKMPで照合 非圧縮テキストをAgrepで照合 5 10 15 20 25 30 パタンの長さ

近似文字列照合問題(あいまい検索) MARRIAGE MASS AGE 削除 置換 MARRIAGE MASSAGE CARRIAGE

圧縮テキスト上の近似文字列照合技術 そのまま フィルタリング手法 復号 圧縮テキスト上での 複数パタン文字列照合技術 圧縮テキストを 主記憶装置上 二次記憶装置上 圧縮テキスト 近似文字列照合 アルゴリズム 復号 転送 主記憶装置上 Multiple-pattern matching on compressed texts 圧縮テキスト上での 複数パタン文字列照合技術 フィルタリング手法 Filtration technique 圧縮テキストを そのまま 高速に近似文字列照合

LZW圧縮法における実験結果 7 6 5 4 CPU時間(秒) 3 2 1 1 2 3 4 5 許容される最大の編集距離 k Intel Pentium III 550MHz (RAM: 64Mb; Linux) Wall Street Journal の記事(英文テキスト)10Mbyte パタンの長さ=10 6 5 4 復号後にフィルタリング手法で照合 CPU時間(秒) 復号後に[Myers98]で照合 3 圧縮テキストにフィルタリング/AC 2 圧縮テキストにフィルタリング/BM 圧縮テキストにフィルタリング/BP 1 1 2 3 4 5 許容される最大の編集距離 k