文字列照合を用いた XMLデータアクセス機構の提案

Slides:



Advertisements
Similar presentations
P2P 技術を応用した 分散システムの排他制御機構の試作 九州工業大学 情報科学センター 山之上 卓.
Advertisements

Collage System 圧縮テキストパターン照合のための統一的枠組み
圧縮テキストに対する文字列照合問題 竹田研究室 博士課程二年 喜田 拓也.
文法変換に基づく圧縮 九州大学附属図書館 研究開発室 喜田拓也.
透過的データ圧縮 Transparent Data Compression
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
情報生命科学特別講義III (1) 文字列マッチング
情報知識ネットワーク 有村・喜田研究室 ex. 7678, 7679
第9回 2007年6月22日 応用Java (Java/XML).
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
クラウドにおける ネストした仮想化を用いた 安全な帯域外リモート管理
読んだもの P0254R0: Integrating std::string_view and std::string およびその関連スレッド 稲葉 一浩.
Ex7. Search for Vacuum Problem
Ex8. Search for Vacuum Problem(2)
アルゴリズムとデータ構造 2012年7月19日
アルゴリズムとデータ構造 第9回演習解答.
Paper from PVLDB vol.7 (To appear in VLDB 2014)
東京工科大学 コンピュータサイエンス学部 亀田弘之
XML データベース XRel の実装とその評価
十年生の 日本語 Year 10 Writing Portfolio
基礎情報科学のトピックス (平成15年度版) 喜田拓也 (
アルゴリズムとデータ構造 2013年7月18日
A Unifying Framework for Compressed Pattern Matching
データ構造とプログラミング技法 (第10回) ー文字列照合(KMP法、BM法)ー.
ネット時代の情報センス 基礎情報科学のトピックス.
九州大学大学院システム情報科学研究科 情報理学専攻 竹田研究室 博士課程3年 喜田 拓也
Pattern Matching on Compressed Texts
生物情報ソフトウェア特論 (1) 文字列マッチング・データ構造
第12回 2007年7月13日 応用Java (Java/XML).
9.1 DOMの概要 9.2 DOMプログラミングの基礎 9.3 DOMのプログラミング例
喜田 拓也,竹田 正幸,篠原 歩 九州大学大学院システム情報科学府 情報理学専攻
第10回 2007年6月29日 応用Java (Java/XML).
NTTPCCommunications,Inc. 波多浩昭
第11回 2007年7月6日 応用Java (Java/XML).
第8回 2007年6月15日 応用Java (Java/XML).
第3回 2007年4月27日 応用Java (Java/XML).
Fast Pattern Matching Algorithms in Compressed Texts
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
第7回 2007年6月8日 応用Java (Java/XML).
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
Proceedings of the Third South American Workshop on String Processing.
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
にほんご JPN101 Oct. 5, 2009 (Monday).
仮想メモリを用いた VMマイグレーションの高速化
10-1 SAXの概要 10-2 Saxプログラミングの基礎 10-3 saxのプログラム例
独習XML ~第3章 文書と構造~ 3.3 スキーマ 3.3 XML Schema
半構造化テキストに対する 文字列照合アルゴリズム
テキスト検索は 文字列検索でも木検索でもない
第13回 2007年7月20日 応用Java (Java/XML).
Ex7. Search for Vacuum Problem
データ圧縮技術による文字列照合処理の高速化に関する研究
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
応用Java(Java/XML) 第7回 2006年6月16日 植田龍男.
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
長さの制限付きギャップと 文字クラスを含むパタンに対する 照合アルゴリズムの改善
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
大容量XML文書のデータ更新が 可能なXML編集ライブラリ
Created by L. Whittingham
構造的類似性を持つ半構造化文書における頻度分析
LZW 圧縮テキストに対する 高速文字列照合アルゴリズム 喜田 拓也 竹田 正幸 篠原 歩 九州大学大学院システム情報科学研究科
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
回帰テストにおける実行系列の差分の効率的な検出手法
日本膵臓学会 CO I 開示 発表者名(全員記載): ○○ ○○ 、 ○○ ○○ 、・・・ (◎発表責任者)
アノテーションガイドラインの管理を行う アノテーションシステムの提案
Improving Strategic Play in Shogi by Using Move Sequence Trees
応用Java(Java/XML) 第8回 2005年6月9日 植田龍男.
応用Java(Java/XML) 第8回 2005年6月23日 植田龍男.
Presentation transcript:

文字列照合を用いた XMLデータアクセス機構の提案 喜田 拓也* 宮本 哲† 竹田 正幸† *九州大学附属図書館研究開発室 †九州大学システム情報科学府情報理学専攻 発表者: 喜田 拓也

発表内容 研究の目的 提案アルゴリズム XPathのサブセット まとめ 既存の手法 我々のアプローチ 誤検出を回避する方法 文字列照合による処理の利点と問題点 提案アルゴリズム 誤検出を回避する方法 パスを考慮した照合処理 実験結果 XPathのサブセット まとめ 情報処理学会九州支部 若手の会セミナー 2002

既存の手法 XML文書 メモリ XMLパーサー プログラム DOM API XML文書 person name first last Makiko Tanaka person “” person/ name person/ name/first Makiko person/ name/last Tanaka … DOM API プログラム XML文書 情報処理学会九州支部 若手の会セミナー 2002

我々のアプローチ XML文書 メモリ 文字列照合アルゴリズム プログラム XML文書 <person> <name> <first> Makiko </first> <last> Tanaka </last> </name> </person> プログラム XML文書 情報処理学会九州支部 若手の会セミナー 2002

利点 処理が高速 少ないメモリで可 様々な応用 XML文書 木構造 巨大なXML文書や大量の文書群を一括に処理 複数の質問を同時に処理 情報処理学会九州支部 若手の会セミナー 2002

Knuth-Morris-Pratt (1974) 文字列照合問題 パタン matching テキスト Pattern matching is one of the most fundamental operations in string processing. Recently, a new trend for accelerating pattern matching has emerged: Speeding up pattern matching by text compression. From the traditional criteria for data compression, i.e., compression ratio and compression/decompression time, adaptive dictionary methods such as the Lempel-Ziv family are often preferred. However, such methods cannot speed up the pattern matching since an extra work is needed to keep track of compression mechanism. Knuth-Morris-Pratt (1974) Boyer-Moore (1977) Aho-Corasick (1975) Shift-Or (1992) 情報処理学会九州支部 若手の会セミナー 2002

Aho-Corasick(AC)照合機械 パタン集合:={other, <mother>} o t h e r other 1 2 3 4 5 任意の 文字 < m o t h e r > 14 6 7 8 9 10 11 12 13 other <mother> goto遷移 failure遷移 情報処理学会九州支部 若手の会セミナー 2002

問題点 タグ名の一部分とマッチする 誤った検出 <body> <h1>あのTVCM</h1> <p> <mother> mother </mother> mを取ったらother、 <other> 他人 </other> です. </p> </body> 誤った検出 情報処理学会九州支部 若手の会セミナー 2002

解決策 < > r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 > 以外 の文字 < 以外 の文字 r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> > 以外 の文字 < 以外 の文字 15 14 情報処理学会九州支部 若手の会セミナー 2002

PMM構築方法 < > > < r o t h e m < > 14 15 15 14 13 6 7 8 > 以外 の文字 < 以外 の文字 14 15 > 以外 の文字 > < < 以外 の文字 15 14 r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> 情報処理学会九州支部 若手の会セミナー 2002

パスを考慮した照合 苗字が「Tanaka」の人を探したい! <person><name><last>がTanaka (Xpathだと,要素 //person/name/last/ が「Tanaka」) 情報処理学会九州支部 若手の会セミナー 2002

アイデア スタック (<last>,2) <person> (<name>,1) 1 (<xml>,0) スタック (<last>,2) 1 3 <person> <name> 2 <last> 以外のタグ r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> > 以外 の文字 < 以外 の文字 15 14 ={<person>,</person>,<name>,</name>,<last>,</last>,…} ={Tanaka} 情報処理学会九州支部 若手の会セミナー 2002

実験結果 Sgrep(J. Jaakkola and P. Kilpeläinen)との比較 パタン Sgrep 38.44 37.02 //text/"summers" //test//"summers" /site/regions/africa/item/location/ "United_States" Sgrep 38.44 37.02 51.85 提案アルゴリズム 12.40 12.30 12.23 CPU時間(秒) テキスト:110MB(英文テキスト) CPU : Celelon 366MHz メモリ : 128MB OS : Kondara/MNU Linux 2.1 RC2 情報処理学会九州支部 若手の会セミナー 2002

/descendant::cars/child::car/attribute::node() 処理可能なXPathのサブセット 文字列照合による手法の限界 先行ノードの指定はできない! 複雑なフィルタの指定は照合速度を著しく低下させる。 LocationPath ::= '/' RelativeLocationPath RelativeLocationPath ::= Step | RelativeLocationPath '/' Step Step ::= AxisSpecifier NodeTest AxisSpecifier ::= AxisName '::' AxisName ::= 'attribute' | 'child' | 'descendant' | 'descendant-or-self' | 'following' | 'following-sibling' | 'self' | 'namespace' NodeTest ::= QName | NodeType '(' ')' NodeType ::= 'node' | 'text' | 'comment' | 'processing-instruction' /descendant::cars/child::car/attribute::node() //cars/car/@* 情報処理学会九州支部 若手の会セミナー 2002

まとめ XML文書に対する文字列照合処理 Sgrepに比べ3倍以上高速 処理可能なXPathのサブセットを定義 今後の課題 誤検出しない効率的な照合機械の構築 パスを考慮したアルゴリズム Sgrepに比べ3倍以上高速 処理可能なXPathのサブセットを定義 今後の課題 XPathのサブセットに対する実装 XML文書を圧縮して処理を高速化 情報処理学会九州支部 若手の会セミナー 2002