半構造化テキストに対する文字列照合アルゴリズム

Slides:

Advertisements

Similar presentations

In the last 100 years, global average surface temperatures have risen by 0.74˚C.

Advertisements

Collage System 圧縮テキストパターン照合のための統一的枠組み

圧縮テキストに対する文字列照合問題竹田研究室博士課程二年　喜田拓也.

文法変換に基づく圧縮九州大学附属図書館研究開発室喜田拓也.

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム

情報生命科学特別講義III （１）文字列マッチング

情報知識ネットワーク有村・喜田研究室 ex. 7678, 7679

XHTML構文検証手法におけるスクリプト要素の静的解析アルゴリズム

Regex takatosi.

クラウドにおけるネストした仮想化を用いた安全な帯域外リモート管理

読んだもの P0254R0: Integrating std::string_view and std::string およびその関連スレッド稲葉一浩.

背景我々の研究室で開発しているJavaプログラム解析フレームワークでは，解析情報はメモリ上に保持される問題点

アルゴリズムとデータ構造 2012年7月19日

アルゴリズムとデータ構造第9回演習解答.

THE PLAIN FORM An Adventure in verbs.

東京工科大学コンピュータサイエンス学部亀田弘之

XSLT XML文書はそのままでは読み易い形で表示されない。 XML文書を別のXML文書に変換して、情報抽出や表示をする枠組みがXSLT。

Tohoku University Kyo Tsukada

XML データベース XRel の実装とその評価

基礎情報科学のトピックス（平成１５年度版）喜田拓也 (

Chapter 1 Hamburger History

アルゴリズムとデータ構造 2013年7月18日

A Unifying Framework for Compressed Pattern Matching

データ構造とプログラミング技法（第10回）ー文字列照合（KMP法、BM法）ー.

ネット時代の情報センス基礎情報科学のトピックス.

情報検索技術のトピックス（平成１6年度版）喜田拓也 (

九州大学大学院システム情報科学研究科情報理学専攻竹田研究室博士課程３年喜田拓也

Pattern Matching on Compressed Texts

生物情報ソフトウェア特論（１）文字列マッチング・データ構造

第１２回　2007年7月13日応用Java (Java/XML).

9.1 DOMの概要 9.2 DOMプログラミングの基礎 9.3 DOMのプログラミング例

喜田拓也，竹田正幸，篠原歩九州大学大学院システム情報科学府情報理学専攻

第１０回　2007年6月29日応用Java (Java/XML).

Session 8: How can you present your research?

ＮＴＴＰＣCommunications,Inc. 波多浩昭

第１１回　2007年7月6日応用Java (Java/XML).

第８回　2007年6月15日応用Java (Java/XML).

Fast Pattern Matching Algorithms in Compressed Texts

Windows Azure 通知ハブ.

文字列照合を用いた XMLデータアクセス機構の提案

独習ＸＭＬ第２章ＸＭＬ文書の構成要素 2.1 ＸＭＬの文字と文字列 2.2 コメント

Proceedings of the Third South American Workshop on String Processing.

インラインスクリプトに対するデータフロー解析を用いた XHTML 文書の構文検証

にほんご JPN101 Oct. 5, 2009 (Monday).

仮想メモリを用いた VMマイグレーションの高速化

WELCOME TO THE WORLD OF DRAGON BALL

アルゴリズムとデータ構造 2011年7月12日

独習XML ~第3章文書と構造~ 3.3 スキーマ 3.3 XML Schema

卒業論文に向けて(2) 学部4年生島本大輔 2004年10月29日.

テキスト検索は文字列検索でも木検索でもない

データ圧縮技術による文字列照合処理の高速化に関する研究

22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験高山誠指導教員小林泰秀

アルゴリズム論（第１２回）佐々木研（情報システム構築学講座）講師　山田敬三

長さの制限付きギャップと文字クラスを含むパタンに対する照合アルゴリズムの改善

Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化

JavaScriptを含んだHTML文書に対するデータフロー解析を用いた構文検証手法の提案

Windows Summit 2010 © 2010 Microsoft Corporation.All rights reserved.Microsoft、Windows、Windows Vista およびその他の製品名は、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。

大容量XML文書のデータ更新が可能なXML編集ライブラリ

Created by L. Whittingham

構造的類似性を持つ半構造化文書における頻度分析

Nice to meet you! 先生や学校の写真など Photo of 4. (⇒name & “nice to meet you”)

LZW 圧縮テキストに対する高速文字列照合アルゴリズム喜田拓也竹田正幸篠原歩九州大学大学院システム情報科学研究科

発表者: 稲葉一浩複雑ネットワーク・地図グラフセミナー 2017/1/19

回帰テストにおける実行系列の差分の効率的な検出手法

日本膵臓学会ＣＯＩ開示発表者名（全員記載）： ○○ ○○ 、 ○○ ○○ 、・・・（◎発表責任者）

識別子の読解を目的とした名詞辞書の作成方法の一試案

アノテーションガイドラインの管理を行うアノテーションシステムの提案

Improving Strategic Play in Shogi by Using Move Sequence Trees

応用Java(Java/XML) 第8回 2005年6月23日植田龍男.

Presentation transcript:

半構造化テキストに対する文字列照合アルゴリズム喜田拓也*　貴福友晴†　竹田正幸† *九州大学附属図書館研究開発室 †九州大学システム情報科学府情報理学専攻発表者：　喜田拓也

発表内容研究の目的提案アルゴリズム実験結果まとめ既存の手法我々のアプローチ誤検出を回避する方法パスを考慮した照合処理文字列照合による処理の利点と問題点提案アルゴリズム誤検出を回避する方法パスを考慮した照合処理実験結果まとめ 2001年度冬のLAシンポジウム

既存の手法 XML文書メモリＸＭＬパーサープログラム DOM API XML文書 person name first last Makiko Tanaka person “” person/ name person/ name/first Makiko person/ name/last Tanaka … DOM API プログラム XML文書 2001年度冬のLAシンポジウム

我々のアプローチ XML文書メモリ文字列照合アルゴリズムプログラム XML文書 <person> <name> <first> Makiko </first> <last> Tanaka </last> </name> </person> プログラム XML文書 2001年度冬のLAシンポジウム

利点処理が高速少ないメモリで可様々な応用 XML文書木構造巨大なXML文書や大量の文書群を一括に処理複数の質問を同時に処理 2001年度冬のLAシンポジウム

Knuth-Morris-Pratt (1974) 文字列照合問題パタン matching テキスト Pattern matching is one of the most fundamental operations in string processing. Recently, a new trend for accelerating pattern matching has emerged: Speeding up pattern matching by text compression. From the traditional criteria for data compression, i.e., compression ratio and compression/decompression time, adaptive dictionary methods such as the Lempel-Ziv family are often preferred. However, such methods cannot speed up the pattern matching since an extra work is needed to keep track of compression mechanism. Knuth-Morris-Pratt (1974) Boyer-Moore (1977) Aho-Corasick (1975) Shift-Or (1992) 2001年度冬のLAシンポジウム

Aho-Corasick(AC)照合機械パタン集合：={other, <mother>} o t h e r other 1 2 3 4 5 任意の文字 < m o t h e r > 14 6 7 8 9 10 11 12 13 other <mother> goto遷移 failure遷移 2001年度冬のLAシンポジウム

問題点タグ名の一部分とマッチする誤った検出 <body> <h1>あのTVCM</h1> <p> <mother> mother </mother> mを取ったらother、 <other> 他人 </other> です． </p> </body> 誤った検出 2001年度冬のLAシンポジウム

解決策 < > r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 > 以外の文字 < 以外の文字 r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> > 以外の文字 < 以外の文字 15 14 2001年度冬のLAシンポジウム

PMM構築方法 < > > < r o t h e m < > 14 15 15 14 13 6 7 8 > 以外の文字 < 以外の文字 14 15 > 以外の文字 > < < 以外の文字 15 14 r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> 2001年度冬のLAシンポジウム

属性の取り扱い r o t h e m < > r o t h e m < > 同じタグ <mother> <mother nature=“tender”> <mother nature=“hard”> ・・・同じタグ <mother> r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> > 以外の文字 < 以外の文字 15 14 r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> > 以外の文字 < 以外の文字 15 14 16 ] 2001年度冬のLAシンポジウム

パスを考慮した照合苗字が「Tanaka」の人を探したい！ <person><name><last>がTanaka （Xpathだと，要素 //person/name/last/ が「Tanaka」） 2001年度冬のLAシンポジウム

アイデアスタック (<last>,2) <person> (<name>,1) 1 (<xml>,0) スタック (<last>,2) 1 3 <person> <name> 2 <last> 以外のタグ r o t h e m < > 13 6 7 8 9 10 11 12 1 2 3 4 5 other <mother> > 以外の文字 < 以外の文字 15 14 ={<person>,</person>,<name>,</name>,<last>,</last>,…} ={Tanaka} 2001年度冬のLAシンポジウム

実験結果 Sgrep(J. Jaakkola and P. Kilpeläinen)との比較パタン Sgrep 38.44 37.02 //text/"summers" //test//"summers" /site/regions/africa/item/location/ "United_States" Sgrep 38.44 37.02 51.85 提案アルゴリズム 12.40 12.30 12.23 CPU時間（秒）テキスト：110MB(英文テキスト) CPU : Celelon 366MHz メモリ : 128MB OS : Kondara/MNU Linux 2.1 RC2 2001年度冬のLAシンポジウム

まとめ XML文書に対する文字列照合処理 Sgrepに比べ３倍以上高速今後の課題誤検出しない効率的な照合機械の構築パスを考慮したアルゴリズム Sgrepに比べ３倍以上高速今後の課題複数文字列を一度に置換するアルゴリズムの開発[3] XML文書を圧縮して処理を高速化[6] 2001年度冬のLAシンポジウム