透過的データ圧縮 Transparent Data Compression

透過的データ圧縮 Transparent Data Compression
K. Sadakane and R. Grossi: Squeezing Succinct Data Structures into Entropy Bounds, Proc. ACM-SIAM SODA 2006, to appear. 九州大学システム情報科学研究院定兼　邦彦 2005年11月22日

背景データ圧縮の目的 (過去) データ圧縮の目的 (現在) ランダムアクセスができたらどうなるかディスク容量の節約
通信コスト(料金，時間)の削減データ圧縮の目的 (現在) アクセスの高速化 (CPU速度 > ディスク速度) 連続的なアクセスに限られるランダムアクセスができたらどうなるか保存用

透過的データ圧縮もし圧縮データの任意部分を高速に復元できればデータを圧縮したまま保存できる圧縮されていることを意識しなくていい
ディスク容量の節約高速なアクセスが可能圧縮されていることを意識しなくていい

本研究の結果長さ n の文字列 S を圧縮 (アルファベットサイズ)
サイズ： LZ78 [Ziv, Lempel 78] と漸近的に同じ S の i 文字目からの連続する log n 文字　(log n ビット) を定数時間で復元可能 (decode(S,i)) (計算モデル: word RAM (語長 log n ビット)) このアクセス時間は未圧縮の場合と同じ (Hk: S の k 次経験的エントロピー)

研究の動機 Succinctデータ構造を更に圧縮したい bit vector 検索木グラフ圧縮接尾辞木

Succinctデータ構造あるデータ集合 D を格納するデータ構造データ構造のサイズ: 情報理論的下限に近い高速な問合せが可能
情報理論的下限 L = log (D の場合の数) 高速な問合せが可能補助的なデータ構造 (索引) を使用サイズ: 漸近的に無視できる (o(L) bits)

集合のSuccinctデータ構造 S: 01000110001001000001 集合 D  {1,2,...,n} を格納
問合せ (定数時間) member(D,i): D 中に i が存在するか rank(D,i): D 中の i 以下の要素の数 select(D,j): D 中で j 番目に小さい要素サイズ: n + o(n) bits [J89] [M96] S: 1 n i rank(D,i) = 3

木のSuccinctデータ構造 n 節点の順序木 T を格納 T は通り存在 (Catalan数) 問合せ(定数時間)
通常のデータ構造は O(n log n) bits T は通り存在 (Catalan数) 情報理論的下限 = 2n  (log n) bits 問合せ(定数時間) 長男，兄弟，親，深さ，preorder，子孫の数などサイズ: 2n  o(n) bits [MR01] [GRR04] a ((()())()) b a c d e S b e 木を括弧列 S で表現 c d

問: Succinctデータ構造はそれ以上圧縮できないか?
答: 場合によっては可能例: 集合 D  {1,2,...,n} の要素数が少ない場合要素数が m の集合は通り bitsのデータ構造でmember, rank, selectを定数時間で返すものが存在 [RRR02] bitsで表現できるはず FID (Fully Indexable Dictionary) と呼ばれる

FIDを用いたポインタの圧縮ある n ビットのデータ構造(ビット列)へのポインタ m個を格納する場合
ポインタの値 i を S[i] = 1 で表現 S をFIDで圧縮．ポインタはselectで求まる m = O(n/log n) のとき，FIDのサイズはビット列 S

問: 木のSuccinctデータ構造は圧縮できるか?
FIDでは不可能 ( と ) が同数ある ⇒ B(n,2n) = 2n bits 必要 2n + O(n log log n/log n) bits [GRR04] データ間の相関を考慮する必要がある FIDでは 0 次のエントロピーまで圧縮 k 次のエントロピーまで圧縮したい

本研究の圧縮法の応用集合 D  {1,2,...,n} に対するmember, rank, selectを定数時間で返すデータ構造
サイズ: nHk+O(n log log n/log n) bits (k=O(log log n)) Hkは D を表す0,1列 S の k 次経験的エントロピー EID (Entropy-Bound Indexable Dictionary) と呼ぶ FID よりもさらに小さい

EIDのデータ構造とアルゴリズムデータ構造問合せアルゴリズムどんな問合せの計算量も漸近的には同じ
D を表す0,1列 S を圧縮したもの nHk+O(n log log n/log n) bits 　(任意の連続する log n ビットを定数時間で復元可) FIDの補助データ構造 O(n log log n/log n) bits 問合せアルゴリズム FIDとほぼ同じ (S[i,i+log n1] へのメモリ参照をdecode(S,i)に置き換える) どんな問合せの計算量も漸近的には同じ

木のSuccinctデータ構造の圧縮 FIDでは不可能 EIDでは可能
2n + O(n log log n/log n) bits [GRR04] EIDでは可能木を表現する括弧列 S の Hk まで圧縮可 (k=O(log log n)) 2nHk + O(n log log n/log n) bits 問合せの計算量は圧縮前と同じ構造が同じ部分木があると Hk は小さくなる (接尾辞木で特に有効)

EIDの圧縮サイズの限界 S = 010101...010101 を圧縮する場合エントロピーが小さいと第2項が無視できない
FID: nH0 = n bits (+ O(n log log n/log n)) EID: nH1 = O(log n) bits (+ O(n log log n/log n)) エントロピーが小さいと第2項が無視できない rank を定数時間で返すデータ構造のサイズは (n log log n/log n) bits [Miltersen 05] 　つまり第2項は最適

従来の圧縮法

従来の圧縮法辞書式圧縮法 LZ77 [Ziv, Lempel 77] LZ78 [Ziv, Lempel 78]
LZW[Welch 84] compress LZSS [Storer, Szymanski 82] gzip 統計的圧縮法 PPM[Cleary, Witten 84] PPMD [Howard 93] PPM*[Cleary, Teahan, Witten 95] block sorting [Burrows, Wheeler 94] 高圧縮率、PPMより高速 (bzip2) context tree weighting [Willems, Shtarkov, Tjalkens 95] PPMより高圧縮率

LZ77圧縮法文字列を辞書へのポインタで置き換える辞書 = すでに圧縮した文字列圧縮率は文字列のエントロピーに収束
....a compressed suffix tree consists of a compressed suffix array, a Pat tree and edge-length information. ....a compressed suffix tree consists of [l=19, d=36] array, a Pat [l=4, d=51] and edge-length information. 圧縮率は文字列のエントロピーに収束

PPM 文字を1文字ずつ符号化各文字の符号は文脈から決まる圧縮サイズ： abcababc 文脈符号化する文字
文脈：符号化する文字の直前の k 文字圧縮サイズ： abcababc 文脈符号化する文字

高次圧縮の問題点 k 次のエントロピーの圧縮率を達成するには隣接する文字列の情報を用いて圧縮する必要がある
一部分を復元する場合も全体を復元ことになる k = 4 c o m p r e s s i o n

従来の圧縮法との比較漸近的圧縮率 log n ビットの復号時間 LZ77 [ZL77] nHk O(n) LZ78 [ZL78]
PPM [CW84] CTW [WST95] Block Sorting [BW94] 本研究 O(1) [GGV03]

新圧縮法の概要 LZ78の改良+補助データ構造

LZ78 圧縮法 S = aaabbbaaaabbbb 文字列を辞書中のフレーズに分割数字に置き換えて符号化辞書を更新出力 a a b
2 a 1 4 b LZ-trie 3 a 7 b 5 b 6 a 8 b S = aaabbbaaaabbbb 2 3 4 5 6 7 8 出力 1 a 2 a 1 b 4 b 3 a 2 b 5 b

LZ78の圧縮率長さ n の文字列 S を分解したフレーズの数 c は圧縮後のサイズ: bits
[Ziv, Lempel 78] 長さ n の文字列 S を分解したフレーズの数 c は圧縮後のサイズ: bits S が定常エルゴード情報源 (エントロピー H) から生成されるなら S の k 次経験的エントロピーHkに対し ( : アルファベットサイズ) [Kosaraju, Manjini 99]

添字が T のpreorderと一致するように付け替える
本研究のデータ構造 T 6 4 5 2 3 1 7 8 a b S = aaabbbaaaabbbb R P E (((())())((()))) C Tを表現する括弧列フレーズの添字を格納添字が T のpreorderと一致するように付け替えるフレーズの開始位置を格納 Tの枝ラベル

decodeアルゴリズム S = aaabbbaaaabbbb S[i,i+log n1] を復号する場合
S[i] を含むフレーズ p を求める p を表すLZ-trieのノード v を求める v から根に向かうパス上のラベルを復号 S = aaabbbaaaabbbb R 2 3 6 7 4 5 8 P 6 4 5 2 3 1 7 8 a b

Long phraseの復号 Long phrase: 長さ w = ½ log n 以上のフレーズ
branching node (根へのパスを格納) 枝分かれ無し(定数時間で復号可) jump node (子孫をw/2個以上持つ) micro tree (jump nodeの子孫) 定数時間で復号可

Short phraseの復号 Short phrase: 長さ w = ½ log n 未満のフレーズ
Sの長さ ½ log n の部分列はshort phraseを O(log n)個含む可能性あり ⇒ 定数時間で復号できない r > 1 個の連続するshort phraseをそのまま格納対応する R は格納しないデータ構造のサイズは増加しない R を格納する場合: r log c bits そのまま格納する場合: ½ log n bits ½ log n < r log c (∵ )

まとめ新圧縮法の提案任意の文字列を高次エントロピー限界まで圧縮部分列の定数時間復号 (未圧縮と同じ時間) 応用
既存の索引構造のサイズを改善検索速度も同じ個々の索引ごとに圧縮法を考える必要がない課題文字列の更新 LZ77などの改良

透過的データ圧縮 Transparent Data Compression

Similar presentations

Presentation on theme: "透過的データ圧縮 Transparent Data Compression"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

透過的データ圧縮 Transparent Data Compression

Similar presentations

Presentation on theme: "透過的データ圧縮 Transparent Data Compression"— Presentation transcript:

Similar presentations

About project

フィードバック