圧縮を用いた類似度判定のための計算実験谷研究室新井秀森田岳史.

圧縮を用いた類似度判定のための計算実験谷研究室新井秀森田岳史

目次はじめに類似度の判定方法圧縮アルゴリズム実験今後の課題

類似度判定とは？２つの対象が相互に似ているか、似ていないか判定すること図１ヒト図２サル例えば・・似ている？
図２　サル例えば・・似ている？ ※図１　　 ※図２　　　

類似度判定 Ming Liらが、対象を選ばず機械的に行える類似度判定法を提案！専門的な知識が必要。
方言などの場合、専門家の知識・経験に頼るところがある。 Ming Liらが、対象を選ばず機械的に行える類似度判定法を提案！

Ming Liらが提案した類似度の特徴パラメータを特定しない対象を選ばない（万能性）前提や専門知識を必要としない
人の感情が介入しないため、新たな発見も　する場合もある

Ming Liらの提案した類似度 Kolmogorov記述量を利用 Kolmogorov記述量は計算不可能データを圧縮したサイズ
によって代用!

事例１ミトコンドリアDNAからの哺乳類進化系統樹自動生成 rudiらの論文より抜粋

事例２ロシア小説の類似度による系統樹自動生成 rudiらの論文より抜粋

谷研究室での事例１音楽の自動分類三井氏の論文より抜粋

谷研究室での事例２方言の自動分類堀中氏らの論文より抜粋

本研究の目的以前の類似度判定では、圧縮率の高さからbzip2を採用 Kolmogorov記述量を代用する圧縮ソフトについて
どれが適したものかあまり考えてこなかった

本研究の目的いくつかの圧縮ソフトを用いた計算実験を行う。類似度を算出する際に適した圧縮ソフトを検証する。

目次はじめに類似度の判定方法圧縮アルゴリズム実験今後の課題

Kolmogorov記述量とは規則性を表す指標

規則性・ランダム性サイコロを５回振る出た目パターン１同確率確率では測れない１１１１１パターン２３５１３２

規則性・ランダム性 #include <stdio.h> #include <stdlib.h> int main(void) { int i; for(j=0;j<100;j++){ for (i = 0;i <100;i++) { printf("%d\n", (int)(rand()*100/(1+RAND_MAX)); } return 0; ある疑似乱数生成プログラムで作られた１以上９９以下の整数規則性があればプログラムで短く表現できる可能性があるプログラムやアルゴリズムも規則表現の一つかもしれない

Kolmogorov記述量あるプログラム言語でデータｘを生成する最小のプログラムサイズのこと。K(x)と表す。
データの規則性やランダム性などのデータに含まれる情報量をデータを作る　　　　　　プログラムサイズで評価する方法。 Kolmogorov記述量は圧縮の限界。

Kolmogorov記述量あるプログラム言語でデータを生成する最小のプログラムサイズのこと。K(x)と表す。
データの規則性やランダム性などのデータに含まれる情報量をデータを作る　　　　　　プログラムサイズで評価する方法。 Kolmogorov記述量は圧縮の限界。

なぜ圧縮の限界？圧縮はKolmogorov記述量の近似！圧縮ｘの圧縮ファイルデータｘ解凍解凍プログラムデータｘ

条件付Kolmogorov記述量とは? 補助情報yを利用したKolmogorov記述量。K(x|y)とあらわす。いちからデータx
を作ると必然と Kolmogorov記述量は大きい。補助情報を使うと Kolmogorov 記述量は小さくなるデータx 補助情報データy

𝑥に含まれる𝑦の情報量 𝐼（𝑥:𝑦） 𝐼𝑦:𝑥＝𝐾𝑥−𝐾（𝑥｜𝑦） 𝐼𝑥:𝑦≒𝐼𝑦:𝑥であることが知られている

正規化する Xの中にyの情報がこれだけ入ってるとみなすことも出来る I(x:y)
𝑥に含まれる𝑦の情報量 𝐼（𝑥:𝑦）=𝐾𝑥−𝐾𝑥｜𝑦 𝐾𝑥 I(x:y) 𝐾𝑥｜𝑦 正規化する Xの中にyの情報がこれだけ入ってるとみなすことも出来る

NID (Normalized Information Distance)
この値が類似度となる!! Ming Liらの研究では、情報に関する距離を正規化した。その距離をNIDと呼ぶ。 𝐾を𝐾𝑜𝑙𝑚𝑜𝑔𝑜𝑟𝑜𝑣記述量、𝐾𝑥｜𝑦を補助情報つき𝐾𝑜𝑙𝑚𝑜𝑔𝑜𝑟𝑜𝑣記述量として任意のデータ𝑥,𝑦について、𝑥,𝑦間の情報に関する距離 𝑁𝐼𝐷は以下と提案される。 𝑁𝐼𝐷𝑥,𝑦= 𝑚𝑎𝑥｛𝐾𝑥｜𝑦,𝐾𝑦｜𝑥｝ 𝑚𝑎𝑥｛𝐾𝑥,𝐾𝑦｝

NID (Normalized Information Distance)
２つのデータ間の距離パラメーターを特定しない対象を選ばない（万能性） Kolmogorov記述量は帰納的でない　　　　　　　数学的に定義できるが、有限の時間で計算できると限らない実用的な圧縮したサイズで代用する

NCD (Normalized Compression Distance)
𝑁𝐼𝐷𝑥,𝑦= 𝑚𝑎𝑥｛𝐾𝑥｜𝑦,𝐾𝑦｜𝑥｝ 𝑚𝑎𝑥｛𝐾𝑥,𝐾𝑦｝ 𝑁𝐶𝐷𝑥,𝑦= 𝐶𝑥𝑦−𝑚𝑖𝑛｛𝐶𝑥,𝐶𝑦｝ 𝑚𝑎𝑥｛𝐶𝑥,𝐶𝑦｝ 𝑥𝑦を𝑥とｙの連接とする 𝑥,𝑦:あるデータ 𝐶:ある圧縮アルゴリズム 𝐶（𝑥）:𝑥を圧縮した後のサイズ

Normal Compressor NCDで用いる。圧縮ソフトは万能性を保つためいくつかの制約がある。以下の定義を満たしていること望ましい。
𝐶𝜆=0⇔𝜆が空のファイル 𝐶𝑥𝑥=𝐶𝑥 𝐶𝑥𝑦≥𝐶𝑥 𝐶𝑦𝑥=𝐶𝑥𝑦 𝐶𝑥𝑦≤𝐶𝑥𝐶𝑦 𝐶𝑥𝑦𝐶𝑧≤𝐶𝑥𝑧𝐶𝑦𝑧 ファイルxとファイルyを連接させたモノとその逆をして、圧縮した結果はファイルサイズが等しい。あるファイルx を2つ連続させて圧縮させた場合とファイルxを圧縮した場合のファイルサイズは等しい空のファイルを圧縮した場合ファイルサイズは0になる。 𝑥,𝑦,𝑧:あるファイル 𝐶：ある圧縮ソフト 𝐶𝑥:ファイル𝑥を圧縮した後のサイズ 𝑥𝑦:𝑥と𝑦の連接 𝑂 log 𝑛 の差は無視𝑛:最長の文字列

類似度が高いとき 𝑁𝐶𝐷𝑥,𝑦= 𝐶𝑥𝑦−𝑚𝑖𝑛｛𝐶𝑥,𝐶𝑦｝ 𝑚𝑎𝑥｛𝐶𝑥,𝐶𝑦｝ = 𝐶𝑥𝑥−𝐶𝑥 𝐶𝑥 （𝑥≒𝑦） =0

類似度が低いとき 𝑁𝐶𝐷𝑥,𝑦= 𝐶𝑥𝑦−𝑚𝑖𝑛｛𝐶𝑥,𝐶𝑦｝ 𝑚𝑎𝑥｛𝐶𝑥,𝐶𝑦｝ = 𝐶𝑥𝐶𝑦−𝐶𝑥 𝐶𝑦 =1

２つのデータ間の距離パラメーターを特定しない対象を選ばない（万能性）実験が容易に出来る！

目次はじめに類似度の判定方法圧縮実験今後の課題

圧縮とは？音声や文章などのデータをより小さな量のデータに変換する処理のこと。

圧縮のしくみなぜ圧縮が出来るのか →データにはパターンや無駄が存在し、その無駄を省くことによってデータ量を小さくできる。

圧縮のしくみランレングス符号化

ランレングス符号化入力データ 1 1 1 1 1 1 1 1 2 2 2 圧縮データ 4 1 1 1 2 1 4 1 1 1 3 1 2 1

圧縮ソフトいくつかのアルゴリズム組み合わせる例えば…bzip2 ブロックソート法 Move-to-Front法ハフマン符号化

bzip2 1996年にジュリアン・セワード (Julian Seward) により開発。 gzipやZIPより高い圧縮率を誇っている
ブロックソート法、Move-To-Front法、ハフマン符号化法を組み合わせた圧縮アルゴリズム。 Wikipedia( より

ブロックソート法圧縮アルゴリズムの前処理文字が偏り(同じ文字が連続)やすくなるため、圧縮の効率がよくなる

入力：Eababadb 入力された文字を全ての文字列をローテーションするソートする。 E a b a b a d b a b a b

出力 Ebbaadab “0” 入力：Eababadb ソートした後の文字列の末尾の文字列を出力。 a b a b a d b E a

gzip GNU ZIPの略。gzipコマンドにより用いられる LZ77符号化とハフマン符号化を組み合わせて圧縮拡張子は「.gz」とする
辞書式の圧縮方法 Wikipedia( より

1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ

1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書 1 2 3 空の辞書を用意

一文字読み込む処理したいデータ 1 2 3 4 5 6 7 8 A B A A A B A B C 辞書処理するデータパターン 1 2
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン 1 2 3 A 一文字読み込む

辞書にないとき 0,0,'データ'を出力処理したいデータ 0,0 'A' 1 2 3 4 5 6 7 8 A B A A A B A B
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 辞書にないとき 0,0,'データ'を出力

処理したデータパターンを追加処理したいデータ 0,0 'A' 1 2 3 4 5 6 7 8 A B A A A B A B C 辞書
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 A 処理したデータパターンを追加

処理したいデータ 0,0 'A' 0,0 'B' 1 2 3 4 5 6 7 8 A B A A A B A B C 辞書
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 0,0 'B' A B

処理したいデータ 0,0 'A' 0,0 'B' 1 2 3 4 5 6 7 8 A B A A A B A B C 辞書
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 A B 0,0 'B' 1 2 3 A B

読み込んだデータパターンが辞書に存在！処理したいデータ 0,0 'A' 0,0 'B' 1 2 3 4 5 6 7 8 A B A A
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 B 0,0 'B' A 1 2 3 A B A A 読み込んだデータパターンが辞書に存在！

辞書の一致したポインタ一致したパターンの長さ一致しなくなったときの文字を出力処理したいデータ 0,0 'A' 0,0 'B'
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書の一致したポインタ一致したパターンの長さ一致しなくなったときの文字を出力辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 A B 0,0 'B' 1 2 3 A B A A 2,1 'A'

処理したいデータ 0,0 'A' 0,0 'B' 2,1 'A' 1 2 3 4 5 6 7 8 A B A A A B A B C 辞書
1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 B 0,0 'B' A 1 2 3 A B A A 2,1 'A' 1 2 3 A B A A

1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 0,0 'B' A B 1 2 3 A B A A 2,1 'A' 1 2 3 A B A A A B A B 0,3 'B'

1 2 3 4 5 6 7 8 A B A A A B A B C 処理したいデータ辞書処理するデータパターン出力値 1 2 3 A 0,0 'A' 1 2 3 A B 0,0 'B' 1 2 3 A B A A 2,1 'A' 1 2 3 A B A A A B A B 0,3 'B' 1 2 3 0,0 'C' A B A B C

目次はじめに類似度の判定方法圧縮実験今後の課題

実験1 (Normal Compressorの適合度実験)
Bzip2 gzip 方言桃太郎のひらがなテキストファイル前処理後のファイル

Normal Compressor NCDで用いる。圧縮ソフトは万能性を保つためいくつかの制約がある。以下の定義を満たしていること望ましい。
𝐶𝜆=0⇔𝜆が空のファイル 𝐶𝑥𝑥=𝐶𝑥 𝐶𝑥𝑦≥𝐶𝑥 𝐶𝑦𝑥=𝐶𝑥𝑦 𝐶𝑥𝑦≤𝐶𝑥𝐶𝑦 𝐶𝑥𝑦𝐶𝑧≤𝐶𝑥𝑧𝐶𝑦𝑧 𝑥,𝑦,𝑧:あるファイル 𝐶：ある圧縮ソフト 𝐶𝑥:ファイル𝑥を圧縮した後のサイズ 𝑥𝑦:𝑥と𝑦の連接

方言桃太郎ひらがなテキストファイル値は全て平均単位：byte C(x)=C(xx) bzip2 231.982 : 280.785
gzip : C(xy)>=C(x) bzip : gzip : C(xy)=C(yx) bzip : gzip : C(xy)<=C(x)+C(y) bzip : gzip : C(xy)=C(yx) bzip : gzip : 値は全て平均単位：byte

方言桃太郎前処理後ファイル値は全て平均単位：byte C(x)=C(xx) bzip2 202.839 : 243.57
gzip : 200.5 C(xy)>=C(x) bzip : gzip : C(xy)=C(yx) bzip : gzip : C(xy)<=C(x)+C(y) bzip : gzip : C(xy)=C(yx) bzip : gzip : 値は全て平均単位：byte

実験1考察 bzip2はC(xy)＝C(yx)を完全に満たす。よって bzip2は対称性が存在する。

C(xy)=C(yx)が正確に成り立つ! bzip2内でブロックソート文字列を全体を疑似的にソート入力：Eababadb
入力された文字をローテーションする全ての文字列をソートする。文字列を全体を疑似的にソート a b a d b E a b b a d b E a b a a d b E a b a b d b E a b a b a b E a b a b a d

実験1考察 bzip2はC(xy)＝C(yx)を完全に満たす。よって bzip2は対称性が存在する。
gzipはC(xx)＝C(x)が精度が高い

gzip 辞書式 C(xx)＝C(x)の精度が高い C(x) ： C(xx) ：文字列xx : 文字列X 文字列X xの情報がある
辞書の中 C(x) ： C(xx) ： C(x)

実験1考察 bzip2はC(xy)＝C(yx)を完全に満たす。よって bzip2は対称性が存在する。
bzip2はC(xx)＝C(x)において、大きな誤差を生ずる。 bzip2はひらがなファイルにおいて、圧縮率が高く。gzipは前処理後のファイルにおいて圧縮率が高い

実験２ gzipの辞書の限界 gzipは辞書式の圧縮ソフト NCD(x,x)=0が高い精度で成り立つ
𝑁𝐶𝐷𝑥,𝑥= 𝐶𝑥𝑥−𝐶𝑥 𝐶𝑥 =0 参考：manuel cebrian氏の論文参考

NCD(x,x)=0が成り立たなくなるのでは？
実験２ gzipの辞書の限界 Xのファイルサイズが大きくなると NCD(x,x)=0が成り立たなくなるのでは？参考：manuel cebrian氏の論文参考

実験２ gzipの辞書の限界 40Kbyteのランダム文字列ファイルを400byteずつ読み込み、そのつど、NCD(x,x)を計算。
参考：manuel cebrian氏の論文参考

実験2考察 Gzipの辞書サイズはグラフよりおおよそ、 30Kbyte前後。あまり大きいファイルの類似度をはかる場合は適さない。

目次はじめに類似度の測定方法圧縮実験今後の課題

今後の課題 bzip2、gzipがどちらが類似度判定にふさわしい圧縮か実験によりさらに調べていく。
ppmzという高圧縮アルゴリズムが存在するらしい。調べてみる必要がある。

LZ77法(スライド辞書)

スライド辞書へのデータの追加元の辞書データ追加後の辞書データ先頭のデータを消去して追加分を末尾に加える 1 2 3 4 A B C
1 2 3 4 A B C D E 追加 F G 元の辞書データ 1 2 3 4 追加後の辞書データ C D E F G 先頭のデータを消去して追加分を末尾に加える

スライド辞書による符号化 (A)辞書データ (B)符号化するデータパターン 1 2 3 4 5 6 7 8 A B C D E F G H
1 2 3 4 5 6 7 8 A B C D E F G H I (A)辞書データ (B)符号化するデータパターンコード値 B B C D E 1,4 1番目から4つが一致する

4,4'X' LZ77符号化での出力辞書データ符号化するデータパターン一致するデータパターン 1 2 3 4 5 6 7 8 A B
1 2 3 4 5 6 7 8 A B C D E F G H I 辞書データ符号化するデータパターン E F G H X コード値 “4,4” 次に続く1データはそのまま出力出力 4,4'X'

Distance 距離空間とは・・・任意の2点間で距離が定められた空間のこと。
距離空間とは・・・任意の2点間で距離が定められた空間のこと。ある集合𝑋上の距離とは、実数値関数𝑑:𝑋×𝑋→𝑅 で任意の𝑥,𝑦,𝑧∈𝑋に対して次のような性質を満たす。 𝑑𝑥,𝑦≥0 𝑑𝑥,𝑦=0⇔𝑥=𝑦 𝑑𝑥,𝑦=𝑑𝑦,𝑥:対称性 𝑑𝑥,𝑦≤𝑑𝑥,𝑧𝑑𝑧,𝑦:三角不等式

Kolmogorov記述量データ𝑥を生成するプログラム言語を𝑆とすると、 𝑆によるデータ𝑥の𝐾𝑜𝑙𝑚𝑜𝑔𝑜𝑟𝑜𝑣記述量 𝐾 𝑠 𝑥を以下と定義する。 𝐾 𝑠 𝑥=𝑚𝑖𝑛 ｜𝑝｜:𝑆𝑝=𝑥

Admissible Distance 類似度の距離について、密度条件を満たすものだけを考えるという提案がなされている。条件を満たした距離のことを Admissible Distance(適切な距離)という。 𝛺を有限の文字列として,非負実数への距離関数 𝐷:𝛺×𝛺→𝑅が“𝑎𝑑𝑚𝑖𝑠𝑠𝑖𝑏𝑙𝑒𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒” であるとは、ある𝑥∈𝛺と任意の𝑦∈𝛺に対して, 次のような密度条件を満たすとき． 𝑦 2 −𝐷𝑥,𝑦 ≦１

圧縮を用いた類似度判定のための計算実験谷研究室新井秀森田岳史.

Similar presentations

Presentation on theme: "圧縮を用いた類似度判定のための計算実験谷研究室新井秀森田岳史."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

圧縮を用いた類似度判定 のための計算実験 谷研究室 新井 秀 森田 岳史.

Similar presentations

Presentation on theme: "圧縮を用いた類似度判定 のための計算実験 谷研究室 新井 秀 森田 岳史."— Presentation transcript:

Similar presentations

About project

フィードバック

圧縮を用いた類似度判定のための計算実験谷研究室新井秀森田岳史.

Presentation on theme: "圧縮を用いた類似度判定のための計算実験谷研究室新井秀森田岳史."— Presentation transcript: