生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング
生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

講義予定第１回: 文字列マッチング・データ構造第２回：たたみ込みとハッシュに基づくマッチング第３回：近似文字列マッチング
第１回:　文字列マッチング・データ構造第２回：　たたみ込みとハッシュに基づくマッチング第３回：　近似文字列マッチング第４回：　配列解析第５回：　木構造の比較：順序木第６回：　木構造の比較：無順序木第７回：　文法圧縮第８回：　RNA二次構造予測第９回：　タンパク質立体構造の予測と比較第１０回：　固定パラメータアルゴリズムと部分k木第１１回：　グラフの比較と列挙第１２回：　ニューラルネットワークの離散モデル

たたみ込みによる文字列マッチング

たたみ込みとFFT ベクトル a=(a0,…,am-1) と b=(b0,…,bn-1) のたたみ込み a*b は
　　　　　　　　　　　を要素とするベクトル c=(c0,…,cn+m-1) （ただし、cn+m-1=0と定義）２つの多項式の積の各係数は、たたみ込みベクトルの各成分に等しい (a0,…,am-1) と (b0,…,bn-1) のたたみ込みはFFTを用いて (Real-RAM上で） O(n log n) 時間で計算可能（ただし、m≦n）

たたみ込みによる文字列マッチング：アイデア
(a0, a1,a2) と (b0,…,bn-1) のたたみ込みを考えるここで、 a0, a1,a2 を逆順にすれば、以下のようになる ⇒　パターンを逆順にして、たたみ込みを行えば、　　文字列マッチングに使えそう（Fisher-Patersonアルゴリズム）

たたみ込みによる文字列マッチング Σ={a,b}, T = abbabbab, P=abb, P-1=bba　として、　χa(T)などを次のように定義するとこの2個のベクトルの和はとなり、値が 3 となる桁がマッチしている場所に対応定理：文字列マッチングは FFT により O(n log m) 時間で実行可能（ただし、|Σ|は定数）

Don’t Care記号つき文字列マッチング
KMP, BM, ACアルゴリズムを Don’t Care記号つきに拡張するのは困難。でも、たたみ込み法なら、以下の例のように簡単 χa*(...) は、対象の文字が a か * なら、1 に対応させる定理：Don’t Care記号つき文字列マッチングは FFT により O(n log m) 時間で実行可能（ただし、|Σ|は定数）

Karp-Rabinアルゴリズム

ランダマイズド・アルゴリズム（乱拓アルゴリズム）
同じ入力を与えても、アルゴリズムの動作が内部で用いた乱数の値により異なるアルゴリズムラスベガス・アルゴリズム常に正しい解を出力（ただし、計算時間は乱数により異なることがある）モンテカルロ・アルゴリズム誤った解を出力する可能性がある

Karp-Rabinアルゴリズム：アイデア
ハッシュ関数の利用長さ m の各部分文字列に対し、以下の性質を満たす整数値（ハッシュ値）　　　　　　　　　　　を計算

Karp-Rabinアルゴリズム：ハッシュ関数
q を適当に大きな素数とし、b を適当な基数（例： b=2）とするとなお、h()は、毎回計算しなおさなくても、により、1回あたり O(1) 時間で計算可能定理： q を適当な範囲内でランダムに選ぶことにより、どのような　　　　入力 P, T に対しても、高い確率で以下が成立 Karp-Rabinアルゴリズムハッシュ関数を計算し、一致している場所を出力 ⇒　線形時間モンテカルロ・アルゴリズム

Karp-Rabinアルゴリズム：確率の解析
補題: 任意の N について、（異なる）素因数の個数は O(log N) （証明）素数は2以上なので、t 個の素因数を持てば N≧2t 補題： x,y (x≠y) をそれぞれ m ビットの数とする。τ 以下の素数 p 　　　　をランダムに選んだ時、(x = y) mod p となる確率は（証明） (x = y) mod p となるのは |x-y| が p の倍数の時のみ。一方、|x-y| の素因数の個数は上記補題より O(m) 個。 τ 以下の素数の個数は素数定理より≈ τ/ln τ なので、 (x = y) mod p となる確率は　　　　。（Karp-Rabinの定理の証明） τ = n2m log n2m とすれば、　　　　　　　　　　　　　なのに、ハッシュ値が一致してしまう i の存在確率は

ラスベガス・アルゴリズム化方法１マッチが見つかったら O(m) 時間かけてチェック誤りであれば、単純なO(mn)時間アルゴリズムを
　　最初から実行計算時間の期待値は　O((m+n)+(1/n)(mn))=O(m+n) 方法２マッチが見つかったら O(m) 時間かけてチェック誤りであれば、異なる素数 p を用いて再実行計算時間の期待値は O(m+n) 注意：　素数生成のための時間は考慮していないが、考慮しても定理や解析は成立

まとめたたみ込みによる文字列マッチング Karp-Rabinアルゴリズム補足
Don’t care 文字が扱える。　　O(n log m) 時間 Karp-Rabinアルゴリズムハッシュ関数を用いたランダマイズド・アルゴリズム補足たたみ込みマッチングは、文字のミスマッチにも対応可たたみ込みを用いずに don’t care つき文字列マッチングを効率的に扱うのは（たぶん）研究課題 Karp-Rabinアルゴリズムは広くは利用されていないが、文字列などのデータをハッシュするという考え方は、第3回に説明する Locality Sensitive Hashingや埋め込み（Embedding）などの名で盛んに研究・応用されている本講義で研究課題としたものはすべて「たぶん」です

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

Similar presentations

Presentation on theme: "生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

生物情報ソフトウェア特論 （２）たたみ込みとハッシュに 基づくマッチング

Similar presentations

Presentation on theme: "生物情報ソフトウェア特論 （２）たたみ込みとハッシュに 基づくマッチング"— Presentation transcript:

Similar presentations

About project

フィードバック

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

Presentation on theme: "生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング"— Presentation transcript: