情報生命科学特別講義III （5）配列アラインメント

情報生命科学特別講義III （5）配列アラインメント
阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

講義予定第１回: 文字列マッチング第２回：文字列データ構造第３回：たたみ込みとハッシュに基づくマッチング
第１回:　文字列マッチング第２回：　文字列データ構造第３回：　たたみ込みとハッシュに基づくマッチング第４回：　近似文字列マッチング第５回：　配列アラインメント第６回：　配列解析第７回：　進化系統樹推定第８回：　木構造の比較：順序木第９回：　木構造の比較：無順序木第１０回：　文法圧縮第１１回：　RNA二次構造予測第１２回：　タンパク質立体構造の予測と比較第１３回：　固定パラメータアルゴリズムと部分k木第１４回：　グラフの比較と列挙第１５回：　まとめ

配列アラインメントとは？

配列検索バイオインフォマティクスにおける基本原理配列検索の利用法配列が似ていれば機能も似ているただし、例外はある
実験を行い機能未知の配列が見つかったデータベース中で類似の配列を検索機能既知の類似の配列が見つかれば、その配列と似た機能を持つと推定

配列アラインメントバイオインフォマティクスの最重要技術の一つ２個もしくは３個以上の配列の類似性の判定に利用
文字間の最適な対応関係を求める（最適化問題）配列長を同じにするように、ギャップ記号（挿入、欠失に対応）を挿入２個の配列に対するアラインメント：　　　　ペアワイズ・アラインメント３個以上の配列に対するアラインメント：　マルチプル・アラインメント

ペアワイズ・アラインメント

… ペアワイズ・アラインメント２本の配列に対するアラインメント
大域アラインメント：配列全体にわたるアラインメント列ごとにスコアが定義され、各列のスコアの和が最大となる最適アラインメントを計算入力配列 ACGT ATCCT アラインメント … A C G T ーー A ー C G T A C ー G T ー A T C C T A T C C T A T C C T －6 1 －1 スコアスコアの定義同じ文字：１違う文字：－１ギャップ：－１

大域アラインメントと格子状グラフ C A G T 入力文字列から格子状グラフを構成アライメントと左上から右下へのパスが一対一対応
最長経路＝最適アラインメント C A G T -1 1 ー最適アラインメント非最適アラインメント

アラインメントの個数漸化式による解析組み合わせ的解析アラインメントの個数＝格子状グラフにおけるパス数
ギャップ文字が現れない列の個数を k とするとアラインメント全体の長さは m+n-k (si,-) という型の列の個数は m-k (-,tj) という型の列の個数は n-k よって、アラインメントの個数は m+n-k 個の要素をk個、m-k個、n-k個に分割する組み合わせの数 Delannoy数として知られている入力配列： s, t (|s|=m, |t|=n)

動的計画法による最適アラインメントの計算
アラインメントの個数：指数関数のオーダー動的計画法を用いれば O(mn) 時間 D[i,j] は始点(0,0)から(i,j)までの最適パスの長さアラインメントの復元（トレースバック） D[m,n] から再帰式で＝となっている頂点を逆にたどる D[i,j] D[i-1,j] D[i-1,j-1] D[i,j-1] -d w(s[i],t[j])

スコア行列残基間（アミノ酸文字間）の類似性を表す行列 PAM250, BLOSUM45 など

局所アラインメント

局所アラインメントというアラインメントを計算配列の一部のみ共通部分があることが多い ⇒共通部分のみのアラインメント問題の定義
　　⇒共通部分のみのアラインメント例えば、AATGCATE　と　GATCG　の場合、　　　　　　　　A T G C 　　　　　　　　A T － C 　　というアラインメントを計算問題の定義入力： 2個の配列 s, t スコア関数 w(x,y) 出力： Sopt(s[h…k],t[h’…k’]) が最大となる部分文字列の　　組（s[h…k],t[h’…k’])に対する最適アラインメント大域アラインメントを繰り返すとO(m3n3)時間 ⇒Smith-WatermanアルゴリズムならO(mn)時間

局所アラインメントに対する動的計画法大域アラインメントに対する動的計画法を少し修正するだけでOK

局所アラインメント・アルゴリズムの正当性
証明のアイデア始点と終点を表す２個の頂点を格子状グラフに追加始点から終点へのパスと局所アラインメントが１対１対応

ギャップコスト

ギャップペナルティ線形コスト -gd アフィンギャップコスト –d – e(g-1) g：ギャップ長ｄ：ギャップペナルティ
ｄ：ギャップ開始ペナルティ e：ギャップ伸張ペナルティこの図の例では、コスト= -d - 2e よく利用されるペナルティ　(d,e)=(12,2),(11,1)

アフィンギャップコストによるアラインメント
三種類の行列を用いる動的計画法によりO(mn)時間 Smith-Watermanアルゴリズムとの組み合わせが広く利用されている ⇒ Smith-Waterman-Gotoh アルゴリズム

任意ギャップコストによるアラインメント動的計画法（下式）により、O(n 3 )時間　　（ただし、m=O(n)とする）

ギャップコストと計算時間の関係線形： O(n2)時間アフィン：O(n2)時間凸： O(n2α(n))時間任意： O(n3)時間

線形領域アラインメント

線形領域アラインメントスコアの計算だけならO(m+n)領域で簡単に可能トレースバックが難しいアイデア：　分割統治法を利用

配列検索の実用的アルゴリズム

配列検索の実用的アルゴリズムデータベース検索： O(mn): m は数百だが、n は数ＧＢにもなる ⇒実用的アルゴリズムの開発
　⇒実用的アルゴリズムの開発 FASTA: 短い配列の完全一致（アミノ酸の場合、1,2文字、DNAの場合、4-6文字）をもとに対角線を検索し、さらにそれを両側に伸長し、最後にＤＰを利用 BLAST: 固定長（アミノ酸では3, DNAでは11）の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは入らない。伸長の際に統計的有意性を利用 SSEARCH: 局所アラインメント（Smith-Waterman-Gotohアルゴリズム）をそのまま実行 PSI-BLAST: ギャップを扱えるように拡張したBLASTを繰り返し実行。「BLASTで見つかった配列からプロファイルを作り、それをもとに検索」という作業を繰り返す PatternHunter: 穴あきシードを用いる（連続した文字ではなく飛び飛びの文字の完全一致をもとに検索）

マルチプル・アラインメント

マルチプル・アラインメント：定式化 S(mi) = -∑cia log pia （cia= i列におけるaの出現回数,
３本以上の配列が与えられた時、長さが同じで、かつ、スコアが最適となるように各配列にギャップを挿入したものスコアづけ　（全体スコアは基本的に各列のスコアの和:∑S(mi)）最小エントロピースコア S(mi) = -∑cia log pia　　　（cia= i列におけるaの出現回数, pia = i列におけるaの生起確率） SPスコア(Sum-of-Pairs) S(mi)=∑k＜lw(mk[i],ml[i]) 　　　　　　　　　　　　　　　　　　（ mk[i]= アラインメント後のi列, k行目の文字）

多次元DPによるマルチプル・アラインメント
N個の配列に対するマルチプル・アラインメント N次元DPによりO(2NnN)時間（各配列の長さはO(n)を仮定）例：N=3 一般の N に対しては NP困難 (i,j,k) (i-1,j,k) (i,j-1,k) (i,j-1,k-1)

マルチプル・アラインメントの実用的計算手法
プログレッシブ・アラインメント CLUSTAL-W（広く利用されているソフト）などで採用逐次改善法との組み合わせが、より有効逐次改善法シミュレーテッドアニーリング遺伝的アルゴリズム HMMによるアラインメント分枝限定法１０配列程度なら最適解が計算可能

近似アルゴリズム NP困難問題への対処法近似アルゴリズム固定パラメータアルゴリズム指数時間アルゴリズム（O(an)で底aを小さくする）
平均的に高速なアルゴリズムヒューリスティックなアルゴリズム最適解との比率の最悪の場合の上限を理論的に保証最適解がわからないのにどうやって保証するか？最適解の下限を理論的に見積もる（最小化問題の場合）近似解の上限を理論的に見積もる「近似解の上限／最適解の下限」が比率になる

近似アルゴリズムアルゴリズム ∑k≠iS(sk,si)が最小となる sk を計算
スコアに三角不等式を仮定し、最小化問題として定義 SPスコアを使用アイデア：中心となる配列を定め、それと各配列とのアラインメント結果をまとめるアルゴリズム ∑k≠iS(sk,si)が最小となる sk を計算 S(sk,si)をもとにギャップを適切に挿入し、マルチプルアラインメントA を構成図中の xi はsi を表す

近似アルゴリズムの解析定理 A のSPスコア ≦ (2-2/N)・最適解の SPスコア証明 N・Starのスコア ≦2・最適解のスコア
　 (図2でx1に（=s1）接続しない辺のスコアの合計はスター(N-2)個分以下) 図中の xi はsi を表す

まとめペアワイズ・アラインメントマルチプル・アラインメント補足
動的計画法で O(n2) 時間、線形領域も可能局所アラインメント、線形ギャップスコアでも同様マルチプル・アラインメント NP困難だが、距離で定義した場合、2近似が可能補足ペアワイズ・アラインメントは O(n2/log n) 時間で可能 [Crochemore et al.: Proc. SODA 2002] 様々なギャップスコアや疎行列の場合の動的計画法についても多くの研究 [Galil, Park: Theoret. Comp. Sci. 1992] マルチプル・アラインメントの近似率は 2-K/N まで改善（K は任意の定数） [Bafna et al.: Theoret. Comp. Sci. 1997] N に関係なく 2 より良くできるかは研究課題

情報生命科学特別講義III （5）配列アラインメント

Similar presentations

Presentation on theme: "情報生命科学特別講義III （5）配列アラインメント"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

情報生命科学特別講義III （5）配列アラインメント

Similar presentations

Presentation on theme: "情報生命科学特別講義III （5）配列アラインメント"— Presentation transcript:

Similar presentations

About project

フィードバック