奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント
阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

講義予定 9月5日 9月6日 9月7日分子生物学概観分子生物学データベース配列アラインメント
実習１（データベース検索と配列アラインメント） 9月6日モチーフ発見隠れマルコフモデルカーネル法進化系統樹推定 9月7日タンパク質立体構造予測相互作用推定スケールフリーネットワーク実習２（構造予測）

内容配列アライメントとは？ペアワイズ・アライメント配列検索の実用プログラムマルチプル・アライメント大域アライメント
局所アライメントアフィンギャップコスト配列検索の実用プログラムマルチプル・アライメント SPスコア多次元DP 実用的アライメント法

配列検索バイオインフォマティクスにおける基本原理配列検索の利用法配列が似ていれば機能も似ているただし、例外はある
実験を行い機能未知の配列が見つかったデータベース中で類似の配列を検索機能既知の類似の配列が見つかれば、その配列と似た機能を持つと推定

配列アラインメントバイオインフォマティクスの最重要技術の一つ２個もしくは３個以上の配列の類似性の判定に利用
文字間の最適な対応関係を求める（最適化問題）配列長を同じにするように、ギャップ記号（挿入、欠失に対応）を挿入

スコア行列残基間（アミノ酸文字間）の類似性を表す行列 PAM250, BLOSUM45 など

ペアワイズ・アラインメント配列が２個の場合でも可能なアラインメントの個数は指数オーダー
しかし、スコア最大となるアライメント（最適アライメント）は動的計画法により、O(mn)時間で計算可能（m,n:入力配列の長さ）

ギャップペナルティ線形コスト -gd g：ギャップ長ｄ：ギャップペナルティこの図の例では、コスト= -3d
アフィンギャップコスト –d – e(g-1) ｄ：ギャップ開始ペナルティ e：ギャップ伸張ペナルティこの図の例では、コスト= -d - 2e よく利用されるペナルティ　(d,e)=(12,2),(11,1)

動的計画法による大域アラインメント(1) 入力文字列から格子状グラフを構成アライメントと左上から右下へのパスが一対一対応
最長経路＝最適アライメント

動的計画法による大域アラインメント(2) DP (動的計画法)による最長経路(スコア)の計算 ⇒ O(mn)時間行列からの経路の復元は、
F(m,n)からmaxで＝となっている F(i,j)を逆にたどることに行う（トレースバック）

局所アラインメント(1) 配列の一部のみ共通部分があることが多い ⇒共通部分のみのアライメント
　　⇒共通部分のみのアライメント x1x2 … xm, y1y2 … yn を入力とする時、スコアが最大となる部分列ペア xixi+1 … xk, 　yjyj+1 … yh を計算例えば、HEAWGEH　と　GAWED　の場合、　　　　　　　　A W G E 　　　　　　　　A W －E 　　というアライメントを計算大域アライメントを繰り返すとO(m3n3)時間 ⇒Smith-WatermanアルゴリズムならO(mn)時間

局所アラインメント(2) Smith-Waterman アルゴリズム（最大の F(i,j) からトレースバック）

局所アラインメント(3) 局所アライメントの正当性の証明（下図）
局所アライメントの定義：x1x2 … xm, y1y2 … yn を入力とする時、スコアが最大となる部分列ペア xixi+1 … xk, yjyj+1 … yh を計算

アフィンギャップコストによるアラインメント
三種類の行列を用いる動的計画法によりO(mn)時間 Smith-Watermanアルゴリズムとの組み合わせが広く利用されている

配列検索の実用プログラム（１） O(mn): m は数百だが、n は数ＧＢにもなる ⇒実用的アルゴリズムの開発
　⇒実用的アルゴリズムの開発 FASTA: 短い配列（アミノ酸の場合、1,2文字、DNAの場合、4-6文字）の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にＤＰを利用。 BLAST: 固定長（アミノ酸では3, DNAでは11）の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは入らない。伸長の際に統計的有意性を利用。

配列検索の実用プログラム（2） FASTA: 短い配列（アミノ酸の場合、1,2文字、DNAの場合、4-6文字）の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にＤＰを利用。 BLAST: 固定長（アミノ酸では3, DNAでは11）の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長。

SSEARCH: 局所アラインメント（Smith-Watermanアルゴリズム）をそのまま実行
配列検索の実用プログラム（3） SSEARCH: 局所アラインメント（Smith-Watermanアルゴリズム）をそのまま実行 PSI-BLAST: ギャップを扱えるように拡張したBLASTを繰り返し実行。「BLASTで見つかった配列からプロファイルを作り、それをもとに検索」という作業を繰り返す。

マルチプルアラインメント：意味３本以上の配列が与えられた時、全ての配列の長さが同じになるようにギャップを挿入
マルチプルアラインメント：　意味３本以上の配列が与えられた時、全ての配列の長さが同じになるようにギャップを挿入進化的、構造的に相同な残基（塩基）ができるだけ同じカラムに並ぶようにする通常はスコアを用いて、最適化問題として定式化理想的なアライメント同一残基から派生した残基が同一カラムに並ぶ構造的に重なり合う残基が同一カラムに並ぶ ⇒構造的に重なり合わない場所を無理に重ね合わせるのは、あまり意味がない

マルチプルアライメント：定式化 S(mi) = -∑cia log pia （cia= i列におけるaの出現回数,
３本以上の配列が与えられた時、長さが同じで、かつ、スコアが最適となるように各配列にギャップを挿入したものスコアづけ　（全体スコアは基本的に各列のスコアの和:∑S(mi)）最小エントロピースコア S(mi) = -∑cia log pia　　　（cia= i列におけるaの出現回数, pia = i列におけるaの生起確率） SPスコア(Sum-of-Pairs) S(mi)=∑k＜ｌ s(mik,mil) （mik = i列, k行目の文字）

SP (Sum of Pairs) スコア S(mi)=∑k＜ｌ s(mik,mil) 問題点 mik = i列, k行目の文字
確率的な正当性が無い同一カラムに a,b,c が並んだ場合、log(pabc/qaqbqc) とすべきだが、SPスコアでは　 log(pab/qaqb)+ log(pbc/qbqc)+ log(pac/qaqc)

多次元DPによるマルチプルアライメント N個の配列に対するマルチプルアライメント例：N=3 N次元DPによりO(2NnN)時間

マルチプルアライメントの計算手法分枝限定法シミュレーテッドアニーリング遺伝的アルゴリズム逐次改善法 HMMによるアライメント
１０配列程度なら最適解が計算可能シミュレーテッドアニーリング遺伝的アルゴリズム逐次改善法 HMMによるアライメントプログレッシブアライメント CLUSTAL-W（最も広く利用されているソフト）で採用逐次改善法との組み合わせが、より有効

実用的マルチプルアライメント法ヒューリスティックアルゴリズムの開発プログレッシブアライメント逐次改善法 N次元DPは（N=4ですら）
　　　非実用的一般にはNP困難プログレッシブアライメント近隣結合法などを用いて　案内木を作る類似度が高い節点から低い節点へという順番で、配列対配列、配列対プロファイル、プロファイル対プロファイルのアラインメントを順次計算逐次改善法「配列を一本取り除いては、アラインメントしなおす」を繰り返す

プログレッシブアライメント

プロファイル-プロファイル・アライメント
各列を１文字のように扱うことにより、DPにより計算

逐次改善法「配列を一本取り除いては、アラインメントしなおす」を繰り返す

講義のまとめ（配列アライメント）動的計画法によるペアワイズアライメントマルチプルアライメント大域アライメント
局所アライメント(Smith-Watermanアルゴリズム) アフィンギャップコストを用いたアライメントマルチプルアライメント多次元DP プログレッシブアライメント参考文献阿久津：バイオインフォマティクスの数理とアルゴリズム、共立出版、2007

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

Similar presentations

Presentation on theme: "奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント

Similar presentations

Presentation on theme: "奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント"— Presentation transcript:

Similar presentations

About project

フィードバック

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

Presentation on theme: "奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント"— Presentation transcript: