生命情報学基礎論 (2) 配列の比較と相同性検索

Slides:



Advertisements
Similar presentations
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
Advertisements

©2008 Ikuo Tahara探索 状態空間と探索木 基本的な探索アルゴリズム 横形探索と縦形探索 評価関数を利用した探索アルゴリズム 分岐限定法 山登り法 最良優先探索 A ( A* )アルゴリズム.
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム( 1 ) スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
動的計画法を用いたアラインメント  小菅孝史.
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
情報生命科学特別講義III (5)配列アラインメント
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
到着時刻と燃料消費量を同時に最適化する船速・航路計画
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
情報生命科学特別講義III (1) 文字列マッチング
タンパク質相互作用ネットワークの スケールフリーモデル
情報生命科学特別講義III (8)木構造の比較: 順序木
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
An Algorithm for Enumerating Maximal Matchings of a Graph
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(5) 木構造データ間の編集距離
情報生命科学特別講義III (7)進化系統樹推定
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
配列および化合物データ解析のためのカーネル法
情報生命科学特別講義III (11) RNA二次構造予測
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生命情報学基礎論 (5) タンパク質立体構造予測
生命情報学入門 配列のつなぎ合わせと再編成
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
九州大学大学院 情報学専攻特別講義 (9) ブーリアンネットワークの 解析と制御
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
数理科学特別講義 バイオインフォマティクスにおける 確率モデル
京都大学 化学研究所 バイオインフォマティクスセンター
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
九州大学大学院 情報学専攻特別講義 (3) 配列解析
分子生物情報学(2) 配列のマルチプルアライメント法
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
九州大学大学院 情報学専攻特別講義 (2) 配列アラインメント
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
第16章 動的計画法 アルゴリズムイントロダクション.
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
構造的類似性を持つ半構造化文書における頻度分析
人工知能特論II 第8回 二宮 崇.
九州大学大学院 情報学専攻特別講義 (8) ニューラルネットワークの 離散モデル
メソッドの同時更新履歴を用いたクラスの機能別分類法
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
離散数学 11. その他のアルゴリズム 五島.
生命情報学 (8) 生物情報ネットワークの構造解析
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
生物情報ソフトウェア特論 (10)固定パラメータアルゴリズムと 部分k木
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
配列解析アルゴリズム特論 配列アライメントI
分子生物情報学(0) バイオインフォマティクス
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
Presentation transcript:

生命情報学基礎論 (2) 配列の比較と相同性検索 生命情報学基礎論 (2) 配列の比較と相同性検索 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

講義予定 4月13日(月): 生命情報学の基盤 4月20日(月): 配列の比較と相同性検索 4月27日(月): 進化系統樹推定 4月13日(月): 生命情報学の基盤 4月20日(月): 配列の比較と相同性検索 4月27日(月): 進化系統樹推定 5月1日(金):  隠れマルコフモデル 5月11日(月): 遺伝子ネットワークの解析と制御(田村) 5月18日(月): タンパク質立体構造予測 5月25日(月)、6月1日(月): カーネル法 6月8日(月):  代謝ネットワークの堅牢性(田村) 6月15日(月): 生物情報ネットワークの構造解析 6月22日(月): 木の編集距離(田村) 6月29日(月): タンパク質相互作用予測(林田) 7月6日(月):  タンパク質複合体予測(林田) 7月13日(月): 生物データの圧縮による比較(林田)

内容 配列アラインメントとは? 大域アラインメント 局所アラインメント ギャップコスト 配列検索の実用プログラム マルチプルアラインメント

配列アラインメントとは?

配列検索 バイオインフォマティクスにおける基本原理 配列検索の利用法 配列が似ていれば機能も似ている ただし、例外はある 実験を行い機能未知の配列が見つかった データベース中で類似の配列を検索 機能既知の類似の配列が見つかれば、その配列と似た機能を持つと推定

配列アラインメント バイオインフォマティクスの最重要技術の一つ 2個もしくは3個以上の配列の類似性の判定に利用 文字間の最適な対応関係を求める(最適化問題) 配列長を同じにするように、ギャップ記号(挿入、欠失に対応)を挿入 2個の配列に対するアラインメント:    ペアワイズ・アラインメント 3個以上の配列に対するアラインメント: マルチプル・アラインメント

… ペアワイズ・アラインメント 2本の配列に対するアラインメント 大域アラインメント: 配列全体にわたるアラインメント 列ごとにスコアが定義され、各列のスコアの和が最大となる最適アラインメントを計算 入力配列 ACGT ATCCT アラインメント … A C G T ー ー A ー C G T A C ー G T ー A T C C T A T C C T A T C C T -6 1 -1 スコア スコアの定義 同じ文字: 1 違う文字: -1 ギャップ: -1

大域アラインメント

大域アラインメントと格子状グラフ C A G T 入力文字列から格子状グラフを構成 アラインメントと左上から右下へのパスが一対一対応 最長経路=最適アラインメント C A G T -1 1 ー 最適アラインメント 非最適アラインメント

動的計画法による最適アラインメントの計算 アラインメントの個数:指数関数のオーダー 動的計画法を用いれば O(mn) 時間 D[i,j] は始点(0,0)から(i,j)までの最適パスの長さ アラインメントの復元(トレースバック) D[m,n] から再帰式で=となっている頂点を逆にたどる D[i,j] D[i-1,j] D[i-1,j-1] D[i,j-1] -d w(s[i],t[j])

局所アラインメント

局所アラインメント というアラインメントを計算 配列の一部のみ共通部分があることが多い ⇒共通部分のみのアラインメント 問題の定義   ⇒共通部分のみのアラインメント 例えば、AATGCATT と GATCG の場合、          A T G C          A T - C    というアラインメントを計算 問題の定義 入力: 2個の配列 s, t スコア関数 w(x,y) 出力: Sopt(s[h…k],t[h’…k’]) が最大となる部分文字列の   組(s[h…k],t[h’…k’])に対する最適アラインメント 大域アラインメントを繰り返すとO(m3n3)時間 ⇒Smith-WatermanアルゴリズムならO(mn)時間

局所アラインメントに対する動的計画法 大域アラインメントに対する動的計画法を少し修正するだけでOK

局所アラインメント・アルゴリズムの正当性 証明のアイデア 始点と終点を表す2個の頂点を格子状グラフに追加 始点から終点へのパスと局所アラインメントが1対1対応

ギャップコスト

スコア行列 残基間(アミノ酸文字間)の類似性を表す行列 PAM250, BLOSUM45 など

ギャップペナルティ 線形コスト -gd アフィンギャップコスト –d – e(g-1) g: ギャップ長 d: ギャップペナルティ d: ギャップ開始ペナルティ e: ギャップ伸張ペナルティ この図の例では、コスト= -d - 2e よく利用されるペナルティ (d,e)=(12,2),(11,1)

アフィンギャップコストによるアラインメント 三種類の行列を用いる動的計画法によりO(mn)時間 Smith-Watermanアルゴリズムとの組み合わせが広く利用されている ⇒ Smith-Waterman-Gotoh アルゴリズム

任意ギャップコストによるアラインメント 動的計画法(下式)により、O(n 3 )時間   (ただし、m=O(n)とする)

ギャップコストと計算時間の関係 線形: O(n2)時間 アフィン:O(n2)時間 凸: O(n2α(n))時間 任意: O(n3)時間

ペアワイズ・アラインメントに関するその他の結果 線形領域アラインメント スコア計算だけなら簡単 トレースバックが難しい しかし、分割統治法によりO(n)領域が可能(右図) O(n2)時間の改善は可能か?   ⇒O(n2/logn)が可能 s(xi,yj)が疎(O(n)程度)な場合(Sparse DP) ⇒O(n logn)程度で可能

配列検索の実用的プログラム

配列検索の実用プログラム(1) O(mn): m は数百だが、n は数GBにもなる ⇒実用的アルゴリズムの開発  ⇒実用的アルゴリズムの開発 FASTA: 短い配列(アミノ酸の場合、1,2文字、DNAの場合、4-6文字)の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にDPを利用。 BLAST: 固定長(アミノ酸では3, DNAでは11)の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは入らない。伸長の際に統計的有意性を利用。

配列検索の実用プログラム (2) FASTA: 短い配列(アミノ酸の場合、1,2文字、DNAの場合、4-6文字)の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にDPを利用。 BLAST: 固定長(アミノ酸では3, DNAでは11)の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長。

配列検索の実用プログラム(3) SSEARCH: 局所アラインメント(Smith-Waterman-Gotohアルゴリズム)をそのまま実行 PSI-BLAST: ギャップを扱えるように拡張したBLASTを繰り返し実行。「BLASTで見つかった配列からプロファイルを作り、それをもとに検索」という作業を繰り返す。

配列検索の実用プログラム(4) PatternHunter BLASTよりはるかに高速で、同等以上の精度 連続した文字をseedとせず、飛び飛びの文字をseed(spaced seed)とする 111010010100110111で1の位置のみを考慮 他にも様々なseedが提案 その後、多くの検索プログラムでも利用

マルチプル・アラインメント

マルチプル・アラインメント:定式化 S(mi) = -∑cia log pia (cia= i列におけるaの出現回数, 3本以上の配列が与えられた時、長さが同じで、かつ、スコアが最適となるように各配列にギャップを挿入したもの スコアづけ (全体スコアは基本的に各列のスコアの和:∑S(mi)) 最小エントロピースコア S(mi) = -∑cia log pia   (cia= i列におけるaの出現回数, pia = i列におけるaの生起確率) SPスコア(Sum-of-Pairs) S(mi)=∑k<lw(mk[i],ml[i])                   ( mk[i]= アラインメント後のi列, k行目の文字)

SP (Sum of Pairs) スコア S(mi)=∑k<l s(mik,mil) 問題点 mik = i列, k行目の文字 確率的な正当性が無い 同一カラムに a,b,c が並んだ場合、log(pabc/qaqbqc) とすべきだが、SPスコアでは  log(pab/qaqb)+ log(pbc/qbqc)+ log(pac/qaqc)

多次元DPによるマルチプル・アラインメント N個の配列に対するマルチプル・アラインメント N次元DPによりO(2NnN)時間 (各配列の長さはO(n)を仮定) 例:N=3 一般の N に対しては NP困難 (i,j,k) (i-1,j,k) (i,j-1,k) (i,j-1,k-1)

マルチプル・アラインメントの実用的計算手法 プログレッシブ・アラインメント CLUSTAL-W(広く利用されているソフト)などで採用 逐次改善法との組み合わせが、より有効 逐次改善法 シミュレーテッドアニーリング 遺伝的アルゴリズム HMMによるアラインメント 分枝限定法 10配列程度なら最適解が計算可能な場合がある

実用的マルチプル・アラインメント法 ヒューリスティックアルゴリズムの開発 プログレッシブアラインメント 逐次改善法 N次元DPは(N=4ですら)    非実用的 一般にはNP困難 プログレッシブアラインメント 近隣結合法などを用いて 案内木を作る 類似度が高い節点から低い節点へという順番で、配列対配列、配列対プロファイル、プロファイル対プロファイルのアラインメントを順次計算 逐次改善法 「配列を一本取り除いては、アラインメントしなおす」を繰り返す

プログレッシブ・アラインメント

プロファイル-プロファイル・アラインメント 各列を1文字のように扱うことにより、DPにより計算

逐次改善法 「配列を一本取り除いては、アラインメントしなおす」を繰り返す

まとめ ペアワイズ・アラインメント マルチプル・アラインメント 大域アラインメント 局所アラインメント ギャップコスト 実用的プログラム 動的計算法で効率的にO(mn)時間で計算可能 局所アラインメント よくマッチしている部分のみを効率的に抽出 ギャップコスト アフィンギャップまではO(mn)時間で対応可能 実用的プログラム BLAST, FASTA, PattenHunter マルチプル・アラインメント 多次元動的計画法 最適解が計算可能だが O(2NnN) 時間かかり非実用的 プログレッシブ・アラインンメント 最適性の保証はないが実用的