分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

パターン認識入門.
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
動的計画法を用いたアラインメント  小菅孝史.
情報生命科学特別講義III (5)配列アラインメント
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
到着時刻と燃料消費量を同時に最適化する船速・航路計画
情報生命科学特別講義III (1) 文字列マッチング
情報生命科学特別講義III (8)木構造の比較: 順序木
遺伝的アルゴリズム  新川 大貴.
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(3) + 数理談話会 木構造および画像データの文法圧縮
Reed-Solomon 符号と擬似ランダム性
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(5) 木構造データ間の編集距離
情報生命科学特別講義III (7)進化系統樹推定
計算量理論輪講 岩間研究室 照山順一.
配列および化合物データ解析のためのカーネル法
情報生命科学特別講義III (11) RNA二次構造予測
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生命情報学基礎論 (5) タンパク質立体構造予測
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
九州大学大学院 情報学専攻特別講義 (9) ブーリアンネットワークの 解析と制御
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
数理科学特別講義 バイオインフォマティクスにおける 確率モデル
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
Introduction to Soft Computing (第11回目)
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
九州大学大学院 情報学専攻特別講義 (3) 配列解析
分子生物情報学(2) 配列のマルチプルアライメント法
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
知識科学研究科 知識システム構築論講座 林研究室 佛明 智
九州大学大学院 情報学専攻特別講義 (2) 配列アラインメント
九州大学大学院 情報学専攻特別講義 (4) RNA二次構造予測
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
補講:アルゴリズムと漸近的評価.
第16章 動的計画法 アルゴリズムイントロダクション.
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
構造的類似性を持つ半構造化文書における頻度分析
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
九州大学大学院 情報学専攻特別講義 (8) ニューラルネットワークの 離散モデル
メソッドの同時更新履歴を用いたクラスの機能別分類法
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
4.プッシュダウンオートマトンと 文脈自由文法の等価性
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
離散数学 11. その他のアルゴリズム 五島.
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
配列解析アルゴリズム特論 配列アライメントI
分子生物情報学(0) バイオインフォマティクス
情報処理Ⅱ 第8回:2003年12月9日(火).
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
Presentation transcript:

分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法) 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

配列アライメント バイオインフォマティクスの最重要技術の一つ 2個もしくは3個以上の配列の類似性の判定に利用 文字間の最適な対応関係を求める(最適化問題) 配列長を同じにするように、ギャップ記号(挿入、欠失に対応)を挿入

スコア行列(置換行列) 残基間(アミノ酸文字間)の類似性を表す行列 PAM250, BLOSUM45 など

スコア行列の導出 基本的には頻度の比の対数をスコアとする BLOSUM行列 既存のスコア行列を用いて多くの配列のアライメントを求め、ギャップ無しの領域(ブロック)を集める 残基がL%以上一致しているものを同一クラスタに集める 同じクラスタ内で残基aが残基bにアラインされる頻度Aabを計算 qa=∑b Aab / ∑cd Acd, pab=Aab / ∑cd Acd を求め、   s(a,b)=log(pab/qaqb) としたのち、スケーリングし近傍の整数値に丸める

ペアワイズ・アライメント 配列が2個の場合でも可能なアラインメントの個数は指数オーダー しかし、スコア最大となるアライメント(最適アライメント)は動的計画法により、O(mn)時間で計算可能(m,n:入力配列の長さ)

ギャップペナルティ 線形コスト -gd g: ギャップ長 d: ギャップペナルティ この図の例では、コスト= -3d アフィンギャップコスト –d – e(g-1) d: ギャップ開始ペナルティ e: ギャップ伸張ペナルティ この図の例では、コスト= -d - 2e よく利用されるペナルティ (d,e)=(12,2),(11,1)

動的計画法による大域アライメント(1) (Needleman-Wunschアルゴリズム) 入力文字列から格子状グラフを構成 アライメントと左上から右下へのパスが一対一対応 最長経路=最適アライメント

動的計画法による大域アライメント(2) DP (動的計画法)による 最長経路(スコア)の計算 ⇒ O(mn)時間 行列からの経路の復元は、 F(m,n)からmaxで=となっている F(i,j)を逆にたどることに行う (トレースバック)

動的計画法による大域アライメント(3)

局所アライメント(1) (Smith-Watermanアルゴリズム) 配列の一部のみ共通部分があることが多い   ⇒共通部分のみのアライメント x1x2 … xm, y1y2 … yn を入力とする時、スコアが最大となる部分列ペア xixi+1 … xk,  yjyj+1 … yh を計算 例えば、HEAWGEH と GAWED の場合、         A W G E         A W -E   というアライメントを計算 大域アライメントを繰り返すとO(m3n3)時間 ⇒Smith-WatermanアルゴリズムならO(mn)時間

局所アライメント(2) 動的計画法 の式 (最大のF(i,j)から トレースバック)

局所アライメント(3) 局所アライメントの正当性の証明(下図) 局所アライメントの定義:x1x2 … xm, y1y2 … yn を入力とする時、スコアが最大となる部分列ペア xixi+1 … xk, yjyj+1 … yh を計算

アフィンギャップコストによる アライメント 三種類の行列を用いる動的計画法によりO(mn)時間 Smith-Watermanアルゴリズムとの組み合わせが広く利用されている

任意ギャップコストによる アライメント 動的計画法(右式)により、O(n 3 )時間   (ただし、m=O(n)とする)

ギャップコストと計算時間の関係 ギャップコストが凸の時: O(n 2α(n))時間 ただし、α(n)は   アッカーマン関数の逆関数(実用的には定数と同じ)

ペアワイズ・アライメントの計算量に 関するその他の結果 線形領域アライメント スコア計算だけなら簡単 トレースバックが難しい しかし、分割統治法によりO(n)領域が可能(右図) O(n2)時間の改善は可能か?   ⇒O(n2/logn)が可能 s(xi,yj)が疎(O(n)程度)な場合(Sparse DP) ⇒O(n logn)程度で可能

配列検索の実用プログラム(1) O(mn):mは数百だが、nは数GBにもなる ⇒実用的アルゴリズムの開発  ⇒実用的アルゴリズムの開発 FASTA:短い配列(アミノ酸の場合、1,2文字、DNAの場合、4-6文字)の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にDPを利用。 BLAST:固定長(アミノ酸では3, DNAでは11)の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは入らない。伸長の際に統計的有意性を利用。

配列検索の実用プログラム(2)

配列検索の実用プログラム(3) SSEARCH: 局所アラインメント(Smith-Watermanアルゴリズム)をそのまま実行 PSI-BLAST: ギャップを扱えるように拡張したBLASTを繰り返し実行。「BLASTで見つかった配列からプロファイルを作り、それをもとに検索」という作業を繰り返す。

講義のまとめ(配列アライメントI) 動的計画法によるペアワイズアライメント 参考文献 大域アライメント 局所アライメント(Smith-Watermanアルゴリズム) アフィンギャップコストを用いたアライメント 線形領域アライメント 参考文献 阿久津、浅井、矢田訳:バイオインフォマティクス –確率モデルによる遺伝子配列解析、医学出版、2001