集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（３）配列アライメント

Slides:

Advertisements

Similar presentations

北海道大学 Hokkaido University 1 情報理論講義資料 2016/06/22 情報エレクトロニクス学科共通科目・２年次・第 1 学期〔必修科目〕講義「情報理論」第 5 回第 3 章情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.

Advertisements

組合せ最適化輪講 2.3 連結性川原純. 2.3 連結性内容 – グラフ上の節点をすべてたどるアルゴリズム計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズムトポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.

HBSP モデル上での行列積を求めるアルゴリム情報論理工学吉岡健太.

©2008 Ikuo Tahara探索状態空間と探索木基本的な探索アルゴリズム横形探索と縦形探索評価関数を利用した探索アルゴリズム分岐限定法山登り法最良優先探索 A （ A* ）アルゴリズム.

パターン認識入門.

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

動的計画法を用いたアラインメント　小菅孝史.

日本バイオインフォマティクス学会バイオインフォマティクスカリキュラム中間報告

情報生命科学特別講義III （5）配列アラインメント

生命情報学基礎論（２）配列の比較と相同性検索

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

到着時刻と燃料消費量を同時に最適化する船速・航路計画

情報生命科学特別講義III （１）文字列マッチング

データ構造とアルゴリズム第十二回知能情報学部知能情報学科新田直也.

遺伝的アルゴリズム　新川　大貴.

奈良女子大集中講義バイオインフォマティクス (8) タンパク質立体構造予測

「Self-Organizing Map 自己組織化マップ」を説明するスライド

分子生物情報学動的計画法に基づく配列比較法 (ペアワイズアライメント法)

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~

HMM:隠れマルコフモデル電子情報工学科伊庭斉志奈良女子大集中講義バイオインフォマティクス (6)

京都大学化学研究所バイオインフォマティクスセンター

高山建志五十嵐健夫テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（５）木構造データ間の編集距離

情報生命科学特別講義III （７）進化系統樹推定

配列および化合物データ解析のためのカーネル法

情報工学総合演習 D-I 近似アルゴリズム埼玉大学理工学研究科山田敏規、橋口博樹、堀山貴史

情報生命科学特別講義III （11） RNA二次構造予測

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

k 個のミスマッチを許した点集合マッチング・アルゴリズム

生命情報学基礎論（５）タンパク質立体構造予測

生命情報学入門配列のつなぎ合わせと再編成

第25章単一始点最短路 3節 Bellman-Fordのアルゴリズム

決定木とランダムフォレスト和田　俊和.

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

数理科学特別講義バイオインフォマティクスにおける確率モデル

情報生命科学特別講義III （12）タンパク質立体構造の比較と予測

確率伝搬法と量子系の平均場理論田中和之東北大学大学院情報科学研究科

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

京都大学化学研究所バイオインフォマティクスセンター

明治大学大学院理工学研究科総合講義C バイオインフォマティクスにおける数理的手法

九州大学大学院情報学専攻特別講義（３）配列解析

分子生物情報学(2) 配列のマルチプルアライメント法

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

サポートベクターマシンを用いたタンパク質スレッディングのためのスコア関数の学習情報科学科4年 81025G 蓬来祐一郎.

第4章社会構造概念はどのように豊穣化されるか

2018年度植物バイオサイエンス情報処理演習第12回情報解析（2）配列相同性解析・DNA

長さの制限付きギャップと文字クラスを含むパタンに対する照合アルゴリズムの改善

九州大学大学院情報学専攻特別講義（２）配列アラインメント

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

ナップサック問題クマさん人形をめぐる熱いドラマの結末.

九州大学大学院情報学専攻特別講義（５）タンパク質立体構造の比較と予測

遺伝的交叉を用いた並列シミュレーテッドアニーリングによるタンパク質立体構造予測

第16章　動的計画法アルゴリズムイントロダクション.

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

京都大学化学研究所バイオインフォマティクスセンター

構造的類似性を持つ半構造化文書における頻度分析

奈良女子大集中講義バイオインフォマティクス (7) 進化系統樹

４．プッシュダウンオートマトンと文脈自由文法の等価性

生物情報ソフトウェア特論（4）配列解析II

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

Q q 情報セキュリティ第７回：２００５年５月２７日（金） q q.

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観

配列解析アルゴリズム特論配列アライメントI

分子生物情報学(0) バイオインフォマティクス

グラフの帯域幅連続多重彩色を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室西川和秀.

Presentation transcript:

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（３）配列アライメント阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

内容配列アライメントとは？ペアワイズ・アライメント配列検索の実用プログラムマルチプル・アライメント配列モチーフ大域アライメント局所アライメントアフィンギャップコスト配列検索の実用プログラムマルチプル・アライメント SPスコア多次元DP 実用的アライメント法配列モチーフ

配列アライメントバイオインフォマティクスの最重要技術の一つ２個もしくは３個以上の配列の類似性の判定に利用文字間の最適な対応関係を求める（最適化問題）配列長を同じにするように、ギャップ記号（挿入、欠失に対応）を挿入

スコア行列（置換行列）残基間（アミノ酸文字間）の類似性を表す行列 PAM250, BLOSUM45 など

スコア行列の導出基本的には頻度の比の対数をスコアとする BLOSUM行列既存のスコア行列を用いて多くの配列のアライメントを求め、ギャップ無しの領域（ブロック）を集める残基がL％以上一致しているものを同一クラスタに集める同じクラスタ内で残基aが残基bにアラインされる頻度Aabを計算 qa=∑b Aab / ∑cd Acd, pab=Aab / ∑cd Acd　を求め、　　　ｓ（a,b)=log(pab/qaqb) としたのち、スケーリングし近傍の整数値に丸める

ペアワイズ・アライメント配列が２個の場合でも可能なアラインメントの個数は指数オーダーしかし、スコア最大となるアライメント（最適アライメント）は動的計画法により、O(mn)時間で計算可能（m,n:入力配列の長さ）

ギャップペナルティ線形コスト -gd g：ギャップ長ｄ：ギャップペナルティこの図の例では、コスト= -3d アフィンギャップコスト –d – e(g-1) ｄ：ギャップ開始ペナルティ e：ギャップ伸張ペナルティこの図の例では、コスト= -d - 2e よく利用されるペナルティ　(d,e)=(12,2),(11,1)

動的計画法による大域アライメント(1) (Needleman-Wunschアルゴリズム) 入力文字列から格子状グラフを構成アライメントと左上から右下へのパスが一対一対応最長経路＝最適アライメント

動的計画法による大域アライメント(2) DP (動的計画法)による最長経路(スコア)の計算 ⇒ O(mn)時間行列からの経路の復元は、 F(m,n)からmaxで＝となっている F(i,j)を逆にたどることに行う（トレースバック）

動的計画法による大域アライメント(3)

局所アライメント(1) (Smith-Watermanアルゴリズム) 配列の一部のみ共通部分があることが多い　　⇒共通部分のみのアライメント x1x2 … xm, y1y2 … yn を入力とする時、スコアが最大となる部分列ペア xixi+1 … xk, 　yjyj+1 … yh を計算例えば、HEAWGEH　と　GAWED　の場合、　　　　　　　　A W G E 　　　　　　　　A W －E 　　というアライメントを計算大域アライメントを繰り返すとO(m3n3)時間 ⇒Smith-WatermanアルゴリズムならO(mn)時間

局所アライメント(2) 動的計画法の式（最大のF(i,j)からトレースバック）

局所アライメント(3) 局所アライメントの正当性の証明（下図）局所アライメントの定義：x1x2 … xm, y1y2 … yn を入力とする時、スコアが最大となる部分列ペア xixi+1 … xk, yjyj+1 … yh を計算

アフィンギャップコストによるアライメント三種類の行列を用いる動的計画法によりO(mn)時間 Smith-Watermanアルゴリズムとの組み合わせが広く利用されている

配列検索の実用プログラム(1) O(mn):mは数百だが、nは数ＧＢにもなる ⇒実用的アルゴリズムの開発　⇒実用的アルゴリズムの開発 FASTA:短い配列（アミノ酸の場合、1,2文字、DNAの場合、4-6文字）の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にＤＰを利用。 BLAST:固定長（アミノ酸では3, DNAでは11）の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは入らない。伸長の際に統計的有意性を利用。

配列検索の実用プログラム(2)

配列検索の実用プログラム(3) SSEARCH: 局所アラインメント（Smith-Watermanアルゴリズム）をそのまま実行 PSI-BLAST: ギャップを扱えるように拡張したBLASTを繰り返し実行。「BLASTで見つかった配列からプロファイルを作り、それをもとに検索」という作業を繰り返す。

マルチプルアライメント：意味３本以上の配列が与えられた時、全ての配列の長さが同じになるようにギャップを挿入進化的、構造的に相同な残基（塩基）ができるだけ同じカラムに並ぶようにする通常はスコアを用いて、最適化問題として定式化理想的なアライメント同一残基から派生した残基が同一カラムに並ぶ構造的に重なり合う残基が同一カラムに並ぶ ⇒構造的に重なり合わない場所を無理に重ね合わせるのは、あまり意味がない

マルチプルアライメント：定式化 S(mi) = -∑cia log pia （cia= i列におけるaの出現回数, ３本以上の配列が与えられた時、長さが同じで、かつ、スコアが最適となるように各配列にギャップを挿入したものスコアづけ　（全体スコアは基本的に各列のスコアの和:∑S(mi)）最小エントロピースコア S(mi) = -∑cia log pia　　　（cia= i列におけるaの出現回数, 　　　　 pia = i列におけるaの生起確率） SPスコア(Sum-of-Pairs) S(mi)=∑k＜ｌ s(mik,mil) （mik = i列, k行目の文字）

SP(Sum of Pairs)スコア S(mi)=∑k＜ｌ s(mik,mil) 問題点 mik = i列, k行目の文字確率的な正当性が無い同一カラムに a,b,c が並んだ場合、log(pabc/qaqbqc) とすべきだが、SPスコアでは　 log(pab/qaqb)+ log(pbc/qbqc)+ log(pac/qaqc)

多次元DPによるマルチプルアライメント N個の配列に対するマルチプルアライメント例：N=3 N次元DPによりO(2NnN)時間（各配列の長さはO(n)を仮定）例：N=3

マルチプルアライメントの計算手法分枝限定法シミュレーテッドアニーリング遺伝的アルゴリズム逐次改善法 HMMによるアライメント１０配列程度なら最適解が計算可能シミュレーテッドアニーリング遺伝的アルゴリズム逐次改善法 HMMによるアライメントプログレッシブアライメント CLUSTAL-W（最も広く利用されているソフト）で採用逐次改善法との組み合わせが、より有効

実用的マルチプルアライメント法ヒューリスティックアルゴリズムの開発プログレッシブアライメント逐次改善法 N次元DPは（N=4ですら）　　　非実用的一般にはNP困難プログレッシブアライメント近隣結合法などを用いて　案内木を作る類似度が高い節点から低い節点へという順番で、配列対配列、配列対プロファイル、プロファイル対プロファイルのアラインメントを順次計算逐次改善法「配列を一本取り除いては、アラインメントしなおす」を繰り返す

プログレッシブアライメント

プロファイル-プロファイル・アライメント各列を１文字のように扱うことにより、DPにより計算

逐次改善法「配列を一本取り除いては、アラインメントしなおす」を繰り返す

配列モチーフ似た性質を持つタンパク質配列などが持つ共通文字列パターンロイシンジッパー（DNA結合） ATP/GTP結合部位　配列モチーフ似た性質を持つタンパク質配列などが持つ共通文字列パターンロイシンジッパー（DNA結合） L-x(6)-L-x(6)-L-x(6)-L ATP/GTP結合部位 [AG]-x(4)-G-K-[ST] Cys-His Zinc Finger（DNA結合） C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

講義のまとめ（配列アライメントI）動的計画法によるペアワイズアライメントマルチプルアライメント配列モチーフ参考文献大域アライメント局所アライメント(Smith-Watermanアルゴリズム) アフィンギャップコストを用いたアライメントマルチプルアライメント多次元DP プログレッシブアライメント配列モチーフ参考文献阿久津、浅井、矢田訳：バイオインフォマティクス –確率モデルによる遺伝子配列解析、医学出版、2001