分子生物情報学(2) 配列のマルチプルアライメント法

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
動的計画法を用いたアラインメント  小菅孝史.
情報生命科学特別講義III (5)配列アラインメント
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (1) 文字列マッチング
遺伝的アルゴリズム  新川 大貴.
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(5) 木構造データ間の編集距離
京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (7)進化系統樹推定
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
情報工学総合演習 D-I 近似アルゴリズム 埼玉大学 理工学研究科 山田 敏規、 橋口 博樹、 堀山 貴史
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
生命情報学入門 タンパク質の分類法演習 2011年6月14日
情報生命科学特別講義III (11) RNA二次構造予測
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生命情報学基礎論 (5) タンパク質立体構造予測
生命情報学入門 配列のつなぎ合わせと再編成
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
数理科学特別講義 バイオインフォマティクスにおける 確率モデル
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
第9回 優先度つき待ち行列,ヒープ,二分探索木
京都大学 化学研究所 バイオインフォマティクスセンター
九州大学大学院 情報学専攻特別講義 (3) 配列解析
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
第4章 社会構造概念はどのように豊穣化されるか
適応的近傍を持つ シミュレーテッドアニーリングの性能
長さの制限付きギャップと 文字クラスを含むパタンに対する 照合アルゴリズムの改善
九州大学大学院 情報学専攻特別講義 (2) 配列アラインメント
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
第16章 動的計画法 アルゴリズムイントロダクション.
第9回 優先度つき待ち行列,ヒープ,二分探索木
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
ポッツスピン型隠れ変数による画像領域分割
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
生物情報ソフトウェア特論 (4)配列解析II
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
配列解析アルゴリズム特論 配列アライメントI
分子生物情報学(0) バイオインフォマティクス
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

分子生物情報学(2) 配列のマルチプルアライメント法 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

内容 ペアワイズアライメントの復習 マルチプルアライメント 多次元DP プログレッシブアライメント モチーフ発見 局所マルチプルアライメント

マルチプルアライメント:意味 3本以上の配列が与えられた時、全ての配列の長さが同じになるようにギャップを挿入 進化的、構造的に相同な残基(塩基)ができるだけ同じカラムに並ぶようにする 通常はスコアを用いて、最適化問題として定式化 理想的なアライメント 同一残基から派生した残基が同一カラムに並ぶ 構造的に重なり合う残基が同一カラムに並ぶ ⇒構造的に重なり合わない場所を無理に重ね合わせるのは、あまり意味がない

マルチプルアライメント:定式化 S(mi) = -∑cia log pia (cia= i列におけるaの出現回数, 3本以上の配列が与えられた時、長さが同じで、かつ、スコアが最適となるように各配列にギャップを挿入したもの スコアづけ (全体スコアは基本的に各列のスコアの和:∑S(mi)) 最小エントロピースコア S(mi) = -∑cia log pia   (cia= i列におけるaの出現回数,      pia = i列におけるaの生起確率) SPスコア(Sum-of-Pairs) S(mi)=∑k<l s(mik,mil) (mik = i列, k行目の文字)

SP(Sum of Pairs)スコア S(mi)=∑k<l s(mik,mil) 問題点 mik = i列, k行目の文字 確率的な正当性が無い 同一カラムに a,b,c が並んだ場合、log(pabc/qaqbqc) とすべきだが、SPスコアでは  log(pab/qaqb)+ log(pbc/qbqc)+ log(pac/qaqc)

多次元DPによる マルチプルアライメント N個の配列に対するマルチプルアライメント 例:N=3 N次元DPによりO(2NnN)時間(各配列の長さはO(n)を仮定) 例:N=3

マルチプルアライメントの計算手法 分枝限定法 シミュレーテッドアニーリング 遺伝的アルゴリズム 逐次改善法 HMMによるアライメント 10配列程度なら最適解が計算可能 シミュレーテッドアニーリング 遺伝的アルゴリズム 逐次改善法 HMMによるアライメント プログレッシブアライメント CLUSTAL-W(最も広く利用されているソフト)で採用 逐次改善法との組み合わせが、より有効

実用的マルチプルアライメント法 ヒューリスティックアルゴリズムの開発 プログレッシブアライメント 逐次改善法 N次元DPは(N=4ですら)    非実用的 一般にはNP困難 プログレッシブアライメント 近隣結合法などを用いて 案内木を作る 類似度が高い節点から低い節点へという順番で、配列対配列、配列対プロファイル、プロファイル対プロファイルのアラインメントを順次計算 逐次改善法 「配列を一本取り除いては、アラインメントしなおす」を繰り返す

プログレッシブアライメント

プロファイル-プロファイル・アライメント 各列を1文字のように扱うことにより、DPにより計算

逐次改善法 「配列を一本取り除いては、アラインメントしなおす」を繰り返す

モチーフ発見 モチーフ :共通の性質を持つ遺伝子などに現れる共通の文字列パターン 決定的表現法 確率的表現法 正規表現などを用いる(例: A-x(1,3)-[CG]) 一般にNP困難。学習理論において数多くの研究 正例のみならず、  負例が与えられることが多い 確率的表現法 重み行列(プロファイル) Σ×[1…L] から実数への関数 HMM (Hidden Markov Models)

局所マルチプルアライメント (Local Multiple Alignment) 複数配列と長さLが与えられた時、スコア最大となるように各配列から長さLの部分列を抽出 モチーフ(共通の性質を持つ遺伝子などに共通の部分パターン)抽出などに有用

相対エントロピースコアのもとでの 局所マルチプルアライメント 相対エントロピースコアの定義 fj(a): (モチーフ領域の)j列目におけるaの出現頻度 p(a): aの出現頻度(事前確率) L: モチーフ領域の長さ 実用的アルゴリズム Gibbsサンプリング, EM NP困難

相対エントロピースコア L=7 f1(A)=1, f1(C)=f1(G)=f1(T)=0 f2(A)=2/3, f2(T)=1/3, f2(C)=f2(G)=0, … p(A)=p(C )=p(G)=p(T)=1/4

Gibbs サンプリング 各配列xjからランダムに部分配列tjを選ぶ 1個の配列xiをランダムに選ぶ xiの部分列ti’を     に比例する確率で選ぶ ti をti’ でおきかえる ステップ2-4を十分な回数だけ繰り返す ( ti[j]: 部分列ti のj列目の文字 )

講義のまとめ(配列アライメント2) 配列のマルチプルアライメント法 多次元DP プログレッシブアライメント モチーフ発見 局所マルチプルアライメント 参考文献 阿久津、浅井、矢田 訳: バイオインフォマティクス -確率モデルによる遺伝子配列解析―、医学出版、2001