生命情報学入門 配列のつなぎ合わせと再編成

Slides:



Advertisements
Similar presentations
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
Advertisements

授業展開#12 コンピュータの扱いにくい問 題. 扱いにくい問題  処理時間がかかる。  メモリを大量に必要とする。  プログラムの優劣、アルゴリズムの優劣 を比較するためには、標準的なコン ピュータで比較する必要がある。  処理時間を計るのに、コンピュータのモ デルとして、チューリングマシンを考え、
ACM/ICPC と アルゴリズム 「実践的プログラミング」 稲葉 一浩. 自己紹介 ﻪ 理Ⅰ → 理学部情報科学科 → 情報理工学系研究科コンピュータ科学専攻 ﻩ 博士課程1年 ﻩXML を扱う専用言語の研究など ﻪ 個人的には ﻩ ﻯD.
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム( 1 ) スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
模擬国内予選2013 Problem F テトラ姫のパズル 原案:須藤 解答:大友、須藤 解説:須藤.
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
ハノイグラフの生成と最短経路の導出 東京電機大学 理工学部 村田和也 松浦昭洋
到着時刻と燃料消費量を同時に最適化する船速・航路計画
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
情報生命科学特別講義III (1) 文字列マッチング
データ構造と アルゴリズム 第十二回 知能情報学部 知能情報学科 新田直也.
動的計画法 表の作成 制約の追加 練習問題.
動的計画法 表の作成 制約の追加 練習問題.
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
情報生命科学特別講義III (8)木構造の比較: 順序木
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
On the Enumeration of Colored Trees
整数計画法を用いた スリザーリンクの解法 杉村 由花 (東京大学)
An Algorithm for Enumerating Maximal Matchings of a Graph
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(3) + 数理談話会 木構造および画像データの文法圧縮
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
2012年度 情報数理 ~ QRコードを作ろう!(1) ~.
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
京都大学 化学研究所 バイオインフォマティクスセンター
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
翻訳 5’ → 3’ の方向 リボソーム上で行われる リボソームは蛋白質とrRNAの複合体 遺伝情報=アミノ酸配列
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
生命情報学入門 タンパク質の分類法演習 2011年6月14日
生物情報ソフトウェア特論 (1) 文字列マッチング・データ構造
k 個のミスマッチを許した点集合マッチング・アルゴリズム
MPIを用いた並列処理 ~GAによるTSPの解法~
生命情報学基礎論 (5) タンパク質立体構造予測
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
九州大学大学院 情報学専攻特別講義 (9) ブーリアンネットワークの 解析と制御
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
第3回 アルゴリズムと計算量 2019/2/24.
九州大学大学院 情報学専攻特別講義 (3) 配列解析
分子生物情報学(2) 配列のマルチプルアライメント法
アルゴリズムとプログラミング (Algorithms and Programming)
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
進化ゲームと微分方程式 第15章 n種の群集の安定性
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
第4章 データ構造 p.82 [誤] ハミルトニアン経路問題  [正] ハミルトン閉路問題 p.82,83 [誤] セールスパーソン問題
遺伝アルゴリズムによる NQueen解法 ~問題特性に着目した突然変異方法の改善~
第16章 動的計画法 アルゴリズムイントロダクション.
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
生物情報ソフトウェア特論 (4)配列解析II
生命情報学 (8) 生物情報ネットワークの構造解析
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
生物情報ソフトウェア特論 (10)固定パラメータアルゴリズムと 部分k木
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
2012年度 情報数理 ~ ハミング距離 ~.
Presentation transcript:

生命情報学入門 配列のつなぎ合わせと再編成 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

講義予定 5月24日:タンパク質立体構造予測法 5月31日:タンパク質立体構造予測演習 6月7日:機械学習を用いたタンパク質の分類法 6月14日:タンパク質の分類法演習 6月21日:配列のつなぎ合わせと再編成

講義の内容 配列のつなぎ合わせ ゲノム再編成 等長断片からの配列決定 最短共通拡大文字列 逆位によるソーティング(符号なしの場合) 逆位によるソーティング(符号ありの場合)

配列のつなぎ合わせ

配列のつなぎあわせ ゲノム配列の決定 32億文字を一度に決めるのは無理 (制限酵素を使って)短く切って、つなぎ合わせる CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA 元の配列 酵素を使って切断 CTCACTCAAAGGCGGTAA GGTAATACGGTTATCCAC TATCCACAGAATCAGGGGATAA つなぎあわせ CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA

等長断片からの配列決定

なし 問題の定式化 ACA CAC ACT CTG ACACTG ACA CAC ACT CAG データ: 同じ長さの配列断片 問題: それぞれの配列断片のみがちょうど1回づつ 出てくるような配列はあるか? ACA CAC ACT CTG ACACTG ACA CAC ACT CAG なし

一筆書きとオイラー オイラーの定理(有向グラフ版) 次のどちらかの条件を満たす時、一筆書きができる (a) (b) (a) どの点についても 入って来る矢印の数 = 出て行く矢印の数 (b) 2点以外は上と同じで、残りの点は、それぞれ以下を満たす 入って来る矢印の数 = 出て行く矢印の数-1 入って来る矢印の数-1 = 出て行く矢印の数 (a) (b)

CAAACCCAC A C A A C C C A AAC AAA CAC ACC CAA CCC CCA オイラーパス問題への変換 データ 最初の2文字に対応する点から、最後の2文字に対応する点に矢印を引く。 一筆書きできれば解あり、できなければ解なし データ AAA, AAC, ACC, CAA, CAC, CCA, CCC A C A A AAC AAA CAC CAA ACC CCA CCC C C C A CAAACCCAC

例題の解答 ACA CAC ACT CTG ACA CAC ACT CAG AC CA CT TG AC CA CT AG ただし、実際には誤りがあったり、断片の長さが同じではないので、 このままでは使えない。様々な工学的な工夫が必要

最短共通拡大文字列問題

問題の定式化 ACGTACAGTCAG 12文字 ACGT GTAC CAGT GTCAG 10文字で 最短 GTACGTCAGT データ: 配列断片 問題: それぞれの配列断片を(重なりありで)つなぎわせてできる一番短い文字列を見つけよ ACGTACAGTCAG 12文字 ACGT GTAC CAGT GTCAG 10文字で 最短 GTACGTCAGT

問題の解き方(1) b = GTCAG a = CAGTC CAGTC GTCAG 着目点:断片の並べ方を決めると(その順番での)最短拡大文字列が一意に決まる(なるべく左につめるようにつなげていく) ⇒ 並び方をみつければ良い pref(a,b): 断片 a の後に断片 b をつなげた時の a の中で b と重ならない部分の長さ ovlp(a,b):断片 a の後に断片 b をつなげた時の a と b の重なっている部分の長さ a = CAGTC b = GTCAG CAGTC ovlp(a,b)=3 GTCAG pref(a,b)=2

問題の解き方(2) GTAC ACGT GTCAG CAGT GTAC GTACGTCAGT s1 s2 s3 s4 s1 断片の並べ方(s1,s2,s3,…,sn)を決めた後の 最短拡大文字列の長さ = prefの総和 +ovlp(sn,s1) GTAC s1 ovlp(sn,s1) pref(si,si+1) ACGT s2 GTCAG s3 CAGT s4 GTAC s1 GTACGTCAGT

巡回セールスマン問題への変換 ACGT GTAC GTCAG CAGT GTACGTCAGT s2 2 5 2 2 4 s1 s3 4 4 (=pref(GTCAG, ACGT)) 2 2 4 s1 GTAC GTCAG s3 4 4 4 2 2 3 4 (=pref(GTAC, CAGT)) CAGT s4 2+2+2+2+ovlp(CAGT,GTAC)=10 GTACGTCAGT

等長断片の場合との比較 等長断片の場合 ・オイラーパス(一筆書き)問題へ変換 ・すべての辺をちょうど1回通る ・効率良く計算可能 拡大最短共通文字列の場合 ・巡回セールスマン問題へ変換 ・すべての頂点をちょうど1回通る ・効率の良い計算は難しい(NP困難)

ゲノム再編成

ゲノムの概要構造は染色体の融合・分裂や部分配列の大規模な逆位・転座・重複により進化 ゲノム再編成 ゲノムの概要構造は染色体の融合・分裂や部分配列の大規模な逆位・転座・重複により進化 二種類の生物を比較して進化の過程を復元

逆位によるソーティング

逆位によるソーティング(符号なしの場合) ゲノム構造: 1からnまでの数字の順列 逆位:連続した部分列を反転 問題:与えられた順列を (1,2,3,4,…,n) にするための最短の逆位系列を計算 6 4 1 5 2 3 1 4 6 5 2 3 1 4 3 2 5 6 1 2 3 4 5 6

逆位によるソーティング(符号ありの場合) ゲノム構造: 1からnまでの数字の順列。ただし、各数字は符号(遺伝子の方向)がつく 逆位:反転した場合、符号も反転 キャベツ 1 -5 4 -3 2 1 -5 4 -3 -2 1 -5 -4 -3 -2 カブ 1 2 3 4 5

逆位によるソーティング 符号ありの場合 符号なしの場合 高速に計算可能 でも、アルゴリズムはかなり複雑 高速な計算は難しい(NP困難) 転座、重複などを許した様々なパターンの問題が研究されている

まとめ 等長断片のつなぎ合わせ ⇒ 一筆書きへの変換 拡大最短共通文字列 ⇒ 巡回セールスマン問題への変換 ゲノム再編成  ⇒ 一筆書きへの変換 拡大最短共通文字列  ⇒ 巡回セールスマン問題への変換 ゲノム再編成  ⇒ 最小回数の逆位による順列の     並び換え(ソーティング)