Presentation is loading. Please wait.

Presentation is loading. Please wait.

比較ゲノム解析のための シンテニー領域同定ツールの開発

Similar presentations


Presentation on theme: "比較ゲノム解析のための シンテニー領域同定ツールの開発"— Presentation transcript:

1 比較ゲノム解析のための シンテニー領域同定ツールの開発
生命システム情報専修 榊原研究室 八谷剛史

2 研究背景 ゲノム配列情報の蓄積 ゲノム配列解析の需要と可能性の高まり ゲノムにエンコードされている情報 真核生物 41 種
原核生物 308 種 計 349 種 ゲノム配列解析の需要と可能性の高まり ゲノム配列が公開 ゲノム配列から抽出できる情報とは? ゲノムにエンコードされている情報 配列情報 ( 遺伝子,転写因子結合部位,非コード RNA ) 配列の配置情報 解析対象

3 配置情報が存在する証拠 オーソログ遺伝子の配置を比較 ほとんどの領域で並びはランダム化 特定の領域では,有意に並びが保存
S10 領域 28 遺伝子 cell-wall synthesis and cell division cluster 16 遺伝子 [ Watanabe et al ]

4 研究課題 配置情報を解析 領域の対応付け ヒト 2 番染色体 情報のある配置 情報のない配置 シンテニー領域同定問題 区別 チンパンジー
情報ある配置の共通項を抽出 情報ある配置 進化的に保存されている配置 チンパンジー 2B 番染色体 チンパンジー 2A 番染色体

5 シンテニー領域同定の既存手法 アンカー (双方向ローカルアライメント) の決定 アンカーのクラスタリング シンテニーの同定
ゲノム A ゲノム B アンカーのクラスタリング シンテニーの同定 GRIMM-Synteny (2003) 距離でクラスタリング ゲノム A ゲノム B Mauve (2004) 並びでクラスタリング ゲノム A ゲノム B 問題点:配列レベルでの対応付けが不十分

6 既存手法の問題点 オーバーラップしたアンカーがある場合 GRIMM-Synteny & Mauve 重複配列,反復配列が原因 ゲノム A
ゲノム B GRIMM-Synteny & Mauve ゲノム A ゲノム B オーバーラップしたアンカーを無視 真核生物ゲノムへの適用が不適切

7 既存手法の性能評価 評価法 生物学的に “正しいシンテニー領域” を知ることは不可能 オーソログ遺伝子の対応付けの性能評価
正解率 ( 正解の数 / カバーの数 ) カバー率 ( カバーの数 / オーソログ遺伝子の数 ) ○ 正解,○ カバー × 正解,○ カバー × 正解,× カバー  M. tuberculosis vs. M. leprae (原核生物)  S. cerevisiae vs. S. pombe (真核生物) 正解率 カバー率 GRIMM-Synteny 100 28.17 Mauve 97.45 86.74 正解率 カバー率 GRIMM-Synteny 100 0.15 Mauve 0.29

8 提案手法 既存手法の問題点 配列レベルでの対応付けが不十分 オーバーラップしたアンカーを無視 真核生物ゲノムへの適用が不適切 改善点①
並び + 配列相同性 でクラスタリング 配列レベルでの対応付けを可能に ゲノム A ゲノム B 改善点② オーバーラップしたアンカーを無視しない 真核生物への適用を可能に ゲノム A ゲノム B

9 M. tuberculosis – M. leprae
既存手法と提案手法の比較 オーソログ遺伝子の対応付けの性能評価 原核生物 マイコバクテリアゲノム 真核生物 菌類界生物ゲノム M. tuberculosis – M. leprae (原核生物) S. cerevisiae – S. pombe (真核生物) 正解率 カバー率 Mauve 97.45 86.74 100 0.29 提案手法 99.38 88.40 8.84 48.31 比較結果 原核生物 正解率,カバー率共に向上 真核生物 カバー率で大幅な向上 正解率に問題あり

10 今後の展望 2/2 真核生物における正解率の向上 弱相同性の検出 感度の上昇 配列レベルでの対応付けが鍵 転写因子結合部位 非機能性 RNA
シンテニー領域同定のもう一つの意義 感度の上昇 長い領域の対応付け 閾値: 16 bp 30 億 bp 短い領域の対応付け 閾値: 7 bp 10,000 bp 弱相同性 (8 bp) 配列レベルでの対応付けが鍵 転写因子結合部位 HMM を用いた高感度な配列比較 非機能性 RNA 二次構造を考慮した相同性比較 未知の弱相同性領域 Generalized HMM (GHMM) を用いた弱相同性の検出

11 質疑応答 御視聴ありがとうございました ただいまは,質疑応答の時間です

12 提案手法 ① : 提案手法の流れ ゲノム配列を入力 高速にアンカーを計算 オーソロガスなアンカーとパラロガスなアンカーを区別
アンカーのクラスタリング クラスタリングの条件を新たに定義 シンテニー候補の生成 シンテニーのフィルタリング シンテニーの同定 シンテニー内部の弱相同性の検出

13 提案手法 ② : アンカーのクラスタリング アンカーのクラスタリングの条件 シンテニーの生物学的定義 [提案手法]
条件① アンカーの並び 条件② アンカー間の配列情報 [提案手法] アンカーの並び + アンカー間の配列情報 「共線性を満たす」 「アライメント可能」 シンテニーの生物学的定義 ゲノム再編成の起きていない領域

14 現状報告 アンカーをクラスタリングするモジュールを実装 パラロガスな領域と オーソロガスな領域を区別 真核生物での性能向上の可能性
マイコバクテリアゲノム (原核生物) で評価実験 オーソログ遺伝子発見の正解率とカバー率で評価 菌類界ゲノム (真核生物) で評価実験 mtu-mle mtu-mpa mle-mpa mtu-mle-mpa 正解率 カバー率 Mauve 97.45 86.74 98.78 87.50 100 86.80 85.12 提案手法 99.38 88.40 99.03 81.91 87.82 86.78 mtu : M. tuberculosis mle : M. leplae mpa : M. paratuberculosis sce-spo 正解率 カバー率 Mauve 100 0.29 提案手法 8.84 48.31 パラロガスな領域と オーソロガスな領域を区別 真核生物での性能向上の可能性 sce : S. cerevisiae spo : S. pombe

15 提案手法 ③:パラロガスな領域の考慮 オーソロググループとなるクリークを抽出 相同性スコアの和を最大化 オーソロガス オーソロガス
オーソロガスな対応付けと,パラロガスな対応付けを区別

16 提案手法 ④ : 弱相同性の検出 転写因子結合部位 非機能性 RNA 未知の弱相同性領域 基本戦略:
シンテニー領域中に存在する弱相同性を検出する 感度の上昇 転写因子結合部位 HMM を用いた高感度な配列比較 非機能性 RNA 二次構造を考慮した相同性比較 未知の弱相同性領域 Generalized HMM (GHMM) を用いた弱相同性の検出

17 今後の展望 シンテニー領域内から弱相同性を検出 web アプリケーションとして公開 オーソロガスなアンカーとパラロガスなアンカーを区別
真核生物へ適用したときの性能向上の可能性 シンテニー領域内から弱相同性を検出 従来よりも高感度な検出 未知な弱相同性領域の同定 web アプリケーションとして公開 他研究者にも使ってもらう

18 評価方法 正解率 (specificity) カバー率 (sensitivity の代替) ○ 正解,○ カバー × 不正解,○カバー
シンテニー オーソログ遺伝子 ○ 正解,○ カバー × 不正解,○カバー

19 シンテニー領域同定の意義 配置情報を抽出 再編成シナリオを推定 弱相同性を検出 重要な配置情報は,シンテニー領域として保存される
シンテニー領域は,再編成の単位である 弱相同性を検出 長い領域の対応付け 閾値: 16 bp 30 億 bp 短い領域の対応付け 閾値: 7 bp 10,000 bp 弱相同性 (8 bp)


Download ppt "比較ゲノム解析のための シンテニー領域同定ツールの開発"

Similar presentations


Ads by Google