比較ゲノム解析のための シンテニー領域同定ツールの開発

Slides:



Advertisements
Similar presentations
第 2 章 : DNA 研究法 2.2DNA クローニング クローニングベクター 大腸菌以外のベクター ゲノム分子生物学 年 5 月 7 日 担当 : 中東.
Advertisements

Drosophila solexa Tag analysis 2/25
東大医科研ヒトゲノム解析センター 中 井 謙 太
ファイルキャッシュを考慮したディスク監視のオフロード
植物系統分類学・第13回 分子系統学の基礎と実践
XHTML構文検証手法における スクリプト要素の静的解析アルゴリズム
RNA i (RNA interference).
特論B 細胞の生物学 第2回 転写 和田 勝 東京医科歯科大学教養部.
動物への遺伝子導入 hGH 遺伝子 右:ひと成長ホルモン遺伝子を 導入したラット 左:対照ラット
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
雑音重み推定と音声 GMMを用いた雑音除去
5/21~6/11 担当講師 柘植謙爾(つげ けんじ) (6)第4章 ゲノム配列の解析
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
ネストした仮想化を用いた VMの安全な帯域外リモート管理
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
プログラム実行履歴を用いたトランザクションファンクション抽出手法
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
音高による音色変化に着目した音源同定に関する研究
実行時情報に基づく OSカーネルのコンフィグ最小化
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
WWW上の効率的な ハブ探索法の提案と実装
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
Anja von Heydebreck et al. 発表:上嶋裕樹
コンポーネントランク法を用いたJavaクラス分類手法の提案
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
分子生物情報学(2) 配列のマルチプルアライメント法
UMLモデルを対象とした リファクタリング候補検出の試み
コードクローン検出に基づくデザイン パターン適用支援手法の提案と実現
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
卒業研究進捗報告 2009年  月   日 研究題目: 学生番号:         氏名:          
植物系統分類学・第14回 分子系統学の基礎と実践
Intel SGXを用いた仮想マシンの 安全な監視機構
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
ソフトウェア保守のための コードクローン情報検索ツール
Number of random matrices
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
コーディングパターンの あいまい検索の提案と実装
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
仮想マシンに対する 高いサービス可用性を実現する パケットフィルタリング
メソッドの同時更新履歴を用いたクラスの機能別分類法
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
ICML読む会資料 (鹿島担当) 教師ナシ の 構造→構造 マッピング 読んだ論文: Discriminative Unsupervised Learning of Structured Predictors Linli Xu (U. Waterloo) , … , Dale Schuurmans.
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
コードクローン解析に基づく デザインパターン適用候補の検出手法
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Detecting Software Modularity Violations
北大MMCセミナー 第100回 附属社会創造数学センター主催 Date: 2019年7月11日(木) 16:30~18:00
Presentation transcript:

比較ゲノム解析のための シンテニー領域同定ツールの開発 生命システム情報専修 榊原研究室 八谷剛史

研究背景 ゲノム配列情報の蓄積 ゲノム配列解析の需要と可能性の高まり ゲノムにエンコードされている情報 真核生物 41 種 原核生物 308 種 計 349 種 ゲノム配列解析の需要と可能性の高まり ゲノム配列が公開 ゲノム配列から抽出できる情報とは? ゲノムにエンコードされている情報 配列情報 ( 遺伝子,転写因子結合部位,非コード RNA ) 配列の配置情報 解析対象

配置情報が存在する証拠 オーソログ遺伝子の配置を比較 ほとんどの領域で並びはランダム化 特定の領域では,有意に並びが保存 S10 領域 28 遺伝子 cell-wall synthesis and cell division cluster 16 遺伝子 [ Watanabe et al. 1996 ]

研究課題 配置情報を解析 領域の対応付け ヒト 2 番染色体 情報のある配置 情報のない配置 シンテニー領域同定問題 区別 チンパンジー 情報ある配置の共通項を抽出 情報ある配置 進化的に保存されている配置 チンパンジー 2B 番染色体 チンパンジー 2A 番染色体

シンテニー領域同定の既存手法 アンカー (双方向ローカルアライメント) の決定 アンカーのクラスタリング シンテニーの同定 ゲノム A ゲノム B アンカーのクラスタリング シンテニーの同定 GRIMM-Synteny (2003) 距離でクラスタリング ゲノム A ゲノム B Mauve (2004) 並びでクラスタリング ゲノム A ゲノム B 問題点:配列レベルでの対応付けが不十分

既存手法の問題点 オーバーラップしたアンカーがある場合 GRIMM-Synteny & Mauve 重複配列,反復配列が原因 ゲノム A ゲノム B GRIMM-Synteny & Mauve ゲノム A ゲノム B オーバーラップしたアンカーを無視 真核生物ゲノムへの適用が不適切

既存手法の性能評価 評価法 生物学的に “正しいシンテニー領域” を知ることは不可能 オーソログ遺伝子の対応付けの性能評価 正解率 ( 正解の数 / カバーの数 ) カバー率 ( カバーの数 / オーソログ遺伝子の数 ) ○ 正解,○ カバー × 正解,○ カバー × 正解,× カバー  M. tuberculosis vs. M. leprae (原核生物)  S. cerevisiae vs. S. pombe (真核生物) 正解率 カバー率 GRIMM-Synteny 100 28.17 Mauve 97.45 86.74 正解率 カバー率 GRIMM-Synteny 100 0.15 Mauve 0.29

提案手法 既存手法の問題点 配列レベルでの対応付けが不十分 オーバーラップしたアンカーを無視 真核生物ゲノムへの適用が不適切 改善点① 並び + 配列相同性 でクラスタリング 配列レベルでの対応付けを可能に ゲノム A ゲノム B 改善点② オーバーラップしたアンカーを無視しない 真核生物への適用を可能に ゲノム A ゲノム B

M. tuberculosis – M. leprae 既存手法と提案手法の比較 オーソログ遺伝子の対応付けの性能評価 原核生物 マイコバクテリアゲノム 真核生物 菌類界生物ゲノム M. tuberculosis – M. leprae (原核生物) S. cerevisiae – S. pombe (真核生物) 正解率 カバー率 Mauve 97.45 86.74 100 0.29 提案手法 99.38 88.40 8.84 48.31 比較結果 原核生物 正解率,カバー率共に向上 真核生物 カバー率で大幅な向上 正解率に問題あり

今後の展望 2/2 真核生物における正解率の向上 弱相同性の検出 感度の上昇 配列レベルでの対応付けが鍵 転写因子結合部位 非機能性 RNA シンテニー領域同定のもう一つの意義 感度の上昇 長い領域の対応付け 閾値: 16 bp 30 億 bp 短い領域の対応付け 閾値: 7 bp 10,000 bp 弱相同性 (8 bp) 配列レベルでの対応付けが鍵 転写因子結合部位 HMM を用いた高感度な配列比較 非機能性 RNA 二次構造を考慮した相同性比較 未知の弱相同性領域 Generalized HMM (GHMM) を用いた弱相同性の検出

質疑応答 御視聴ありがとうございました ただいまは,質疑応答の時間です

提案手法 ① : 提案手法の流れ ゲノム配列を入力 高速にアンカーを計算 オーソロガスなアンカーとパラロガスなアンカーを区別 アンカーのクラスタリング クラスタリングの条件を新たに定義 シンテニー候補の生成 シンテニーのフィルタリング シンテニーの同定 シンテニー内部の弱相同性の検出

提案手法 ② : アンカーのクラスタリング アンカーのクラスタリングの条件 シンテニーの生物学的定義 [提案手法] 条件① アンカーの並び 条件② アンカー間の配列情報 [提案手法] アンカーの並び + アンカー間の配列情報 「共線性を満たす」 「アライメント可能」 シンテニーの生物学的定義 ゲノム再編成の起きていない領域

現状報告 アンカーをクラスタリングするモジュールを実装 パラロガスな領域と オーソロガスな領域を区別 真核生物での性能向上の可能性 マイコバクテリアゲノム (原核生物) で評価実験 オーソログ遺伝子発見の正解率とカバー率で評価 菌類界ゲノム (真核生物) で評価実験 mtu-mle mtu-mpa mle-mpa mtu-mle-mpa 正解率 カバー率 Mauve 97.45 86.74 98.78 87.50 100 86.80 85.12 提案手法 99.38 88.40 99.03 81.91 87.82 86.78 mtu : M. tuberculosis mle : M. leplae mpa : M. paratuberculosis sce-spo 正解率 カバー率 Mauve 100 0.29 提案手法 8.84 48.31 パラロガスな領域と オーソロガスな領域を区別 真核生物での性能向上の可能性 sce : S. cerevisiae spo : S. pombe

提案手法 ③:パラロガスな領域の考慮 オーソロググループとなるクリークを抽出 相同性スコアの和を最大化 オーソロガス オーソロガス オーソロガスな対応付けと,パラロガスな対応付けを区別

提案手法 ④ : 弱相同性の検出 転写因子結合部位 非機能性 RNA 未知の弱相同性領域 基本戦略: シンテニー領域中に存在する弱相同性を検出する 感度の上昇 転写因子結合部位 HMM を用いた高感度な配列比較 非機能性 RNA 二次構造を考慮した相同性比較 未知の弱相同性領域 Generalized HMM (GHMM) を用いた弱相同性の検出

今後の展望 シンテニー領域内から弱相同性を検出 web アプリケーションとして公開 オーソロガスなアンカーとパラロガスなアンカーを区別 真核生物へ適用したときの性能向上の可能性 シンテニー領域内から弱相同性を検出 従来よりも高感度な検出 未知な弱相同性領域の同定 web アプリケーションとして公開 他研究者にも使ってもらう

評価方法 正解率 (specificity) カバー率 (sensitivity の代替) ○ 正解,○ カバー × 不正解,○カバー シンテニー オーソログ遺伝子 ○ 正解,○ カバー × 不正解,○カバー

シンテニー領域同定の意義 配置情報を抽出 再編成シナリオを推定 弱相同性を検出 重要な配置情報は,シンテニー領域として保存される シンテニー領域は,再編成の単位である 弱相同性を検出 長い領域の対応付け 閾値: 16 bp 30 億 bp 短い領域の対応付け 閾値: 7 bp 10,000 bp 弱相同性 (8 bp)