Deep Learningを用いたタンパク質のコンタクト残基予測

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
Building text features for object image classification
オンライン学習 Prediction Learning and Games Ch2
Deep learningによる 読唇システム
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
京都大学 化学研究所 バイオインフォマティクスセンター
Windows Summit /8/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
ガウス過程による回帰 Gaussian Process Regression GPR
情報工学総合演習 D-I 近似アルゴリズム 埼玉大学 理工学研究科 山田 敏規、 橋口 博樹、 堀山 貴史
生命情報学入門 タンパク質の分類法演習 2011年6月14日
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
生命情報学基礎論 (5) タンパク質立体構造予測
膜タンパク質の 立体構造予測.
SVMを用いた生体分子への 金属結合部位予測手法の提案
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
Vector 4 = [Vector 3, packet_size]
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
HLとEHLモデルでの圧力分布と軸受の変形分布
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Disclosure of conflict of interest
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
Internet広域分散協調サーチロボット の研究開発
分子動力学計算によりプリオンタンパク(野生型・変異型)が
分子生物情報学(2) 配列のマルチプルアライメント法
AdaPrec (提案手法) の初回の通信精度選択
膜タンパク質のインフォマテイクス 必要とされている課題.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
目的:高速QR分解ルーチンのGPUクラスタ実装
実空間における関連本アウェアネス 支援システム
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
Number of random matrices
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
ベイズ最適化 Bayesian Optimization BO
タンパク質-リガンド複合体への共溶媒効果の系統的解析
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
北大MMCセミナー 第81回 附属社会創造数学センター主催
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
HMM音声合成における 変分ベイズ法に基づく線形回帰
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ベイズ音声合成における 事前分布とモデル構造の話者間共有
時間連続性を考慮した 動画からの人物の姿勢推定
MD計算による血小板細胞膜蛋白とリガンド結合の立体構造および結合の力学特性の解明(loss of function 型変異体に関して)
北大MMCセミナー 第68回 附属社会創造数学センター主催 Date: 2017年6月15日(木) 16:30~18:00
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
自己縮小画像と混合ガウス分布モデルを用いた超解像
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
北大MMCセミナー 第17回 Date:2013年12月16日(月) 16:30~18:00 ※通常とは曜日が異なります
ランダムプロジェクションを用いた音響モデルの線形変換
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

Deep Learningを用いたタンパク質のコンタクト残基予測 EX18320 (東京大学情報基盤センター推薦課題) 福田 宏幸 (東京大学大学院 新領域創成科学研究科) Deep Learningを用いたタンパク質のコンタクト残基予測 Abstract アミノ酸配列情報のみを使ったタンパク質のコンタクト残基ペア予測は、タンパク質の立体構造予測にとって重要なステップと考えられており、精力的な研究がなされている。近年Pottsモデルの導入などによりコンタクト残基ペア予測は大幅な改善がみられているが、立体構造予測にとっては未だに十分な精度は得られているとはいえず、改良の余地がある。また、既存のコンタクト残基ペア予測手法のほとんどは、類縁配列の多重アライメントから進化過程での残基間の変異の相関を読み取り、予測に利用しているが、多重アライメントが正しいという保証はなく、こちらも多くの研究がなされている。そこで本研究では、深層学習を用いて、多重アライメント中の各配列の重み付けとコンタクト予測を1つのネットワークで同時に学習することで、コンタクト予測に適した多重アライメントの重み付けを学習し、トータルでの精度向上を目指す。深層学習には、Residual Networkを用い層を深く重ねることで精度の向上を実現している。 Methods Dataset: 1)Non-redundantなアミノ酸配列をPISCES cull pdb serverより取得。 2) PDBファイルを取得し、コンタクト残基を特定。 ( Cβ 間の距離が8 Å以内の残基をコンタクト残基と定義。Glycineの場合はCα座標を用いた。 ) 3) 700残基以上と25残基以上のタンパク質を除く。残った14680個のタンパク質を、11744個(Training)と2936個(Validation)に分割して使用。 4)多重アライメントは、HHBlitsを使用して計算(E-value was set to 0.001 on the UniProt20_2016 library.)。予測2次構造と露出溶媒面積はScratch-1Dを用いて計算した。Testには、CASP11 (Critical Assessment of Techniques for Protein Structure Prediction) で使用された105種類のドメインを使用。※今回の実験は、CASP13への参加が目的になっており、Test setとのRedundancyを除いていない。 Model: 我々の使用したネットワーク構造を図1に示す。ネットワークは、多重アライ メントの配列間の重み付けをする部分(A)と、重み付けされた多重アライメントと予 測2次構造等から、コンタクト確率を予測する部分(B)から構成される。(A) では、 MSAから計算された特徴量(①GAPの割合②クエリ配列との一致率③多重アライメン ト全体のコンセンサス配列との一致率④配列本数と①~③の平均)をMLPに入力し、 それぞれの配列に対して重みを出力する。得られた重み付き多重アライメントから、 既存手法と同様に大きさL×Lの441個の共分散行列を計算する。これをCNNの入力と する。 (B)では、①CNNの出力 ②MSAから計算されるカラムごとのEntropy、PSSM、 カラム間のMutual Information ③予測された2次構造と露出溶媒面積を、 60層の Residual Networkに入力し、コンタクト確率を得る。Training時には、計算量を減らす ため250残基を超える配列については、ランダムに250残基をクリッピングして使用 した。Trainingには、ADAM optimizerを用い、学習率を0.0005とした。過学習を防ぐた め、DropuutとL2正則化を用いている。計算には、東京大学情報基盤センターの Reedbush Lを使用。搭載されている4枚のNVIDIA Tesla P100を用い、それぞれの GPUで並列に勾配を計算。CPUが計算された勾配を平均しパラメータを更新している。 Results 表1に、CASP11 datasetでの、実験結果を示す。既存手法と比較して、大幅な精度の向上を実現した。 また、1epochあたりの計算時間はGeForce NIVDIA TITAN X 1枚での計算 約8時間に比べ、約1時間半に短縮された。Conclusions ・コンタクト残基の予測に深層学習を用い、多重アライメントの重み付けを含めてトータルで最適化することで、精度の向上を実現した。 ・ 複数のGPUを用いて並列計算することで計算時間が線形的に短縮され、より深いネットワークを構築し、精度の向上に寄与できる。 This research is partially supported by Initiative on Promotion of Supercomputing for Young or Women Researchers, Information Technology Center, The University of Tokyo. 図1 L/10 L/5 L/2 L PSICOV 0.32 0.24 0.16 0.12 0.35 0.27 0.19 0.13 0.4 0.26 0.2 CCMpred 0.36 0.28 0.18 0.41 0.22 0.15 0.45 MetaPSICOV 0.67 0.56 0.38 0.69 0.59 0.43 0.29 0.68 0.63 0.53 DeepCONV 0.69‘ 0.58 0.40 0.25 0.60 0.70 0.66 Our Method 0.88 0.78 0.52 0.30 0.79 0.85 0.82 0.73 Method Short Medium Long