京都大学 化学研究所 バイオインフォマティクスセンター

Slides:



Advertisements
Similar presentations
Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University
Advertisements

集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム( 1 ) スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
情報生命科学特別講義III (1) 文字列マッチング
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
タンパク質相互作用ネットワークの スケールフリーモデル
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
HMM:隠れマルコフモデル 電子情報工学科 伊庭 斉志 奈良女子大集中講義 バイオインフォマティクス (6)
京都大学 化学研究所 バイオインフォマティクスセンター
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
分子生物情報学(7) 遺伝子発現データの情報解析法 スケールフリーネットワーク
京都大学 化学研究所 バイオインフォマティクスセンター
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
配列および化合物データ解析のためのカーネル法
ガウス過程による回帰 Gaussian Process Regression GPR
サポートベクターマシン によるパターン認識
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
生命情報学入門 タンパク質の分類法演習 2011年6月14日
情報生命科学特別講義III (11) RNA二次構造予測
k 個のミスマッチを許した点集合マッチング・アルゴリズム
生物情報ソフトウェア特論 (8) RNA二次構造予測
九州大学大学院 情報学専攻特別講義 (9) ブーリアンネットワークの 解析と制御
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
京都大学 化学研究所 バイオインフォマティクスセンター
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Anja von Heydebreck et al. 発表:上嶋裕樹
予測に用いる数学 2004/05/07 ide.
京都大学 化学研究所 バイオインフォマティクスセンター
分子生物情報学(2) 配列のマルチプルアライメント法
Data Clustering: A Review
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Number of random matrices
九州大学大学院 情報学専攻特別講義 (4) RNA二次構造予測
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
生物情報ソフトウェア特論 (8) RNA二次構造予測
京都大学 化学研究所 バイオインフォマティクスセンター
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
人工知能特論II 第8回 二宮 崇.
九州大学大学院 情報学専攻特別講義 (8) ニューラルネットワークの 離散モデル
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
混合ガウスモデル Gaussian Mixture Model GMM
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

京都大学 化学研究所 バイオインフォマティクスセンター 生命科学基礎論 (第8回)  阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

内容 RNA二次構造予測 遺伝子発現データ解析 遺伝子ネットワーク推定 腫瘍細胞分類 タンパク質ータンパク質相互作用推定

確率文脈自由文法と RNA二次構造予測 確率文脈自由文法 HMM(正規文法に相当)の文脈自由文法への拡張 構文解析アルゴリズム CYKアルゴリズム 学習アルゴリズム 内側外側アルゴリズム RNA配列アラインメント、RNA二次構造予測への応用

RNA二次構造予測問題(基本バージョン)の定義 ベースペア B={{a,u},{g,c}} RNA二次構造 M={(i,j)|1≤i<j≤n,{ai,aj}∈B}、かつ i ≤h ≤j ≤k となる (ai,aj) ,(ah,ak) ∈M は無い スコア関数 μ(ai,aj)=1 if {ai,aj} ∈B μ(ai,aj)=0 otherwise 最適RNA二次構造 Σ(i,j)∈M μ(ai,aj) が最大となるM

RNA二次構造の表現

RNA二次構造予測のための 動的計画法アルゴリズム 入力配列:a=a1…an アルゴリズム 時間計算量 テーブルのサイズO(n2) 1個のS(i,j)の計算O(n) ⇒ O(n3)時間

確率文脈自由文法とRNA二次構造の対応関係

文法における生成規則と 二次構造の対応

遺伝子発現データの解析 DNAチップ・DNAマイクロアレイ 遺伝子発現データ解析 多数の遺伝子の発現量を同時測定可能 クラスタリング どの遺伝子が似ているか? 遺伝子ネットワーク推定 どの遺伝子がどの遺伝子を制御しているか? 腫瘍細胞分類 腫瘍のより細かな分類、抗がん剤の適切投与

遺伝子ネットワーク推定

ネットワークモデル・推定手法 ブーリアンネットワーク 微分方程式系(線形・非線形) ニューロ型モデル 時系列解析 ベイジアンネットワーク グラフィカルモデリング

ブーリアンネットワークの例

ブーリアンネットワークの同定 時刻 t, t+1 の状態の組(遷移表の一部) ⇒ 例 例に無矛盾なネットーワークが一意かを判定 例は発現パターンの変化に相当

入次数 ネットワーク形状に制約が無い場合 入次数が定数 K 以下 ⇒状態遷移表の全部の行( )行が必要 ⇒状態遷移表の全部の行(   )行が必要 入次数が定数 K 以下 ⇒(全部で2n 行あるうちの)たったO(log n)行で十分

ベイジアンネットワーク 条件付き確率で知識やネットワークを表現 AI分野で数多くの研究 グラフィカルモデリングと深い関係 ブーリアンネットワークとは異なり、時間を陽には取り扱わない

線形微分方程式系の推定 (D’haeseleer et al. 1999) 微分方程式を離散化 ⇒ 連立一次方程式 ⇒ 回帰分析 時系列データが既知なら、Xi (t)やΔt などは定数を考えることができる

S-system 例

遺伝子発現データを用いた 腫瘍細胞分類 発現データを観測することにより、腫瘍細胞の詳細な分類を行う 抗がん剤の適切な投与などに応用できる可能性

Eric Landerらの研究I (1999) 急性白血病の分類 6800個程度の遺伝子の発現データを利用 72サンプル ALL (acute lymphoblastic leukemias) AML (acute myeloid leukemias)

Eric Landerらの研究II 急性白血病のデータ(Golub et al, 1999) 38+34の患者の6817遺伝子の発現量を  AffymetrixのDNAチップで計測 ALL と AML のクラス分け B-CELL ALL と T-CELL ALL のクラス分け 多数決により決定(ただし、差が少ない場合には判定不能とする)

Eric Landerらの研究III クラス予測 クラス発見 Informative Gene 与えられたデータがどの既知クラスに入るかを推定 (重み付き)多数決により推定 クラス発見 新たな腫瘍のタイプを発見 自己組織化マップ(クラスタリング技法の一種)を利用 Informative Gene クラス予測に有用な遺伝子セット クラス分けとの相関に基づき選択 Feature Selection (AI分野で数多くの研究)

サポートベクタマシン 分類のための学習方式 特徴 バイオインフォマティクスにおいても既に様々な応用 正負の例(トレーニングデータ)からマージンを最大化するパラメータを学習 過学習を起こしにくい 様々なカーネルを利用可能 二次計画法を利用(最適性の保証) バイオインフォマティクスにおいても既に様々な応用

SVMによる腫瘍細胞分類(クラス予測) ALLを正例、AMLを負例として与えて、超平面を学習

発現データからの細胞分類 遺伝子1 遺伝子2 遺伝子3 遺伝子4 遺伝子5 遺伝子6 タイプ Sample1 1.1 4.5 4.1 2.1 0.4 4.3 ALL Sample2 2.2 2.6 5.0 5.3 0.5 3.4 Sample3 1.3 4.8 2.5 3.9 0.8 Sample4 4.6 0.3 3.5 Sample5 0.9 0.2 2.7 3.7 AML Sample6 3.0 2.8 1.2 Sample7 1.7 3.1 4.2 実際には発現量はアナログ値 (遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0   ⇒ALL と推定

タンパク質―タンパク質相互作用の推定 タンパク間相互作用データ タンパク間相互作用からドメイン間相互作用を推定 酵母ツーハイブリッド法などで実験的に取得 タンパク間相互作用からドメイン間相互作用を推定 アソシエーション法 EM(Expectation Maximization)法

ドメイン間相互作用に基づく タンパク間相互作用の推定 確率モデル[Deng et al., 2002] どれか1組ドメインが相互作用すれば、   タンパク質どうしが相互作用 各ドメインペアの相互作用の確率は独立 Pij=1: タンパク質 Pi と Pj が相互作用 Dmn=1: ドメイン Dm と Dn が相互作用

アソシエーション法 既知データからのドメインどうしの相互作用の確率を頻度に基づいて推定 Imn: ドメインペア Dm, Dn を含むタンパク質のペアのうち、相互作用しているペアの個数 Nmn: ドメインペア Dm, Dn を含むタンパク質のペアの個数

参考文献 RNA二次構造予測 遺伝子ネットワーク推定 発現データを用いた細胞分類 サポートベクタマシン タンパク質タンパク質相互作用 Waterman: Introduction to Computational Biology, Chapman & Hall, (1995) 阿久津 他訳: バイオインフォマティクス、医学出版 (2000) 遺伝子ネットワーク推定 北野 編: システムバイオロジーの展開、シュプリンガー・フェアラーク東京 (2001) 発現データを用いた細胞分類 Golub et al.: Science, 286, 531 (1999) サポートベクタマシン Cristianini, Shawe-Taylor: Support Vector Machines, Cambridge Univ. Press (2000) タンパク質タンパク質相互作用 Ito et al.: Proc. Natl. Acad. Sci., 98, 4569 (2001) 相互作用推定 Deng et al.: Genome Research, 12, 1540 (2002)