京都大学 化学研究所 バイオインフォマティクスセンター

Slides:



Advertisements
Similar presentations
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム( 1 ) スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
Advertisements

情報生命科学特別講義III (1) 文字列マッチング
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
ラベル付き区間グラフを列挙するBDDとその応用
タンパク質相互作用ネットワークの スケールフリーモデル
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
時空間データからのオブジェクトベース知識発見
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
生命情報学入門 機械学習を用いたタンパク質の分類法 2011年6月7日
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
京都大学 化学研究所 バイオインフォマティクスセンター
京都大学 化学研究所 バイオインフォマティクスセンター
分子生物情報学(7) 遺伝子発現データの情報解析法 スケールフリーネットワーク
奈良女子大集中講義 バイオインフォマティクス (10) スケールフリーネットワーク
生命情報学入門 タンパク質の分類法演習 2011年6月14日
k 個のミスマッチを許した点集合マッチング・アルゴリズム
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(4) ブーリアンネットワーク
生命情報学入門 配列のつなぎ合わせと再編成
京都大学化学研究所 バイオインフォマティクスセンター 阿久津研究室
九州大学大学院 情報学専攻特別講義 (9) ブーリアンネットワークの 解析と制御
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
第9章 混合モデルとEM 修士2年 北川直樹.
タンパク質相互作用の コンピュータによる予測と解析
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Introduction to Soft Computing (第11回目)
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
Anja von Heydebreck et al. 発表:上嶋裕樹
予測に用いる数学 2004/05/07 ide.
京都大学 化学研究所 バイオインフォマティクスセンター
分子生物情報学(2) 配列のマルチプルアライメント法
Data Clustering: A Review
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
統計解析 第1回 条件付き独立性と確率的グラフィカルモデル 本講義の全体像
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
Number of random matrices
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
サポートベクターマシン Support Vector Machine SVM
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
京都大学 化学研究所 バイオインフォマティクスセンター
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
九州大学大学院 情報学専攻特別講義 (8) ニューラルネットワークの 離散モデル
奈良女子大集中講義 バイオインフォマティクス (7) 進化系統樹
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
生命情報学 (8) 生物情報ネットワークの構造解析
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
混合ガウスモデル Gaussian Mixture Model GMM
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

京都大学 化学研究所 バイオインフォマティクスセンター 生命情報学基礎論 (第11回)  阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

講義予定 12月7日 12月21日 (担当:上田展久) 1月11日 2月1日 タンパク質立体構造予測 配列データおよび化学構造データ解析のためのカーネル法 1月11日 相互作用推定 2月1日 スケールフリーネットワーク

講義の内容 遺伝子ネットワーク推定 ブーリアンネットワーク推定 発現データに基づく細胞のクラス分け タンパク質相互作用の推定

遺伝子ネットワーク推定

発現データからの遺伝子ネットワークの推定 環境変化(熱ショック、栄養状態)や発生、細胞分裂時の遺伝子の時系列データを観測 時系列データから遺伝子の制御関係(ネットワーク)を推定 解析にはクラスタリングが有効

ネットワーク推定のための離散モデル ブーリアンネットワーク 定性モデル ニューロ的モデル ベイジアンネットワーク ペトリネットモデル

ネットワーク推定のための連続モデル クラスタリング 微分方程式モデル(線形、S-system) 各種統計的モデル (時系列解析、多変量解析) 各種統計的モデル                (時系列解析、多変量解析) グラフィカルモデリング ハイブリッドペトリネット             (微分方程式 + ペトリネット)

ブーリアンネットワーク同定 ブーリアンネットワーク ブーリアンネットワーク同定 遺伝子制御ネットワークのモデル    頂点⇔遺伝子、ブール関数⇔制御規則 ブーリアンネットワーク同定 遺伝子破壊・過剰発現を用いた同定 (Akutsu et al. 98) REVEALアルゴリズム (Liang et al. 1998)  ⇒ 少ないパターンから同定可能を示唆 O(log n)パターンから同定可能(n は頂点数) (Akutsu et al. 99)

ブーリアンネットワークの例

状態遷移 状態遷移 アトラクター:同じ状態系列が繰り返される 初期状態が与えられれば、状態遷移表より、どのような変化がおきるかがわかる 011 ⇒ 010 ⇒ 101 ⇒ 010 ⇒ 101 ⇒ … 111 ⇒ 110 ⇒ 100 ⇒ 000 ⇒ 001 ⇒ 001 ⇒ 001 ⇒ …

ブーリアンネットワークの同定 時刻 t, t+1 の状態の組(遷移表の一部) ⇒ 例 例に無矛盾なネットーワークが一意かを判定 例は発現パターンの変化に相当

入次数 ネットワーク形状に制約が無い場合 入次数が定数 K 以下 ⇒状態遷移表の全部の行( )行が必要 ⇒状態遷移表の全部の行(   )行が必要 入次数が定数 K 以下 ⇒(全部で2n 行あるうちの)たったO(log n)行で十分

ブーリアンネットワーク同定の ためのアルゴリズム 基本的にはしらみつぶし(Akutsu et al. 1999) 例えば、K=2の場合 xi’=xj, xi’=NOT xj, xi’=xj AND xk,… とすべての可能な論理関数を調べる いくつかの改良 情報量の利用(Liang et al. 1998) 貪欲算法の利用(Akutsu et al. 2000) 行列演算の利用(Akutsu et al. 2000) しかし、本質的にしらみつぶし法より良い方法は知られていない(Kを固定しない場合はNP完全)

アルゴリズム 例えば右図の場合、遺伝子Dの制御規則を推定するには D’=A, D’=B D’=C, D’=D D’=NOT A, D’=NOT B D’=NOT C, D’=NOT D   というすべての可能な規則を生成し、入力データと矛盾がないかをチェック(K=1) 5行目までだと、D’=NOT A と D’=NOT C が残る 6行目まで調べると、D’=NOT C のみが残る

理論的結果:定理1 状態遷移表の中からランダムに選んだ 個の行が与え られれば、確率 以上で 与えられた例に無矛盾な入次数限定の                  個の行が与え  られれば、確率     以上で  与えられた例に無矛盾な入次数限定の  ブーリアンネットワークが一意に定まる。

ブーリアンネットワーク同定に関する結果 少数の遺伝子の発現パターンのみが変化 多数の遺伝子の発現パターンが変化 具体例 ⇒多くの発現パターンが必要  多数の遺伝子の発現パターンが変化 ⇒少ない発現パターンで十分 多少のノイズがあってもOK 具体例   パターン数: 100億個 vs 数百個

ノイズありブーリアンネットワークの同定 確率p以下でエラーを起こす(ベイジアンネットワークと類似) 同定アルゴリズム:  しらみつぶしに可能な論理関数を調べ、エラーが最小の関数を出力 pが小さければ、ノイズ無しの場合と同様の結果(O(log n)パターンから同定可能)

ベイジアンネットワーク 条件付き確率で知識やネットワークを表現 AI分野で数多くの研究 グラフィカルモデリングと深い関係 ブーリアンネットワークとは異なり、時間を陽には取り扱わない

実データ解析における問題点 時間間隔の長い(数十分以上)、数点から数十点程度のデータしか利用できない 正確な発現量を測定できるわけではなく、 同じ測定を行っても数十%の差 同じような時間変化を示す遺伝子が多い  (数百が同じような変化)

遺伝子発現データを用いた 腫瘍細胞分類 発現データを観測することにより、腫瘍細胞の詳細な分類を行う 抗がん剤の適切な投与などに応用できる可能性

Eric Landerらの研究I (1999) 急性白血病の分類 6800個程度の遺伝子の発現データを利用 72サンプル ALL (acute lymphoblastic leukemias) AML (acute myeloid leukemias)

Eric Landerらの研究II 急性白血病のデータ(Golub et al, 1999) 38+34の患者の6817遺伝子の発現量を  AffymetrixのDNAチップで計測 ALL と AML のクラス分け B-CELL ALL と T-CELL ALL のクラス分け 多数決により決定(ただし、差が少ない場合には判定不能とする)

Eric Landerらの研究III クラス予測 クラス発見 Informative Gene 与えられたデータがどの既知クラスに入るかを推定 (重み付き)多数決により推定 クラス発見 新たな腫瘍のタイプを発見 自己組織化マップ(クラスタリング技法の一種)を利用 Informative Gene クラス予測に有用な遺伝子セット クラス分けとの相関に基づき選択 Feature Selection (AI分野で数多くの研究)

発現データからの細胞分類 遺伝子1 遺伝子2 遺伝子3 遺伝子4 遺伝子5 遺伝子6 タイプ Sample1 1.1 4.5 4.1 2.1 0.4 4.3 ALL Sample2 2.2 2.6 5.0 5.3 0.5 3.4 Sample3 1.3 4.8 2.5 3.9 0.8 Sample4 4.6 0.3 3.5 Sample5 0.9 0.2 2.7 3.7 AML Sample6 3.0 2.8 1.2 Sample7 1.7 3.1 4.2 (遺伝子2の発現量)+(遺伝子3の発現量)+(遺伝子4の発現量)>10.0   ⇒ALL と推定

発現データ解析に関するまとめ 3つの主要な問題 クラスタリング・分類←既存の情報技術を応用可能 今後の課題 クラスタリング、ネットワーク推定、細胞分類 クラスタリング・分類←既存の情報技術を応用可能 自己組織化マップ、k-means法 ニューラルネットワーク、サポートベクタマシン 今後の課題 より多くの解析例の蓄積 誤差の大きなデータの取り扱い 複数のアレイデータベースや他のゲノム情報との統合利用

確率モデルに基づく タンパク質相互作用推定 タンパク質相互作用の確率モデル 既存手法(アソシエーション法、EM法) 線形計画法を用いる方法 計算機実験 推定問題の困難性

背景 タンパク間相互作用データ 配列の進化的関係から推定する方法は多数存在(文献1参照) Ito et al. (2000, 2001) Uetz (2000) 配列の進化的関係から推定する方法は多数存在(文献1参照) タンパク間相互作用からドメイン間相互作用の推定の既存手法 アソシエーション法 EM法 我々の研究 線形計画法を利用

研究の概要

ドメイン間相互作用とタンパク間相互作用 確率モデル[Deng et al., 2002] どれか1組ドメインが相互作用すれば、   タンパク質どうしが相互作用 各ドメインペアの相互作用の確率は独立 Pij=1: タンパク質 Pi と Pj が相互作用 Dmn=1: ドメイン Dm と Dn が相互作用

アソシエーション法(Sprinzak et al., 2001) 既知データからのドメインどうしの相互作用の確率を頻度に基づいて推定 Imn: ドメインペア Dm, Dn を含むタンパク質のペアのうち、相互作用しているペアの個数 Nmn: ドメインペア Dm, Dn を含むタンパク質のペアの個数

EM法 (Deng et al., 2002) 尤度を以下(L)のように定義し、それを極大化する一般手法である EM法 を適用 fp: false positive rate, fn: false negative rate Pij: Pi と Pj が相互作用する確率 Oij: Pi と Pj の相互作用が観測される確率

LPBN法(1) Pi と Pj が相互作用 ⇔ この式を以下のように変形

LPBN法(2) 右の条件を線形計画問題として記述 ただし、完全に制約を満たすのは難しいので、スラック変数を導入

LP法とEM法の組み合わせ LPEM法 EMLP法 LPBN を実行後に、その結果を初期値として EM を実行 EM の結果からあまりずれない範囲で LPBN を実行 具体的には以下の制約式を追加

SVM法 各タンパクペアから、ドメインペアの有無により特徴ベクトルを構成 各ペア Pij ごとに特徴ベクトル (fij)mn を以下のように定義

サポートベクターマシン 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習 カーネルを適切に定義することにより超平面以外での分離が可能

計算機実験 ニ値化データ(相互作用の有無のみ) 計算機環境 DIPデータベース(Xenarios et al. 2002)を利用 1767ペアのデータを利用 テストの場合: 2/3を学習、1/3をテスト 計算機環境 XEON 2.8GHz LPソルバー: loqo

結果(1): トレーニングデータ(ニ値化データ)

結果(2): テストデータ(二値化データ)

推定問題のNP困難性 「正例のうち を満たすPijの個数+ 負例のうち を満たすPijの個数」を最大化 完全に分離できるなら多項式時間 良い近似を得ることも困難(MAXSNP困難)

タンパク間相互作用推定に関する結論 結論 ドメイン間相互作用に基づく方法の利点 ドメイン間相互作用に基づく方法の問題点 単純な確率モデルで、ある程度の予測精度 EMアルゴリズムが比較的、有効 ドメインのかわりにモチーフを利用 ドメイン間相互作用に基づく方法の問題点 1個のドメインから成るタンパク質には不適切 将来は、ドメイン間相互作用を、実験により決定可? ドメイン間相互作用だけでは予測精度に限界

参考文献 藤 博幸, タンパク質機能解析のためのバイオインフォマティクス, 講談社, 2004. 藤 博幸, タンパク質機能解析のためのバイオインフォマティクス, 講談社, 2004. 阿久津達也, 遺伝子ネットワークの推定アルゴリズム, 数理科学, 432:40-46, 1999. 阿久津達也, 代謝および遺伝子ネットワーク解析のための情報技術, システム/計測/制御, 48:92-97, 2004. T. R. Golub, et al., Molecular classification of cancer: class discovery and class prediction by gene expression monitorin, Science, 286:531-537, 1999.

レポート課題 以下のいずれか一つのトピックを選び、インターネット上で利用可能なソフトを2種類以上利用し、得られた結果について比較、考察せよ。ただし、各サーバーに負荷をかけすぎないように気をつけること。 タンパク質構造予測(2次構造予測も可) 遺伝子発現データ解析 タンパク質相互作用推定 提出先:10号館事務室のレポート提出BOX 提出期限:2月8日(火)