京都大学化学研究所バイオインフォマティクスセンター

Slides:

Advertisements

Similar presentations

パターン認識入門.

Advertisements

奈良女子大集中講義バイオインフォマティクス (3) 配列アラインメント

動的計画法を用いたアラインメント　小菅孝史.

日本バイオインフォマティクス学会バイオインフォマティクスカリキュラム中間報告

情報生命科学特別講義III （5）配列アラインメント

生命情報学基礎論（２）配列の比較と相同性検索

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

情報生命科学特別講義III （１）文字列マッチング

奈良女子大集中講義バイオインフォマティクス (8) タンパク質立体構造予測

分子生物情報学動的計画法に基づく配列比較法 (ペアワイズアライメント法)

奈良女子大集中講義バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

情報の扱いのける数学的基礎確率エントロピー統計確率分布形式言語理論計算量の理論.

生命情報学入門タンパク質立体構造予測演習2011年5月31日

ベイズ的ロジスティックモデルに関する研究

生命情報学入門機械学習を用いたタンパク質の分類法 2011年6月7日

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

HMM:隠れマルコフモデル電子情報工学科伊庭斉志奈良女子大集中講義バイオインフォマティクス (6)

最尤推定によるロジスティック回帰対数尤度関数の最大化.

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

ベイジアンネットワーク概説第3章　ベイジアンネットワークモデルの　　　　　数学的基礎 3.5 情報量基準を用いた構造学習岩崎唯史.

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（５）木構造データ間の編集距離

京都大学化学研究所バイオインフォマティクスセンター

第13章　系列データ修士 1年村下昇平.

奈良女子大集中講義バイオインフォマティクス (10) スケールフリーネットワーク

配列および化合物データ解析のためのカーネル法

生命情報学入門タンパク質の分類法演習 2011年6月14日

情報生命科学特別講義III （11） RNA二次構造予測

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

生命情報学基礎論（５）タンパク質立体構造予測

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（３）配列アライメント

九州大学大学院情報学専攻特別講義（９）ブーリアンネットワークの解析と制御

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

確率･統計Ⅰ 第3回確率変数の独立性／確率変数の平均ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

数理科学特別講義バイオインフォマティクスにおける確率モデル

第9章　混合モデルとEM 修士２年北川直樹.

教師なしデータ学習データ　X1, X2, …, Xn 　真の情報源テストデータ　X 　.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

明治大学大学院理工学研究科総合講義C バイオインフォマティクスにおける数理的手法

九州大学大学院情報学専攻特別講義（３）配列解析

分子生物情報学(2) 配列のマルチプルアライメント法

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

情報生命科学特別講義III （13）固定パラメータアルゴリズムと部分k木

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

サポートベクターマシンを用いたタンパク質スレッディングのためのスコア関数の学習情報科学科4年 81025G 蓬来祐一郎.

九州大学大学院情報学専攻特別講義（６）固定パラメータアルゴリズムと部分k木

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

第3章　線形回帰モデル修士1年山田　孝太郎.

経営学研究科 M1年学籍番号 speedster

クロスバリデーションを用いたベイズ基準によるHMM音声合成

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

京都大学化学研究所バイオインフォマティクスセンター

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

人工知能特論II　第8回二宮　崇.

奈良女子大集中講義バイオインフォマティクス (7) 進化系統樹

生命情報学特論（６）固定パラメータアルゴリズムと部分k木

生物情報ソフトウェア特論（4）配列解析II

阿久津達也京都大学化学研究所バイオインフォマティクスセンター

情報生命科学特別講義III （３）たたみ込みとハッシュに基づくマッチング

Q状態イジング模型を用いた多値画像修復における周辺尤度最大化によるハイパパラメータ推定

生物情報ソフトウェア特論（１０）固定パラメータアルゴリズムと部分k木

集中講義（東京大学）「化学システム工学特論第３」バイオインフォマティクス的手法による化合物の性質予測（１）バイオインフォマティクス概観

配列解析アルゴリズム特論配列アライメントI

分子生物情報学(0) バイオインフォマティクス

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

京都大学化学研究所バイオインフォマティクスセンター生命科学基礎論 (第9回)　阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

内容最尤法、ベイズ推定、MAP推定隠れマルコフモデルによる推定文脈自由文法によるRNA二次構造予測

バイオインフォマティクスにおける確率統計重要なのはデータからのモデル（もしくはパラメータ）の推定最尤法ベイズ推定最大事後確率推定（MAP）

最尤推定 P(D|θ) （尤度）最尤法例モデルパラメータ θ のもとでのデータ D の出現確率 P(D|θ) を最大化する θ を選ぶコインを5回投げて、表が3回出た後、裏が2回出た p(表)=a, p(裏)=1-a とするとP(D|θ)=a3(1-a)2 a=3/5の時、 P(D|θ) は最大一般に表が出る頻度を f とすると a=f で尤度は最大

ベイズ推定とMAP推定ベイズ推定：尤度とモデル（パラメータ）の事前確率から、ベイズの定理により、事後確率を推定最大事後確率（MAP）推定 P(D|θ)P(θ)を最大化するθを計算 P(θ)が一様分布なら最尤推定と同じ

不正サイコロのベイズ推定公正サイコロと不正サイコロ６が３回続けて出た場合の事後確率公正：P(i|公正)=1/6 不正：P(6|不正)=1/2,P(i|不正)=1/10 for i≠6 P(公正)=0.99, P(不正)=0.01 ６が３回続けて出た場合の事後確率

隠れマルコフモデル(HMM) ek(b) HMM≒有限オートマトン＋確率定義出力記号集合Σ 状態集合 S={1,2,…n} akl 出力確率 ek(b) （開始状態= 終了状態= 0)

HMMにおける基本アルゴリズム Viterbiアルゴリズム Baum-Welchアルゴリズム (EMアルゴリズム）出力記号列から状態列を推定 Parsing（構文解析） Baum-Welchアルゴリズム　　(EMアルゴリズム）出力記号列からパラメータを推定 Learning（学習）

時々いかさまをするカジノサイコロの出目だけが観測可能、どちらのサイコロを振っているかは観測不可能サイコロの出目から、どちらのサイコロを振っているかを推定 6,2,6,6,3,6,6,6, 4,6,5,3,6,6,1,2 →不正サイコロ 6,1,5,3,2,4,6,3, 2,2,5,4,1,6,3,4 →公正サイコロ 6,6,3,6,5,6,6,1, 5,4,2,3,6,1,5,2 →途中で公正サイ　　　　コロに交換

Viterbi アルゴリズム(1) 観測列（出力配列データ） x=x1…xLと状態列π=π1…πLが与えられた時、その同時確率は　P(x,π)=a0 π1Πeπi (xi)aπiπi+1 但し、πL+1=0 xが与えられた時の、最も尤もらしい状態列は π*=argmaxπ　P(x,π) 例：どちらのサイコロがいつ使われたかを推定

Viterbiアルゴリズム(2) xから、π*=argmaxπ P(x,π) を計算そのためにはx1…xiを出力し状態kに至る確率最大の状態列の確率 vk(i) を計算 vk(i)は以下の式に基づき動的計画法で計算

Viterbiアルゴリズム(3)

EM(Expectation Maximization) アルゴリズム「欠けているデータ」のある場合の最尤推定のための一般的アルゴリズム最大化は困難であるので、反復により尤度を単調増加させる（θtよりθt+1を計算） HMMの場合、「欠けているデータ」は状態列

EMアルゴリズムの導出

EMアルゴリズムの一般形初期パラメータ Θ0 を決定。t=0とする。 Q(θ|θt)=∑P(y|x, θt) log P(x,y|θ)　を計算。 Q(θ|θt)を最大化するθ*を計算し、 θt+1 = θ* とする。t=t+1とする。 Qが増大しなくなるまで、２，３を繰り返す。

前向きアルゴリズム配列xの生成確率 P(x)=∑P(x,π) を計算 Viterbiアルゴリズムと類似 fk(i)=P(x1…xi,πi=k) 　をDPにより計算

後向きアルゴリズム bk(i)= P(xi+1…xL|πi=k) 　をDPにより計算 P(πi=k|x) = fk(i)bk(i)/P(x)

HMMに対するEMアルゴリズム（Baum-Welchアルゴリズム）

Baum-WelchのEMによる解釈

配列アライメント２個もしくは３個以上の配列の類似性の判定に利用文字間の最適な対応関係を求める（最適化問題）２個の場合：ペアワイズアライメント３個以上の場合：マルチプルアライメント文字間の最適な対応関係を求める（最適化問題）配列長を同じにするように、ギャップ記号（挿入、欠失に対応）を挿入入力配列が定数個（実用上は３個まで）の場合は動的計画法で多項式時間で最適解を計算可能、それ以外の場合はNP困難

プロファイルHMM(1) 配列をアライメントするためのHMM タンパク質配列分類やドメイン予測などに有用 PFAM(http://pfam.wustl.edu/) 一致状態(M)、欠失状態(D)、挿入状態(I)を持つ

プロファイルHMM(2) マルチプルアラインメントプロファイル HMM

参考文献参考文献レポート課題のための参考WWWページ阿久津、浅井、矢田　訳：　バイオインフォマティクス－確率モデルによる遺伝子配列解析―、医学出版 (2000) レポート課題のための参考WWWページアミノ酸配列データ取得ゲノムネット（http://www.genome.ad.jp/dbget/dbget.links.html）アミノ酸配列データ: SwissProt タンパク質立体構造データ： PDB 構造予測 CAFASP３参照（http://www.cs.bgu.ac.il/~dfischer/CAFASP3/） GTOP（http://spock.genes.nig.ac.jp/~genome/gtop-j.html） PHD（http://www.embl-heidelberg.de/predictprotein/predictprotein.html）

レポート課題インターネット上で利用可能な立体構造予測ソフト（２次構造予測でも可）を２種類以上利用し、得られた結果について比較、考察せよ。ただし、各サーバーに負荷をかけすぎないようにテストデータ（アミノ酸配列）は３種類以下とすること。提出先：１０号館事務室のレポート提出ＢＯＸ提出期限：６月２０日(金)