奈良先端大・情報・蛋白質機能予測学講座 川端 猛

Slides:



Advertisements
Similar presentations
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
Advertisements

ウイロイド (Viroid) は塩基数が 200 ~ 400 程度と短い環状の一本鎖 RNA のみで構成 され、維管束植物に対して感染性を持つもの。分子内で塩基対を形成し、多くは 生体内で棒状の構造をとると考えられる。 ウイルスは蛋白質でできた殻で覆われているがウイロイドにはそれがなく、また プラスミドのようにそのゲノム上にタンパク質をコードすることもない。複製は.
第 2 章 : DNA 研究法 2.2DNA クローニング クローニングベクター 大腸菌以外のベクター ゲノム分子生物学 年 5 月 7 日 担当 : 中東.
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム( 1 ) スケールフリーネットワーク 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
奈良先端大・情報・蛋白質機能予測学講座 川端 猛
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
動的計画法を用いたアラインメント  小菅孝史.
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
情報生命科学特別講義III (5)配列アラインメント
生命情報学基礎論 (2) 配列の比較と相同性検索
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
KNOB CD-bootable Linux で開くバイオインフォマティクスの世界
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
情報生命科学特別講義III (1) 文字列マッチング
植物系統分類学・第13回 分子系統学の基礎と実践
奈良女子大集中講義 バイオインフォマティクス (8) タンパク質立体構造予測
特論B 細胞の生物学 第2回 転写 和田 勝 東京医科歯科大学教養部.
分布の非正規性を利用した行動遺伝モデル開発
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
奈良女子大集中講義 バイオインフォマティクス (6) モチーフ発見・隠れマルコフモデル
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
情報科学1(G1) 2016年度.
奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観
京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(5) 木構造データ間の編集距離
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
BioRubyにおける高速なBLAST結果処理機能の実装
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
翻訳 5’ → 3’ の方向 リボソーム上で行われる リボソームは蛋白質とrRNAの複合体 遺伝情報=アミノ酸配列
データ構造と アルゴリズム 第十一回 理工学部 情報システム工学科 新田直也.
生命情報解析 第4回 シグナル配列の統計解析(3)
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
k 個のミスマッチを許した点集合マッチング・アルゴリズム
MPIを用いた並列処理 ~GAによるTSPの解法~
BioRubyの開発と 遺伝子情報解析への応用 大阪大学遺伝情報実験センター ゲノム情報解析分野 後藤 直久 2005年1月21日.
生命情報学基礎論 (5) タンパク質立体構造予測
生命情報学入門 配列のつなぎ合わせと再編成
Deep Learningを用いたタンパク質のコンタクト残基予測
遺伝的アルゴリズムへの 統計力学的アプローチ 大阪大学 大学院理学研究科 鈴木譲 CISJ2005 於早稲田大学理工学部
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(3) 配列アライメント
膜タンパク質の 立体構造予測.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
タンパク質の進化 タンパク質は進化の過程でどのようにドメインを獲得してきたのだろうか? 今のタンパク質を調べることでわからないだろうか?
明治大学大学院理工学研究科 総合講義C バイオインフォマティクスにおける 数理的手法
生  物  数  学 斉木 里恵.
分子生物情報学(2) 配列のマルチプルアライメント法
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ORI-GENE A Tool for Gene Classification and Prediction of Function Based on Evolutionary Tree Hideaki Mizuno, Yoshimasa Tanaka, Kenta Nakai, Akinori Sarai.
植物系統分類学・第14回 分子系統学の基礎と実践
サポートベクターマシンを用いた タンパク質スレッディングの ためのスコア関数の学習 情報科学科4年 81025G 蓬来祐一郎.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
遺伝的交叉を用いた 並列シミュレーテッドアニーリングによる タンパク質立体構造予測
親子鑑定に見る尤度比を 角度を変えて眺めてみる
第16章 動的計画法 アルゴリズムイントロダクション.
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
配列解析アルゴリズム特論 配列アライメントI
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

奈良先端大・情報・蛋白質機能予測学講座 川端 猛 takawaba@is.naist.jp 近畿大学・農学部・生命情報学 ペアワイズアライメントと 配列相同性解析 2008年5月13日(火) 奈良先端大・情報・蛋白質機能予測学講座 川端 猛 takawaba@is.naist.jp http://isw3.naist.jp/IS/Kawabata-lab/home-ja.html

授業予定 日付 担当 講義 演習 4/8(火) 黒川 バイオインフォマティクス概論 4/15(火) 配列解析1 IMCを使ったゲノム解析 4/22(火) 配列解析2 IMCを使った比較ゲノム解析 5/13(火) 川端 ペアワイズアライメントと配列相同性解析 5/20(火) マルチプルアライメントと分子系統学基礎 配列相同性解析と系統樹作成演習 5/27(火) タンパク質配列の分類と機能推定 6/3(火) タンパク質立体構造データの情報解析 タンパク質立体構造データの可視化演習 6/10(火) <試験> 6/17(火) 金谷 ポストゲノム解析入門(トランスクリプトーム解析) 6/24(火) ポストゲノム解析入門(インタラクトローム解析) 発現プロファイル解析演習 7/1(火) ポストゲノム解析入門(統合解析) インタラクトローム解析演習・代謝物解析演習 7/8(火) メタボローム解析(その1) 7/15(火) メタボローム解析(その2) 7/22(火)

これから4回の講義の目標 イネ:MAALSSAAVTIPSMAPSAPGRRRMRSSLV… イネのあるタンパク質のアミノ酸配列があったとして、 イネ:MAALSSAAVTIPSMAPSAPGRRRMRSSLV… (1)対応するほかの植物(たとえばマメ)のタンパク質を配列データベースから取り出したい マメ:MATVTSTTBAIPSFSGLKTNAATKVSAMA… (2)どのアミノ酸とどのアミノ酸が対応するのか? (3)もっとたくさんの似た配列があった場合、どれとどれが似ているのだろう? ポプラ:MAALSSAAVSVPSFAAATPMRSSRSSRMV… ナズナ:MAAITSATVTIPSFTGLKLAVSSKPKTLS… (4)機能的に大事なアミノ酸はどこだろう? (5)どんな立体構造をしているのだろう?

ペアワイズアライメント

分子生物学のセントラルドグマ M T D K L T S L R Q Y T T V V A D T G D atg acg gac aaa ttg acc tcc ctt cgt cag tac acc acc gta gtg gcc gac act ggg gac M T D K L T S L R Q Y T T V V A D T G D 立体構造 DNA配列 アミノ酸配列 生物学的 イベント 化学反応を触媒 (酵素) 酸素を運ぶ (ヘモグロビン) 異物を排除 (免疫グロブリン) 分子機能 DNAもタンパク質も所詮、文字が一列に並んだもの(文字列、配列) atgacggacaaattgacctcccttcgtcagtacaccaccgtagtggccgac M T D K L T S L R Q Y T T V V A D T G D

「進化」とはDNAという文字列が変化すること atgacgaacaaattgacctcccttcgtcagtacacc atgacggacaaattgacctcccttcgtcagtacacc M T N K L T S L  R Q Y T M T D K L T S L  R Q Y T より正確には、個体のDNAが変化したあとに、その変異がその種 の集団において定着する「集団遺伝学」的な過程が必要  ①個体のDNAに変異が生じる  ②その変異が子孫に継承され、  ③中立か正の淘汰が働けば、同じ変異を持った子孫が    種の集団内で多数を占める

違う生物の同じ機能のタンパク質のアミノ酸配列 トリオースリン酸異性化酵素( Triosephosphate isomerase (EC 5.3.1.1) (TIM,TPIS)) >TPIS_HUMAN ヒト "Triosephosphate isomerase (EC 5.3.1.1) (TIM) (Triose-phosphateisomerase)" APSRKFFVGGNWKMNGRKQSLGELIGTLNAAKVPADTEVVCAPPT AYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPGMIKDCGATW VVLGHSERRHVFGESDELIGQKVAHALAEGLGVIACIGEKLDERE AGITEKVVFEQTKVIADNVKDWSKVVLAYEPVWAIGTGKTATPQQ AQEVHEKLRGWLKSNVSDAVAQSTRIIYGGSVTGATCKELASQPD VDGFLVGGASLKPEFVDIINAKQ >TPIS_RABIT ウサギ "Triosephosphate isomerase (EC 5.3.1.1) (TIM) (Triose-phosphateisomerase)" APSRKFFVGGNWKMNGRKKNLGELITTLNAAKVPADTEVVCAPPT AYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPGMIKDCGATW VVLGHSERRHVFGESDELIGQKVAHALSEGLGVIACIGEKLDERE AGITEKVVFEQTKVIADNVKDWSKVVLAYEPVWAIGTGKTATPQQ AQEVHEKLRGWLKSNVSDAVAQSTRIIYGGSVTGATCKELASQPD VDGFLVGGASLKPEFVDIINAKQ

違う生物の同じ機能のタンパク質のアミノ酸配列 トリオースリン酸異性化酵素( Triosephosphate isomerase (EC 5.3.1.1) (TIM,TPIS)) >TPIS_HUMAN ヒト "Triosephosphate isomerase (EC 5.3.1.1) (TIM) (Triose-phosphateisomerase)" APSRKFFVGGNWKMNGRKQSLGELIGTLNAAKVPADTEVVCAPPT AYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPGMIKDCGATW VVLGHSERRHVFGESDELIGQKVAHALAEGLGVIACIGEKLDERE AGITEKVVFEQTKVIADNVKDWSKVVLAYEPVWAIGTGKTATPQQ AQEVHEKLRGWLKSNVSDAVAQSTRIIYGGSVTGATCKELASQPD VDGFLVGGASLKPEFVDIINAKQ >TPIS_YEAST 酵母 "Triosephosphate isomerase (EC 5.3.1.1) (TIM) (Triose-phosphateisomerase)" ARTFFVGGNFKLNGSKQSIKEIVERLNTASIPENVEVVICPPATY LDYSVSLVKKPQVTVGAQNAYLKASGAFTGENSVDQIKDVGAKWV ILGHSERRSYFHEDDKFIADKTKFALGQGVGVILCIGETLEEKKA GKTLDVVERQLNAVLEEVKDWTNVVVAYEPVWAIGTGLAATPEDA QDIHASIRKFLASKLGDKAASELRILYGGSANGSNAVTFKDKADV DGFLVGGASLKPEFVDIINSRN

違う生物の同じ機能のタンパク質のアミノ酸配列 トリオースリン酸異性化酵素( Triosephosphate isomerase (EC 5.3.1.1) (TIM,TPIS)) >TPIS_HUMAN ヒト "Triosephosphate isomerase (EC 5.3.1.1) (TIM) (Triose-phosphateisomerase)" APSRKFFVGGNWKMNGRKQSLGELIGTLNAAKVPADTEVVCAPPT AYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPGMIKDCGATW VVLGHSERRHVFGESDELIGQKVAHALAEGLGVIACIGEKLDERE AGITEKVVFEQTKVIADNVKDWSKVVLAYEPVWAIGTGKTATPQQ AQEVHEKLRGWLKSNVSDAVAQSTRIIYGGSVTGATCKELASQPD VDGFLVGGASLKPEFVDIINAKQ >TPIS_ECOLI 大腸菌 "Triosephosphate isomerase (EC 5.3.1.1) (TIM) (Triose-phosphateisomerase)" MRHPLVMGNWKLNGSRHMVHELVSNLRKELAGVAGCAVAIAPPEM YIDMAKREAEGSHIMLGAQNVDLNLSGAFTGETSAAMLKDIGAQY IIIGHSERRTYHKESDELIAKKFAVLKEQGLTPVLCIGETEAENE AGKTEEVCARQIDAVLKTQGAAAFEGAVIAYEPVWAIGTGKSATP AQAQAVHKFIRDHIAKVDANIAEQVIIQYGGSVNASNAAELFAQP DIDGALVGGASLKADAFAVIVKAAEAAKQA

進化的なイベント: 置換 と 削除・挿入 置換(substitution) : アミノ酸・核酸の変化 進化的なイベント: 置換 と 削除・挿入 トリオースリン酸異性化酵素( Triosephosphate isomerase (EC 5.3.1.1) (TIM,TPIS))の場合 ヒト(TPIS_HUMAN)とウサギ(TPIS_RABIT)の比較 HUMAN 1:APSRKFFVGGNWKMNGRKQSLGELIGTLNAAKVPADTEVVCAPPTAYIDFARQKLDPKIA:60 ****************** ***** ********************************** RABIT 1:APSRKFFVGGNWKMNGRKKNLGELITTLNAAKVPADTEVVCAPPTAYIDFARQKLDPKIA:60 TPIS_HUMAN 248 vs TPIS_RABIT 248 SeqID 98.4 % ヒト(TPIS_HUMAN)と大腸菌(TPIS_ECOLI)の比較 HUMAN 4:RKFFVGGNWKMNGRKQSLGELIGTLNAAKVP-ADTEVVCAPPTAYIDFARQKLD-PKIAV:61 * * **** ** ** * * * *** *** * * ECOLI 2:RHPLVMGNWKLNGSRHMVHELVSNLRKELAGVAGCAVAIAPPEMYIDMAKREAEGSHIML:61 TPIS_HUMAN 248 vs TPIS_ECOLI 255 SeqID 45.9 % 置換(substitution) : アミノ酸・核酸の変化 削除・挿入(insertion, deletion ; indel)

配列の類似と立体構造の類似 機能や立体構造は よく似ている ヒトのヘモグロビンのα鎖とβ鎖 (SeqID 46.0%) Alpha 2:LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLS-----HGSAQV:55 * * * * * **** * * *** * * * * * *** * * Beta 3:LTPEEKSAVTALWGKV--NVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKV:60 Alpha 56:KGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPA:11 * ***** * ** * ** ** ** *** ** ** * ** * Beta 61:KAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGK:120 Alpha 116:EFTPAVHASLDKFLASVSTVLTSKY:140 **** * * * * * * ** Beta 121:EFTPPVQAAYQKVVAGVANALAHKY:145 機能や立体構造は よく似ている 配列の類似を知ることは立体構造予測につながる

配列比較(配列相同性検索)の基本論理 類似(similarity) 相同(homology):進化的な原因によるもの。祖先を共有。 ①2つの DNA / アミノ酸 の文字列が似ている ②進化的に関係がある(相同)から似ている ③進化的に関係があるなら、他の生物学的な性質(機能、立体構造など)  も似ているはず 相同性の発見により、他の生物学的な性質を予測できる 類似(similarity)   相同(homology):進化的な原因によるもの。祖先を共有。        (進化史の中である時点まで同じであったから似ている)   相似(analogy) :それ以外の原因によるもの

進化のイメージ:系統樹 対象物が生成される過程(歴史、進化史)を木構造で示したもの 生物種の系統図 家系図 ヒト トリ ワニ カメ トカゲ 生物種の系統図  家系図  ヒト トリ ワニ カメ トカゲ 酵母 ウサギ マグロ カエル 大腸菌

2つの配列を比較するには? 類似性のスコア関数の定義 アライメント 文字の間の類似性をどうやって定量するか? どうやって文字と文字を対応づけるか? ACFDE ** * ACEEE 3つ同じだから3点? FとEの対応とDとEの対応は等価だろうか? ABCDEF CDE ABCDEF   *** --CDE- BCDEF ABEEFG -BCDEF- * ** AB-EEFG もっと長いときはどうやって計算する?

スコア関数の定義 (1)一致・不一致スコア #問題点:文字列間の類似性を捉えられない。 もっとも簡単。DNAの場合によく使われる。 BLASTの核酸のデフォルトは、α=1,β=-3 #問題点:文字列間の類似性を捉えられない。   L(ロイシン,疎水性) → V(バリン、疎水性)     :起こりやすい   L(ロイシン,疎水性) → E(グルタミン酸、-荷電) :起こりにくい

(2)対数オッズスコア(log odds score) 2つの異なるタンパク質のあるサイトのアミノ酸がA,Bであったとき、 Protein1 : XXXXAXXXX Protein2 : XXXXBXXXX Pevo(A,B): 進化的な関係からAとBの対応が生じた確率 Prand(A)・Prand(B) : 偶然にAとBの対応が生じた確率。

# BLOSUM62 (blastpのデフォルトで使われている置換スコア行列) A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

スコアの計算例 AFDC AEEC AFDGC AEE-C S(A,A) + S(F,E) S(D,E) + S(C,C) = 12 4 -3 2 9 ギャップがある場合はギャップのスコア(ギャップペナルティ)を設定する AFDGC AEE-C S(A,A) + S(F,E) + S(D,E) + gap + S(C,C) = 10 4 -3 2 -2 9

アライメント ギャップなしアライメント ギャップありアライメント AFDC AEEC AFAED-C A--EEGC スコア関数(ギャップを含む)を最大にするような文字の対応つけを探す ギャップなしアライメント ギャップありアライメント AFDC AEEC AFAED-C A--EEGC ギャップなし ギャップあり グローバルアライメント (ClustalW) ローカルアライメント (FASTA, BLAST) ACDEFGHKLM AFGHKKL ACDEFGHK-LM A---FGHKKL- FGHK-L FGHKKL グローバル ローカル 動的計画法というアルゴリズムで解く。 そのイメージをつかむためにはドットマトリックス法が有効

ドットマトリックス : 例1 (1) G C T A G A C T C G A G C T A G A C T C ドットマトリックス : 例1 (1) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 1:GCTAGACTCG 2:AGCTAGACTC G C T A G A C T C G A G (1)配列1、配列2を 横と縦に並べる C T 配列2 A G A C T C

ドットマトリックス : 例1 (2) G C T A G A C T C G A G C T A G A C T C ドットマトリックス : 例1 (2) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 1:GCTAGACTCG 2:AGCTAGACTC G C T A G A C T C G A G (1)配列1、配列2を 横と縦に並べる C T (2)文字が一致する マスに○を描く 配列2 A G A C T C

ドットマトリックス : 例1 (3) G C T A G A C T C G A G C T A G A C T C ドットマトリックス : 例1 (3) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 1:GCTAGACTCG 2:AGCTAGACTC G C T A G A C T C G A G (1)配列1、配列2を 横と縦に並べる C T (2)文字が一致する マスに○を描く 配列2 A G (3)多くの○を通るような 左上と右下を結ぶ折れ線 A C T C

ドットマトリックス : 例1 (4) G C T A G A C T C G A G C T A G A C T C ドットマトリックス : 例1 (4) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 1:GCTAGACTCG 2:AGCTAGACTC G C T A G A C T C G A G (1)配列1、配列2を 横と縦に並べる C T (2)文字が一致する マスに○を描く 配列2 A G (3)多くの○を通るような 左上と右下を結ぶ折れ線 A C (4)アライメント T 1:-GCTAGACTCG ********* 2:AGCTAGACTC- C スコア:一致(+1)×9+不一致(0)×0+ギャップ(-1)×2=7

ドットマトリックス : 例2 (1) G C T C G A C T T G G C A C G C T A T G ドットマトリックス : 例2 (1) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 配列1:GCTCGACTTG 配列2:GCACGCTATG G C T C G A C T T G G C (1)配列1、配列2を 横と縦に並べる A C 配列2 G C T A T G

ドットマトリックス : 例2 (2) G C T C G A C T T G G C A C G C T A T G ドットマトリックス : 例2 (2) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 配列1:GCTCGACTTG 配列2:GCACGCTATG G C T C G A C T T G G C (1)配列1、配列2を 横と縦に並べる A C (2)文字が一致する マスに○を描く 配列2 G C T A T G

ドットマトリックス : 例2 (3) G C T C G A C T T G G C A C G C T A T G ドットマトリックス : 例2 (3) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 配列1:GCTCGACTTG 配列2:GCACGCTATG G C T C G A C T T G G C (1)配列1、配列2を 横と縦に並べる A C (2)文字が一致する マスに○を描く 配列2 G C (3)多くの○を通るような 左上と右下を結ぶ折れ線 T A T G

ドットマトリックス : 例2 (4) G C T C G A C T T G G C A C G C T A T G ドットマトリックス : 例2 (4) ※スコア:一致:+1、不一致:0、ギャップ:-1とする。 配列1 配列1:GCTCGACTTG 配列2:GCACGCTATG G C T C G A C T T G G C (1)配列1、配列2を 横と縦に並べる A C (2)文字が一致する マスに○を描く 配列2 G C (3)多くの○を通るような 左上と右下を結ぶ折れ線 T A (4)アライメント T 1:GCTCGACT-TG ** ** ** ** 2:GCACG-CTATG G スコア:一致(+1)×8+不一致(0)×1+ギャップ(-1)×2=6

対角上の平均化によるスムージング 配列1:GATTGCCGA 配列2:GATTGCGA 配列1 Window 配列2 (1)単純に一致している座標を黒く塗る    Window=1, Threshold=1に相当 G A T C 配列2 配列1 Window (2)長さWindowの連続したペアが比較し、  一致度がThreshold以上であれば黒く塗る  Window=3, Threshold=2の場合

ドットマトリックスの例 W 文字が一致しているペアを黒く塗る → 長さW のwordの総スコアがT 以上なら中心を黒く塗る HBB_HUMAN HBA_HUMAN Matrix=ID,W=5,T=3 Matrix=BLOSUM62, W=7,T=10 Matrix=ID,W=1,T=1 文字が一致しているペアを黒く塗る  → 長さW のwordの総スコアがT 以上なら中心を黒く塗る W スコアは、最も簡単には一致・不一致スコア 対数オッズスコアを使うとより高感度になる

ドットマトリックス法の特徴 アルゴリズムが平易 非常に長い配列の比較にも対応 部分一致、繰り返しなど特殊なケースにも対応できる。 あくまでグラフィカルな対応なので、具体的な文字列対応(アライメント)は与えない。 G A T C 配列1 配列2

動的計画法によるアライメント アライメント問題は、有向グラフの最適経路問題と等価 有向グラフの最適経路問題は動的計画法(Dynamic Programming)と呼ばれるアルゴリズムで解ける。 O(NM)の計算量(文字列長の積に比例)

最適経路問題 始点Aから終点Lにいたるエッジの得点の合計が 最大となる経路を探す 3 5 A C B E D F H G J L K I 9 2 6 1

アライメントを最適経路問題として考える 始点 終点 G V D L Q I j h d v i 鉛直、水平に比較したい文字列を並べる 対角線のエッジには一致スコア、鉛直水平のエッジにはギャップスコアを書き込む 左上のノードから右下のノードへ至る最適経路を求める j -3 2 -2 4 -1 -4 6 L Q I D G V 始点 d h v i 終点

グローバル・アライメントの解法 (Needleman & Wunsh,1970) (0)準備 始点 右端の列、下端の行の格子点のスコアを0に設定 (1)前向きステップ 終点 d h v F(i,j) F(i+1,j) F(i+1,j+1) F(i,j+1) (2)後ろ向きステップ 始点を起点にして辿る。終点に到着したら終了。

LDGV LQ-I 動的計画法の手続き O(NM) (1)Forward (2)TraceBack G V D G V D L L Q Q -3 -6 -9 -12 -2 1 4 3 -5 -4 9 2 -1 6 L Q I D G V -3 -6 -9 -2 1 4 3 -5 -12 -4 9 L Q I D G V LDGV LQ-I O(NM)

グローバルとローカルの格子上の違い ACDEFGHKLM ACDEFGHK-LM FGHK-L AFGHKKL A---FGHKKL-

ローカルアライメントの解法 (Smith & Waterman,1981) (0)準備 格子の端のスコアを0に設定 (1)前向きステップ (2)後ろ向きステップ 最大のスコアのノードを探し、そのノードを起点にして辿る。パス’0’が現れたら終了

配列相同性検索 - BLASTを中心として -

配列相同性検索 →クエリ配列を配列データベースと比較、相同な配列を探す 機能未知遺伝子の機能予測(アノテーション) SLHFFVEDRGTT ALLMYPVEQRTTE QLGFGVEQWWTVHK LMFPVDQRSGD クエリ配列 ALLGMFPVEQRSTD *** * ***** ** ALL-MYPVEQRTTE ALLGMFPVEQRSTD クエリ配列 相同な配列 (有意に似ている配列) 配列データベース 機能未知遺伝子の機能予測(アノテーション) 機能既知の配列との類似→機能の類似を示唆 立体構造予測 構造既知の配列との類似→構造の類似を示唆 遺伝子発見 既知遺伝子と類似している領域の発見→遺伝子の存在を示唆

配列データベースの中からクエリ配列と類似したエントリを見つけるには? → 動的計画法を繰り返し実行すればよい いかに高速に計算を実行するか 動的計画法はO(NM)の計算時間 1,000~100,000配列の検索には時間がかかる → 高度なヒューリスティック解法の導入 どれだけ似ていれば意味があるのか? 何をもって類似性の指標とするのか 同一残基率(%)、 スコア? →統計的有意性の判断の導入

BLASTのアライメントアルゴリズム 動的計画法を使わず、独自のヒューリスティックアルゴリズムを開発 私が書いたDP 16.989 sec ヒューリスティック:常に正しい解を返すわけではないが、多くの場合まあまあ             の解を返すことが経験的に知られているアルゴリズム 153残基のクエリ配列を5977配列のデータベースと比較に要した時間(Pentium4) 私が書いたDP 16.989 sec SSEARCH 2.911 sec FASTA(ktup=1) 1.226 sec FASTA(ktup=2) 0.608 sec BLASTP 0.118 sec

LDGV LQ-I 動的計画法の復習 O(NM) (1)Forward (2)TraceBack G V D G V D L L Q Q I -3 -6 -9 -12 -2 1 4 3 -5 -4 9 2 -1 6 L Q I D G V -3 -6 -9 -2 1 4 3 -5 -12 -4 9 L Q I D G V LDGV LQ-I O(NM)

BLASTのヒューリスティックス ALMEPVKVLE ALMEPVKVLE LLEPVKVC LLEPVKVC 目標:Smith&WatermanのローカルアライメントのDPの近似解 クエリの各wordに対し近隣wordのリストを作成 近隣wordリストを用いてデータベースを検索 ヒットしたwordをungapで伸展(HSP) さらにgap入りアライメントで伸展 ALMEPVKVLE LLEPVKVC ALMEPVKVLE LLEPVKVC

BLASTの 出力例(1) BLASTP 2.2.1 [Apr-13-2001] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= RECA_ECOLI "RecA protein (Recombinase A)" (352 letters) Database: 40scop1.59nm 3886 sequences; 705,110 total letters Searching........done Score E Sequences producing significant alignments: (bits) Value 2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) 448 e-127 1g18A2 [d.48.1.1] RECA PROTEIN 70 9e-14 1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 32 0.020 1byrA [d.136.1.1] ENDONUCLEASE 28 0.29 1g3qA [c.37.1.10] CELL DIVISION INHIBITOR 28 0.38 1ct5A [c.1.6.2] YEAST HYPOTHETICAL PROTEIN, SELENOMET 28 0.49 1g0uD [d.153.1.4] PROTEASOME COMPONENT PUP2 27 1.1 1e32A2 [c.37.1.13] P97 26 1.4 1g0uA [d.153.1.4] PROTEASOME COMPONENT Y7 26 1.9 1cp2A [c.37.1.10] NITROGENASE IRON PROTEIN 26 1.9 1f3oA [c.37.1.12] HYPOTHETICAL ABC TRANSPORTER ATP-BINDING PROTEIN 25 2.4 1qj2B2 [d.133.1.1] CARBON MONOXIDE DEHYDROGENASE 25 3.2 1dgyA [c.72.1.1] ADENOSINE KINASE 25 3.2 1skyB3 [c.37.1.11] F1-ATPASE 25 3.2 1g6oA [c.37.1.13] CAG-ALPHA 25 4.2 1cmxA [d.3.1.6] UBIQUITIN YUH1-UBAL 24 7.1 8abp- [c.93.1.1] L-*ARABINOSE-BINDING PROTEIN (MUTANT WITH MET 1... 24 7.1 2tpsA [c.1.3.1] THIAMIN PHOSPHATE SYNTHASE 24 7.1 1b8aA1 [b.40.4.1] ASPARTYL-TRNA SYNTHETASE 24 7.1 1qtsA1 [b.1.10.1] AP-2 CLATHRIN ADAPTOR ALPHA SUBUNIT (ALPHA- 24 7.1 1b15A [c.2.1.2] ALCOHOL DEHYDROGENASE 23 9.3 1pmi- [b.82.1.3] PHOSPHOMANNOSE ISOMERASE 23 9.3 >2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) Length = 243 Score = 448 bits (1152), Expect = e-127 Identities = 243/266 (91%), Positives = 243/266 (91%), Gaps = 23/266 (8%) Query: 3 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 62 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV Sbjct: 1 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 60 Query: 63 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 122 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG Sbjct: 61 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 120 Query: 123 EQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQAMRKLAGNL 182 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE GLAARMMSQAMRKLAGNL Sbjct: 121 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE--------GLAARMMSQAMRKLAGNL 172 Query: 183 KQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFYASVRLDIRRIGAVKEGENVVGSET 242 KQSNTLLIFINQ TGGNALKFYASVRLDIRRIGAVKEGENVVGSET Sbjct: 173 KQSNTLLIFINQ---------------TGGNALKFYASVRLDIRRIGAVKEGENVVGSET 217 Query: 243 RVKVVKNKIAAPFKQAEFQILYGEGI 268 RVKVVKNKIAAPFKQAEFQILYGEGI Sbjct: 218 RVKVVKNKIAAPFKQAEFQILYGEGI 243 BLASTの 出力例(1)

BLASTの 出力例(2) BLASTP 2.2.1 [Apr-13-2001] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= RECA_ECOLI "RecA protein (Recombinase A)" (352 letters) Database: 40scop1.59nm 3886 sequences; 705,110 total letters Searching........done Score E Sequences producing significant alignments: (bits) Value 2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) 448 e-127 1g18A2 [d.48.1.1] RECA PROTEIN 70 9e-14 1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 32 0.020 1byrA [d.136.1.1] ENDONUCLEASE 28 0.29 1g3qA [c.37.1.10] CELL DIVISION INHIBITOR 28 0.38 1ct5A [c.1.6.2] YEAST HYPOTHETICAL PROTEIN, SELENOMET 28 0.49 1g0uD [d.153.1.4] PROTEASOME COMPONENT PUP2 27 1.1 1e32A2 [c.37.1.13] P97 26 1.4 1g0uA [d.153.1.4] PROTEASOME COMPONENT Y7 26 1.9 1cp2A [c.37.1.10] NITROGENASE IRON PROTEIN 26 1.9 1f3oA [c.37.1.12] HYPOTHETICAL ABC TRANSPORTER ATP-BINDING PROTEIN 25 2.4 1qj2B2 [d.133.1.1] CARBON MONOXIDE DEHYDROGENASE 25 3.2 1dgyA [c.72.1.1] ADENOSINE KINASE 25 3.2 1skyB3 [c.37.1.11] F1-ATPASE 25 3.2 1g6oA [c.37.1.13] CAG-ALPHA 25 4.2 1cmxA [d.3.1.6] UBIQUITIN YUH1-UBAL 24 7.1 8abp- [c.93.1.1] L-*ARABINOSE-BINDING PROTEIN (MUTANT WITH MET 1... 24 7.1 2tpsA [c.1.3.1] THIAMIN PHOSPHATE SYNTHASE 24 7.1 1b8aA1 [b.40.4.1] ASPARTYL-TRNA SYNTHETASE 24 7.1 1qtsA1 [b.1.10.1] AP-2 CLATHRIN ADAPTOR ALPHA SUBUNIT (ALPHA- 24 7.1 1b15A [c.2.1.2] ALCOHOL DEHYDROGENASE 23 9.3 1pmi- [b.82.1.3] PHOSPHOMANNOSE ISOMERASE 23 9.3 >2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) Length = 243 Score = 448 bits (1152), Expect = e-127 Identities = 243/266 (91%), Positives = 243/266 (91%), Gaps = 23/266 (8%) Query: 3 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 62 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV Sbjct: 1 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 60 Query: 63 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 122 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG Sbjct: 61 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 120 Query: 123 EQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQAMRKLAGNL 182 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE GLAARMMSQAMRKLAGNL Sbjct: 121 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE--------GLAARMMSQAMRKLAGNL 172 Query: 183 KQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFYASVRLDIRRIGAVKEGENVVGSET 242 KQSNTLLIFINQ TGGNALKFYASVRLDIRRIGAVKEGENVVGSET Sbjct: 173 KQSNTLLIFINQ---------------TGGNALKFYASVRLDIRRIGAVKEGENVVGSET 217 Query: 243 RVKVVKNKIAAPFKQAEFQILYGEGI 268 RVKVVKNKIAAPFKQAEFQILYGEGI Sbjct: 218 RVKVVKNKIAAPFKQAEFQILYGEGI 243 >1g18A2 [d.48.1.1] RECA PROTEIN Length = 60 Score = 70.1 bits (170), Expect = 9e-14 Identities = 30/56 (53%), Positives = 44/56 (78%) Query: 272 GELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIEKKVRELL 327 G L+D+GV + LI K+GAW++Y+GE++GQGK NA +L +N + A EIEKK++E L Sbjct: 4 GSLIDMGVDQGLIRKSGAWFTYEGEQLGQGKENARNFLVENADVADEIEKKIKEKL 59 >1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 Length = 242 Score = 32.3 bits (72), Expect = 0.020 Identities = 25/88 (28%), Positives = 47/88 (53%), Gaps = 9/88 (10%) Query: 271 YGELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLK----DNPE--TAKEIEKKVR 324 +G + G ++E +G+++ YKG G+G+ +A A L+ +PE +A+E K+ Sbjct: 132 FGGVDKNGAHLYMLEPSGSYWGYKGAATGKGRQSAKAELEKLVDHHPEGLSAREAVKQAA 191 Query: 325 EL--LLSNPNSTPDFSVDDSE-GVAETN 349 ++ L N DF ++ S ++ETN Sbjct: 192 KIIYLAHEDNKEKDFELEISWCSLSETN 219 >1byrA [d.136.1.1] ENDONUCLEASE Length = 152 Score = 28.5 bits (62), Expect = 0.29 Identities = 28/102 (27%), Positives = 46/102 (44%), Gaps = 19/102 (18%) Query: 65 YGPESSGKTTLTLQVIAAAQREGKTCAFI----DAEHALDPIYARKLGVDIDNLLCSQPD 120 Y PE S + L L I +A+ + A+ D AL + A+K GVD+ ++ + + Sbjct: 8 YSPEGSARV-LVLSAIDSAKTSIRMMAYSFTAPDIMKAL--VAAKKRGVDVKIVIDERGN 64 Query: 121 TGEQALEICDALARSGAV------------DVIVVDSVAALT 150 TG ++ + +A SG VI+VD+V T Sbjct: 65 TGRASIAAMNYIANSGIPLRTDSNFPIQHDKVIIVDNVTVET 106 >1g3qA [c.37.1.10] CELL DIVISION INHIBITOR Length = 237 Score = 28.1 bits (61), Expect = 0.38 Identities = 21/71 (29%), Positives = 34/71 (47%), Gaps = 2/71 (2%) Query: 58 MGRIVEIY-GPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLC 116 MGRI+ I G +GKTT+T + A G+ +D + + + + LGVD ++ Sbjct: 1 MGRIISIVSGKGGTGKTTVTANLSVALGDRGRKVLAVDGDLTMANL-SLVLGVDDPDVTL 59 Query: 117 SQPDTGEQALE 127 GE +E Sbjct: 60 HDVLAGEANVE 70 >1ct5A [c.1.6.2] YEAST HYPOTHETICAL PROTEIN, SELENOMET Length = 228 Score = 27.7 bits (60), Expect = 0.49 Identities = 28/103 (27%), Positives = 48/103 (46%), Gaps = 4/103 (3%) Query: 237 VVGSETR-VKVVKNKIAAPFKQAEFQILYGEGINFYGE--LVDLGVKEKLIEKAGAWYSY 293 VV +E + VK++ ++ ++ QILY G+ +GE + +L K KL+ W+ Sbjct: 23 VVNAEAKNVKILLLVVSKLKPASDIQILYDHGVREFGENYVQELIEKAKLLPDDIKWHFI 82 Query: 294 KGEKIGQGKANATAWLKDNPETAKEIEKKVRELLLSNPNSTPD 336 G + + K A + ET + KK ++L S PD Sbjct: 83 GGLQTNKCKDLAKVPNLYSVETIDSL-KKAKKLNESRAKFQPD 124 >1g0uD [d.153.1.4] PROTEASOME COMPONENT PUP2 Length = 230 Score = 26.6 bits (57), Expect = 1.1 Identities = 20/67 (29%), Positives = 30/67 (43%), Gaps = 3/67 (4%) Query: 264 YGEGINFYGELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLKD---NPETAKEIE 320 +G + G D G + E +G +Y Y + IG G A A L + + T KE E Sbjct: 118 FGVALLIAGHDADDGYQLFHAEPSGTFYRYNAKAIGSGSEGAQAELLNEWHSSLTLKEAE 177 Query: 321 KKVRELL 327 V ++L Sbjct: 178 LLVLKIL 184 >1e32A2 [c.37.1.13] P97 Length = 258 Score = 26.2 bits (56), Expect = 1.4 Identities = 33/136 (24%), Positives = 55/136 (40%), Gaps = 26/136 (19%) Query: 55 GLPMGRIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNL 114 G+ R + +YGP +GKT + A A G I+ G +I + Sbjct: 34 GVKPPRGILLYGPPGTGKTLIAR---AVANETGAFFFLIN-------------GPEIMSK 77 Query: 115 LCSQPDTGEQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQA 174 L + E L A A +I +D + A+ PK E +H + R++SQ Sbjct: 78 LAGE---SESNLRKAFEEAEKNAPAIIFIDELDAIAPKRE------KTHGEVERRIVSQL 128 Query: 175 MRKLAGNLKQSNTLLI 190 + + G LKQ +++ Sbjct: 129 LTLMDG-LKQRAHVIV 143 >1g0uA [d.153.1.4] PROTEASOME COMPONENT Y7 Length = 246 Score = 25.8 bits (55), Expect = 1.9 Identities = 15/61 (24%), Positives = 30/61 (48%), Gaps = 1/61 (1%) Query: 284 IEKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIEKKVRELLLSNPNSTP-DFSVDDS 342 ++ +G+++ +K IG+G A +L+ E+E + LL+ S +F+ D Sbjct: 146 VDPSGSYFPWKATAIGKGSVAAKTFLEKRWNDELELEDAIHIALLTLKESVEGEFNGDTI 205 Query: 343 E 343 E Sbjct: 206 E 206 >1cp2A [c.37.1.10] NITROGENASE IRON PROTEIN Length = 269 Identities = 22/86 (25%), Positives = 39/86 (44%), Gaps = 2/86 (2%) Query: 60 RIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQP 119 R V IYG GK+T T + + GKT + + D G+ ++L + Sbjct: 2 RQVAIYGKGGIGKSTTTQNLTSGLHAMGKTIMVVGCDPKADSTRLLLGGLAQKSVLDTLR 61 Query: 120 DTGEQALEICDALARSGAVDVIVVDS 145 + GE +E+ D++ + G + V+S Sbjct: 62 EEGED-VEL-DSILKEGYGGIRCVES 85 >1f3oA [c.37.1.12] HYPOTHETICAL ABC TRANSPORTER ATP-BINDING PROTEIN Length = 232 Score = 25.4 bits (54), Expect = 2.4 Identities = 13/36 (36%), Positives = 19/36 (52%), Gaps = 1/36 (2%) Query: 59 GRIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFID 94 G V I GP SGK+T+ L +I + + +ID Sbjct: 31 GEFVSIMGPSGSGKSTM-LNIIGCLDKPTEGEVYID 65 >1qj2B2 [d.133.1.1] CARBON MONOXIDE DEHYDROGENASE Length = 662 Score = 25.0 bits (53), Expect = 3.2 Identities = 17/49 (34%), Positives = 26/49 (52%), Gaps = 1/49 (2%) Query: 230 AVKEGENVVGSETRVKVVKNKIAAPFKQAEFQILYGEGINFYGELVDLG 278 A+K+ + VG K K A FK+ E + + G GI+F+ E+V G Sbjct: 299 AMKKAMDTVGYHQLRAEQKAKQEA-FKRGETREIMGIGISFFTEIVGAG 346 >1dgyA [c.72.1.1] ADENOSINE KINASE Length = 333 Identities = 26/118 (22%), Positives = 50/118 (42%), Gaps = 3/118 (2%) Query: 159 IGDSHMGLAARMMSQAMRKLAGNLKQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFY 218 IG+ + L A + S + + LK+ + L Q+R+ + NP + GG+AL Sbjct: 8 IGNPILDLVAEVPSSFLDEFF--LKRGDATLATPEQMRIYSTLDQFNPTSLPGGSALNSV 65 Query: 219 ASVRLDIRRIGAVKEGENVVGSETRVKVVKNKIAAPFKQAEFQILYGEGINFYGELVD 276 V+ +R+ G+ +G + R +V+K F + G+ L++ Sbjct: 66 RVVQKLLRKPGSAGY-MGAIGDDPRGQVLKELCDKEGLATRFMVAPGQSTGTCAVLIN 122 >1skyB3 [c.37.1.11] F1-ATPASE Length = 276 Identities = 15/62 (24%), Positives = 28/62 (44%), Gaps = 3/62 (4%) Query: 32 DRSMDVETISTGSLSLDIALGAGGLPMGRIVEIYGPESSGKTTLTLQVIAAAQREGKTCA 91 DR E + TG ++D + G G+ I G +GKT++ + I + + C Sbjct: 43 DRRSVHEPLQTGIKAIDALVPIG---RGQRELIIGDRQTGKTSVAIDTIINQKDQNMICI 99 Query: 92 FI 93 ++ Sbjct: 100 YV 101 >1g6oA [c.37.1.13] CAG-ALPHA Length = 323 Score = 24.6 bits (52), Expect = 4.2 Identities = 12/42 (28%), Positives = 21/42 (49%) Query: 55 GLPMGRIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAE 96 G+ +G+ V + G SGKTT ++ +E + + D E Sbjct: 162 GIAIGKNVIVCGGTGSGKTTYIKSIMEFIPKEERIISIEDTE 203 >1cmxA [d.3.1.6] UBIQUITIN YUH1-UBAL Length = 214 Score = 23.9 bits (50), Expect = 7.1 Identities = 15/57 (26%), Positives = 24/57 (41%) Query: 108 GVDIDNLLCSQPDTGEQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHM 164 G D+DN L SQ DT D ++VI + T ++E D+++ Sbjct: 89 GSDLDNFLKSQSDTSSSKNRFDDVTTDQFVLNVIKENVQTFSTGQSEAPEATADTNL 145 >8abp- [c.93.1.1] L-*ARABINOSE-BINDING PROTEIN (MUTANT WITH MET 108 REPLACED Length = 305 Identities = 15/42 (35%), Positives = 24/42 (56%), Gaps = 3/42 (7%) Query: 103 YARKLGVDI--DNLLCSQPDTGEQALEICDALARSGAVDVIV 142 +A K G D+ + + + PD GE+ L D+LA SGA ++ Sbjct: 22 FADKAGKDLGFEVIKIAVPD-GEKTLNAIDSLAASGAKGFVI 62 >2tpsA [c.1.3.1] THIAMIN PHOSPHATE SYNTHASE Length = 226 Identities = 22/70 (31%), Positives = 30/70 (42%), Gaps = 17/70 (24%) Query: 121 TGEQALEICD---ALARSGAVDVIVVDSVA-ALTPKA-------------EIEGEIGDSH 163 TGE ++ + A R V IV D V AL KA E+ IGD Sbjct: 58 TGEARIKFAEKAQAACREAGVPFIVNDDVELALNLKADGIHIGQEDANAKEVRAAIGDMI 117 Query: 164 MGLAARMMSQ 173 +G++A MS+ Sbjct: 118 LGVSAHTMSE 127 >1b8aA1 [b.40.4.1] ASPARTYL-TRNA SYNTHETASE Length = 103 Identities = 11/33 (33%), Positives = 19/33 (57%) Query: 127 EICDALARSGAVDVIVVDSVAALTPKAEIEGEI 159 E+ + + + DV+ V+ V TPKA++ EI Sbjct: 58 ELFKLIPKLRSEDVVAVEGVVNFTPKAKLGFEI 90 >1qtsA1 [b.1.10.1] AP-2 CLATHRIN ADAPTOR ALPHA SUBUNIT (ALPHA- Length = 133 Identities = 14/58 (24%), Positives = 27/58 (46%), Gaps = 2/58 (3%) Query: 267 GINFYGELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWL--KDNPETAKEIEKK 322 G+ F +L+ +G+K + + G + + G K N T L D+ +T ++ K Sbjct: 23 GVLFENQLLQIGLKSEFRQNLGRMFIFYGNKTSTQFLNFTPTLICADDLQTNLNLQTK 80 >1b15A [c.2.1.2] ALCOHOL DEHYDROGENASE Length = 254 Score = 23.5 bits (49), Expect = 9.3 Identities = 9/19 (47%), Positives = 14/19 (73%) Query: 318 EIEKKVRELLLSNPNSTPD 336 ++E +V ELLLS+P T + Sbjct: 197 DVEPRVAELLLSHPTQTSE 215 >1pmi- [b.82.1.3] PHOSPHOMANNOSE ISOMERASE Length = 440 Identities = 16/60 (26%), Positives = 23/60 (37%) Query: 281 EKLIEKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIEKKVRELLLSNPNSTPDFSVD 340 EKL + +Y KIG A A +P + K EL + S P ++D Sbjct: 3 EKLFRIQCGYQNYDWGKIGSSSAVAQFVHNSDPSITIDETKPYAELWMGTHPSVPSKAID 62 Posted date: Jun 22, 2002 3:06 PM Number of letters in database: 705,110 Number of sequences in database: 3886 Lambda K H 0.314 0.134 0.367 Gapped 0.267 0.0410 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Number of Hits to DB: 483,807 Number of Sequences: 3886 Number of extensions: 19667 Number of successful extensions: 69 Number of sequences better than 10.0: 22 Number of HSP's better than 10.0 without gapping: 15 Number of HSP's successfully gapped in prelim test: 7 Number of HSP's that attempted gapping in prelim test: 52 Number of HSP's gapped (non-prelim): 22 length of query: 352 length of database: 705,110 effective HSP length: 79 effective length of query: 273 effective length of database: 398,116 effective search space: 108685668 effective search space used: 108685668 T: 11 A: 40 X1: 16 ( 7.2 bits) X2: 38 (14.6 bits) X3: 64 (24.7 bits) S1: 42 (21.9 bits) S2: 49 (23.5 bits) BLASTの 出力例(2)

BLASTの 出力例(3) BLASTP 2.2.1 [Apr-13-2001] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= RECA_ECOLI "RecA protein (Recombinase A)" (352 letters) Database: 40scop1.59nm 3886 sequences; 705,110 total letters Searching........done Score E Sequences producing significant alignments: (bits) Value 2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) 448 e-127 1g18A2 [d.48.1.1] RECA PROTEIN 70 9e-14 1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 32 0.020 1byrA [d.136.1.1] ENDONUCLEASE 28 0.29 1g3qA [c.37.1.10] CELL DIVISION INHIBITOR 28 0.38 1ct5A [c.1.6.2] YEAST HYPOTHETICAL PROTEIN, SELENOMET 28 0.49 1g0uD [d.153.1.4] PROTEASOME COMPONENT PUP2 27 1.1 1e32A2 [c.37.1.13] P97 26 1.4 1g0uA [d.153.1.4] PROTEASOME COMPONENT Y7 26 1.9 1cp2A [c.37.1.10] NITROGENASE IRON PROTEIN 26 1.9 1f3oA [c.37.1.12] HYPOTHETICAL ABC TRANSPORTER ATP-BINDING PROTEIN 25 2.4 1qj2B2 [d.133.1.1] CARBON MONOXIDE DEHYDROGENASE 25 3.2 1dgyA [c.72.1.1] ADENOSINE KINASE 25 3.2 1skyB3 [c.37.1.11] F1-ATPASE 25 3.2 1g6oA [c.37.1.13] CAG-ALPHA 25 4.2 1cmxA [d.3.1.6] UBIQUITIN YUH1-UBAL 24 7.1 8abp- [c.93.1.1] L-*ARABINOSE-BINDING PROTEIN (MUTANT WITH MET 1... 24 7.1 2tpsA [c.1.3.1] THIAMIN PHOSPHATE SYNTHASE 24 7.1 1b8aA1 [b.40.4.1] ASPARTYL-TRNA SYNTHETASE 24 7.1 1qtsA1 [b.1.10.1] AP-2 CLATHRIN ADAPTOR ALPHA SUBUNIT (ALPHA- 24 7.1 1b15A [c.2.1.2] ALCOHOL DEHYDROGENASE 23 9.3 1pmi- [b.82.1.3] PHOSPHOMANNOSE ISOMERASE 23 9.3 >2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) Length = 243 Score = 448 bits (1152), Expect = e-127 Identities = 243/266 (91%), Positives = 243/266 (91%), Gaps = 23/266 (8%) Query: 3 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 62 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV Sbjct: 1 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 60 Query: 63 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 122 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG Sbjct: 61 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 120 Query: 123 EQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQAMRKLAGNL 182 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE GLAARMMSQAMRKLAGNL Sbjct: 121 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE--------GLAARMMSQAMRKLAGNL 172 Query: 183 KQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFYASVRLDIRRIGAVKEGENVVGSET 242 KQSNTLLIFINQ TGGNALKFYASVRLDIRRIGAVKEGENVVGSET Sbjct: 173 KQSNTLLIFINQ---------------TGGNALKFYASVRLDIRRIGAVKEGENVVGSET 217 Query: 243 RVKVVKNKIAAPFKQAEFQILYGEGI 268 RVKVVKNKIAAPFKQAEFQILYGEGI Sbjct: 218 RVKVVKNKIAAPFKQAEFQILYGEGI 243 >1g18A2 [d.48.1.1] RECA PROTEIN Length = 60 Score = 70.1 bits (170), Expect = 9e-14 Identities = 30/56 (53%), Positives = 44/56 (78%) Query: 272 GELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIEKKVRELL 327 G L+D+GV + LI K+GAW++Y+GE++GQGK NA +L +N + A EIEKK++E L Sbjct: 4 GSLIDMGVDQGLIRKSGAWFTYEGEQLGQGKENARNFLVENADVADEIEKKIKEKL 59 >1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 Length = 242 Score = 32.3 bits (72), Expect = 0.020 Identities = 25/88 (28%), Positives = 47/88 (53%), Gaps = 9/88 (10%) Query: 271 YGELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLK----DNPE--TAKEIEKKVR 324 +G + G ++E +G+++ YKG G+G+ +A A L+ +PE +A+E K+ Sbjct: 132 FGGVDKNGAHLYMLEPSGSYWGYKGAATGKGRQSAKAELEKLVDHHPEGLSAREAVKQAA 191 Query: 325 EL--LLSNPNSTPDFSVDDSE-GVAETN 349 ++ L N DF ++ S ++ETN Sbjct: 192 KIIYLAHEDNKEKDFELEISWCSLSETN 219 >1byrA [d.136.1.1] ENDONUCLEASE Length = 152 Score = 28.5 bits (62), Expect = 0.29 Identities = 28/102 (27%), Positives = 46/102 (44%), Gaps = 19/102 (18%) Query: 65 YGPESSGKTTLTLQVIAAAQREGKTCAFI----DAEHALDPIYARKLGVDIDNLLCSQPD 120 Y PE S + L L I +A+ + A+ D AL + A+K GVD+ ++ + + Sbjct: 8 YSPEGSARV-LVLSAIDSAKTSIRMMAYSFTAPDIMKAL--VAAKKRGVDVKIVIDERGN 64 Query: 121 TGEQALEICDALARSGAV------------DVIVVDSVAALT 150 TG ++ + +A SG VI+VD+V T Sbjct: 65 TGRASIAAMNYIANSGIPLRTDSNFPIQHDKVIIVDNVTVET 106 >1g3qA [c.37.1.10] CELL DIVISION INHIBITOR Length = 237 Score = 28.1 bits (61), Expect = 0.38 Identities = 21/71 (29%), Positives = 34/71 (47%), Gaps = 2/71 (2%) Query: 58 MGRIVEIY-GPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLC 116 MGRI+ I G +GKTT+T + A G+ +D + + + + LGVD ++ Sbjct: 1 MGRIISIVSGKGGTGKTTVTANLSVALGDRGRKVLAVDGDLTMANL-SLVLGVDDPDVTL 59 Query: 117 SQPDTGEQALE 127 GE +E Sbjct: 60 HDVLAGEANVE 70 >1ct5A [c.1.6.2] YEAST HYPOTHETICAL PROTEIN, SELENOMET Length = 228 Score = 27.7 bits (60), Expect = 0.49 Identities = 28/103 (27%), Positives = 48/103 (46%), Gaps = 4/103 (3%) Query: 237 VVGSETR-VKVVKNKIAAPFKQAEFQILYGEGINFYGE--LVDLGVKEKLIEKAGAWYSY 293 VV +E + VK++ ++ ++ QILY G+ +GE + +L K KL+ W+ Sbjct: 23 VVNAEAKNVKILLLVVSKLKPASDIQILYDHGVREFGENYVQELIEKAKLLPDDIKWHFI 82 Query: 294 KGEKIGQGKANATAWLKDNPETAKEIEKKVRELLLSNPNSTPD 336 G + + K A + ET + KK ++L S PD Sbjct: 83 GGLQTNKCKDLAKVPNLYSVETIDSL-KKAKKLNESRAKFQPD 124 >1g0uD [d.153.1.4] PROTEASOME COMPONENT PUP2 Length = 230 Score = 26.6 bits (57), Expect = 1.1 Identities = 20/67 (29%), Positives = 30/67 (43%), Gaps = 3/67 (4%) Query: 264 YGEGINFYGELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLKD---NPETAKEIE 320 +G + G D G + E +G +Y Y + IG G A A L + + T KE E Sbjct: 118 FGVALLIAGHDADDGYQLFHAEPSGTFYRYNAKAIGSGSEGAQAELLNEWHSSLTLKEAE 177 Query: 321 KKVRELL 327 V ++L Sbjct: 178 LLVLKIL 184 >1e32A2 [c.37.1.13] P97 Length = 258 Score = 26.2 bits (56), Expect = 1.4 Identities = 33/136 (24%), Positives = 55/136 (40%), Gaps = 26/136 (19%) Query: 55 GLPMGRIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNL 114 G+ R + +YGP +GKT + A A G I+ G +I + Sbjct: 34 GVKPPRGILLYGPPGTGKTLIAR---AVANETGAFFFLIN-------------GPEIMSK 77 Query: 115 LCSQPDTGEQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQA 174 L + E L A A +I +D + A+ PK E +H + R++SQ Sbjct: 78 LAGE---SESNLRKAFEEAEKNAPAIIFIDELDAIAPKRE------KTHGEVERRIVSQL 128 Query: 175 MRKLAGNLKQSNTLLI 190 + + G LKQ +++ Sbjct: 129 LTLMDG-LKQRAHVIV 143 >1g0uA [d.153.1.4] PROTEASOME COMPONENT Y7 Length = 246 Score = 25.8 bits (55), Expect = 1.9 Identities = 15/61 (24%), Positives = 30/61 (48%), Gaps = 1/61 (1%) Query: 284 IEKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIEKKVRELLLSNPNSTP-DFSVDDS 342 ++ +G+++ +K IG+G A +L+ E+E + LL+ S +F+ D Sbjct: 146 VDPSGSYFPWKATAIGKGSVAAKTFLEKRWNDELELEDAIHIALLTLKESVEGEFNGDTI 205 Query: 343 E 343 E Sbjct: 206 E 206 >1cp2A [c.37.1.10] NITROGENASE IRON PROTEIN Length = 269 Identities = 22/86 (25%), Positives = 39/86 (44%), Gaps = 2/86 (2%) Query: 60 RIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQP 119 R V IYG GK+T T + + GKT + + D G+ ++L + Sbjct: 2 RQVAIYGKGGIGKSTTTQNLTSGLHAMGKTIMVVGCDPKADSTRLLLGGLAQKSVLDTLR 61 Query: 120 DTGEQALEICDALARSGAVDVIVVDS 145 + GE +E+ D++ + G + V+S Sbjct: 62 EEGED-VEL-DSILKEGYGGIRCVES 85 >1f3oA [c.37.1.12] HYPOTHETICAL ABC TRANSPORTER ATP-BINDING PROTEIN Length = 232 Score = 25.4 bits (54), Expect = 2.4 Identities = 13/36 (36%), Positives = 19/36 (52%), Gaps = 1/36 (2%) Query: 59 GRIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFID 94 G V I GP SGK+T+ L +I + + +ID Sbjct: 31 GEFVSIMGPSGSGKSTM-LNIIGCLDKPTEGEVYID 65 >1qj2B2 [d.133.1.1] CARBON MONOXIDE DEHYDROGENASE Length = 662 Score = 25.0 bits (53), Expect = 3.2 Identities = 17/49 (34%), Positives = 26/49 (52%), Gaps = 1/49 (2%) Query: 230 AVKEGENVVGSETRVKVVKNKIAAPFKQAEFQILYGEGINFYGELVDLG 278 A+K+ + VG K K A FK+ E + + G GI+F+ E+V G Sbjct: 299 AMKKAMDTVGYHQLRAEQKAKQEA-FKRGETREIMGIGISFFTEIVGAG 346 >1dgyA [c.72.1.1] ADENOSINE KINASE Length = 333 Identities = 26/118 (22%), Positives = 50/118 (42%), Gaps = 3/118 (2%) Query: 159 IGDSHMGLAARMMSQAMRKLAGNLKQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFY 218 IG+ + L A + S + + LK+ + L Q+R+ + NP + GG+AL Sbjct: 8 IGNPILDLVAEVPSSFLDEFF--LKRGDATLATPEQMRIYSTLDQFNPTSLPGGSALNSV 65 Query: 219 ASVRLDIRRIGAVKEGENVVGSETRVKVVKNKIAAPFKQAEFQILYGEGINFYGELVD 276 V+ +R+ G+ +G + R +V+K F + G+ L++ Sbjct: 66 RVVQKLLRKPGSAGY-MGAIGDDPRGQVLKELCDKEGLATRFMVAPGQSTGTCAVLIN 122 >1skyB3 [c.37.1.11] F1-ATPASE Length = 276 Identities = 15/62 (24%), Positives = 28/62 (44%), Gaps = 3/62 (4%) Query: 32 DRSMDVETISTGSLSLDIALGAGGLPMGRIVEIYGPESSGKTTLTLQVIAAAQREGKTCA 91 DR E + TG ++D + G G+ I G +GKT++ + I + + C Sbjct: 43 DRRSVHEPLQTGIKAIDALVPIG---RGQRELIIGDRQTGKTSVAIDTIINQKDQNMICI 99 Query: 92 FI 93 ++ Sbjct: 100 YV 101 >1g6oA [c.37.1.13] CAG-ALPHA Length = 323 Score = 24.6 bits (52), Expect = 4.2 Identities = 12/42 (28%), Positives = 21/42 (49%) Query: 55 GLPMGRIVEIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAE 96 G+ +G+ V + G SGKTT ++ +E + + D E Sbjct: 162 GIAIGKNVIVCGGTGSGKTTYIKSIMEFIPKEERIISIEDTE 203 >1cmxA [d.3.1.6] UBIQUITIN YUH1-UBAL Length = 214 Score = 23.9 bits (50), Expect = 7.1 Identities = 15/57 (26%), Positives = 24/57 (41%) Query: 108 GVDIDNLLCSQPDTGEQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHM 164 G D+DN L SQ DT D ++VI + T ++E D+++ Sbjct: 89 GSDLDNFLKSQSDTSSSKNRFDDVTTDQFVLNVIKENVQTFSTGQSEAPEATADTNL 145 >8abp- [c.93.1.1] L-*ARABINOSE-BINDING PROTEIN (MUTANT WITH MET 108 REPLACED Length = 305 Identities = 15/42 (35%), Positives = 24/42 (56%), Gaps = 3/42 (7%) Query: 103 YARKLGVDI--DNLLCSQPDTGEQALEICDALARSGAVDVIV 142 +A K G D+ + + + PD GE+ L D+LA SGA ++ Sbjct: 22 FADKAGKDLGFEVIKIAVPD-GEKTLNAIDSLAASGAKGFVI 62 >2tpsA [c.1.3.1] THIAMIN PHOSPHATE SYNTHASE Length = 226 Identities = 22/70 (31%), Positives = 30/70 (42%), Gaps = 17/70 (24%) Query: 121 TGEQALEICD---ALARSGAVDVIVVDSVA-ALTPKA-------------EIEGEIGDSH 163 TGE ++ + A R V IV D V AL KA E+ IGD Sbjct: 58 TGEARIKFAEKAQAACREAGVPFIVNDDVELALNLKADGIHIGQEDANAKEVRAAIGDMI 117 Query: 164 MGLAARMMSQ 173 +G++A MS+ Sbjct: 118 LGVSAHTMSE 127 >1b8aA1 [b.40.4.1] ASPARTYL-TRNA SYNTHETASE Length = 103 Identities = 11/33 (33%), Positives = 19/33 (57%) Query: 127 EICDALARSGAVDVIVVDSVAALTPKAEIEGEI 159 E+ + + + DV+ V+ V TPKA++ EI Sbjct: 58 ELFKLIPKLRSEDVVAVEGVVNFTPKAKLGFEI 90 >1qtsA1 [b.1.10.1] AP-2 CLATHRIN ADAPTOR ALPHA SUBUNIT (ALPHA- Length = 133 Identities = 14/58 (24%), Positives = 27/58 (46%), Gaps = 2/58 (3%) Query: 267 GINFYGELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWL--KDNPETAKEIEKK 322 G+ F +L+ +G+K + + G + + G K N T L D+ +T ++ K Sbjct: 23 GVLFENQLLQIGLKSEFRQNLGRMFIFYGNKTSTQFLNFTPTLICADDLQTNLNLQTK 80 >1b15A [c.2.1.2] ALCOHOL DEHYDROGENASE Length = 254 Score = 23.5 bits (49), Expect = 9.3 Identities = 9/19 (47%), Positives = 14/19 (73%) Query: 318 EIEKKVRELLLSNPNSTPD 336 ++E +V ELLLS+P T + Sbjct: 197 DVEPRVAELLLSHPTQTSE 215 >1pmi- [b.82.1.3] PHOSPHOMANNOSE ISOMERASE Length = 440 Identities = 16/60 (26%), Positives = 23/60 (37%) Query: 281 EKLIEKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIEKKVRELLLSNPNSTPDFSVD 340 EKL + +Y KIG A A +P + K EL + S P ++D Sbjct: 3 EKLFRIQCGYQNYDWGKIGSSSAVAQFVHNSDPSITIDETKPYAELWMGTHPSVPSKAID 62 Posted date: Jun 22, 2002 3:06 PM Number of letters in database: 705,110 Number of sequences in database: 3886 Lambda K H 0.314 0.134 0.367 Gapped 0.267 0.0410 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Number of Hits to DB: 483,807 Number of Sequences: 3886 Number of extensions: 19667 Number of successful extensions: 69 Number of sequences better than 10.0: 22 Number of HSP's better than 10.0 without gapping: 15 Number of HSP's successfully gapped in prelim test: 7 Number of HSP's that attempted gapping in prelim test: 52 Number of HSP's gapped (non-prelim): 22 length of query: 352 length of database: 705,110 effective HSP length: 79 effective length of query: 273 effective length of database: 398,116 effective search space: 108685668 effective search space used: 108685668 T: 11 A: 40 X1: 16 ( 7.2 bits) X2: 38 (14.6 bits) X3: 64 (24.7 bits) S1: 42 (21.9 bits) S2: 49 (23.5 bits) BLASTの 出力例(3)

どれだけ似ていれば意味があるのか? 類似性の指標 SLKA SLKALLNKCKTFGWGAQ * * * ** ** * ** SELA 同一残基率(%) 直感的にわかりやすい。一般に30%ぐらいがしきい値とされる。 感度が低く、アライメントの長さや不一致ペアの類似性に鈍感 スコア 同一残基率より感度は高いが、比較する配列の長さに依存。長いほど高いスコアになる。 E-value スコアの統計的有意性。 ランダムな配列を比較した場合に、そのスコアが生じる可能性を見積もる。 SLKA * * SELA 4/8 = 50 % Score = 4 SLKALLNKCKTFGWGAQ * ** ** * ** SIRALDRRCKSFAWGKE 8/16 = 50 % Score = 55

E-value E-value ( expectation value) ランダムな配列データベースを検索したときに、 そのスコアS以上の値になるアライメントの本数の期待値 ランダムな配列とは:アミノ酸がランダムな順序に並んだ配列。ただし、                アミノ酸の組成 → 平均的な値に従うとする                アミノ酸の長さ → 比較したアミノ酸の同じにする。 論理の流れ ランダムな配列では起こりえないスコア  → 偶然では起こりえないスコア → 進化的に関係がある類似性に違いない 値の大きさ 単位は本。小さいほどよく似ている。 必ず0以上の値になる。 しきい値 原理的には1。経験的には0.0001から0.01ぐらい。

E-valueの計算に必要なパラメータ パラメータ定数K,λ →スコア行列とギャップペナルティに依存 ・ m:クエリの残基長   →スコア行列とギャップペナルティに依存 ・ m:クエリの残基長 ・ n : データベースの残基長   データベースに含まれる全ての配列を一つにつな    げた場合の長さ ・クエリ配列長とデータベースの大きさにE-valueは比例 ・比較した配列が同じでも、データベースのほかの配列の数が  変わると、E-valueも変わってしまう。

BLASTP 2.2.1 [Apr-13-2001] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= RECA_ECOLI "RecA protein (Recombinase A)" (352 letters) Database: 40scop1.59nm 3886 sequences; 705,110 total letters Searching........done Score E Sequences producing significant alignments: (bits) Value 2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) 448 e-127 1g18A2 [d.48.1.1] RECA PROTEIN 70 9e-14 1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 32 0.020 1byrA [d.136.1.1] ENDONUCLEASE 28 0.29 1g3qA [c.37.1.10] CELL DIVISION INHIBITOR 28 0.38 1ct5A [c.1.6.2] YEAST HYPOTHETICAL PROTEIN, SELENOMET 28 0.49 1g0uD [d.153.1.4] PROTEASOME COMPONENT PUP2 27 1.1 1e32A2 [c.37.1.13] P97 26 1.4 1g0uA [d.153.1.4] PROTEASOME COMPONENT Y7 26 1.9 1cp2A [c.37.1.10] NITROGENASE IRON PROTEIN 26 1.9 1f3oA [c.37.1.12] HYPOTHETICAL ABC TRANSPORTER ATP-BINDING PROTEIN 25 2.4 1qj2B2 [d.133.1.1] CARBON MONOXIDE DEHYDROGENASE 25 3.2 1dgyA [c.72.1.1] ADENOSINE KINASE 25 3.2

Bit Score Raw Score BLASTP 2.2.1 [Apr-13-2001] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= RECA_ECOLI "RecA protein (Recombinase A)" (352 letters) Database: 40scop1.59nm 3886 sequences; 705,110 total letters Searching........done Score E Sequences producing significant alignments: (bits) Value 2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) 448 e-127 1g18A2 [d.48.1.1] RECA PROTEIN 70 9e-14 1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 32 0.020 1byrA [d.136.1.1] ENDONUCLEASE 28 0.29 1g3qA [c.37.1.10] CELL DIVISION INHIBITOR 28 0.38 1ct5A [c.1.6.2] YEAST HYPOTHETICAL PROTEIN, SELENOMET 28 0.49 1g0uD [d.153.1.4] PROTEASOME COMPONENT PUP2 27 1.1 1e32A2 [c.37.1.13] P97 26 1.4 1g0uA [d.153.1.4] PROTEASOME COMPONENT Y7 26 1.9 1cp2A [c.37.1.10] NITROGENASE IRON PROTEIN 26 1.9 1f3oA [c.37.1.12] HYPOTHETICAL ABC TRANSPORTER ATP-BINDING PROTEIN 25 2.4 1qj2B2 [d.133.1.1] CARBON MONOXIDE DEHYDROGENASE 25 3.2 1dgyA [c.72.1.1] ADENOSINE KINASE 25 3.2 1skyB3 [c.37.1.11] F1-ATPASE 25 3.2 1g6oA [c.37.1.13] CAG-ALPHA 25 4.2 1cmxA [d.3.1.6] UBIQUITIN YUH1-UBAL 24 7.1 8abp- [c.93.1.1] L-*ARABINOSE-BINDING PROTEIN (MUTANT WITH MET 1... 24 7.1 2tpsA [c.1.3.1] THIAMIN PHOSPHATE SYNTHASE 24 7.1 1b8aA1 [b.40.4.1] ASPARTYL-TRNA SYNTHETASE 24 7.1 1qtsA1 [b.1.10.1] AP-2 CLATHRIN ADAPTOR ALPHA SUBUNIT (ALPHA- 24 7.1 1b15A [c.2.1.2] ALCOHOL DEHYDROGENASE 23 9.3 1pmi- [b.82.1.3] PHOSPHOMANNOSE ISOMERASE 23 9.3 >2reb-1 [c.37.1.11] RECA PROTEIN (E.C.3.4.99.37) Length = 243 Score = 448 bits (1152), Expect = e-127 Identities = 243/266 (91%), Positives = 243/266 (91%), Gaps = 23/266 (8%) Query: 3 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 62 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV Sbjct: 1 DENKQKALAAALGQIEKQFGKGSIMRLGEDRSMDVETISTGSLSLDIALGAGGLPMGRIV 60 Query: 63 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 122 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG Sbjct: 61 EIYGPESSGKTTLTLQVIAAAQREGKTCAFIDAEHALDPIYARKLGVDIDNLLCSQPDTG 120 Query: 123 EQALEICDALARSGAVDVIVVDSVAALTPKAEIEGEIGDSHMGLAARMMSQAMRKLAGNL 182 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE GLAARMMSQAMRKLAGNL Sbjct: 121 EQALEICDALARSGAVDVIVVDSVAALTPKAEIE--------GLAARMMSQAMRKLAGNL 172 Query: 183 KQSNTLLIFINQIRMKIGVMFGNPETTTGGNALKFYASVRLDIRRIGAVKEGENVVGSET 242 KQSNTLLIFINQ TGGNALKFYASVRLDIRRIGAVKEGENVVGSET Sbjct: 173 KQSNTLLIFINQ---------------TGGNALKFYASVRLDIRRIGAVKEGENVVGSET 217 Query: 243 RVKVVKNKIAAPFKQAEFQILYGEGI 268 RVKVVKNKIAAPFKQAEFQILYGEGI Sbjct: 218 RVKVVKNKIAAPFKQAEFQILYGEGI 243 >1g18A2 [d.48.1.1] RECA PROTEIN Length = 60 Score = 70.1 bits (170), Expect = 9e-14 Identities = 30/56 (53%), Positives = 44/56 (78%) Query: 272 GELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLKDNPETAKEIEKKVRELL 327 G L+D+GV + LI K+GAW++Y+GE++GQGK NA +L +N + A EIEKK++E L Sbjct: 4 GSLIDMGVDQGLIRKSGAWFTYEGEQLGQGKENARNFLVENADVADEIEKKIKEKL 59 >1g0uF [d.153.1.4] PROTEASOME COMPONENT C1 Length = 242 Score = 32.3 bits (72), Expect = 0.020 Identities = 25/88 (28%), Positives = 47/88 (53%), Gaps = 9/88 (10%) Query: 271 YGELVDLGVKEKLIEKAGAWYSYKGEKIGQGKANATAWLK----DNPE--TAKEIEKKVR 324 +G + G ++E +G+++ YKG G+G+ +A A L+ +PE +A+E K+ Sbjct: 132 FGGVDKNGAHLYMLEPSGSYWGYKGAATGKGRQSAKAELEKLVDHHPEGLSAREAVKQAA 191 Query: 325 EL--LLSNPNSTPDFSVDDSE-GVAETN 349 ++ L N DF ++ S ++ETN Sbjct: 192 KIIYLAHEDNKEKDFELEISWCSLSETN 219 Bit Score Raw Score

Database: 40scop1.59nm Posted date: Jun 22, 2002 3:06 PM Number of letters in database: 705,110 Number of sequences in database: 3886 Lambda K H 0.314 0.134 0.369 Gapped 0.267 0.0410 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Number of Hits to DB: 469,543 Number of Sequences: 3886 Number of extensions: 18494 Number of successful extensions: 65 Number of sequences better than 10.0: 17 Number of HSP's better than 10.0 without gapping: 13 Number of HSP's successfully gapped in prelim test: 4 Number of HSP's that attempted gapping in prelim test: 50 Number of HSP's gapped (non-prelim): 17 length of query: 352 length of database: 705,110 effective HSP length: 79 effective length of query: 273 effective length of database: 398,116 effective search space: 108685668 effective search space used: 108685668

タンパク質の相同性の判断基準 同一残基率(Sequence Identity)(%) 100 90 80 70 60 50 40 30 20 35 25 15 5 同一残基率30%以上 配列解析 BLASTのE-value < 0.0001 PSI-BLASTのE-value < 0.0001 立体構造比較が必要

BLASTのプログラムの種類 blastn blastp blastx tblastn 核酸 2回 アミノ酸 1回 クエリ配列 データベース配列 比較回数 典型的な使用目的 blastn 核酸 2回 相補鎖にしたDB配列とも比較 ゲノムDNAのアノテーション、cDNAのゲノムへのマッピング、非コーディング領域の比較 blastp アミノ酸 1回 タンパク質配列からの比較的遠縁のホモログの発見 blastx 核酸(を翻訳したアミノ酸) 6回 クエリから6通りのアミノ酸配列を生成して比較 ゲノムDNAから遺伝子(タンパク質をコードしている領域)を発見する tblastn あるタンパク質をコードしているゲノムの領域を発見する 36回 クエリ、DBとも6通りのアミノ酸配列を生成して比較 やや遠縁の生物種のゲノムを、その中にコードされたタンパク質で比較。DBに登録されていない遺伝子の発見を期待。

DNAには相補鎖があり、それぞれ3つのアミノ酸の読み枠がある AGCTTTTCATTCTGACTGCA |||||||||||||||||||| TCGAAAAACAAGACTGACGT DNAは二重らせん構造を 作っているため、 A⇔T、G⇔Cに入れ替えて、 向きを逆にした相補鎖が あるはず。 AGCTTTTCATTCTGACTGCA S F S F x L Q A F H S D C L F I L T A 3つの核酸が1つのアミノ酸に 翻訳されるので、読み枠を ずらせば一本の核酸配列から 3本のアミノ酸配列を 作ることができる ※核酸よりアミノ酸で比較したほうがより遠縁のホモログを認識可能

blastp(アミノ酸対アミノ酸)によるタンパク質の機能予測 クエリ:T.thermophiusのタンパク質,  データベース:大腸菌の全タンパク質 BLASTP 2.2.3 [May-13-2002] Query= X07 AAS80531.1 tthe0 (144 letters) Database: ecoli_aa 4237 sequences; 1,350,094 total letters Score E Sequences producing significant alignments: (bits) Value infC NP_416233.1 "protein chain initiation factor IF-3" NC_000913 137 2e-34 rhsD NP_415030.1 "RhsD protein in RhsD element" NC_000913 28 0.19 pta NP_416800.1 "phosphotransacetylase" NC_000913 25 2.0 prsA NP_415725.1 "phosphoribosylpyrophosphate synthetase" NC_000913 25 2.7 yiaK NP_418032.1 "2,3-diketo-L-gulonate dehydrogenase, NADH-depe... 24 3.5 ffh NP_417101.1 "4.5S-RNP protein, GTP-binding export factor, pa... 24 4.6 ybdR NP_415141.1 "putative dehydrogenase, NAD(P)-binding" NC_000913 24 4.6 ydfG NP_416057.1 "putative oxidoreductase" NC_000913 23 7.8 >infC NP_416233.1 "protein chain initiation factor IF-3" NC_000913 Length = 180 Score = 137 bits (346), Expect = 2e-34 Identities = 72/139 (51%), Positives = 92/139 (65%), Gaps = 1/139 (0%) Query: 4 REALRLAQEMDLDLVLVGPNADPPVARIMDYSKWRYEQQMXXXXXXXXXXXTEVKSIKFR 63 REAL A+E +DLV + PNA+PPV RIMDY K+ YE+ +VK IKFR Sbjct: 40 REALEKAEEAGVDLVEISPNAEPPVCRIMDYGKFLYEKSKSSKEQKKKQKVIQVKEIKFR 99 Query: 64 VKIDEHDYQTKLGHIKRFLQEGHKVKVTIMFRGREVAHPELGERILNRVTEDLKDLAVVE 123 DE DYQ KL + RFL+EG K K+T+ FRGRE+AH ++G +LNRV +DL++LAVVE Sbjct: 100 PGTDEGDYQVKLRSLIRFLEEGDKAKITLRFRGREMAHQQIGMEVLNRVKDDLQELAVVE 159 Query: 124 MKPEML-GRDMNMLLAPVK 141 P + GR M M+LAP K Sbjct: 160 SFPTKIEGRQMIMVLAPKK 178 >rhsD NP_415030.1 "RhsD protein in RhsD element" NC_000913 Length = 1426 Score = 28.5 bits (62), Expect = 0.19 Identities = 17/52 (32%), Positives = 25/52 (47%) Query: 80 RFLQEGHKVKVTIMFRGREVAHPELGERILNRVTEDLKDLAVVEMKPEMLGR 131 R+L E ++ VT REV H E G + V ++L D +V + GR Sbjct: 383 RYLYEQDRITVTDSLNRREVLHTEGGAGLKRVVKKELADGSVTRSGYDAAGR 434

blastp(アミノ酸対アミノ酸)の適用例) ORFのアノテーション:H.influenzaeのORF対大腸菌のORF Query= HI0078 hinf0 AAC21753.1 Score E Sequences producing significant alignments: (bits) Value cysS ecol0 AAC73628.1 "cysteine tRNA synthetase" 730 0.0 metG ecol0 AAC75175.1 "methionine tRNA synthetase" 39 5e-04 ileS ecol0 AAC73137.1 "isoleucine tRNA synthetase" 39 0.001 leuS ecol0 AAC73743.1 "leucine tRNA synthetase" 30 0.25 yidW ecol0 AAC76718.1 "regulator protein for dgo operon" 28 1.3 → HI0078はcysteine tRNA syntetase Query= HI0083 hinf0 AAC21762.1 (71 letters) Score E Sequences producing significant alignments: (bits) Value ispB ecol0 AAC76219.1 "octaprenyl diphosphate synthase" 23 3.1 lplA ecol0 AAC77339.1 "lipoate-protein ligase A" 22 6.9 nlpA ecol0 AAC76684.1 "lipoprotein-28" 22 6.9 b1372 ecol0 AAC74454.1 "putative membrane protein" 22 6.9 mdaA ecol0 AAC73938.1 "modulator of drug activity A" 22 9.0 → HI0083は大腸菌にはホモログがない

参考文献 金久實 著 「ポストゲノム情報への招待」 (2001) 共立出版 金久實 著 「ポストゲノム情報への招待」 (2001) 共立出版 中村保一他編 「バイオデータベースとウェブツールの手とり足とり活用法 改訂第2版」 (2007) 羊土社  Arthur M.Lesk(岡崎康司、坊農秀雄 監訳)「バイオインフォマティクス基礎講義 一歩進んだ発想をみがくために」(2003), メディカル・サイエンス・インターナショナル D.W.Mount著、岡崎康司、坊農秀雄 監訳「バイオインフォマティクス – ゲノム配列から機能解析へ -」 第2版 メディカル・インターナショナル、2005年、11500円 阿久津達也 「バイオインフォマティクスの数理とアルゴリズム」(2007) 共立出版 R.Durbin 他著、阿久津達也他訳 「バイオインフォマティクス - 確率モデルによる遺伝子解析」医学出版、2001年、9800円 BLAST WEB page http://www.ncbi.nlm.nih.gov/BLAST/