奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
講義予定 9月5日 9月6日 9月7日 分子生物学概観 分子生物学データベース 配列アラインメント 実習1(データベース検索と配列アラインメント) 9月6日 モチーフ発見 隠れマルコフモデル カーネル法 進化系統樹推定 9月7日 タンパク質立体構造予測 相互作用推定 スケールフリーネットワーク 実習2(構造予測)
分子生物学概観 生物の特徴 DNAとRNA セントラルドグマ タンパク質
生物の特徴 自己増殖 恒常性維持 エネルギー変換 細胞をもつ 子孫を増やす 生体の内部や外部の変化にかかわらず、生体内の状態を一定に保つ 食べ物、酸素などの物質を取り入れ、生体を構成する物質やエネルギーに変える 細胞をもつ
DNA DNA (デオキシリボ核酸、 Deoxyribo Nucleic Acid) 鎖状の構造 糖(デオキシリボース)がリン酸によりつながれる 塩基(base)とよばれる部分構造の違いにより4種類 A (アデニン、Adenine) G (グアニン、Guanine) C (シトシン、Cytosine) T (チミン、Thymine) 通常は、逆方向の関係にある2本の鎖がらせん状に結合した二重らせん構造をとる
相補鎖・相補性 相補鎖 相補性 ハイブリダイゼーション 二重らせん構造の片方の鎖に対するもう1本の鎖 A と T, C と G のみが結合(相補対のみが結合) ハイブリダイゼーション 相補的な1本鎖が結合して2本鎖ができること ⇒ DNAの複製が可能
ゲノム ゲノム(genome) DNA配列 すでに数種類の真核生物、1000種類以上の原核生物のゲノム配列(DNA配列)が決定 ある生物のもつ全遺伝情報のことであり、もともとは抽象的な概念 実際には、遺伝情報を担う、ひと揃いのDNA配列を指すことが多い DNA配列 DNAをA, C, G, T の4種類の文字からなる文字列(配列)と解釈 すでに数種類の真核生物、1000種類以上の原核生物のゲノム配列(DNA配列)が決定 大腸菌 分裂 酵母 線虫 ショウジョウバエ イネ マウス チンパンジー ヒト ゲノムサイズ 500万 1400万 9600万 1億 1900万 3億 7100万 27億 3900万 28億 4300万 32億 5400万 遺伝子数 4411 6224 23590 16867 6718 23459 21824 26808 2006年2月時点でのデータ
RNA RNA (リボ核酸、Ribo Nucleic Acid) DNAとの違い RNAの種類(一部) T(チミン)のかわりにU(ウラシル, Uracil)を使用 通常は1本鎖の状態で(折り畳まって)存在 RNAの種類(一部) mRNA(メッセンジャーRNA):DNAに記されている配列情報が写し取られた結果として合成される rRNA(リボソームRNA):タンパク質合成が行われるリボソームの主要構成因子 tRNA(トランスファーRNA):タンパク質合成の際にアミノ酸をリボソームに輸送 非コードRNA(タンパク質に翻訳されないRNA) 重要な機能を担っているものが数多く存在(との報告) RNAゲノムを持つウィルスが存在
遺伝子とセントラルドグマ 遺伝子 セントラルドグマ DNA配列中でタンパク質に翻訳される部分 ただし、もともとは遺伝情報の基本単位という抽象的な概念 セントラルドグマ 遺伝情報は、 DNA⇒RNA⇒タンパク質 と伝わり発現 DNAに書かれた配列情報が、メッセンジャーRNAに転写され、さらに、その情報がタンパク質に翻訳されることにより発現 例外:逆転写酵素ではRNAからDNAへ情報が伝わる
遺伝子の発現 エキソン イントロン 転写制御領域(プロモータ、エンハンサー) 遺伝子中でタンパク質に翻訳される部分 遺伝子中でタンパク質に翻訳されない部分 転写制御領域(プロモータ、エンハンサー) 遺伝子のオンオフ(mRNAの生成量)を制御する領域
タンパク質の種類と役割 酵素:代謝反応(生体内化学反応)の触媒 細胞、器官、筋肉などを形成する主要構成要素 生体内の情報伝達物質 (e.g., シグナル伝達) 遺伝子発現の制御 (転写因子) 抗体:抗原に特異的に結合 し、免疫の一部を担う 栄養の貯蔵や輸送に関与
タンパク質とアミノ酸 構造 数十から数百個のアミノ酸の鎖(1本鎖) 20文字からなる文字列(アミノ酸配列、タンパク質配列)と解釈できる 名称 1文字記号 3文字記号 名称 1文字 記号 3文字 A Ala アラニン M Met メチオニン C Cys システイン N Asn アスパラギン D Asp アスパラギン酸 P Pro プロリン E Glu グルタミン酸 Q Gln グルタミン F Phe フェニルアラニン R Arg アルギニン G Gly グリシン S Ser セリン H His ヒスチジン T Thr トレオニン I Ile イソロイシン V Val バリン K Lys リジン W Trp トリプトファン L Leu ロイシン Y Tyr チロシン
アミノ酸 タンパク質の構成単位 タンパク質はアミノ酸がペプチド結合でつながった鎖 側鎖の違いにより20種類のアミノ酸
側鎖の例
遺伝暗号表 DNA3文字がアミノ酸1文字に対応 同じアミノ酸に複数のDNA3文字が対応するものが多い
アミノ酸の性質 疎水性(極性(電荷の偏り)を持たない) アラニン(A)、バリン(V)、フェニルアラニン(F)、プロリン(P)、メチオニン(M)、イソロイシン(I)、ロイシン(L)、トリプトファン(W) 親水性(極性を持つ) 電荷を持たない アスパラギン(N)、システイン(C)、グルタミン(Q)、セリン(S)、トレオニン(T)、チロシン(Y)、グリシン(G) 電荷を持つ 酸性 アスパラギン酸(D)、グルタミン酸(E) 塩基性 アルギニン(R)、ヒスチジン(H)、リジン(K) グリシンは疎水性に分類されることもある トリプトファンは親水性(電荷を持たない)に分類されることもある
タンパク質の種類と高次構造 タンパク質の分類 タンパク質の立体構造は機能と密接に関連 高次構造の分類 球状タンパク質 繊維状タンパク質 膜タンパク質 タンパク質の立体構造は機能と密接に関連 構造が類似ならば機能も類似 高次構造の分類 一次構造(アミノ酸配列) 二次構造(α、β、それ以外(ループ、コイル)) 三次構造(三次元構造、立体構造) 四次構造(複数の鎖)
タンパク質立体構造の特徴 基本的には鎖(ひも)状 二種類の特徴的な構造(二次構造)が頻繁に現れ、立体構造の骨格(コア)を作る αへリックス(らせん状の部分) βシート(ひも状の部分が並んだ部分)
構造とアミノ酸の種類の関係 (球状)タンパク質 αへリックス βストランド ループ領域 内側:疎水性アミノ酸 外側:親水性アミノ酸 内側:疎水性アミノ酸 外側:親水性アミノ酸 αへリックス 内側:疎水性 外側:親水性 βストランド 疎水性と親水性が交互に現れる ループ領域 親水性が高い
まとめ DNAは A, C, G, T、 RNAは A, C, G, U、タンパク質は20種類の文字からなる文字列と解釈できる セントラルドグマ DNAに書かれた遺伝情報は以下のようにして発現 DNA⇒転写⇒mRNA ⇒翻訳⇒タンパク質 タンパク質: 様々な種類があり、細胞の構成要素、代謝反応の触媒、情報伝達などの機能を持つ。また、DNAの一部の領域と結合することにより、タンパク質の生成量(遺伝子の発現量)を制御 タンパク質立体構造: 機能と密接に関連し、αへリックス、βシートとよばれる特徴的な部分構造が立体構造の骨格を形成 参考文献: 中村桂子、松原謙一監訳:細胞の分子生物学 第4版、Newton Press, 2004.
奈良女子大集中講義 バイオインフォマティクス (2) 分子生物学データベース 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
講義予定 9月5日 9月6日 9月7日 分子生物学概観 分子生物学データベース 配列アラインメント 実習1(データベース検索と配列アラインメント) 9月6日 モチーフ発見 隠れマルコフモデル カーネル法 進化系統樹推定 9月7日 タンパク質立体構造予測 相互作用推定 スケールフリーネットワーク 実習2(構造予測)
分子生物学データベース DNA配列、タンパク質立体構造などの分子生物学関連データは膨大 ⇒ データベースの作成の必要性 データベースのほとんどは公開され、 インターネットを通じて(アカデミックであれば)無料で利用可能 基本的にはすべてのデータはフラットファイル形式で記載(ただし、XMLなどに移行しつつある) キーワードや類似配列などによる検索機能を提供 大きく2種類に分かれる(ただし、境界はあいまい) 1次データ(生データ)を格納するDB 2次データ(解析結果)を格納するDB
分子生物学データベースの例 主なデータ 名称 アドレス DNA配列 GenBank www.ncbi.nlm.nih.gov EMBL www.ebi.ac.jp DDBJ www.ddbj.nig.ac.jp タンパク質配列 UniProt タンパク質立体構造 PDB www.rcsb.org 化合物 PubChem pubchem.ncbi.nlm.nih.gov LIGAND www.genome.jp/ligand 文献 MEDILINE www.nlm.nih.gov モチーフ PROSITE www.expasy.org/prosite Pfam pfam.wustl.edu タンパク質配列分類 COG www.ncbi.nlm.nih.gov/COG 立体構造分類 SCOP scop.mrc-lmb.cam.ac.uk/scop 代謝ネットワーク KEGG www.genome.jp/kegg タンパク質相互作用 DIP dip.doe-mbi.ucla.edu