バイオインフォマティクス研修 会 ゲノム配列解析および機能解析
全体の流れ サンプル DNA ↓ シーケンシング シーケンスリード (fastq ファイル ) ↓ アセンブル コンティグ / スキャフォルド ↓ 遺伝子予測 遺伝子塩基配列 ↓ 翻訳 遺伝子アミノ酸配列 ↓ 類似配列データベース検索 機能予測 本日の演習はここから 見つかった遺伝子をタンパク質立体構 造データベース (PDB) から探して立体構 造を 表示させる。
ショットガンシーケンシング 染色体 DNA ↓ 水流などでランダムに断片 化 ↓ 特定の長さの断片のみを回収 ↓ 断片の末端を 250 塩基ずつだけ解読 ショートリー ド 断片化 DNA
ゲノムアセンブリ ↓ 同じ部分配列をのりしろとしてリードを繋ぎ合わせる ↓ 間の配列が読まれていなくても橋渡しされていれば並 べる ショートリー ド コンティ グ スキャフォル ド 理想的には元のゲノム配列全長を復元でき る (いつもそううまくいくとは限 らない?)
作業の準備.1 必要なファイルはここにあります ブラウザに URL を貼り付けて、各自ファイルをダウンロードしてください。 ショートリードの fastq ファイル。 P1 と P2 がペアになっている。 タブレット(アセンブル結果表示ソフ ト) velvet ( アセンブラ ) 。 velvet.cmd はなくてもよい。 contig から遺伝子配列を切り出すためのプログラム } }
基本的な UNIX コマンド コマンドの例 : ls ファイルやディレクトリ ( フォルダ ) のリストを表示。 pwd カレントディレクトリ ( 今注目しているディレクトリ ) の絶対パス ( 住所 ) を表示。 cd カレントディレクトリを変更。 cd Desktop“Desktop” というディレクトリに移動 cd.. 親ディレクトリ ( ひとつ上の階層のディレクトリ ) に 移動 cd ~ 自分のホームディレクトリに移動 (= cd) less テキストファイルの内容を表示。 less P1_10k.fq 等とファイルを指定す る。 実行後は、 [enter] で 1 行送り、 [B] で 1 行戻し、 [space] で 1 画面送り、 [Q] で終了。 コマンドの打ち間違い等で反応しなくなっても、 [control]+[C] で強制終了できる。 画面下の「ターミナル」をクリックするとコマンドライン が現れる。 Mac ではほとんどの UNIX コマンドを実行可能。
タブレット「 tablet_macos_1_14_04_10.dmg 」はインストールが必要です。 ダブルクリックして進めて行き、インストール先には /Applications ではなく 自分のホームディレクトリを指定してください。 ホームディレクトリはコマンドラインで cd pwd と打てば表示されます。それを copy&paste してください。 その他のファイルは Downloads ディレクトリにありますので全てホームディレクトリへ 移します。 mv Downloads/*. とコマンドを打つ(警告は無視)か、マウス操作で移動させてください。 extract, velvetg, velveth はプログラムですので予め実行可能の印を付けておきます。 chmod u+x extract velvetg velveth この時点でメッセージは出ませんが、./extract 等と打って使用方法の英文が出てくれば成功です。 作業の準備.2
ショートリード (fastq ファイル 1:N:0:1 TTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTT ACTAAAATGCAACTGGACAATCAGAAA + CCCCCCCCCCCCGGGGGGGGGGHHGHHHHHHHHHHHHHHHHHHGHHGGGGGGGGHHHGHHHHHHHHHG 1:N:0:1 TCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACT TCATGCAGCGTTACCATGATGTTA + FFB/FCBGFB;0FBFB0FBFFF?GEGGGFEFFFBFBBC0HHGFFHHFCHHEGHHGHHGHHHGGHHHGHHHGHFHG 1:N:0:1 ATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGG TATATGCACAAAATGAGATGCTTGCTT + CCDEEFFFFFFFGGGGGGGGGGGHHHHHHHHHGHHHHHHHHGGGGGGGGHHHHHGGGHHHHHHGHGGHH HHHGHHHHHHHHHHHHHHHHHHHHHHHHHHH 塩基配列 クォリ ティ リード ID PC の文字コード | | | | | | !"#$%&'()*+,-./ :; LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL | | | | クォリティ (QV) L - Illumina 1.8+ Phred+33, raw reads typically (0, 41) 例 ) ある塩基の QV が「 H 」なら、 H→39 な ので、 エラー率 p = 10^(-3.9) ≒ 1/8000 その塩基は 8000 個に 1 個の確率で 誤りであるということを表している。 クォリティ QV = -10 log ( エラー率 p) 数字が大きいほどエラー率が低い (= 正確 ) コマンド less P1_10k.fq や less P2_10k.fq で中身を見ることができる。
ゲノムアセンブリ Velvet アセンブラ(無償ソフトウェア)を用いる。 Velvet は velveth と velvetg の2つのプログラムから成っている。 velveth : リードを細分化して「のりしろ」のリストを準備する。 velvetg : 「のりしろ」を繋ぎ合わせて長いコンティグやスキャフォルドを作る。./velveth asm fastq -shortPaired –separate P1_10k.fq P2_10k.fq./velvetg asm201 -scaffolding yes -exp_cov auto -amos_file yes 結果が書き出された asm201 ディレクトリに入るには cd asm201 と打つ。戻るには cd.. 。 ls コマンドでファイルの一覧が表示される。 ここで重要なファイルは、 contigs.fa : コンティグ配列 velvet_asm.afg : リードアライメント ( コンティグの構成リードを 1 本 1 本重ね合わせた もの ) リード 結果の保存先のりしろの長 さ
アライメントビューワ tablet を用いてアライメント ( リードの重なり ) を確認する。 これをダブルクリック またはコマンド open ~/Tablet.app で実 行 読み込むファイルは、 asm201 内の velvet_asm.afg 見たい contig を選択。 今回は1つしかない。 ソフトウェアにバグがあり、 最初の部分だけデタラメに見える (アライメントされなかった仲間 外れの リードが表示されてしまう)
リードアライメント 概要表示から 見たい部分を押せば フォーカスが移動する スクロールバー ズームの調整や Variants ( エラー ) の強調 コンティグは多数のリードから成って いる コンティグ構築の際には、多数決で塩基が決定され る。 よく見ると所々に誤りが … 欠失エ ラー 置換エ ラー
コンティグ配列 >NODE_1_length_5386_cov_ CTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCT TCTGGTGATTTGCAAG AACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAG TCCGTTCAGTTGTTGC AGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATC TGCCGACCACTCGCG ATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAA CGCCGAAGCGGTAAA AATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCG GTAGGTTTTCTGCTTAG GCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCC TGCTTATCACCTTCTT GAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCA AGAACGCGTACTTATT CGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTT GCAGTGGAATAGTCAG GTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCG CGATTCAATCATGACT TCGTga less contigs.fa と打てば表示される。 カバレッジ ( 平均して何本のリードが重なっている か ) コンティグ番 号 配列の長さ > から始まる行 ( ヘッダ ) に配列の情報が書かれている。 今回は長さ 5,386 bp のコンティグ 1 本にまで全長が繋がっ た。 小文字はクォリティが低い塩基。
遺伝子予測 Glimmer 3.02 (無償ソフトウェア)のウェブ版を用いて、コンティグ配列上から遺伝子を探 す。 ここを押して実行 contigs.fa ファイルを指定。 または contigs.fa 内の塩基配列を ここに copy&paste してもよい。
遺伝子配列の切り出し contigs.fa から遺伝子領域を切り出すには、 ~/extract ~/asm201/contigs.fa ~/orf.txt > ~/nuc.txt とコマンドを打つ。 nuc.txt に各遺伝子の塩基配列が保存される。 nuc.txt の内容を見るには less nuc.txt orf から始まるすべての行を テキストエディットに copy&paste する。 フォーマットを標準テキストに変更してから、 [command] + [S] で保存する。 保存場所はホームディレクトリに。 ([command] + [shift] + [H]) ファイル名は orf.txt とする。 GLIMMER (ver. 3.02; iterated) predictions: orfID start end frame score >NODE_1_length_5386_cov_ orf orf orf orf orf orf orf 見つかった遺伝子の位置と方向だけが書かれている。 それを元にコンティグから切り出す必要がある。 >orf len=204 GTgaCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGC CTTCTGGTGATTTG CAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTC CAGTCCGTTCAGTTG TTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCA ATCTGCCGACCACT CGCGATTCAATCATGACTTCGTGA >orf len=528 ATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGA TAAGCTGGTTCTC ACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTA AAGCTACATCGTCA ACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTT TTCTTCATTGCATT
European Bioinformatics Institute (EBI) のサービスを用いる。 塩基配列からアミノ酸配列への翻訳 ここを押して 実 行 nuc.txt を指定する。 または遺伝子の塩基配列を copy&paste 。 今回は Bacterial が望ましいが、 Standard のままでも問題ない。 結果のアミノ酸配列はテキストエディットに貼り付 けて、 protein.txt として保存。 >orf00001_ len=204 VTYHLLEGFPFIQEPPSGDLQERVLIRHHDYDQCFQSVQLLQWNSQ VKFNVTVYRNLPTT RDSIMTS* >orf00002_ len=528 MFQTFISRHNSNFFSDKLVLTSVTPASSAPVLQTPKATSSTLYFDSLT VNAGNGGFLHCI QMDTSVNAANQVVSVGADIAFDADPKFFACLVRFESSSVPTTLPTAY DVYPLDGRHDGGY YTVKDCVTIDVLPRTPGNNVYVGFMVWSNFTATKCRGLVSLNQVIKE IICLQPLK* >orf00004_ len=987 MFGAIAGGIASALAGGAMSKLFGGGQKAASGGIQGDVLATDNNTVG MGDAGIKSAIQGSN VPNPDEAVPSFVSGAMAKAGKGLLEGTLQAGTSAVSDKLLDLVGLG GKSAADKGKDTRDY コドン 表
NCBI の BLAST ( ウェブ版 ) を用いる 配列相同性検索 ( 機能予測 ) ここを押して実行。 しばらく時間がかかる。 アミノ酸配列の一つを貼り付ける。 まずは len=987 の配列を選んだ。 (987 とは塩基配列の長さであり、 アミノ酸配列長としては 1/3 の 329 残基であ る ) nr は報告されている全生物種 全タンパク質の配列を集めた データベース。
検索結果.1 スクロールしていくと 詳細の記述がある。 Microvir_H という機能ドメインに似ている。 既知配列と似ている領域が図示されている。 ほぼ全長にわたって高い類似性を持つ配列が、 データベース内に多数あるということを示し ている。
検索結果.2 minor spike protein H ファージがバクテリアに感染するときに突き刺す注射針の 役目 今回シーケンサーで読んだ生物は、このバクテリオファージ phiX174 。 ファージはバクテリアにだけ感染するウィルスの一種なので、 それ以外の様々なバクテリアからもファージ由来の遺伝子が検出さ れる。 [] 内に生物種が書かれている。 ここに挙がっているのはほとんどがバクテ リア データベースから見つかった類似配列が、似ている順に並べられている。
検索結果.3 アライメント データベース上の配列に 全長が完全一致 ! 「 Minor spike protein 」 であることに間違いなさそ う。 今回は完全一致だったが、 30% 程度以上合っていれば 同じ機能を持つことが多い。 入力配列 データベースから 見つかった配列
NCBI の BLAST ( ウェブ版 ) を用いる 配列相同性検索 ( 機能予測 ) ここを押して実行。 アミノ酸配列の一つを貼り付ける。 len=1284 の配列を選んだ。 ( アミノ酸配列としては 1/3 の 426 残基に相当 ) capsid というファージやウイルスの 殻となるタンパク質がヒットする。
Protein Data Bank (PDB) タンパク質立体構造データベー ス capsid phix174 と入力。 全部で 9 個が登録されている。 最も古い 1991 年の構造 (2BPA) を見てみる。 タンパク質を結晶化して X 線回折によって解かれた構造で ある。
ファージ phiX174 の構造 概観のサムネイル。 capsid が 60 個組み合わさって、 正 20 面体を構成している。 12 個の頂点から突き出た角は、 G タンパク質および H タンパク質 から できている。 ここを押すとより詳細に 見ることができる。 (少し時間がかかる)
ファージ phiX174 の構造 マウス操作で拡大・縮小・回 転ができる。 Asymmetric Unit を選べば 個々の部品だけを見ることがで きる。 正 20 面体
ファージ phiX174 の構造 β シート α ヘリックス 大きい方の β シートが capsid 。小さい方は major spike 。 ヘリックスや細い白線の大部分は橋渡しタンパク質。
ファージが感染する瞬間の電顕写 真 Nature 505, 432–435 (16 January 2014) 実際にスパイクを突き刺している様子が観察されて いる