バイオインフォマティクス研修会ゲノム配列解析および機能解析 2014.08.07. 全体の流れサンプル DNA ↓ シーケンシングシーケンスリード (fastq ファイル ) ↓ アセンブルコンティグ / スキャフォルド ↓ 遺伝子予測遺伝子塩基配列 ↓ 翻訳遺伝子アミノ酸配列 ↓ 類似配列データベース検索.

バイオインフォマティクス研修会ゲノム配列解析および機能解析 2014.08.07

全体の流れサンプル DNA ↓ シーケンシングシーケンスリード (fastq ファイル ) ↓ アセンブルコンティグ / スキャフォルド ↓ 遺伝子予測遺伝子塩基配列 ↓ 翻訳遺伝子アミノ酸配列 ↓ 類似配列データベース検索機能予測本日の演習はここから見つかった遺伝子をタンパク質立体構造データベース (PDB) から探して立体構造を表示させる。

ショットガンシーケンシング染色体 DNA ↓ 水流などでランダムに断片化 ↓ 特定の長さの断片のみを回収 ↓ 断片の末端を 250 塩基ずつだけ解読ショートリード断片化 DNA

ゲノムアセンブリ ↓ 同じ部分配列をのりしろとしてリードを繋ぎ合わせる ↓ 間の配列が読まれていなくても橋渡しされていれば並べるショートリードコンティグスキャフォルド理想的には元のゲノム配列全長を復元できる（いつもそううまくいくとは限らない？）

作業の準備.1 必要なファイルはここにあります https://archive.iii.kyushu-u.ac.jp/public/LXTkAARII05AftUBucxHdxakaWn1UpLzfLejV5-Tb9p7 ブラウザに URL を貼り付けて、各自ファイルをダウンロードしてください。ショートリードの fastq ファイル。 P1 と P2 がペアになっている。タブレット（アセンブル結果表示ソフト） velvet ( アセンブラ ) 。 velvet.cmd はなくてもよい。 contig から遺伝子配列を切り出すためのプログラム } }

基本的な UNIX コマンドコマンドの例 : ls ファイルやディレクトリ ( フォルダ ) のリストを表示。 pwd カレントディレクトリ ( 今注目しているディレクトリ ) の絶対パス ( 住所 ) を表示。 cd カレントディレクトリを変更。 cd Desktop“Desktop” というディレクトリに移動 cd.. 親ディレクトリ ( ひとつ上の階層のディレクトリ ) に移動 cd ~ 自分のホームディレクトリに移動 (= cd) less テキストファイルの内容を表示。 less P1_10k.fq 等とファイルを指定する。実行後は、 [enter] で 1 行送り、 [B] で 1 行戻し、 [space] で 1 画面送り、 [Q] で終了。コマンドの打ち間違い等で反応しなくなっても、 [control]+[C] で強制終了できる。画面下の「ターミナル」をクリックするとコマンドラインが現れる。 Mac ではほとんどの UNIX コマンドを実行可能。

タブレット「 tablet_macos_1_14_04_10.dmg 」はインストールが必要です。ダブルクリックして進めて行き、インストール先には /Applications ではなく自分のホームディレクトリを指定してください。ホームディレクトリはコマンドラインで cd pwd と打てば表示されます。それを copy&paste してください。その他のファイルは Downloads ディレクトリにありますので全てホームディレクトリへ移します。 mv Downloads/*. とコマンドを打つ（警告は無視）か、マウス操作で移動させてください。 extract, velvetg, velveth はプログラムですので予め実行可能の印を付けておきます。 chmod u+x extract velvetg velveth この時点でメッセージは出ませんが、./extract 等と打って使用方法の英文が出てくれば成功です。作業の準備.2

ショートリード (fastq ファイル ) @M01347:38:000000000-A55N6:1:1101:12076:6805 1:N:0:1 TTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTT ACTAAAATGCAACTGGACAATCAGAAA + CCCCCCCCCCCCGGGGGGGGGGHHGHHHHHHHHHHHHHHHHHHGHHGGGGGGGGHHHGHHHHHHHHHG GHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH @M01347:38:000000000-A55N6:1:1101:8798:6836 1:N:0:1 TCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACT TCATGCAGCGTTACCATGATGTTA + FFB/FCBGFB;0FBFB0FBFFF?GEGGGFEFFFBFBBC0HHGFFHHFCHHEGHHGHHGHHHGGHHHGHHHGHFHG HEHFHDGDCGHHHGHGHHHHFGHHH @M01347:38:000000000-A55N6:1:1101:10079:6918 1:N:0:1 ATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGG TATATGCACAAAATGAGATGCTTGCTT + CCDEEFFFFFFFGGGGGGGGGGGHHHHHHHHHGHHHHHHHHGGGGGGGGHHHHHGGGHHHHHHGHGGHH HHHGHHHHHHHHHHHHHHHHHHHHHHHHHHH 塩基配列クォリティリード ID PC の文字コード 33 59 64 73 104 126 | | | | | | !"#$%&'()*+,-./0123456789:; ?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... | | | | 0.2......................26...31........41 クォリティ (QV) L - Illumina 1.8+ Phred+33, raw reads typically (0, 41) 例 ) ある塩基の QV が「 H 」なら、 H→39 なので、エラー率 p = 10^(-3.9) ≒ 1/8000 その塩基は 8000 個に 1 個の確率で誤りであるということを表している。クォリティ QV = -10 log ( エラー率 p) 数字が大きいほどエラー率が低い (= 正確 ) コマンド less P1_10k.fq や less P2_10k.fq で中身を見ることができる。

ゲノムアセンブリ Velvet アセンブラ（無償ソフトウェア）を用いる。 Velvet は velveth と velvetg の２つのプログラムから成っている。 velveth : リードを細分化して「のりしろ」のリストを準備する。 velvetg : 「のりしろ」を繋ぎ合わせて長いコンティグやスキャフォルドを作る。./velveth asm201 201 -fastq -shortPaired –separate P1_10k.fq P2_10k.fq./velvetg asm201 -scaffolding yes -exp_cov auto -amos_file yes 結果が書き出された asm201 ディレクトリに入るには cd asm201 と打つ。戻るには cd.. 。 ls コマンドでファイルの一覧が表示される。ここで重要なファイルは、 contigs.fa : コンティグ配列 velvet_asm.afg : リードアライメント ( コンティグの構成リードを 1 本 1 本重ね合わせたもの ) リード結果の保存先のりしろの長さ

アライメントビューワ tablet を用いてアライメント ( リードの重なり ) を確認する。これをダブルクリックまたはコマンド open ~/Tablet.app で実行読み込むファイルは、 asm201 内の velvet_asm.afg 見たい contig を選択。今回は１つしかない。ソフトウェアにバグがあり、最初の部分だけデタラメに見える（アライメントされなかった仲間外れのリードが表示されてしまう）

リードアライメント概要表示から見たい部分を押せばフォーカスが移動するスクロールバーズームの調整や Variants ( エラー ) の強調コンティグは多数のリードから成っているコンティグ構築の際には、多数決で塩基が決定される。よく見ると所々に誤りが … 欠失エラー置換エラー

コンティグ配列 >NODE_1_length_5386_cov_122.646118 CTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCT TCTGGTGATTTGCAAG AACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAG TCCGTTCAGTTGTTGC AGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATC TGCCGACCACTCGCG ATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAA CGCCGAAGCGGTAAA AATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCG GTAGGTTTTCTGCTTAG GCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCC TGCTTATCACCTTCTT GAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCA AGAACGCGTACTTATT CGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTT GCAGTGGAATAGTCAG GTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCG CGATTCAATCATGACT TCGTga less contigs.fa と打てば表示される。カバレッジ ( 平均して何本のリードが重なっているか ) コンティグ番号配列の長さ > から始まる行 ( ヘッダ ) に配列の情報が書かれている。今回は長さ 5,386 bp のコンティグ 1 本にまで全長が繋がった。小文字はクォリティが低い塩基。

遺伝子予測 Glimmer 3.02 （無償ソフトウェア）のウェブ版を用いて、コンティグ配列上から遺伝子を探す。 http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi ここを押して実行 contigs.fa ファイルを指定。または contigs.fa 内の塩基配列をここに copy&paste してもよい。

遺伝子配列の切り出し contigs.fa から遺伝子領域を切り出すには、 ~/extract ~/asm201/contigs.fa ~/orf.txt > ~/nuc.txt とコマンドを打つ。 nuc.txt に各遺伝子の塩基配列が保存される。 nuc.txt の内容を見るには less nuc.txt orf から始まるすべての行をテキストエディットに copy&paste する。フォーマットを標準テキストに変更してから、 [command] + [S] で保存する。保存場所はホームディレクトリに。 ([command] + [shift] + [H]) ファイル名は orf.txt とする。 GLIMMER (ver. 3.02; iterated) predictions: orfID start end frame score -------- ----- ----- -- ----- >NODE_1_length_5386_cov_122.646118 orf00001 5583 200 +3 5.68 orf00002 311 838 +2 11.73 orf00004 847 1833 +1 9.11 orf00007 1870 3438 +1 6.85 orf00009 3692 4150 +2 3.82 orf00010 4150 4266 +1 5.41 orf00011 4303 5586 +1 11.84 見つかった遺伝子の位置と方向だけが書かれている。それを元にコンティグから切り出す必要がある。 >orf00001 5583 200 len=204 GTgaCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGC CTTCTGGTGATTTG CAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTC CAGTCCGTTCAGTTG TTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCA ATCTGCCGACCACT CGCGATTCAATCATGACTTCGTGA >orf00002 311 838 len=528 ATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGA TAAGCTGGTTCTC ACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTA AAGCTACATCGTCA ACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTT TTCTTCATTGCATT

European Bioinformatics Institute (EBI) のサービスを用いる。 http://www.ebi.ac.uk/Tools/st/emboss_transeq 塩基配列からアミノ酸配列への翻訳ここを押して実行 nuc.txt を指定する。または遺伝子の塩基配列を copy&paste 。今回は Bacterial が望ましいが、 Standard のままでも問題ない。結果のアミノ酸配列はテキストエディットに貼り付けて、 protein.txt として保存。 >orf00001_1 5583 200 len=204 VTYHLLEGFPFIQEPPSGDLQERVLIRHHDYDQCFQSVQLLQWNSQ VKFNVTVYRNLPTT RDSIMTS* >orf00002_1 311 838 len=528 MFQTFISRHNSNFFSDKLVLTSVTPASSAPVLQTPKATSSTLYFDSLT VNAGNGGFLHCI QMDTSVNAANQVVSVGADIAFDADPKFFACLVRFESSSVPTTLPTAY DVYPLDGRHDGGY YTVKDCVTIDVLPRTPGNNVYVGFMVWSNFTATKCRGLVSLNQVIKE IICLQPLK* >orf00004_1 847 1833 len=987 MFGAIAGGIASALAGGAMSKLFGGGQKAASGGIQGDVLATDNNTVG MGDAGIKSAIQGSN VPNPDEAVPSFVSGAMAKAGKGLLEGTLQAGTSAVSDKLLDLVGLG GKSAADKGKDTRDY コドン表

NCBI の BLAST ( ウェブ版 ) を用いる http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome 配列相同性検索 ( 機能予測 ) ここを押して実行。しばらく時間がかかる。アミノ酸配列の一つを貼り付ける。まずは len=987 の配列を選んだ。 (987 とは塩基配列の長さであり、アミノ酸配列長としては 1/3 の 329 残基である ) nr は報告されている全生物種全タンパク質の配列を集めたデータベース。

検索結果.1 スクロールしていくと詳細の記述がある。 Microvir_H という機能ドメインに似ている。既知配列と似ている領域が図示されている。ほぼ全長にわたって高い類似性を持つ配列が、データベース内に多数あるということを示している。

検索結果.2 minor spike protein H ファージがバクテリアに感染するときに突き刺す注射針の役目今回シーケンサーで読んだ生物は、このバクテリオファージ phiX174 。ファージはバクテリアにだけ感染するウィルスの一種なので、それ以外の様々なバクテリアからもファージ由来の遺伝子が検出される。 [] 内に生物種が書かれている。ここに挙がっているのはほとんどがバクテリアデータベースから見つかった類似配列が、似ている順に並べられている。

検索結果.3 アライメントデータベース上の配列に全長が完全一致 ! 「 Minor spike protein 」であることに間違いなさそう。今回は完全一致だったが、 30% 程度以上合っていれば同じ機能を持つことが多い。入力配列データベースから見つかった配列

NCBI の BLAST ( ウェブ版 ) を用いる http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome 配列相同性検索 ( 機能予測 ) ここを押して実行。アミノ酸配列の一つを貼り付ける。 len=1284 の配列を選んだ。 ( アミノ酸配列としては 1/3 の 426 残基に相当 ) capsid というファージやウイルスの殻となるタンパク質がヒットする。

Protein Data Bank (PDB) http://www.rcsb.org/pdb/home/home.do タンパク質立体構造データベース capsid phix174 と入力。全部で 9 個が登録されている。最も古い 1991 年の構造 (2BPA) を見てみる。タンパク質を結晶化して X 線回折によって解かれた構造である。

ファージ phiX174 の構造概観のサムネイル。 capsid が 60 個組み合わさって、正 20 面体を構成している。 12 個の頂点から突き出た角は、 G タンパク質および H タンパク質からできている。ここを押すとより詳細に見ることができる。（少し時間がかかる）

ファージ phiX174 の構造マウス操作で拡大・縮小・回転ができる。 Asymmetric Unit を選べば個々の部品だけを見ることができる。正 20 面体

ファージ phiX174 の構造 β シート α ヘリックス大きい方の β シートが capsid 。小さい方は major spike 。ヘリックスや細い白線の大部分は橋渡しタンパク質。

ファージが感染する瞬間の電顕写真 Nature 505, 432–435 (16 January 2014) 実際にスパイクを突き刺している様子が観察されている

Similar presentations

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Similar presentations

Similar presentations

About project

フィードバック