バイオインフォマティクス研修 会 ゲノム配列解析および機能解析 2014.08.07. 全体の流れ サンプル DNA ↓ シーケンシング シーケンスリード (fastq ファイル ) ↓ アセンブル コンティグ / スキャフォルド ↓ 遺伝子予測 遺伝子塩基配列 ↓ 翻訳 遺伝子アミノ酸配列 ↓ 類似配列データベース検索.

Slides:



Advertisements
Similar presentations
1 実技演習1 2008/01/28,29 JaLTER Morpho 講習会. 2 起動・接続 各自、コンピュータを起動してネットワーク に接続してください。 各自、コンピュータを起動してネットワーク に接続してください。 IP アドレス自動取得 IP アドレス自動取得 無線 LAN 使用可 無線.
Advertisements

情報処理 第9回第9回第9回第9回. 今日の内容 Excel の起動と画面構成 –Excel の起動 –Excel の画面構成と基本用語 データの入力 – 文字の入力 – 数値の入力 – 日時の入力 – オートフィル.
情報処理 第9回第9回第9回第9回. 今日の内容 Excel の起動と画面構成 –Excel の起動 –Excel の画面構成と基本用語 データの入力 – 文字の入力 – 数値の入力 – 日時の入力 – オートフィル.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
コンピュータ演習 Excel 入門 岡田孝・山下雅啓 Excel の機能は膨大 その中のごく一部を紹介 表計算機能 – データの入力、表の作成、計算など グラフ機能 – 棒グラフ、円グラフなどグラフ作成 データベース機能 – 並べ替え(ソート)、検索、抽出など マクロ機能 – VBA で自動化したマクロを作成可能.
RitsPen 2.0 起動方法 CentOS を 例にして. CentOS を起動した状態 RitsPen がインストールしておく.デスクトップに ritspen というフォルダがあるはず.
T2V 技術 Web 製作ラボ 3/ hayashiLabo 2. T2V 技術 PC 操作 念のため・・・
ICT Foundation 1 Copyright © 2010 、 IT Gatekeeper Project – Ohiwa Lab. All rights reserved. ファイルとディレクトリ の操作.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
BBT 大学 Ruby on Rails 開発環境セットアップマニュアル Mac 版 1.1 最終更新日: 2013/1/5.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
奈良女子大集中講義 バイオインフォマティクス (3) 配列アラインメント
情報基礎演習I(プログラミング) 第9回 6月22日 水曜5限 江草由佳
7-1.WEKOコンテンツ 一括登録 マニュアル Version2.5
実習1:コマンドシェルの使い方.
エクセル(1)の目次 起動法、ブック、シート、セル ブックの開き方 エクセル画面 マウスポインターの種類 シート数の調節 データの入力法
UNIX利用法.
UNIX利用法 情報ネットワーク特論資料.
知能機械工学科 担当:長谷川晶一 TA:新・後藤・ナンバ
情報処理 第8回.
植物系統分類学・第13回 分子系統学の基礎と実践
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
情報処理 第7回.
Unix生活 Vol.1
らくらく学校連絡網 スライドショーで見る操作ガイド -3- 登録 抜粋-管理者作業 escで中断、リターンキーで進みます
第3回 ファイルとフォルダ 伊藤 高廣 計算機リテラシーM 第3回 ファイルとフォルダ 伊藤 高廣
物理学情報処理演習 2. UNIX 補足自習用テキスト.
コンピュータリテラシー 第3回授業の復習 基本的なUNIXコマンド
Imagio カンタン文書登録V2 画面シミュレーション.
デジタルポートフォリオ作成支援ツール PictFolio 使用マニュアル
Excel による データベース入門 Ver /9.
エクセル(1)の目次 起動法、ブック、シート、セル ブックの開き方 エクセル画面 マウスポインターの種類 シート数の調節 データの入力法
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
第13回授業(7/10-1) での学習内容 6月19日に宿題にした平均値の差の検定結果、及び7月3日の授業で実習した同検定結果のウェブ上での検算のやり方を学習する。 この検算の宿題は、春期定期試験の時に、今日渡す2枚目の出欠表の裏に授業中の手計算による結果と比較して、手計算の結果が正しかったかを報告する。
生命情報学入門 タンパク質立体構造予測演習2011年5月31日
第5回授業(5/08) の目標 第1章のウェブ上での宿題のやり方の続き(ここまでで、終了)。
キャンパスクラウドによる 実験環境の構築 情報ネットワーク特論 講義資料.
ファイルシステムとコマンド.
F5 を押すか、または [スライド ショー] > [最初から] をクリックして、コースを開始してください。
文字化けの背景を知る.
EBSCOhost 詳細検索 チュートリアル support.ebsco.com.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
情報処理概論Ⅰ 2007 第4回 2018/11/30 情報処理概論Ⅰ 第4回.
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
キャンパスクラウドによる 実験環境の構築 情報ネットワーク特論 講義資料.
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
3.1 PowerPoint の概要 PowerPointを使ってできること
コンピュータ プレゼンテーション.
1 Macの基本操作 1-6 フォルダとファイルの操作(1/6) (1)USBメモリの接続
スイッチを入れる前に… 講習を受けていない人は、まだスイッチを入れないこと。 まず講習を受けてセットアップを行ってください 注意.
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
UNIX演習 情報ネットワーク特論.
コンピュータ プレゼンテーション.
植物系統分類学・第14回 分子系統学の基礎と実践
環境システム科学演習(後半) FORTRAN & C(以降FORTRANと省略して呼びます)は富士通
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
UNIX演習 情報ネットワーク特論資料.
UNIX演習 情報ネットワーク特論資料.
UNIX演習 情報ネットワーク特論資料.
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
表計算 Excel 演習 1.Excel を使ってみる.
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
プログラミング入門2 第13回、14回 総合演習 情報工学科 篠埜 功.
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
情報処理Ⅱ 2007年12月3日(月) その1.
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

バイオインフォマティクス研修 会 ゲノム配列解析および機能解析

全体の流れ サンプル DNA ↓ シーケンシング シーケンスリード (fastq ファイル ) ↓ アセンブル コンティグ / スキャフォルド ↓ 遺伝子予測 遺伝子塩基配列 ↓ 翻訳 遺伝子アミノ酸配列 ↓ 類似配列データベース検索 機能予測 本日の演習はここから 見つかった遺伝子をタンパク質立体構 造データベース (PDB) から探して立体構 造を 表示させる。

ショットガンシーケンシング 染色体 DNA ↓ 水流などでランダムに断片 化 ↓ 特定の長さの断片のみを回収 ↓ 断片の末端を 250 塩基ずつだけ解読 ショートリー ド 断片化 DNA

ゲノムアセンブリ ↓ 同じ部分配列をのりしろとしてリードを繋ぎ合わせる ↓ 間の配列が読まれていなくても橋渡しされていれば並 べる ショートリー ド コンティ グ スキャフォル ド 理想的には元のゲノム配列全長を復元でき る (いつもそううまくいくとは限 らない?)

作業の準備.1 必要なファイルはここにあります ブラウザに URL を貼り付けて、各自ファイルをダウンロードしてください。 ショートリードの fastq ファイル。 P1 と P2 がペアになっている。 タブレット(アセンブル結果表示ソフ ト) velvet ( アセンブラ ) 。 velvet.cmd はなくてもよい。 contig から遺伝子配列を切り出すためのプログラム } }

基本的な UNIX コマンド コマンドの例 : ls ファイルやディレクトリ ( フォルダ ) のリストを表示。 pwd カレントディレクトリ ( 今注目しているディレクトリ ) の絶対パス ( 住所 ) を表示。 cd カレントディレクトリを変更。 cd Desktop“Desktop” というディレクトリに移動 cd.. 親ディレクトリ ( ひとつ上の階層のディレクトリ ) に 移動 cd ~ 自分のホームディレクトリに移動 (= cd) less テキストファイルの内容を表示。 less P1_10k.fq 等とファイルを指定す る。 実行後は、 [enter] で 1 行送り、 [B] で 1 行戻し、 [space] で 1 画面送り、 [Q] で終了。 コマンドの打ち間違い等で反応しなくなっても、 [control]+[C] で強制終了できる。 画面下の「ターミナル」をクリックするとコマンドライン が現れる。 Mac ではほとんどの UNIX コマンドを実行可能。

タブレット「 tablet_macos_1_14_04_10.dmg 」はインストールが必要です。 ダブルクリックして進めて行き、インストール先には /Applications ではなく 自分のホームディレクトリを指定してください。 ホームディレクトリはコマンドラインで cd pwd と打てば表示されます。それを copy&paste してください。 その他のファイルは Downloads ディレクトリにありますので全てホームディレクトリへ 移します。 mv Downloads/*. とコマンドを打つ(警告は無視)か、マウス操作で移動させてください。 extract, velvetg, velveth はプログラムですので予め実行可能の印を付けておきます。 chmod u+x extract velvetg velveth この時点でメッセージは出ませんが、./extract 等と打って使用方法の英文が出てくれば成功です。 作業の準備.2

ショートリード (fastq ファイル 1:N:0:1 TTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTT ACTAAAATGCAACTGGACAATCAGAAA + CCCCCCCCCCCCGGGGGGGGGGHHGHHHHHHHHHHHHHHHHHHGHHGGGGGGGGHHHGHHHHHHHHHG 1:N:0:1 TCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACT TCATGCAGCGTTACCATGATGTTA + FFB/FCBGFB;0FBFB0FBFFF?GEGGGFEFFFBFBBC0HHGFFHHFCHHEGHHGHHGHHHGGHHHGHHHGHFHG 1:N:0:1 ATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGG TATATGCACAAAATGAGATGCTTGCTT + CCDEEFFFFFFFGGGGGGGGGGGHHHHHHHHHGHHHHHHHHGGGGGGGGHHHHHGGGHHHHHHGHGGHH HHHGHHHHHHHHHHHHHHHHHHHHHHHHHHH 塩基配列 クォリ ティ リード ID PC の文字コード | | | | | | !"#$%&'()*+,-./ :; LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL | | | | クォリティ (QV) L - Illumina 1.8+ Phred+33, raw reads typically (0, 41) 例 ) ある塩基の QV が「 H 」なら、 H→39 な ので、 エラー率 p = 10^(-3.9) ≒ 1/8000 その塩基は 8000 個に 1 個の確率で 誤りであるということを表している。 クォリティ QV = -10 log ( エラー率 p) 数字が大きいほどエラー率が低い (= 正確 ) コマンド less P1_10k.fq や less P2_10k.fq で中身を見ることができる。

ゲノムアセンブリ Velvet アセンブラ(無償ソフトウェア)を用いる。 Velvet は velveth と velvetg の2つのプログラムから成っている。 velveth : リードを細分化して「のりしろ」のリストを準備する。 velvetg : 「のりしろ」を繋ぎ合わせて長いコンティグやスキャフォルドを作る。./velveth asm fastq -shortPaired –separate P1_10k.fq P2_10k.fq./velvetg asm201 -scaffolding yes -exp_cov auto -amos_file yes 結果が書き出された asm201 ディレクトリに入るには cd asm201 と打つ。戻るには cd.. 。 ls コマンドでファイルの一覧が表示される。 ここで重要なファイルは、 contigs.fa : コンティグ配列 velvet_asm.afg : リードアライメント ( コンティグの構成リードを 1 本 1 本重ね合わせた もの ) リード 結果の保存先のりしろの長 さ

アライメントビューワ tablet を用いてアライメント ( リードの重なり ) を確認する。 これをダブルクリック またはコマンド open ~/Tablet.app で実 行 読み込むファイルは、 asm201 内の velvet_asm.afg 見たい contig を選択。 今回は1つしかない。 ソフトウェアにバグがあり、 最初の部分だけデタラメに見える (アライメントされなかった仲間 外れの リードが表示されてしまう)

リードアライメント 概要表示から 見たい部分を押せば フォーカスが移動する スクロールバー ズームの調整や Variants ( エラー ) の強調 コンティグは多数のリードから成って いる コンティグ構築の際には、多数決で塩基が決定され る。 よく見ると所々に誤りが … 欠失エ ラー 置換エ ラー

コンティグ配列 >NODE_1_length_5386_cov_ CTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCT TCTGGTGATTTGCAAG AACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAG TCCGTTCAGTTGTTGC AGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATC TGCCGACCACTCGCG ATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAA CGCCGAAGCGGTAAA AATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCG GTAGGTTTTCTGCTTAG GCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCC TGCTTATCACCTTCTT GAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCA AGAACGCGTACTTATT CGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTT GCAGTGGAATAGTCAG GTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCG CGATTCAATCATGACT TCGTga less contigs.fa と打てば表示される。 カバレッジ ( 平均して何本のリードが重なっている か ) コンティグ番 号 配列の長さ > から始まる行 ( ヘッダ ) に配列の情報が書かれている。 今回は長さ 5,386 bp のコンティグ 1 本にまで全長が繋がっ た。 小文字はクォリティが低い塩基。

遺伝子予測 Glimmer 3.02 (無償ソフトウェア)のウェブ版を用いて、コンティグ配列上から遺伝子を探 す。 ここを押して実行 contigs.fa ファイルを指定。 または contigs.fa 内の塩基配列を ここに copy&paste してもよい。

遺伝子配列の切り出し contigs.fa から遺伝子領域を切り出すには、 ~/extract ~/asm201/contigs.fa ~/orf.txt > ~/nuc.txt とコマンドを打つ。 nuc.txt に各遺伝子の塩基配列が保存される。 nuc.txt の内容を見るには less nuc.txt orf から始まるすべての行を テキストエディットに copy&paste する。 フォーマットを標準テキストに変更してから、 [command] + [S] で保存する。 保存場所はホームディレクトリに。 ([command] + [shift] + [H]) ファイル名は orf.txt とする。 GLIMMER (ver. 3.02; iterated) predictions: orfID start end frame score >NODE_1_length_5386_cov_ orf orf orf orf orf orf orf 見つかった遺伝子の位置と方向だけが書かれている。 それを元にコンティグから切り出す必要がある。 >orf len=204 GTgaCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGC CTTCTGGTGATTTG CAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTC CAGTCCGTTCAGTTG TTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCA ATCTGCCGACCACT CGCGATTCAATCATGACTTCGTGA >orf len=528 ATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGA TAAGCTGGTTCTC ACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTA AAGCTACATCGTCA ACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTT TTCTTCATTGCATT

European Bioinformatics Institute (EBI) のサービスを用いる。 塩基配列からアミノ酸配列への翻訳 ここを押して 実 行 nuc.txt を指定する。 または遺伝子の塩基配列を copy&paste 。 今回は Bacterial が望ましいが、 Standard のままでも問題ない。 結果のアミノ酸配列はテキストエディットに貼り付 けて、 protein.txt として保存。 >orf00001_ len=204 VTYHLLEGFPFIQEPPSGDLQERVLIRHHDYDQCFQSVQLLQWNSQ VKFNVTVYRNLPTT RDSIMTS* >orf00002_ len=528 MFQTFISRHNSNFFSDKLVLTSVTPASSAPVLQTPKATSSTLYFDSLT VNAGNGGFLHCI QMDTSVNAANQVVSVGADIAFDADPKFFACLVRFESSSVPTTLPTAY DVYPLDGRHDGGY YTVKDCVTIDVLPRTPGNNVYVGFMVWSNFTATKCRGLVSLNQVIKE IICLQPLK* >orf00004_ len=987 MFGAIAGGIASALAGGAMSKLFGGGQKAASGGIQGDVLATDNNTVG MGDAGIKSAIQGSN VPNPDEAVPSFVSGAMAKAGKGLLEGTLQAGTSAVSDKLLDLVGLG GKSAADKGKDTRDY コドン 表

NCBI の BLAST ( ウェブ版 ) を用いる 配列相同性検索 ( 機能予測 ) ここを押して実行。 しばらく時間がかかる。 アミノ酸配列の一つを貼り付ける。 まずは len=987 の配列を選んだ。 (987 とは塩基配列の長さであり、 アミノ酸配列長としては 1/3 の 329 残基であ る ) nr は報告されている全生物種 全タンパク質の配列を集めた データベース。

検索結果.1 スクロールしていくと 詳細の記述がある。 Microvir_H という機能ドメインに似ている。 既知配列と似ている領域が図示されている。 ほぼ全長にわたって高い類似性を持つ配列が、 データベース内に多数あるということを示し ている。

検索結果.2 minor spike protein H ファージがバクテリアに感染するときに突き刺す注射針の 役目 今回シーケンサーで読んだ生物は、このバクテリオファージ phiX174 。 ファージはバクテリアにだけ感染するウィルスの一種なので、 それ以外の様々なバクテリアからもファージ由来の遺伝子が検出さ れる。 [] 内に生物種が書かれている。 ここに挙がっているのはほとんどがバクテ リア データベースから見つかった類似配列が、似ている順に並べられている。

検索結果.3 アライメント データベース上の配列に 全長が完全一致 ! 「 Minor spike protein 」 であることに間違いなさそ う。 今回は完全一致だったが、 30% 程度以上合っていれば 同じ機能を持つことが多い。 入力配列 データベースから 見つかった配列

NCBI の BLAST ( ウェブ版 ) を用いる 配列相同性検索 ( 機能予測 ) ここを押して実行。 アミノ酸配列の一つを貼り付ける。 len=1284 の配列を選んだ。 ( アミノ酸配列としては 1/3 の 426 残基に相当 ) capsid というファージやウイルスの 殻となるタンパク質がヒットする。

Protein Data Bank (PDB) タンパク質立体構造データベー ス capsid phix174 と入力。 全部で 9 個が登録されている。 最も古い 1991 年の構造 (2BPA) を見てみる。 タンパク質を結晶化して X 線回折によって解かれた構造で ある。

ファージ phiX174 の構造 概観のサムネイル。 capsid が 60 個組み合わさって、 正 20 面体を構成している。 12 個の頂点から突き出た角は、 G タンパク質および H タンパク質 から できている。 ここを押すとより詳細に 見ることができる。 (少し時間がかかる)

ファージ phiX174 の構造 マウス操作で拡大・縮小・回 転ができる。 Asymmetric Unit を選べば 個々の部品だけを見ることがで きる。 正 20 面体

ファージ phiX174 の構造 β シート α ヘリックス 大きい方の β シートが capsid 。小さい方は major spike 。 ヘリックスや細い白線の大部分は橋渡しタンパク質。

ファージが感染する瞬間の電顕写 真 Nature 505, 432–435 (16 January 2014) 実際にスパイクを突き刺している様子が観察されて いる