2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1 2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1 2016年5月27日 機能ゲノム科学 尾形 善之
前回のフォロー 先週の課題の「余力がある人へ」 FASTQファイルのIDのみを取り出す 「$line=~ /^(\S+)\s/」で「$1」に入ります 「\S」はスペースとタブ以外のすべての文字 「\S+」はスペースのタブ以外何文字でも その後ろに「\s」を付ければ、スペースがあるところまでを選ぶことができる
実習の大きな流れ RNAクエリーデータ入手~加工する 遺伝子データベースデータを入手する BLAST解析(マッピング)する 遺伝子発現データを得る ストレスで特異的に発現する遺伝子を探す 特異的遺伝子の機能・特徴を調べる
配列相同性解析 配列相同性とは… 配列相同性解析 塩基配列またはアミノ酸配列が似ていること 配列が似ていることを調べる 代表的な解析がBLAST解析 ウェブとスタンドアローンがある
配列相同性解析の実際・1 ゲノムマッピング 「リシーケンシング」ともいいます DNA試料をゲノムにマッピング 一塩基変異(SNP)、遺伝子マーカーの探索
塩基の置換を検出したら・1 遺伝子ではない領域に見つかった場合 遺伝子の翻訳領域以外に見つかった場合 DNAマーカーとして利用する その生物の形質には影響がない 遺伝子の翻訳領域以外に見つかった場合 遺伝子マーカーとして利用する ただし、上流領域によっては、転写制御の可能性あり
塩基の置換を検出したら・2 翻訳領域に見つかった場合 アミノ酸配列には変異がない アミノ酸配列に変異がある タンパク質自体には変わりがない ウイルスなどの影響で発現量が変わる可能性あり 発現量が変われば、形質に違いが出るかもしれない アミノ酸配列に変異がある 遺伝子の機能が変わる可能性あり
配列相同性解析の実際・2 RNA-Seq解析 デノボシーケンシング RNA試料を遺伝子にマッピング 新規の転写物を発見する タンパク質をコードしている遺伝子とは限らない RNA試料を遺伝子にマッピング 既知の遺伝子の発現量を定量する
チェックポイント 配列相同性解析とは? ゲノムマッピングとは? 塩基の変異が見つかった箇所によって、どのような影響があると考えれるか? RNA-Seq解析とは?
ウェブ? スタンドアローン? ウェブ経由でのBLAST解析 利点 欠点 使いやすい(ボタンを数回クリックするだけ) 見やすい(結果を可視化できる) 容量の心配がない(大きなデータベースを使える) 欠点 調べられる配列数が少ない 配列数が多いと、ネットワーク障害の心配……
ウェブ? スタンドアローン? スタンドアローンでのBLAST解析 利点 欠点 たくさんの配列の解析を実行できる ネットワーク障害の心配がない 欠点 使いづらい(コマンドプロンプトで実行) 見づらい(テキストファイルで出力) 容量が心配(大きなデータベースは数十GB)
今回なぜスタンドアローン? 扱う配列数が非常に多いから! RNA-Seq解析のデータベースは小さい 次回行うRNA-Seq解析 前回作った100万配列を扱います RNA-Seq解析のデータベースは小さい 容量の心配はそれほどいらない
BLAST解析の基本 クエリー データベース 判定 自分が調べたい配列 情報を持っている配列 塩基で比べるか、アミノ酸で比べるか 情報が足りない場合、量を調べたい場合 データベース 情報を持っている配列 ゲノム配列、遺伝子配列など 判定 塩基で比べるか、アミノ酸で比べるか
BLAST判定の使い分け 塩基で判定 アミノ酸で判定 同じ生物種、または近縁種 遠い種では塩基配列がほとんど保存されていない 近縁種、または遠い種 塩基がひとつ違ってもアミノ酸は同じ場合がある
コドン表 A G T C AAA Lys (K) AGA Arg (R) ATA Ile (I) ACA Thr (T) AAG AGG ATG Met (M) ACG AAT Asn (N) AGT Ser (S) ATT ACT AAC AGC ATC ACC GAA Glu (E) GGA Gly (G) GTA Val (V) GCA Ala (A) GAG GGG GTG GCG GAT Asp (D) GGT GTT GCT GAC GGC GTC GCC TAA 終止 コドン TGA 終止コドン TTA Leu (L) TCA TAG TGG Trp (W) TTG TCG TAT Tyr (Y) TGT Cys (C) TTT Phe (F) TCT TAC TGC TTC TCC CAA Gln (Q) CGA CTA Lue (L) CCA Pro (P) CAG CGG CTG CCG CAT His (H) CGT CTT CCT CAC CGC CTC CCC
BLAST解析の種類 BLASTN BLASTX BLASTP 塩基 アミノ酸 種内・近縁種間 比較ゲノム RNA-Seq 近縁種間 DB 塩基配列 アミノ酸配列 判定 塩基 アミノ酸 BLASTN 種内・近縁種間 比較ゲノム RNA-Seq TBLASTX 近縁種間 BLASTX 近縁種・異種間 機能解析 BLASTP
BLASTN クエリーの塩基を、データベースの塩基に当てて、塩基で判定する。 配列の長さはアミノ酸配列の3倍 塩基の種類は4種類
BLASTP クエリーのアミノ酸を、データベースのアミノ酸に当てて、アミノ酸で判定する。 配列の長さは塩基配列の 𝟏 𝟑 アミノ酸の種類は20種類
BLASTX クエリーの塩基のコドンをアミノ酸に変換して、データベースのアミノ酸に当てて、アミノ酸で判定する。 配列の長さはアミノ酸配列の3倍 アミノ酸の種類は20種類
BLASTの実行の前にすること 「makeblastdb」 BLASTで使うデータベースを加工処理する必要がある。 オプション 「-in」:データベースファイル名 「-dbtype」:データベースの種類 「nucl」:塩基配列、「prot」:アミノ酸配列 「-out」:データベース名(拡張子は付けない)
チェックポイント・2 ウェブ経由のBLAST解析の利点と欠点を書きなさい。 スタンドアローンでのBLAST解析の利点と欠点を書きなさい。 BLASTN, BLASTP, BLASTXについて説明しなさい。
今日の実習と課題 ふたつの植物種の遺伝子の塩基配列、およびアミノ酸配列を比べて考察しなさい。 BLAST解析の疑問点や感想を書いてください。