2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA 2018年6月29日 機能ゲノム科学 尾形 善之
今後の予定 第10回:配列相同性解析・DNA 第11回:次世代シーケンシング・DNA 第12回:次世代シーケンシング・RNA 第13回:次世代シーケンシング・16S rDNA 第14回:系統樹 第15回:遺伝子機能解析
次世代シーケンシング Why? 遺伝子の機能を知る。 DNA 遺伝子の発現を知る。 RNA 種や品種を同定する。 16S rDNA
実際の解析の手順 FASTQ形式の配列 FASTA形式の配列 マッピング~計測 標準化 発現解析 多型 特異的発現 共発現
RNA-Seqのマッピング 原理 ソフトウェア リード配列とリファレンス配列の相同性を検出 TopHatが代表的 BLASTも負けていない Linuxベースで動作(現在のMacintoshは可能) マッピング後、CuffLinksで定量化 BLASTも負けていない Magic-BLASTが登場
RNA-Seqの発現量の定量化 CuffLinks Perl言語による自作スクリプト TopHatからの連係が便利 やはりLinuxベース 定量化自体はそれほど複雑な作業ではない
RNA-Seqの発現量の特徴 発現量のダイナミックレンジが広い 低発現の精度が高い 一般的な標準化が利用できる! 検出された配列数で得られる。 マイクロアレイ:蛍光強度で評価する。 低発現の精度が高い 発現していないことを評価できる。 マイクロアレイ:低発現では、ノイズの影響を受ける。 一般的な標準化が利用できる! 標準化すると、実験間で比較できる
RNA-Seqの発現量の標準化 RPKM値の算出 なぜ100万配列に揃えるか? なぜ1000塩基に揃えるか? 100万配列について、1000塩基の遺伝子に変換してリード数を数える。 なぜ100万配列に揃えるか? 実験間でのリード数が異なるため。 なぜ1000塩基に揃えるか? 遺伝子が長い方がマッピングされやすいため。
RNA-Seqの発現量の標準化 Z値の算出 相関関係や比を調べたいのであれば… 一般的な標準化。 ピアソン相関係数に繋がる。 実験間、遺伝子間の相関関係を調べられる。 相関関係や比を調べたいのであれば… RPKM値を計算せずに、Z化で十分。
チェックポイント RNA-Seq解析とは何か? RNA-Seq解析における標準化について説明しなさい。
今日の実習の概要・1 植物試料:Arabidopsis属の葉 実験:ストレス処理 RNA-Seqデータ 実験区:1 対象区:1 もちろん、統計的には3試料ずつが必要
今日の実習の概要・2 クエリーファイル データベース マッピング データ加工 FASTQ形式の2ファイル シロイヌナズナの遺伝子 Magic-BLAST データ加工 Perlスクリプトで遺伝子ごとの発現量計測
今日の実習の概要・3 解析 エクセルで、サンプルとコントロールの発現量の比を計算 発現量の大きい順に並べて、注目遺伝子がストレス処理で特異的に発現しているかを確認