2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
Drosophila solexa Tag analysis 2/25
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
DDBJing講習会 2015年7月29日 那覇 プライマーの作成・活用の実際 森 宙史 Hiroshi Mori 東京工業大学
植物系統分類学・第13回 分子系統学の基礎と実践
生物学 第6回 転写と翻訳 和田 勝.
2012年度 総合華頂探求(生命情報科学実習) 華頂女子中学高等学校 2年 医療・理系コース 小倉、北川、木村、久留野、田中、野村、山下
RNA i (RNA interference).
遺伝子発現 B4ゼミ発表 酒井大輔 2004年 5月10日.
特論B 細胞の生物学 第2回 転写 和田 勝 東京医科歯科大学教養部.
生物統計学・第3回 全体を眺める(2) 主成分分析
特論B 細胞の生物学 第3回 タンパク質の形と働き 和田 勝 東京医科歯科大学教養部.
細胞と多様性の 生物学 第4回 細胞におけるエネルギー産生 と化学反応のネットワーク 和田 勝 東京医科歯科大学教養部.
細胞と多様性の 生物学 第3回 転写と翻訳 和田 勝 東京医科歯科大学教養部.
生物学 第7回 遺伝子DNAはATCG4文字で 書かれたタンパク質の設計図 和田 勝.
5/21~6/11 担当講師 柘植謙爾(つげ けんじ) (6)第4章 ゲノム配列の解析
奈良女子大集中講義 バイオインフォマティクス (1) 分子生物学概観
病気に関係する遺伝子の探索 ~ヒトゲノムの多様性について考える~
コアB-1 個体の構成と機能(5)生体物質の代謝
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
生物学 第10回 突然変異、ちょっと詳しく 和田 勝.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
What is the Animal Physiology?
生物科学科(高分子機能学) 生体高分子解析学講座(第3) スタッフ 教授 新田勝利 助教授 出村誠 助手 相沢智康
翻訳 5’ → 3’ の方向 リボソーム上で行われる リボソームは蛋白質とrRNAの複合体 遺伝情報=アミノ酸配列
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
疾患遺伝子:病気は遺伝によって決まるのか
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
生命情報解析 第4回 シグナル配列の統計解析(3)
病気に関係する遺伝子の探索 ~ヒトゲノムの多様性について考える~
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
生物学基礎 第5回 遺伝子の本体を求めて  和田 勝 東京医科歯科大学教養部.
生命情報学入門 配列のつなぎ合わせと再編成
遺伝子の機能は、どのようにしてわかるのか
SVMを用いた生体分子への 金属結合部位予測手法の提案
人獣共通感染 E型肝炎ウイルス (HEV)検出システム
旭川医科大学教育研究推進センター 阿久津 弘明 化学 中村 正雄、津村 直美
神奈川科学技術アカデミー バイオインフォマティクスコース 蛋白質立体構造予測 I,II,演習
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
生物学 第6回 遺伝子はDNAという分子だった 和田 勝.
植物系統分類学・第14回 分子系統学の基礎と実践
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
忙しい人のためのR/Bioconductorの基礎
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
遺伝統計学 集中講義 (6) 終わりに.
Ion PGM™ 次世代シーケンサーによる 受託解析サービスのご案内 ・細菌叢解析(16S メタゲノム)
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
Presentation transcript:

2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1 2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1 2016年5月27日 機能ゲノム科学  尾形 善之

前回のフォロー 先週の課題の「余力がある人へ」 FASTQファイルのIDのみを取り出す 「$line=~ /^(\S+)\s/」で「$1」に入ります 「\S」はスペースとタブ以外のすべての文字 「\S+」はスペースのタブ以外何文字でも その後ろに「\s」を付ければ、スペースがあるところまでを選ぶことができる

実習の大きな流れ RNAクエリーデータ入手~加工する 遺伝子データベースデータを入手する BLAST解析(マッピング)する 遺伝子発現データを得る ストレスで特異的に発現する遺伝子を探す 特異的遺伝子の機能・特徴を調べる

配列相同性解析 配列相同性とは… 配列相同性解析 塩基配列またはアミノ酸配列が似ていること 配列が似ていることを調べる 代表的な解析がBLAST解析 ウェブとスタンドアローンがある

配列相同性解析の実際・1 ゲノムマッピング 「リシーケンシング」ともいいます DNA試料をゲノムにマッピング 一塩基変異(SNP)、遺伝子マーカーの探索

塩基の置換を検出したら・1 遺伝子ではない領域に見つかった場合 遺伝子の翻訳領域以外に見つかった場合 DNAマーカーとして利用する その生物の形質には影響がない 遺伝子の翻訳領域以外に見つかった場合 遺伝子マーカーとして利用する ただし、上流領域によっては、転写制御の可能性あり

塩基の置換を検出したら・2 翻訳領域に見つかった場合 アミノ酸配列には変異がない アミノ酸配列に変異がある タンパク質自体には変わりがない ウイルスなどの影響で発現量が変わる可能性あり 発現量が変われば、形質に違いが出るかもしれない アミノ酸配列に変異がある 遺伝子の機能が変わる可能性あり

配列相同性解析の実際・2 RNA-Seq解析 デノボシーケンシング RNA試料を遺伝子にマッピング 新規の転写物を発見する タンパク質をコードしている遺伝子とは限らない RNA試料を遺伝子にマッピング 既知の遺伝子の発現量を定量する

チェックポイント 配列相同性解析とは? ゲノムマッピングとは? 塩基の変異が見つかった箇所によって、どのような影響があると考えれるか? RNA-Seq解析とは?

ウェブ? スタンドアローン? ウェブ経由でのBLAST解析 利点 欠点 使いやすい(ボタンを数回クリックするだけ) 見やすい(結果を可視化できる) 容量の心配がない(大きなデータベースを使える) 欠点 調べられる配列数が少ない 配列数が多いと、ネットワーク障害の心配……

ウェブ? スタンドアローン? スタンドアローンでのBLAST解析 利点 欠点 たくさんの配列の解析を実行できる ネットワーク障害の心配がない 欠点 使いづらい(コマンドプロンプトで実行) 見づらい(テキストファイルで出力) 容量が心配(大きなデータベースは数十GB)

今回なぜスタンドアローン? 扱う配列数が非常に多いから! RNA-Seq解析のデータベースは小さい 次回行うRNA-Seq解析 前回作った100万配列を扱います RNA-Seq解析のデータベースは小さい 容量の心配はそれほどいらない

BLAST解析の基本 クエリー データベース 判定 自分が調べたい配列 情報を持っている配列 塩基で比べるか、アミノ酸で比べるか 情報が足りない場合、量を調べたい場合 データベース 情報を持っている配列 ゲノム配列、遺伝子配列など 判定 塩基で比べるか、アミノ酸で比べるか

BLAST判定の使い分け 塩基で判定 アミノ酸で判定 同じ生物種、または近縁種 遠い種では塩基配列がほとんど保存されていない 近縁種、または遠い種 塩基がひとつ違ってもアミノ酸は同じ場合がある

コドン表 A G T C AAA Lys (K) AGA Arg (R) ATA Ile (I) ACA Thr (T) AAG AGG ATG Met (M) ACG AAT Asn (N) AGT Ser (S) ATT ACT AAC AGC ATC ACC GAA Glu (E) GGA Gly (G) GTA Val (V) GCA Ala (A) GAG GGG GTG GCG GAT Asp (D) GGT GTT GCT GAC GGC GTC GCC TAA 終止 コドン TGA 終止コドン TTA Leu (L) TCA TAG TGG Trp (W) TTG TCG TAT Tyr (Y) TGT Cys (C) TTT Phe (F) TCT TAC TGC TTC TCC CAA Gln (Q) CGA CTA Lue (L) CCA Pro (P) CAG CGG CTG CCG CAT His (H) CGT CTT CCT CAC CGC CTC CCC

BLAST解析の種類 BLASTN BLASTX BLASTP 塩基 アミノ酸 種内・近縁種間 比較ゲノム RNA-Seq 近縁種間 DB 塩基配列 アミノ酸配列 判定 塩基 アミノ酸 BLASTN 種内・近縁種間 比較ゲノム RNA-Seq TBLASTX 近縁種間 BLASTX 近縁種・異種間 機能解析 BLASTP

BLASTN クエリーの塩基を、データベースの塩基に当てて、塩基で判定する。 配列の長さはアミノ酸配列の3倍 塩基の種類は4種類

BLASTP クエリーのアミノ酸を、データベースのアミノ酸に当てて、アミノ酸で判定する。 配列の長さは塩基配列の 𝟏 𝟑 アミノ酸の種類は20種類

BLASTX クエリーの塩基のコドンをアミノ酸に変換して、データベースのアミノ酸に当てて、アミノ酸で判定する。 配列の長さはアミノ酸配列の3倍 アミノ酸の種類は20種類

BLASTの実行の前にすること 「makeblastdb」 BLASTで使うデータベースを加工処理する必要がある。 オプション 「-in」:データベースファイル名 「-dbtype」:データベースの種類 「nucl」:塩基配列、「prot」:アミノ酸配列 「-out」:データベース名(拡張子は付けない)

チェックポイント・2 ウェブ経由のBLAST解析の利点と欠点を書きなさい。 スタンドアローンでのBLAST解析の利点と欠点を書きなさい。 BLASTN, BLASTP, BLASTXについて説明しなさい。

今日の実習と課題 ふたつの植物種の遺伝子の塩基配列、およびアミノ酸配列を比べて考察しなさい。 BLAST解析の疑問点や感想を書いてください。