2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2

Slides:



Advertisements
Similar presentations
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
Advertisements

生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
オブジェクト指向言語・ オブジェクト指向言語演習 中間試験回答例. Jan. 12, 2005 情報処理技術基礎演習 II 2 オブジェクト指向言語 中間試験解説 1  (1) 円柱の体積(円柱の体積 = 底面の円の面積 x 高さ) を求めるプログラムを作成しなさい。ただし、出力結果は、入 力した底面の円の半径.
P HI T S スクリプト言語を用いた PHITS の連続 実行 Multi-Purpose Particle and Heavy Ion Transport code System title 年 2 月改訂.
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第3回 配列(1) 情報・知能工学系 山本一公
知識情報演習Ⅲ(後半第5回) 辻 慶太
植物系統分類学・第13回 分子系統学の基礎と実践
プログラミング基礎I(再) 山元進.
プログラミング言語としてのR 情報知能学科 白井 英俊.
数理情報工学演習第一C プログラミング演習 (第3回 ) 2014/04/21
JavaによるCAI学習ソフトウェアの開発
システムプログラミング 第5回 情報工学科 篠埜 功 ヒアドキュメント レポート課題 main関数の引数 usageメッセージ
生物統計学・第3回 全体を眺める(2) 主成分分析
第13回 プログラミングⅡ 第13回
数値計算及び実習 第7回 プログラミングの基礎(5).
第6章 2重ループ&配列 2重ループと配列をやります.
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
精密工学科プログラミング基礎 第9回資料 (12/11 実施)
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
スクリプト言語を用いたPHITSの連続実行
マイクロソフト Access を使ってみよう 第1回
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
情報処理技法 (Javaプログラミング)2 第2回 前期の復習(2)
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
岩村雅一 知能情報工学演習I 第8回(後半第2回) 岩村雅一
情報処理3 第5回目講義         担当 鶴貝 達政 11/8/2018.
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
Cプログラミング演習 第6回 ファイル処理と配列.
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第2回 ファイル処理 情報・知能工学系 山本一公
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
第7回 プログラミングⅡ 第7回
情報アプリケーション1 2006年 10月 19日 第四回資料 担当 重定 如彦 .
プログラミング基礎a 第7回 C言語によるプログラミング入門 ファイル入出力
岩村雅一 知能情報工学演習I 第9回(後半第3回) 岩村雅一
精密工学科プログラミング基礎Ⅱ 第4回資料 今回の授業で習得してほしいこと: 文字列の扱い ファイル入出力の方法 コマンドライン引数の使い方
植物系統分類学・第14回 分子系統学の基礎と実践
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
基礎プログラミング演習 第12回.
情報基礎演習I(プログラミング) 第11回 7月12日 水曜5限 江草由佳
ファイルの読み込み #!/usr/bin/env perl #Perlスクリプトの指定 open(FILE, "food.txt");
統計ソフトウエアRの基礎.
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
基礎プログラミング演習 第6回.
プログラミング演習I 2003年7月2日(第11回) 木村巌.
基礎プログラミング演習 第3回.
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
ファイルの読み込み, ファイルからのデータの取り出し, ファイルの書き出し
ウェブデザイン演習 第6回.
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
忙しい人のためのR/Bioconductorの基礎
コンパイラ 2012年10月11日
プログラミング基礎a 第7回 C言語によるプログラミング入門 ファイル入出力
プログラミング 4 文字列.
情報処理Ⅱ 2005年11月25日(金).
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
printf・scanf・変数・四則演算
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
岩村雅一 知能情報工学演習I 第7回(後半第1回) 岩村雅一
2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
Presentation transcript:

2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2 2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2 2016年5月20日 機能ゲノム科学  尾形 善之 Wikipedia

前回のフォロー 例えば、塩基配列を取り出したいとき 塩基は、「A」「T」「G」「C」の4種類 「( )」の意味 ひとつの文字列の纏まりを表す 囲まれた文字列を「$1」という変数に入れる 「|」:正規表現の中では、「または」を表す

実習の大きな流れ RNAクエリーデータ入手~加工する 遺伝子データベースデータを入手する BLAST解析(マッピング)する 遺伝子発現データを得る ストレスで特異的に発現する遺伝子を探す 特異的遺伝子の機能・特徴を調べる

今日の授業の目標 大容量ファイルを加工するための、Perlプログラムを完成させる。 FASTQ形式のテキストファイルを、BLASTプログラムで使えるFASTA形式に変換する。 Wikipedia

次世代シーケンサーのデータ NCBIのSRAデータベースから入手できる SRA形式のバイナリファイルを入手する バイナリファイルはテキストエディタでは読めない SRA形式からFASTQ形式に変換する FASTQ形式はテキストエディタで読める ただし、BLASTプログラムでは使えない FASTQ形式からFASTA形式に変換する FASTA形式はBLASTプログラムで使える

FASTQ形式 配列データのテキストファイル 4行でひとつの配列の情報を構成している 1行目:「@」で始まる、配列IDなど 2行目:塩基配列 3行目:特に意味がない行 4行目:塩基配列のクオリティを表す

FASTA形式 配列データのテキストファイル 2行でひとつの配列の情報を構成している FASTQ形式の3、4行目は不要 1行目:「>」で始まる、配列IDなど FASTQ形式では「@」で始まる 2行目:塩基配列 FASTQ形式と同じ FASTQ形式の3、4行目は不要

チェックポイント・I FASTQ形式とは? FASTA形式とは?

今回のPerlスクリプトの目的 FASTQファイルの処理 1行目:「@」を「>」に変えてファイルに出力 2行目:そのままファイルに出力 3行目:無視 4行目:無視 Wikipedia

今回のPerlスクリプトの詳細 行数をカウントする変数を作る 1行目 2行目 4で割れば、何行目の情報か分かる 各行でif構文を利用して、何行目かを分ける 1行目 正規表現で「@」を「>」に置換して出力する 2行目 そのまま出力する Wikipedia

Perlスクリプトの中身 前置き:拝啓、呪文(正しくはエラーチェック) 変数の宣言:変数を使えるようにする ファイル入出力:読み込みと書き出し テキスト処理:正規表現やループを使う 後書き:敬具(正しくは終了処理) Wikipedia

前置きと後書き 前置き:拝啓、呪文 後書き:敬具 use strict; :レッドカード use warnings; :イエローカード exit; Wikipedia

変数の宣言 「my」コマンドを使う 文字列の変数の場合 数字の変数の場合 「my $line=“”;」 「my $number=0;」 Wikipedia

ファイルの入出力・1 変数の宣言 「my $in=“in.txt”;」 入力ファイル名 「my $IN;」 入力ファイルハンドル 入力するファイルの内容を入れる箱 「my $out=“out.txt”;」 出力ファイル名 「my $OUT;」 出力ファイルハンドル 出力するファイルの内容を入れる箱 Wikipedia

ファイルの入出力・2 ファイルを開く・閉じる 入力ファイル用の箱(ファイルハンドル)を開く 出力ファイル用の箱(ファイルハンドル)を開く 「open $IN,”<“,$in; 」 出力ファイル用の箱(ファイルハンドル)を開く 「open $OUT,”>”,$out;」 ファイルを閉じる 「close $IN;」「close $OUT;」 Wikipedia

ファイルの入出力・3 ファイルの中身を1行ずつ読む 「while(<$IN>){」 「 }」 ここにいろいろなコマンドを入れる 「 }」 入力ファイルハンドル「$IN」から1行ずつ読む 読み込まれた文字列は「$_」に代入される Wikipedia

「if」構文・1 条件によって場合分けする 今回は行数で4つ(1~4行目)に分ける 行数を表す変数の宣言 「my $number=0;」 Wikipedia

「if」構文・2 「while」構文の中での処理 行数をひとつ増やす もし行数を4で割った余りが1だったら(1行目) 「$number++;」 もし行数を4で割った余りが1だったら(1行目) 「if($number%4==1){ }」 そうでなくて余りが2だったら(2行目) 「elsif($number%4==2){ }」 3、4行目は処理をしない Wikipedia

検索と置換 どちらも正規表現を使います 検索 置換 「$_=~ /^@/」 文字列の一部を取り出すなら、かっこで囲む 「$_=~ /^(@)/」 置換 「$_=~ s/^@/>/」 $_の文字列の「@」が「>」に代わる Wikipedia

出力ファイルに書きだす 「print $OUT “$_”;」 「$OUT」は出力ファイルのファイルハンドル どのファイルに書き出すかを指定する 「$_」は入力ファイルから読み込んだ文字列 置換した場合は、置換後の文字列 Wikipedia

チェックポイント・II Perlスクリプトの前置きは? 変数の宣言に使うコマンドは? 「my $in=“in.txt”;」と「my $IN;」、それぞれ何を宣言している? 次の「if」構文の間違いを直しなさい。 「if{$number==1}( )」 文字列$lineの初めの「>」を「@」に変えるときは、どう書く?

期末レポート シロイヌナズナの次世代シーケンシングのデータを統計的に解析して考察します。 各回の実習では、そのレポートのためのスキルを学んでいきます。 Wikipedia

期末レポート用データ データの概要 植物種と組織:シロイヌナズナ、葉 実験内容:菌感染によるサリチル酸合成 解析内容 生物統計学の期末レポートで使ったデータです 解析内容 全遺伝子を対象としたRNA-Seq解析 菌感染で発現量が変化した遺伝子の探索 遺伝子の発現の特徴および機能解析 Wikipedia

今日の実習と課題 FASTQ形式をFASTA形式に変換するPerlスクリプトを作りなさい。 Perlプログラミングの感想を書いてください。 手順書に従ってください。 Perlプログラミングの感想を書いてください。 Wikipedia