2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める 2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める 2019年4月12日 機能ゲノム科学 尾形 善之
授業の目標 植物バイオサイエンス研究領域で必要な情報処理の能力を培う。 要は、バイオサイエンスのビッグデータを使いこなす、ということ。 Wikipedia
1年次 前期 後期 2年次 前期 3年次 前期 応用生命科学類での 情報教育の流れ 情報基礎 統計学基礎I 統計学基礎II 生物統計学 1年次 前期 後期 2年次 前期 3年次 前期 情報基礎 統計学基礎I 統計学基礎II 生物物理化学実験 (生命機能化学課程) 生物統計学 植物バイオサイエンス情報処理演習 (植物バイオサイエンス課程)
授業の概要 教室:ずっとここ 担当教員 来週から3回(第2~4回)は深田先生 他は全部私です 講義(実習):15回 期末レポート
深田先生からのお願い EndNote web版のアカウントを作る 「https://www.myendnoteweb.com」を開く。 右上のRegisterをクリックする。 メールアドレス、パスワード、氏名を入力して、下のRegisterをクリックする。 登録したメールアドレスに確認のメールが来るので、その指示に従う。
日程 第1回 4月12日 第9回 6月14日 第2回 4月19日 第10回 6月21日 第3回 4月26日 第11回 6月28日 第4回 5月10日 第12回 7月12日 第5回 5月17日 第13回 7月19日 第6回 5月24日 第14回 7月26日 第7回 5月31日 第15回 8月2日 第8回 6月7日 期末レポート 8月9日まで
授業の進め方 講義:30分程度 チェックポイント:講義の内容を聞いて書く 実習と課題:60分程度 分からないときは、TAに尋ねる
授業のファイルの置き場所 読み出すファイル 保存するファイル 「Teacher/ogata/植物バイオサイエンス情報処理演習2019/」 「Share/植物バイオサイエンス情報処理演習2019 /」 この中に、自分のフォルダを作る
成績評価 当日レポート、各回5点(5x15=75点) 出席を兼ねます! 期末レポート:25点 最終回に説明します 合計:100 点
返却するレポートについて レポートの採点 A+: 5~ A: 5 B: 4 C: 3
期末レポートの目的 注目する植物遺伝子を決める。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。 生物統計学:シロイヌナズナの遺伝子。 今回:どの植物でもOK。 もちろん、これまでの遺伝子でもOK。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。 生物統計学:発現データの統計解析。 今回:さまざまな手法を駆使する。
遺伝子の機能に迫る 発現データ 配列データ 文献データ どの条件で働いているかが分かる。 どんな機能を示す配列をしているかが分かる。 組織特異性、ストレス応答性など。 配列データ どんな機能を示す配列をしているかが分かる。 機能ドメイン、その配列を共有する植物など。 文献データ 遺伝子についての全般的な知識が得られる。
期末レポートの提出と書式 提出期限:2018年8月9日(金) 提出先:Shareフォルダまたはメール 提出ファイルのタイムスタンプで判断します 提出先:Shareフォルダまたはメール 書式:ワードファイルまたはPDFファイル 他に参照するファイルがある場合は保存する
この部屋の使い方 平日の日中は空いています。 授業の邪魔にならなければ自由に使えます。 プリンターは教員の許可が必要です。
まずは自分のフォルダを作りましょう 「Share」→「植物バイオサイエンス情報処理演習2019」フォルダの中に、自分のフォルダを作りましょう 自分の名前(フルネーム) または、学籍番号
ビッグデータ
ビッグデータに関するキーワード AI 機械学習 ディープラーニング データマイニング
AIの歴史
AI 人工知能:Artificial Intelligence AlphaGoがプロ囲碁棋士を破る 「コンピュータによる知的な情報処理システムの設計や実現に関する研究分野」 簡単に言うと「人間が知能を使ってすることを機械にさせようとする」 AlphaGoがプロ囲碁棋士を破る
機械学習 「人工知能における研究課題のひとつ」 「人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法」 教師あり学習:答えがある 教師なし学習:答えがない Deo, Circulation, 2015
教師あり学習 機械学習の手法のひとつ。 事前に与えられたものを正解とみなして、それをガイドにして学習する。 囲碁や将棋など、ゴールを明確に設定できるものに有効である。
教師なし学習 機械学習の手法のひとつ。 出力すべきものが予め決まっていない。 データの背後に存在する本質的な構造を抽出する。 現状の生命科学で活躍している。 データマイニングとも関連する。
ディープラーニング 「深層学習」ともいう。 多層のニューラルネットワークによる機械学習手法。 ニューラルネットワーク もともとは、生体の脳のモデル化が目的。 脳の特性をコンピュータで表現。
ディープラーニングの例 AlphaGOに対し、AlphaGO Zeroが圧勝! AlphaGO: 人が指したビッグデータを基に学習
データマイニング 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能 「統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである」 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能
生命科学の ビッグデータ
生命科学のビッグデータ 最初はゲノムデータ 次世代シーケンサーの登場 ビッグデータを使いこなせるか
ゲノム解読の幕開け 2001年2月 2001年2月 2000年12月
遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008) 遺伝子を扱う学術論文数の推移 遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008)
遺伝子を扱う学術論文数の推移 数万単位 100個程度 数十億単位
シーケンサーのスループット 2.5Mb/日 3年半で1人 1.8Gb/日 2日で1人 400Gb/日 1日で130人 イルミナ社HPより
登録された塩基配列データ ヨタ キロヨタ メガヨタ …… ゼタ エクサ ペタ テラ ギガ メガ キロ Sequence Read Archive, NCBI
公共データベースのゲノム情報 NCBIのGenomeデータベース 原核生物:22,802種 ウイルス:9,567種 真核生物:2,795種 動物:902種 菌類:1,278種 植物:324種 原生生物:270種 他:21種
公共データベースのゲノム情報 NCBIのGenomeデータベース 原核生物:22,80224,190種 ウイルス:9,56713,345種 真核生物:2,7954,009種 動物:9021,372種 菌類:1,2781,887種 植物:324424種 原生生物:270302種 他:2124種
注目する遺伝子の検索 公共データバンク 二次データベース ゲノム・遺伝子情報を蓄積 NCBI, EBI, 遺伝研 公共データバンクのビッグデータを解析 eFP Browser, ATTED-II, KEGG Gcorn, Xcorn
eFP Browser 植物を中心とした遺伝子発現解析 植物耐の模式図を使ったヒートマップが特徴
ATTED-II 植物の遺伝子発現解析 マイクロアレイとRNA-Seq解析を対象
KEGG PATHWAY 全生物の代謝パスウェイ 種ごとに存在している酵素のマッピング
Gcorn plant 植物遺伝子の配列相同性解析 進化と機能との関係を探求
Xcorn plant 植物の遺伝子発現解析 マイクロアレイ実験をグループ化
1. 相同遺伝子の系統樹 Orthologous Paralogous 注目遺伝子+20遺伝子 O O O O 横軸は相関指標 左から右へ進化 P P O
2. 植物間ネットワーク 青丸:含まれる植物 相同遺伝子が多い植物同士(多くは科)が繋がっている
配列相同性解析で分かったこと 原則として、遺伝子のアミノ酸変異の割合は時間を追って増えていく。 種によって変異の速度が異なる。 おそらく世代数の違い? 遺伝子ごとにも変異の速度が異なる。 遺伝子の機能の違い?
今日の実習と課題 手順書に従って進めなさい。 今日の実習の感想・疑問点を書いてください。 これからの授業への要望や不安もどうぞ。