Presentation is loading. Please wait.

Presentation is loading. Please wait.

2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める

Similar presentations


Presentation on theme: "2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める"— Presentation transcript:

1 2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める 2018年4月13日 機能ゲノム科学  尾形 善之

2 授業の目標 植物バイオサイエンス研究領域で必要な情報処理の能力を培う。 要は、バイオサイエンスのビッグデータを使いこなす、ということ。
Wikipedia

3 1年次 前期 後期 2年次 前期 3年次 前期 応用生命科学類での 情報教育の流れ 情報基礎 統計学基礎I 統計学基礎II 生物統計学
1年次 前期 後期 2年次 前期 3年次 前期 情報基礎 統計学基礎I 統計学基礎II 生物物理化学実験 (生命機能化学課程) 生物統計学 植物バイオサイエンス情報処理演習 (植物バイオサイエンス課程)

4 授業の概要 教室:ずっとここ 担当教員 来週から3回(第2~4回)は深田先生 他は全部私です 講義(実習):15回 期末レポート

5 深田先生からのお願い EndNote Basicのアカウントを作る 「www.myendnoteweb.com」を開く。
Sign upを選ぶ。 Facebookアカウントがあれば、それでもSign inできる その場で以下の内容を入力しSign upを押す。 受信可能なメールアドレス、希望するパスワード、氏名 登録したアドレスへ送られるメールを見る。 書かれているコードを入力する。

6 日程 第1回 4月13日 第9回 6月8日 第2回 4月20日 第10回 6月15日 第3回 4月27日 第11回 6月22日 第4回
5月4日 第12回 6月29日 第5回 5月11日 第13回 7月13日 第6回 5月18日 第14回 7月20日 第7回 5月25日 第15回 7月27日 第8回 6月1日 期末レポート 8月6日まで

7 授業の進め方 講義:30分程度 チェックポイント:講義の内容を聞いて書く 実習と課題:60分程度 分からないときは、TAに尋ねる

8 授業のファイルの置き場所 読み出すファイル 保存するファイル 「Teacher/ogata/植物バイオサイエンス情報処理演習2018/」
「Share/植物バイオサイエンス情報処理演習2018 /」 この中に、自分のフォルダを作る

9 成績評価 当日レポート、各回5点(5x15=75点) 出席を兼ねます! 期末レポート:25点 最終回に説明します 合計:100 点

10 期末レポートの目的 注目する植物遺伝子を決める。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。
生物統計学:シロイヌナズナの遺伝子。 今回:どの植物でもOK。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。 生物統計学:発現データの統計解析。 今回:さまざまな手法を駆使する。 Wikipedia

11 遺伝子の機能に迫る 発現データ 配列データ 文献データ どの条件で働いているかが分かる。 どんな機能を示す配列をしているかが分かる。
組織特異性、ストレス応答性など。 配列データ どんな機能を示す配列をしているかが分かる。 機能ドメイン、その配列を共有する植物など。 文献データ 遺伝子についての全般的な知識が得られる。

12 期末レポートの作業 配列相同性解析:似ている配列を検索する。 遺伝子発現解析:発現の特異性を調べる。 代謝パスウェイ解析
どの代謝経路で働いているか、調べる。 遺伝子機能解析:機能情報を調べる。 文献検索:さまざまな知見を得る。

13 期末レポートの提出と書式 提出期限:2018年8月6日(月) 提出先:Shareフォルダ 書式:ワードファイルまたはPDFファイル
提出ファイルのタイムスタンプで判断します 提出先:Shareフォルダ 自分のフォルダ内 書式:ワードファイルまたはPDFファイル 他に参照するファイルがある場合は保存する

14 この部屋の使い方 平日の日中は空いています。 授業の邪魔にならなければ自由に使えます。 プリンターは教員の許可が必要です。

15 まずは自分のフォルダを作りましょう 「Share」→「植物バイオサイエンス情報処理演習2018」フォルダの中に、自分のフォルダを作りましょう
自分の名前(フルネーム) または、学籍番号

16 ビッグデータ

17 ビッグデータに関するキーワード AI 機械学習 ディープラーニング データマイニング

18 AI 人工知能:Artificial Intelligence AlphaGoがプロ囲碁棋士を破る
「コンピュータによる知的な情報処理システムの設計や実現に関する研究分野」 簡単に言うと「人間が知能を使ってすることを機械にさせようとする」 AlphaGoがプロ囲碁棋士を破る

19 機械学習 「人工知能における研究課題のひとつ」 「人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法」
教師あり学習:答えがある 教師なし学習:答えがない Deo, Circulation, 2015

20 教師あり学習 機械学習の手法のひとつ。 事前に与えられたものを正解とみなして、それをガイドにして学習する。
囲碁や将棋など、ゴールを明確に設定できるものに有効である。

21 教師なし学習 機械学習の手法のひとつ。 出力すべきものが予め決まっていない。 データの背後に存在する本質的な構造を抽出する。
現状の生命科学で活躍している。 データマイニングとも関連する。

22 ディープラーニング 「深層学習」ともいう。 多層のニューラルネットワークによる機械学習手法。 ニューラルネットワーク
もともとは、生体の脳のモデル化が目的。 脳の特性をコンピュータで表現。

23 ディープラーニングの例 AlphaGOに対し、AlphaGO Zeroが圧勝! AlphaGO: 人が指したビッグデータを基に学習

24 データマイニング 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能
「統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである」 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能

25 生命科学の ビッグデータ

26 生命科学のビッグデータ 最初はゲノムデータ 次世代シーケンサーの登場 ビッグデータを使いこなせるか

27 ゲノム解読の幕開け 2001年2月 2001年2月 2000年12月

28 遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008)
遺伝子を扱う学術論文数の推移 遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008)

29 遺伝子を扱う学術論文数の推移 数万単位 100個程度 数十億単位

30 次世代シーケンサー

31 イルミナ社の次世代シーケンサー 一回の操作で、3~10日かかる。 一回の操作で、600Gb得られる。 つまり、一日当たり、60Gb得られる。

32 登録された塩基配列データ ヨタ キロヨタ メガヨタ …… ゼタ エクサ ペタ テラ ギガ メガ キロ
Sequence Read Archive, NCBI

33 公共データベースのゲノム情報 NCBIのGenomeデータベース 原核生物:22,802種 ウイルス:9,567種 真核生物:2,795種
動物:902種 菌類:1,278種 植物:324種 原生生物:270種 他:21種

34 ビッグデータを使いこなす ビッグデータを使いやすくする ビッグデータそのものを解析する 注目する遺伝子について検索する
ゲノム規模で特徴を調べる

35 注目する遺伝子の検索 公共データバンク 二次データベース ゲノム・遺伝子情報を蓄積 NCBI, EBI, 遺伝研
公共データバンクのビッグデータを解析 eFP Browser, ATTED-II, KEGG Gcorn, Xcorn, PLAGO

36 eFP Browser 植物を中心とした遺伝子発現解析 植物耐の模式図を使ったヒートマップが特徴

37 ATTED-II 植物の遺伝子発現解析 マイクロアレイとRNA-Seq解析を対象

38 KEGG PATHWAY 全生物の代謝パスウェイ 種ごとに存在している酵素のマッピング

39 Gcorn 植物遺伝子の配列相同性解析 進化と機能との関係を探求

40 Xcorn 植物の遺伝子発現解析 マイクロアレイ実験をグループ化

41 PLAGO 植物の遺伝子発現解析 RNA-Seq実験をグループ化

42 ビッグデータの解析 個々のデータは、各研究者が必要な情報のみを利用している データを集めて解析することで、新たな知見が期待される
データマイニング、教師なし機械学習

43 1. 相同遺伝子の系統樹 Orthologous Paralogous 注目遺伝子+20遺伝子 O O O O 横軸は相関指標
左から右へ進化 P P O

44 2. 相同遺伝子数の変遷 配列数のみ減少 paralogous 配列・種数とも減少 orthologous 大規模な 種分化!!
右から左へ進化

45 3. 植物間ネットワーク 青丸:含まれる植物 相同遺伝子が多い植物同士(多くは科)が繋がっている

46 配列相同性解析で分かったこと 原則として、遺伝子のアミノ酸変異の割合は時間を追って増えていく。 ただし、種によって変異の速度が異なる。
おそらく世代の期間の違い? 遺伝子ごとにも変異の速度が異なる。 遺伝子の機能の違い?

47 今日の実習と課題 手順書に従って進めなさい。 今日の実習の感想や疑問点を書いてください。 これからの授業への要望や不安も書いてください。


Download ppt "2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める"

Similar presentations


Ads by Google