2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
プログラミング入門 ガイダンス.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
植物系統分類学・第13回 分子系統学の基礎と実践
3DCGコンテンツの基礎 第5回授業:最終課題制作
情報科指導法Ⅰ 第11回 年間授業計画表.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報技術基礎クラス8 第1回( ) 講師:斉藤匡人.
座 席 表(CP教室) 出席番号.
第1回 ガイダンス 工学部担当 教員 吉岡 理文 ・ 岩村 雅一
生物統計学・第3回 全体を眺める(2) 主成分分析
このPowerPointファイルは、 情報処理演習用に作った フィクションです。
IT入門B2 (木曜日1限) 第一回 講義概要 2004年月9日30日.
プログラミング演習I 2004年4月14日(第1回) 木村巌.
映像技術演習 第8回:課題映像編集.
情報科学1(G1) 2016年度.
情報工学科 二宮 洋・鈴木 誠 小林 学・高畠俊徳 火曜日 1コマ目
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
経済情報処理ガイダンス 神奈川大学 経済学部.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
ウェブデザイン演習 第一回 オリエンテーション.
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
【プログラミング応用】 必修2単位 通年 30週 授業形態:演習.
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
シミュレーション論 Ⅱ 第15回 まとめ.
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
文献の整理術 ―文献管理ソフトを使ってみよう―!
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
情報処理技法(リテラシI) 第14回:最終課題作成 産業技術大学院大学 情報アーキテクチャ専攻 助教  柴田 淳司 2017/7/20.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
コンピュータ プレゼンテーション.
Chemistry and Biotechnology
植物系統分類学・第14回 分子系統学の基礎と実践
経済情報処理ガイダンス 50分用ガイダンス。時間があれば、後半ログオンして操作させる。 神奈川大学 経済学部.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
情報処理基礎A・B 坂口利裕 横浜市立大学・商学部
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
経済情報処理ガイダンス 神奈川大学 経済学部.
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
ガイダンス 電子計算機 電気工学科 山本昌志 1E
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
忙しい人のためのR/Bioconductorの基礎
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/04/13
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
情報数学5,6 (コンピュータおよび情報処理) 講義内容
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
岩村雅一 知能情報工学演習I 第7回(後半第1回) 岩村雅一
2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
Presentation transcript:

2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める 2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める 2018年4月13日 機能ゲノム科学  尾形 善之

授業の目標 植物バイオサイエンス研究領域で必要な情報処理の能力を培う。 要は、バイオサイエンスのビッグデータを使いこなす、ということ。 Wikipedia

1年次 前期 後期 2年次 前期 3年次 前期 応用生命科学類での 情報教育の流れ 情報基礎 統計学基礎I 統計学基礎II 生物統計学 1年次 前期 後期 2年次 前期 3年次 前期 情報基礎 統計学基礎I 統計学基礎II 生物物理化学実験 (生命機能化学課程) 生物統計学 植物バイオサイエンス情報処理演習 (植物バイオサイエンス課程)

授業の概要 教室:ずっとここ 担当教員 来週から3回(第2~4回)は深田先生 他は全部私です 講義(実習):15回 期末レポート

深田先生からのお願い EndNote Basicのアカウントを作る 「www.myendnoteweb.com」を開く。 Sign upを選ぶ。 Facebookアカウントがあれば、それでもSign inできる その場で以下の内容を入力しSign upを押す。 受信可能なメールアドレス、希望するパスワード、氏名 登録したアドレスへ送られるメールを見る。 書かれているコードを入力する。

日程 第1回 4月13日 第9回 6月8日 第2回 4月20日 第10回 6月15日 第3回 4月27日 第11回 6月22日 第4回 5月4日 第12回 6月29日 第5回 5月11日 第13回 7月13日 第6回 5月18日 第14回 7月20日 第7回 5月25日 第15回 7月27日 第8回 6月1日 期末レポート 8月6日まで

授業の進め方 講義:30分程度 チェックポイント:講義の内容を聞いて書く 実習と課題:60分程度 分からないときは、TAに尋ねる

授業のファイルの置き場所 読み出すファイル 保存するファイル 「Teacher/ogata/植物バイオサイエンス情報処理演習2018/」 「Share/植物バイオサイエンス情報処理演習2018 /」 この中に、自分のフォルダを作る

成績評価 当日レポート、各回5点(5x15=75点) 出席を兼ねます! 期末レポート:25点 最終回に説明します 合計:100 点

期末レポートの目的 注目する植物遺伝子を決める。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。 生物統計学:シロイヌナズナの遺伝子。 今回:どの植物でもOK。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。 生物統計学:発現データの統計解析。 今回:さまざまな手法を駆使する。 Wikipedia

遺伝子の機能に迫る 発現データ 配列データ 文献データ どの条件で働いているかが分かる。 どんな機能を示す配列をしているかが分かる。 組織特異性、ストレス応答性など。 配列データ どんな機能を示す配列をしているかが分かる。 機能ドメイン、その配列を共有する植物など。 文献データ 遺伝子についての全般的な知識が得られる。

期末レポートの作業 配列相同性解析:似ている配列を検索する。 遺伝子発現解析:発現の特異性を調べる。 代謝パスウェイ解析 どの代謝経路で働いているか、調べる。 遺伝子機能解析:機能情報を調べる。 文献検索:さまざまな知見を得る。

期末レポートの提出と書式 提出期限:2018年8月6日(月) 提出先:Shareフォルダ 書式:ワードファイルまたはPDFファイル 提出ファイルのタイムスタンプで判断します 提出先:Shareフォルダ 自分のフォルダ内 書式:ワードファイルまたはPDFファイル 他に参照するファイルがある場合は保存する

この部屋の使い方 平日の日中は空いています。 授業の邪魔にならなければ自由に使えます。 プリンターは教員の許可が必要です。

まずは自分のフォルダを作りましょう 「Share」→「植物バイオサイエンス情報処理演習2018」フォルダの中に、自分のフォルダを作りましょう 自分の名前(フルネーム) または、学籍番号

ビッグデータ

ビッグデータに関するキーワード AI 機械学習 ディープラーニング データマイニング

AI 人工知能:Artificial Intelligence AlphaGoがプロ囲碁棋士を破る 「コンピュータによる知的な情報処理システムの設計や実現に関する研究分野」 簡単に言うと「人間が知能を使ってすることを機械にさせようとする」 AlphaGoがプロ囲碁棋士を破る

機械学習 「人工知能における研究課題のひとつ」 「人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法」 教師あり学習:答えがある 教師なし学習:答えがない Deo, Circulation, 2015

教師あり学習 機械学習の手法のひとつ。 事前に与えられたものを正解とみなして、それをガイドにして学習する。 囲碁や将棋など、ゴールを明確に設定できるものに有効である。

教師なし学習 機械学習の手法のひとつ。 出力すべきものが予め決まっていない。 データの背後に存在する本質的な構造を抽出する。 現状の生命科学で活躍している。 データマイニングとも関連する。

ディープラーニング 「深層学習」ともいう。 多層のニューラルネットワークによる機械学習手法。 ニューラルネットワーク もともとは、生体の脳のモデル化が目的。 脳の特性をコンピュータで表現。

ディープラーニングの例 AlphaGOに対し、AlphaGO Zeroが圧勝! AlphaGO: 人が指したビッグデータを基に学習

データマイニング 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能 「統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである」 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能

生命科学の ビッグデータ

生命科学のビッグデータ 最初はゲノムデータ 次世代シーケンサーの登場 ビッグデータを使いこなせるか

ゲノム解読の幕開け 2001年2月 2001年2月 2000年12月

遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008) 遺伝子を扱う学術論文数の推移 遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008)

遺伝子を扱う学術論文数の推移 数万単位 100個程度 数十億単位

次世代シーケンサー

イルミナ社の次世代シーケンサー 一回の操作で、3~10日かかる。 一回の操作で、600Gb得られる。 つまり、一日当たり、60Gb得られる。

登録された塩基配列データ ヨタ キロヨタ メガヨタ …… ゼタ エクサ ペタ テラ ギガ メガ キロ Sequence Read Archive, NCBI

公共データベースのゲノム情報 NCBIのGenomeデータベース 原核生物:22,802種 ウイルス:9,567種 真核生物:2,795種 動物:902種 菌類:1,278種 植物:324種 原生生物:270種 他:21種

ビッグデータを使いこなす ビッグデータを使いやすくする ビッグデータそのものを解析する 注目する遺伝子について検索する ゲノム規模で特徴を調べる

注目する遺伝子の検索 公共データバンク 二次データベース ゲノム・遺伝子情報を蓄積 NCBI, EBI, 遺伝研 公共データバンクのビッグデータを解析 eFP Browser, ATTED-II, KEGG Gcorn, Xcorn, PLAGO

eFP Browser 植物を中心とした遺伝子発現解析 植物耐の模式図を使ったヒートマップが特徴

ATTED-II 植物の遺伝子発現解析 マイクロアレイとRNA-Seq解析を対象

KEGG PATHWAY 全生物の代謝パスウェイ 種ごとに存在している酵素のマッピング

Gcorn 植物遺伝子の配列相同性解析 進化と機能との関係を探求

Xcorn 植物の遺伝子発現解析 マイクロアレイ実験をグループ化

PLAGO 植物の遺伝子発現解析 RNA-Seq実験をグループ化

ビッグデータの解析 個々のデータは、各研究者が必要な情報のみを利用している データを集めて解析することで、新たな知見が期待される データマイニング、教師なし機械学習

1. 相同遺伝子の系統樹 Orthologous Paralogous 注目遺伝子+20遺伝子 O O O O 横軸は相関指標 左から右へ進化 P P O

2. 相同遺伝子数の変遷 配列数のみ減少 paralogous 配列・種数とも減少 orthologous 大規模な 種分化!! 右から左へ進化

3. 植物間ネットワーク 青丸:含まれる植物 相同遺伝子が多い植物同士(多くは科)が繋がっている

配列相同性解析で分かったこと 原則として、遺伝子のアミノ酸変異の割合は時間を追って増えていく。 ただし、種によって変異の速度が異なる。 おそらく世代の期間の違い? 遺伝子ごとにも変異の速度が異なる。 遺伝子の機能の違い?

今日の実習と課題 手順書に従って進めなさい。 今日の実習の感想や疑問点を書いてください。 これからの授業への要望や不安も書いてください。