2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
プログラミング入門 ガイダンス.
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
植物系統分類学・第13回 分子系統学の基礎と実践
2012年度 コンピュータ応用B (旧コンピュータ基礎D) ガイダンス
3DCGコンテンツの基礎 第5回授業:最終課題制作
座 席 表(CP教室) 出席番号.
第1回 ガイダンス 工学部担当 教員 吉岡 理文 ・ 岩村 雅一
生物統計学・第3回 全体を眺める(2) 主成分分析
IT入門B2 (木曜日1限) 第一回 講義概要 2004年月9日30日.
コンピュータリテラシ (1) 学習目標(到達目標) ・計算機実習室を正しく利用できる。 ・文書作成ソフトの利用方法を学び、報告作成が
映像技術演習 第8回:課題映像編集.
情報科学1(G1) 2016年度.
情報工学科 二宮 洋・鈴木 誠 小林 学・高畠俊徳 火曜日 1コマ目
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
経済情報処理ガイダンス 神奈川大学 経済学部.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
ウェブデザイン演習 第一回 オリエンテーション.
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
【プログラミング応用】 必修2単位 通年 30週 授業形態:演習.
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
シミュレーション論 Ⅱ 第15回 まとめ.
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
情報処理技法(リテラシI) 第14回:最終課題作成 産業技術大学院大学 情報アーキテクチャ専攻 助教  柴田 淳司 2017/7/20.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
Chemistry and Biotechnology
電子計算機工学 Keiichi MIYAJIMA Computer Architecture
講義を行うにあたっての注意 講義は静かに行いたい 出席は取らない(自由に休んでよろしい) 大学と高校の違い 人や先生に聞く・質問すること
地域情報学 C言語プログラミング 第1回 導入、変数、型変換、printf関数 2016年11月11日
植物系統分類学・第14回 分子系統学の基礎と実践
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
情報処理基礎A・B 坂口利裕 横浜市立大学・商学部
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
シミュレーション論 Ⅱ 第1回.
経済情報処理ガイダンス 神奈川大学 経済学部.
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
ガイダンス 電子計算機 電気工学科 山本昌志 1E
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
情報処理基礎 2006年 6月 29日.
情報技術演習Ⅰ 人文学研究のための情報技術入門 2017/04/13
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
情報数学5,6 (コンピュータおよび情報処理) 講義内容
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
コンピュータ プレゼンテーション.
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
Presentation transcript:

2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める 2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める 2019年4月12日 機能ゲノム科学  尾形 善之

授業の目標 植物バイオサイエンス研究領域で必要な情報処理の能力を培う。 要は、バイオサイエンスのビッグデータを使いこなす、ということ。 Wikipedia

1年次 前期 後期 2年次 前期 3年次 前期 応用生命科学類での 情報教育の流れ 情報基礎 統計学基礎I 統計学基礎II 生物統計学 1年次 前期 後期 2年次 前期 3年次 前期 情報基礎 統計学基礎I 統計学基礎II 生物物理化学実験 (生命機能化学課程) 生物統計学 植物バイオサイエンス情報処理演習 (植物バイオサイエンス課程)

授業の概要 教室:ずっとここ 担当教員 来週から3回(第2~4回)は深田先生 他は全部私です 講義(実習):15回 期末レポート

深田先生からのお願い EndNote web版のアカウントを作る 「https://www.myendnoteweb.com」を開く。 右上のRegisterをクリックする。 メールアドレス、パスワード、氏名を入力して、下のRegisterをクリックする。 登録したメールアドレスに確認のメールが来るので、その指示に従う。

日程 第1回 4月12日 第9回 6月14日 第2回 4月19日 第10回 6月21日 第3回 4月26日 第11回 6月28日 第4回 5月10日 第12回 7月12日 第5回 5月17日 第13回 7月19日 第6回 5月24日 第14回 7月26日 第7回 5月31日 第15回 8月2日 第8回 6月7日 期末レポート 8月9日まで

授業の進め方 講義:30分程度 チェックポイント:講義の内容を聞いて書く 実習と課題:60分程度 分からないときは、TAに尋ねる

授業のファイルの置き場所 読み出すファイル 保存するファイル 「Teacher/ogata/植物バイオサイエンス情報処理演習2019/」 「Share/植物バイオサイエンス情報処理演習2019 /」 この中に、自分のフォルダを作る

成績評価 当日レポート、各回5点(5x15=75点) 出席を兼ねます! 期末レポート:25点 最終回に説明します 合計:100 点

返却するレポートについて レポートの採点 A+: 5~ A: 5 B: 4 C: 3

期末レポートの目的 注目する植物遺伝子を決める。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。 生物統計学:シロイヌナズナの遺伝子。 今回:どの植物でもOK。 もちろん、これまでの遺伝子でもOK。 データベース検索や統計解析を通じて、機能に繋がる特徴を纏める。 生物統計学:発現データの統計解析。 今回:さまざまな手法を駆使する。

遺伝子の機能に迫る 発現データ 配列データ 文献データ どの条件で働いているかが分かる。 どんな機能を示す配列をしているかが分かる。 組織特異性、ストレス応答性など。 配列データ どんな機能を示す配列をしているかが分かる。 機能ドメイン、その配列を共有する植物など。 文献データ 遺伝子についての全般的な知識が得られる。

期末レポートの提出と書式 提出期限:2018年8月9日(金) 提出先:Shareフォルダまたはメール 提出ファイルのタイムスタンプで判断します 提出先:Shareフォルダまたはメール 書式:ワードファイルまたはPDFファイル 他に参照するファイルがある場合は保存する

この部屋の使い方 平日の日中は空いています。 授業の邪魔にならなければ自由に使えます。 プリンターは教員の許可が必要です。

まずは自分のフォルダを作りましょう 「Share」→「植物バイオサイエンス情報処理演習2019」フォルダの中に、自分のフォルダを作りましょう 自分の名前(フルネーム) または、学籍番号

ビッグデータ

ビッグデータに関するキーワード AI 機械学習 ディープラーニング データマイニング

AIの歴史

AI 人工知能:Artificial Intelligence AlphaGoがプロ囲碁棋士を破る 「コンピュータによる知的な情報処理システムの設計や実現に関する研究分野」 簡単に言うと「人間が知能を使ってすることを機械にさせようとする」 AlphaGoがプロ囲碁棋士を破る

機械学習 「人工知能における研究課題のひとつ」 「人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法」 教師あり学習:答えがある 教師なし学習:答えがない Deo, Circulation, 2015

教師あり学習 機械学習の手法のひとつ。 事前に与えられたものを正解とみなして、それをガイドにして学習する。 囲碁や将棋など、ゴールを明確に設定できるものに有効である。

教師なし学習 機械学習の手法のひとつ。 出力すべきものが予め決まっていない。 データの背後に存在する本質的な構造を抽出する。 現状の生命科学で活躍している。 データマイニングとも関連する。

ディープラーニング 「深層学習」ともいう。 多層のニューラルネットワークによる機械学習手法。 ニューラルネットワーク もともとは、生体の脳のモデル化が目的。 脳の特性をコンピュータで表現。

ディープラーニングの例 AlphaGOに対し、AlphaGO Zeroが圧勝! AlphaGO: 人が指したビッグデータを基に学習

データマイニング 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能 「統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである」 簡単に言うと、「ビッグデータの中から役に立つものを探し出すこと」 生命科学の分野にも応用可能

生命科学の ビッグデータ

生命科学のビッグデータ 最初はゲノムデータ 次世代シーケンサーの登場 ビッグデータを使いこなせるか

ゲノム解読の幕開け 2001年2月 2001年2月 2000年12月

遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008) 遺伝子を扱う学術論文数の推移 遺伝子発現解析手法と学術論文数の推移 (Cahvejian et al., Nat Biotechnol, 2008)

遺伝子を扱う学術論文数の推移 数万単位 100個程度 数十億単位

シーケンサーのスループット 2.5Mb/日 3年半で1人 1.8Gb/日 2日で1人 400Gb/日 1日で130人 イルミナ社HPより

登録された塩基配列データ ヨタ キロヨタ メガヨタ …… ゼタ エクサ ペタ テラ ギガ メガ キロ Sequence Read Archive, NCBI

公共データベースのゲノム情報 NCBIのGenomeデータベース 原核生物:22,802種 ウイルス:9,567種 真核生物:2,795種 動物:902種 菌類:1,278種 植物:324種 原生生物:270種 他:21種

公共データベースのゲノム情報 NCBIのGenomeデータベース 原核生物:22,80224,190種 ウイルス:9,56713,345種 真核生物:2,7954,009種 動物:9021,372種 菌類:1,2781,887種 植物:324424種 原生生物:270302種 他:2124種

注目する遺伝子の検索 公共データバンク 二次データベース ゲノム・遺伝子情報を蓄積 NCBI, EBI, 遺伝研 公共データバンクのビッグデータを解析 eFP Browser, ATTED-II, KEGG Gcorn, Xcorn

eFP Browser 植物を中心とした遺伝子発現解析 植物耐の模式図を使ったヒートマップが特徴

ATTED-II 植物の遺伝子発現解析 マイクロアレイとRNA-Seq解析を対象

KEGG PATHWAY 全生物の代謝パスウェイ 種ごとに存在している酵素のマッピング

Gcorn plant 植物遺伝子の配列相同性解析 進化と機能との関係を探求

Xcorn plant 植物の遺伝子発現解析 マイクロアレイ実験をグループ化

1. 相同遺伝子の系統樹 Orthologous Paralogous 注目遺伝子+20遺伝子 O O O O 横軸は相関指標 左から右へ進化 P P O

2. 植物間ネットワーク 青丸:含まれる植物 相同遺伝子が多い植物同士(多くは科)が繋がっている

配列相同性解析で分かったこと 原則として、遺伝子のアミノ酸変異の割合は時間を追って増えていく。 種によって変異の速度が異なる。 おそらく世代数の違い? 遺伝子ごとにも変異の速度が異なる。 遺伝子の機能の違い?

今日の実習と課題 手順書に従って進めなさい。 今日の実習の感想・疑問点を書いてください。 これからの授業への要望や不安もどうぞ。