生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之.

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
生物統計学・第 15 回 エラーを調べる -第一種の過誤、第二種の過誤、外れ値 - 2016 年 1 月 26 日 生命環境科学域 応用生命科学類 尾形 善之.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
生物統計学・第 14 回 Perl を使いこなす インストール、プログラミング 2014 年 1 月 20 日 生命環境科学域 応用生命科学 類 尾形 善之.
日本バイオインフォマティクス学会 バイオインフォマティクス カリキュラム中間報告
生物統計学・第4回 全体を眺める(3) 各種クラスター分析
植物系統分類学・第13回 分子系統学の基礎と実践
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
第1回 担当: 西山 統計学.
代表値と散らばり.
生物統計学・第3回 全体を眺める(2) 主成分分析
このPowerPointファイルは、 情報処理演習用に作った フィクションです。
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
1変量データの記述 経済データ解析 2006年度.
生物統計学・第2回 注目要素を決める まず木を見る、各種グラフ、ウェブツール
2016年度 植物バイオサイエンス情報処理演習 第7回 情報解析(1) 配列相同性解析・1
2016年度 植物バイオサイエンス情報処理演習 第9回 情報処理(5) データを集計する
2016年度 植物バイオサイエンス情報処理演習 第10回 情報解析(3) Rを使った主成分分析
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
2016年度 植物バイオサイエンス情報処理演習 第13回 情報解析(6) エクセルVBAによる遺伝子機能解析
生物統計学・第2回 全体を眺める(1) 各種グラフ、ヒストグラム、分布
第10回:Microsoft Excel (2/2)
生物統計学・第1回 統計解析を始める前に -木を見て森を見てまた木を見る-
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
第19回 HiHA Seminar Hiroshima Research Center for Healthy Aging (HiHA)
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
2017年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第5回 公共データバンクの遺伝子情報
2018年度 植物バイオサイエンス情報処理演習 第7回 公共データバンクの遺伝子発現情報
2017年度 植物バイオサイエンス情報処理演習 第1回 情報検索(1) ビッグデータを眺める
植物系統分類学・第15回 比較ゲノミクスの基礎と実践
第4回 統計処理(1) 表計算ソフトの基本操作 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
植物系統分類学・第14回 分子系統学の基礎と実践
統計処理2  t検定・分散分析.
2018年度 植物バイオサイエンス情報処理演習 第12回 情報解析(2) 配列相同性解析・DNA
マイクロソフト Access での SQL 演習 第2回 集計,集約
2019年1月22日 生命環境科学域 応用生命科学類 尾形 善之
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
からだをまもる免疫のふしぎ (日本免疫学会:羊土社).
第10回:Microsoft Excel (2/2)
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
期末レポートの内容 使うデータ 「biostat18finaldata.txt」 遺伝子発現データ
2017年度 植物バイオサイエンス情報処理演習 第11回 系統樹
代表値と散らばり.
2018年度 植物バイオサイエンス情報処理演習 第13回 メタゲノミクス
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
本当は消去できていない!? ~データを完全消去する方法~
本当は消去できていない!? ~データを完全消去する方法~
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
2018年度 植物バイオサイエンス情報処理演習 第12回 次世代シーケンシング・RNA
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
生物統計学・第11回 全体を眺める(3) -主成分分析1:分析の基本-
2018年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による化合物の性質予測(1) バイオインフォマティクス概観
2018年度 植物バイオサイエンス情報処理演習 第9回 公共データバンクの代謝パスウェイ情報
分子生物情報学(0) バイオインフォマティクス
2019年度 植物バイオサイエンス情報処理演習 第1回 ビッグデータを眺める
Presentation transcript:

生物統計学・第 2 回 全体を眺める(1) 平均と分散、各種グラフ、ヒストグラム 2013 年 10 月 7 日 生命環境科学域 応用生命科学類 植物バイオサイエンス課程 尾形 善之

先週のレポート ★生機ですが …… ♦ 講義の繋がりを説明しましたが、講義ごとに 独立しています。植物の遺伝子に注目します が、分子生物学的情報を使いますので、生命 機能の人でも十分に役立つと思います。

先週のレポート ★統計学の授業は初めてで不安です ♦ この講義だけで十分に理解できるように説明 していきます。数式は必要最低限にする予定 です(まったく出てこない、ということはあ りませんが)。

先週のレポート ★実用的な授業を期待します ♦ 実際の生物データを利用して説明していきま す。生物データを全体的に眺めて、自分なり に理解を深めて、この生物の遺伝子の働きを 知っていくように構成しています。深く理解 したい人向けに、自習用のデータセットを提 供します。

先週のレポート ★風立ちぬ …… ♦ たくさんの感想、ありがとうございました。 本当にいろいろな意見があることを実感しま した。

まずは先週のリマインド ★全体を眺める ★みんなを納得させる ★木を見て森を見てまた木を見る

今週のキーワードの前に ★生物データセットの説明をします ♦ シロイヌナズナの遺伝子発現データを使います ★シロイヌナズナとは …… ♦ モデル植物:植物で初めてゲノムが読まれた ♦ 染色体 5 本(普通は 10 数本) でも、ちゃんと植物です ♦ いろいろ実験がしやすい

遺伝子発現とは ★遺伝子が転写されること ♦ つまり遺伝子が働いていること 複製: DNA をもうひと つ作る 転写: DNA から RNA を 作る 翻訳: RNA からタンパク質 を作る

遺伝子発現解析 ★どうやって調べるか ♦ ゲノム規模なら「マイクロアレイ」 最近は「次世代シーケンシング」ですが …… ♦ マイクロアレイとは …… 遺伝子の発現量が分かる

生物データセット ★シロイヌナズナのマイクロアレイ データ ♦79 実験条件 組織、発達段階 ♦3 反復 ♦ 合計 237 実験

なぜ 3 反復するのか? ★ 237 種類の実験ができたのに …… ★統計解析のためです ♦ データが 3 つあると統計指標をつけられます ♦ ばらつき(広がり)を評価できます もともと生物データには、ばらつきが大きいです

チェックポイント・ I 1. シロイヌナズナとはどんな植物で すか? 2. マイクロアレイは何を調べる道具 ですか? 3. 生物データセットではなぜ反復実 験をするのですか?

ようやく本題へ

いろいろな平均値(代表値) ★中央値 (「真ん中」) ♦ データを大きい順に並べたときの真ん中 6.1, 5.8, 6.1 なら、中央値は …… 6.1 ★最頻値 (「一番多い」) ♦ 一番多く出てくる値 6.1, 5.8, 6.1 なら、最頻値は …… やっぱり 6.1

もうひとつの平均値

平均値の使い分け ★算術平均 ♦ 普通には、これを使ってください ★中央値 ♦ 値がばらついているときに使います ★最頻値 ♦ ひどいばらつき、実際に代表を選ぶ、数値ではない ★調和平均 ♦ 分数で間の値をすぐに探したいとき (暗算)

チェックポイント・ II 4.4 種類の代表値の使い分けは?

今日のキーワード:分散 平均 ばらつ き

いろいろなグラフ ★円グラフ ♦ 全体の中での割合を見る ★折れ線グラフ ♦ 変化を見る、量の変化は棒グラフ ★棒グラフ ♦ 量を比べる、量の変化を見る ★そのほかのグラフ

生物データとグラフ At1g56650 の遺伝 子発現データ 79 実験条件 折れ線でいいの か?

生物データとグラフ At1g56650 と似た 遺伝子発現デー タをもつ遺伝子 群 こうなると折れ 線でないと眺め にくい

これも森を見るためのグラフ です

チェックポイント・ III 5. 円グラフ、折れ線グラフ、棒グラ フの使い分けは? 6. シロイヌナズナの遺伝子発現デー タ全体を眺める方法は?

今日の自習のポイント ★提供されるデータセットをダウン ロードする (AtGE_dev_gcRMA.txt) 。 ♦ 圧縮されているので、解凍する。 ♦ エクセルで開く。 ★実験条件の説明ファイルもダウン ロードする (file.pdf) 。 ★ CTRL+f を押して、「 At1g56650 」を 検索する。

次回までの予習 ★次回は「主成分分析」です ♦ だんだん本格的な解析に入ります ♦ でも、丁寧に説明していきます

本日の課題 ★シロイヌナズナの遺伝子発現データ を 79 実験条件、各 3 反復、手に入れま した。 1. 各実験の 3 反復を纏める方法につい て述べなさい。 2.3 反復を纏めた後で、 79 実験条件を どのように眺めたらよいか述べな さい。