Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
もう少し高い位置から 統計応用のひとつの風景. Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
確率と統計 2007 平成 20 年 1 月 10 日 ( 木 ) 東京工科大学 亀田弘之. 復習.
統計学入門(1) 第 10 回 基本統計量:まとめ. 統計学第 8 回 2 前回の練習問題の解答 (1) から (4) に対応するヒストグラムはそれぞれどれか。
先進的データ分析法 Advanced Data Analysis 東京工科大学大学院 バイオニクス・情報メディア学専 攻科 担当: 亀田 弘之.
MS-EXCEL、 OpenCalcを 用いた表計算
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
数理統計学  第9回 西山.
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
第2章 1変量データの記述 統計学基礎 2011年度.
第1章 記述統計の復習 統計学 2007年度.
経済統計学 第2回 4/24 Business Statistics
確率と統計2011 平成24年1月12日(木) 東京工科大学 亀田弘之.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
統計解析 第7回 第6章 離散確率分布.
統計学 第3回 「データの尺度・データの図示」
第1回 担当: 西山 統計学.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
統計解析 第9回 第9章 正規分布、第11章 理論分布.
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
統計学 第3回 10/11 担当:鈴木智也.
統計学 11/08(木) 鈴木智也.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
数理統計学 第4回 西山.
形式言語とオートマトン Formal Languages and Automata 第4日目
形式言語とオートマトン Formal Languages and Automata 第4日目
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
正規分布確率密度関数.
形式言語とオートマトン Formal Languages and Automata 第4日目
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
確率と統計2008 平成20年12月4日(木) 東京工科大学 亀田弘之.
第3章 統計的推定 (その1) 統計学 2006年度.
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
先進的データ分析法 Advanced Data Analysis
都市・港湾経済学(総) 国民経済計算論(商)
代表値と散らばり.
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
散らばり 本時の目標 資料の傾向をみるときは、代表値だけでなく散らばりを考える必要があることを理解する。
平成23年12月22日(木) No.9 東京工科大学 担当:亀田弘之
データ分布の特徴 基準化変量 歪度 尖度.
形式言語とオートマトン Formal Languages and Automata 第5日目
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之

階級度数 データ群 度数分布表 Histogram

練習

再掲 階級度数 データ群 度数分布表 Histogram

データ群 データ全体としての性質を数値化すると – 平均(データの代表値, mean ) – 分散(データの散らばり, variance ) – 標準偏差(データの散らばり, standard deviation ) – 中央値(データの代表値, median ) – 最頻値(データの代表値, mode ) – 最大値 (maximun) &最小値 (minimum) – 範囲(データの散らばり, range ) etc.

基本概念の再考察 1. 平均(算術平均)の性質 2. 平均偏差の性質 3. 分散の性質 6H. Kameda ( Tokyo University of Technology )

平均の性質 定義: 平均=(データの総量) ÷ (データの個 数) m = T / N m: 平均 (mean) T: データの総量 T = x 1 + x 2 + … + x N N: データの個数 7H. Kameda ( Tokyo University of Technology )

平均の性質(続き) 定義: 平均=(データの総量) ÷ (データの個 数) m = T / N m = ( x 1 + x 2 + … + x N )÷N m = ( x 1 + x 2 + … + x N ) / N m = (Σx i ) / N 書き方はいろいろですが、どれも同 じ! 慣れてください。 8H. Kameda ( Tokyo University of Technology )

例 ( あるいは Problem) わかりきった話ですが … 実際に計算し考えることは大切です。 常に練習(計算・思考)をしましょう。 9H. Kameda ( Tokyo University of Technology )

練習問題 Problem 次のようなデータが得られた。 平均 m を求めてみよう。 データ: 16, 45, 39, 53, 67 10H. Kameda ( Tokyo University of Technology )

解答例 Answer: 平均 m = ( ) / 5 = 220 / 5 = 44 図形的考察: H. Kameda ( Tokyo University of Technology )

考察(続き) A = (x 1 – m) + ( x 2 – m) + … + (x 5 – m) を計算してみると … x i - m xixi 12H. Kameda ( Tokyo University of Technology )

A = (x 1 – m) + ( x 2 – m) + … + (x 5 – m) = ( x 1 + x 2 + … + x N ) – N×m = ( x 1 + x 2 + … + x N ) – N×( x 1 + x 2 + … + x N ) / N = 0 これは平均の性質の1つ! 13H. Kameda ( Tokyo University of Technology )

得られた知見 定理: 関数 f(a) = (x 1 – a) + ( x 2 – a) + … + (x N – a) に対して、 f(a) = 0 となるのは、 a = m の ときである。 14H. Kameda ( Tokyo University of Technology )

Problem : 関数 g(a) = |x 1 – a| + |x 2 – a| + … + |x N – a| に対して、 g(a) を最小にする a を求めよ。 Answer: a = ? (考えてみてくださ い。) Comment: 平均偏差と関係あり? 15 考えてみよう! Let’s challenge! H. Kameda ( Tokyo University of Technology )

(参考) 平均偏差 MD とは MD = (|x 1 – m| + |x 2 – m| + … + |x N – m|) / N でしたね。 16H. Kameda ( Tokyo University of Technology )

チャレンジ問題 2 Problem : 関数 h(a) = |x 1 – a| 2 + |x 2 – a| 2 + … + |x N – a| 2 に対して、 h(a) を最小にする a を求めよ。 Comment: これも平均 m の性質の1つ。 17H. Kameda ( Tokyo University of Technology )

具体的に計算してみよう! 1. データ: 16, 45, 39, 53, 平均 m = ( )/5=44 3.A = (16 - m) + (45 – m) + … + (67 – m) = 220 – 5×44 = 0 18H. Kameda ( Tokyo University of Technology )

4.f(a) = (16 – a) + (45 – a) + … + (67 – a) = 220 – 5a 従って、 f(a)=0 a = 44 = m 5.g(a) = |16 - a| + |45 - a| + |39 - a| + |53 - a| + |67 - a| = |16 - a| + |39 - a| + |45 - a| + |53 - a| + |67 - a| 19H. Kameda ( Tokyo University of Technology )

i.a ≦ 16g(a) = -5a ii.16 ≦ a ≦ 39g(a) = -3a iii.39 ≦ a ≦ 45g(a) = -a iv.45 ≦ a ≦ 53g(a) = a + 20 v.53 ≦ a ≦ 67g(a) = 3a - 86 vi.a ≧ 67 g(a) = 5a – 220 最小値は a=45 のとき。 45 は 16, 39, 45, 53, 67 の中央値! 20H. Kameda ( Tokyo University of Technology )

(参考) 中央値 (median) とは、 データを大きさの順に並べたとき、真 ん中にくるデータのこと。 16, 39, 45, 53, 67 これが中央値 21H. Kameda ( Tokyo University of Technology )

6.h(a) = |16 - a| 2 + … + |67 - a| 2 = (16 - a) 2 + (39 - a) 2 + (45 - a) 2 + (53 - a) 2 + (67 - a) 2 ちょっと計算すると … h(a) を最小にする a は、 a=m 。 平均 22H. Kameda ( Tokyo University of Technology )

ここまでのまとめ 次のスライドの通り。 23H. Kameda ( Tokyo University of Technology )

平均と中央値の性質 1. 基準点を m とするとき、( x i - m )の 総和は常にゼロとなる。 2.|x i – a| の総和は、 a= 中央値 ( median )のとき最小になる。 3.|x i – a| 2 の総和は、 a=m (平均)のと き最小となる。 平均 =(Σx i )/N の妥当性 を示している。 24 H. Kameda ( Tokyo University of Technology )

以上のような事実を踏まえて,... 25H. Kameda ( Tokyo University of Technology )

各種統計量の考察 1.m = (Σxi ) / N の定義は妥当 2. 平均偏差 MD= (|x i – m| の平均 ) 3. 平均偏差の式において、中央値( median ) には意味がある。(平均偏差の定義には中 央値を用いるべきか?) 4. 分散 =(|x i – m| 2 の平均 ) 5. 分散の式において、 m が平均のとき最小と なるので、平均 m を基準とするのは妥当で ある。 26H. Kameda ( Tokyo University of Technology )

簡単な練習問題 Problem: 次のデータは 50 人の成人男性の血 圧値である。平均 m 、中央値 me 、 モード mode (最 頻値)、 分散 s 2 、標準偏差 s をそれぞれ求めよ。 表.成人男性 50 人の血圧 Advice: EXCEL を使お う! 27 H. Kameda ( Tokyo University of Technology )

まとめ データ群が与えられたとき、 データの代表値: 1. 平均 (mean) 2. 中央値 (median) 3. モード (mode) or 最頻値 データのバラツキ: 1. 範囲( range ) or レンジ 2. 分散 (variance) 3. 標準偏差 (standard deviation) 赤字のものは、基本統計量とも呼ばれる。 28 H. Kameda ( Tokyo University of Technology )

データが与えられたら、指定されなくて も基本統計量は常に計算するもの。 – 平均・中央値・モード・分散( or 標準偏差) 度数分布表やヒストグラム も言われなくても描きま しょう! 29H. Kameda ( Tokyo University of Technology )

再掲 データ群 データ全体としての性質を数値化すると – 平均(データの代表値, mean ) – 分散(データの散らばり, variance ) – 標準偏差(データの散らばり, standard deviation ) – 中央値(データの代表値, median ) – 最頻値(データの代表値, mode ) – 最大値&最小値 – 範囲(データの散らばり, range ) etc. H. Kameda ( Tokyo University of Technology )

これらの改良版 幹葉表示 (stem-leaf-and-forget-display) – 度数分布表 5数表示 (five number display) – 基本統計量 箱ヒゲ図 – 基本統計量の図示 H. Kameda ( Tokyo University of Technology )

幹葉表示 基本的考え方 幹 (stem) Most Significant Digit 葉 (leaf ) 端数 (forget) H. Kameda ( Tokyo University of Technology )

幹葉表示(例) H. Kameda ( Tokyo University of Technology )

練習 Problem 以下のデータセットに関し 「幹葉表示」を求めよ。 H. Kameda ( Tokyo University of Technology ) 283, 339, 350, 348, 386, 390, 360, 423, 393, 350, 239, 272, 150, 189, 340, 399, 288, 321, 331, 335, 283, 261, 253, 286, 284, 173, 132, 199, 235, 212, 310, 285, 258, 215, 267, 282, 278, 225, 183, 267, 311, 233, 322, 282, 315, 290, 273, 138

五数表示(五数要約) データのばらつきの様子をあらわすのに、 最小値 第1四分位数(小さいほうから 1/4 のところの データ) 第2四分位数(小さいほうから 2/4 のところの データ、中央値と同じこと) 第3四分位数(小さいほうから 3/4 のところの データ) 最大値 の5つの数を用いて表すこと。 H. Kameda ( Tokyo University of Technology )

練習 Problem 先述のデータセットに関し 「五数要約」を求めよ。 H. Kameda ( Tokyo University of Technology )

箱ひげ図 (黒板で説明します) H. Kameda ( Tokyo University of Technology )

練習 Problem 先述のデータセットに関し 「箱ひげ図」を求めよ。 H. Kameda ( Tokyo University of Technology )

練習 次のデータセットを使って、ドットプ ロットを作成した見なさい。 データセット: 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 10

ここまでの内容を復習 R 言語を使って、実際に処理してみよう! – データセットの作り方 – データセットの読み込み方 H. Kameda ( Tokyo University of Technology )