Download presentation
Presentation is loading. Please wait.
Published byとしみ とりこし Modified 約 8 年前
1
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之
2
階級度数 0-92 10-190 20-292 30-391 40-491 50-591 1 2 25 41 20 32 57 38 データ群 度数分布表 Histogram
3
練習
4
再掲 階級度数 0-92 10-190 20-292 30-391 40-491 50-591 1 2 25 41 20 32 57 38 データ群 度数分布表 Histogram
5
データ群 データ全体としての性質を数値化すると – 平均(データの代表値, mean ) – 分散(データの散らばり, variance ) – 標準偏差(データの散らばり, standard deviation ) – 中央値(データの代表値, median ) – 最頻値(データの代表値, mode ) – 最大値 (maximun) &最小値 (minimum) – 範囲(データの散らばり, range ) etc.
6
基本概念の再考察 1. 平均(算術平均)の性質 2. 平均偏差の性質 3. 分散の性質 6H. Kameda ( Tokyo University of Technology )
7
平均の性質 定義: 平均=(データの総量) ÷ (データの個 数) m = T / N m: 平均 (mean) T: データの総量 T = x 1 + x 2 + … + x N N: データの個数 7H. Kameda ( Tokyo University of Technology )
8
平均の性質(続き) 定義: 平均=(データの総量) ÷ (データの個 数) m = T / N m = ( x 1 + x 2 + … + x N )÷N m = ( x 1 + x 2 + … + x N ) / N m = (Σx i ) / N 書き方はいろいろですが、どれも同 じ! 慣れてください。 8H. Kameda ( Tokyo University of Technology )
9
例 ( あるいは Problem) わかりきった話ですが … 実際に計算し考えることは大切です。 常に練習(計算・思考)をしましょう。 9H. Kameda ( Tokyo University of Technology )
10
練習問題 Problem 次のようなデータが得られた。 平均 m を求めてみよう。 データ: 16, 45, 39, 53, 67 10H. Kameda ( Tokyo University of Technology )
11
解答例 Answer: 平均 m = ( 16 + 45 + 39 + 53 + 67 ) / 5 = 220 / 5 = 44 図形的考察: 102030 40506070 11H. Kameda ( Tokyo University of Technology )
12
考察(続き) A = (x 1 – m) + ( x 2 – m) + … + (x 5 – m) を計算してみると … 102030 40506070 x i - m xixi 12H. Kameda ( Tokyo University of Technology )
13
A = (x 1 – m) + ( x 2 – m) + … + (x 5 – m) = ( x 1 + x 2 + … + x N ) – N×m = ( x 1 + x 2 + … + x N ) – N×( x 1 + x 2 + … + x N ) / N = 0 これは平均の性質の1つ! 13H. Kameda ( Tokyo University of Technology )
14
得られた知見 定理: 関数 f(a) = (x 1 – a) + ( x 2 – a) + … + (x N – a) に対して、 f(a) = 0 となるのは、 a = m の ときである。 14H. Kameda ( Tokyo University of Technology )
15
Problem : 関数 g(a) = |x 1 – a| + |x 2 – a| + … + |x N – a| に対して、 g(a) を最小にする a を求めよ。 Answer: a = ? (考えてみてくださ い。) Comment: 平均偏差と関係あり? 15 考えてみよう! Let’s challenge! H. Kameda ( Tokyo University of Technology )
16
(参考) 平均偏差 MD とは MD = (|x 1 – m| + |x 2 – m| + … + |x N – m|) / N でしたね。 16H. Kameda ( Tokyo University of Technology )
17
チャレンジ問題 2 Problem : 関数 h(a) = |x 1 – a| 2 + |x 2 – a| 2 + … + |x N – a| 2 に対して、 h(a) を最小にする a を求めよ。 Comment: これも平均 m の性質の1つ。 17H. Kameda ( Tokyo University of Technology )
18
具体的に計算してみよう! 1. データ: 16, 45, 39, 53, 67 2. 平均 m = (16 + 45 + 39 + 53 + 67)/5=44 3.A = (16 - m) + (45 – m) + … + (67 – m) = 220 – 5×44 = 0 18H. Kameda ( Tokyo University of Technology )
19
4.f(a) = (16 – a) + (45 – a) + … + (67 – a) = 220 – 5a 従って、 f(a)=0 a = 44 = m 5.g(a) = |16 - a| + |45 - a| + |39 - a| + |53 - a| + |67 - a| = |16 - a| + |39 - a| + |45 - a| + |53 - a| + |67 - a| 19H. Kameda ( Tokyo University of Technology )
20
i.a ≦ 16g(a) = -5a + 220 ii.16 ≦ a ≦ 39g(a) = -3a + 188 iii.39 ≦ a ≦ 45g(a) = -a + 110 iv.45 ≦ a ≦ 53g(a) = a + 20 v.53 ≦ a ≦ 67g(a) = 3a - 86 vi.a ≧ 67 g(a) = 5a – 220 最小値は a=45 のとき。 45 は 16, 39, 45, 53, 67 の中央値! 20H. Kameda ( Tokyo University of Technology )
21
(参考) 中央値 (median) とは、 データを大きさの順に並べたとき、真 ん中にくるデータのこと。 16, 39, 45, 53, 67 これが中央値 21H. Kameda ( Tokyo University of Technology )
22
6.h(a) = |16 - a| 2 + … + |67 - a| 2 = (16 - a) 2 + (39 - a) 2 + (45 - a) 2 + (53 - a) 2 + (67 - a) 2 ちょっと計算すると … h(a) を最小にする a は、 a=m 。 平均 22H. Kameda ( Tokyo University of Technology )
23
ここまでのまとめ 次のスライドの通り。 23H. Kameda ( Tokyo University of Technology )
24
平均と中央値の性質 1. 基準点を m とするとき、( x i - m )の 総和は常にゼロとなる。 2.|x i – a| の総和は、 a= 中央値 ( median )のとき最小になる。 3.|x i – a| 2 の総和は、 a=m (平均)のと き最小となる。 平均 =(Σx i )/N の妥当性 を示している。 24 H. Kameda ( Tokyo University of Technology )
25
以上のような事実を踏まえて,... 25H. Kameda ( Tokyo University of Technology )
26
各種統計量の考察 1.m = (Σxi ) / N の定義は妥当 2. 平均偏差 MD= (|x i – m| の平均 ) 3. 平均偏差の式において、中央値( median ) には意味がある。(平均偏差の定義には中 央値を用いるべきか?) 4. 分散 =(|x i – m| 2 の平均 ) 5. 分散の式において、 m が平均のとき最小と なるので、平均 m を基準とするのは妥当で ある。 26H. Kameda ( Tokyo University of Technology )
27
簡単な練習問題 Problem: 次のデータは 50 人の成人男性の血 圧値である。平均 m 、中央値 me 、 モード mode (最 頻値)、 分散 s 2 、標準偏差 s をそれぞれ求めよ。 120115108111116 13293107114118 126124117102155 123124117152130 114126133120148 135110100120108 125136142113147 155132110136125 96112120118115 122168160126154 表.成人男性 50 人の血圧 Advice: EXCEL を使お う! 27 H. Kameda ( Tokyo University of Technology )
28
まとめ データ群が与えられたとき、 データの代表値: 1. 平均 (mean) 2. 中央値 (median) 3. モード (mode) or 最頻値 データのバラツキ: 1. 範囲( range ) or レンジ 2. 分散 (variance) 3. 標準偏差 (standard deviation) 赤字のものは、基本統計量とも呼ばれる。 28 H. Kameda ( Tokyo University of Technology )
29
データが与えられたら、指定されなくて も基本統計量は常に計算するもの。 – 平均・中央値・モード・分散( or 標準偏差) 度数分布表やヒストグラム も言われなくても描きま しょう! 29H. Kameda ( Tokyo University of Technology )
30
再掲 データ群 データ全体としての性質を数値化すると – 平均(データの代表値, mean ) – 分散(データの散らばり, variance ) – 標準偏差(データの散らばり, standard deviation ) – 中央値(データの代表値, median ) – 最頻値(データの代表値, mode ) – 最大値&最小値 – 範囲(データの散らばり, range ) etc. H. Kameda ( Tokyo University of Technology )
31
これらの改良版 幹葉表示 (stem-leaf-and-forget-display) – 度数分布表 5数表示 (five number display) – 基本統計量 箱ヒゲ図 – 基本統計量の図示 H. Kameda ( Tokyo University of Technology )
32
4 2 0 3 1 0 2 3 0 3 2 0 4 3 0 3 1 0 幹葉表示 427 313 232 323 434 317 311 4 2 7 3 1 3 2 3 2 3 2 3 4 3 4 3 1 7 3 1 1 基本的考え方 幹 (stem) Most Significant Digit 葉 (leaf ) 端数 (forget) H. Kameda ( Tokyo University of Technology )
33
幹葉表示(例) H. Kameda ( Tokyo University of Technology )
34
練習 Problem 以下のデータセットに関し 「幹葉表示」を求めよ。 H. Kameda ( Tokyo University of Technology ) 283, 339, 350, 348, 386, 390, 360, 423, 393, 350, 239, 272, 150, 189, 340, 399, 288, 321, 331, 335, 283, 261, 253, 286, 284, 173, 132, 199, 235, 212, 310, 285, 258, 215, 267, 282, 278, 225, 183, 267, 311, 233, 322, 282, 315, 290, 273, 138
35
五数表示(五数要約) データのばらつきの様子をあらわすのに、 最小値 第1四分位数(小さいほうから 1/4 のところの データ) 第2四分位数(小さいほうから 2/4 のところの データ、中央値と同じこと) 第3四分位数(小さいほうから 3/4 のところの データ) 最大値 の5つの数を用いて表すこと。 H. Kameda ( Tokyo University of Technology )
36
練習 Problem 先述のデータセットに関し 「五数要約」を求めよ。 H. Kameda ( Tokyo University of Technology )
37
箱ひげ図 (黒板で説明します) H. Kameda ( Tokyo University of Technology )
38
練習 Problem 先述のデータセットに関し 「箱ひげ図」を求めよ。 H. Kameda ( Tokyo University of Technology )
39
練習 次のデータセットを使って、ドットプ ロットを作成した見なさい。 データセット: 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 10
40
ここまでの内容を復習 R 言語を使って、実際に処理してみよう! – データセットの作り方 – データセットの読み込み方 H. Kameda ( Tokyo University of Technology )
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.