Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之

階級度数 0-92 10-190 20-292 30-391 40-491 50-591 1 2 25 41 20 32 57 38 データ群度数分布表 Histogram

練習

再掲階級度数 0-92 10-190 20-292 30-391 40-491 50-591 1 2 25 41 20 32 57 38 データ群度数分布表 Histogram

データ群データ全体としての性質を数値化すると – 平均（データの代表値, mean ） – 分散（データの散らばり, variance ） – 標準偏差（データの散らばり, standard deviation ） – 中央値（データの代表値, median ） – 最頻値（データの代表値, mode ） – 最大値 (maximun) ＆最小値 (minimum) – 範囲（データの散らばり, range ） etc.

基本概念の再考察 1. 平均（算術平均）の性質 2. 平均偏差の性質 3. 分散の性質 6H. Kameda ( Tokyo University of Technology )

平均の性質定義：平均＝（データの総量） ÷ （データの個数） m = T / N m: 平均 (mean) T: データの総量 T = x 1 + x 2 + … + x N N: データの個数 7H. Kameda ( Tokyo University of Technology )

平均の性質（続き）定義：平均＝（データの総量） ÷ （データの個数） m = T / N m = ( x 1 + x 2 + … + x N )÷N m = ( x 1 + x 2 + … + x N ) / N m = (Σx i ) / N 書き方はいろいろですが、どれも同じ！慣れてください。 8H. Kameda ( Tokyo University of Technology )

例 ( あるいは Problem) わかりきった話ですが … 実際に計算し考えることは大切です。常に練習（計算・思考）をしましょう。 9H. Kameda ( Tokyo University of Technology )

練習問題 Problem 次のようなデータが得られた。平均 m を求めてみよう。データ： 16, 45, 39, 53, 67 10H. Kameda ( Tokyo University of Technology )

解答例 Answer: 平均 m = ( 16 + 45 + 39 + 53 + 67 ) / 5 = 220 / 5 = 44 図形的考察： 102030 40506070 11H. Kameda ( Tokyo University of Technology )

考察（続き） A = (x 1 – m) + ( x 2 – m) + … + (x 5 – m) を計算してみると … 102030 40506070 x i - m xixi 12H. Kameda ( Tokyo University of Technology )

A = (x 1 – m) + ( x 2 – m) + … + (x 5 – m) = ( x 1 + x 2 + … + x N ) – N×m = ( x 1 + x 2 + … + x N ) – N×( x 1 + x 2 + … + x N ) / N = 0 これは平均の性質の１つ！ 13H. Kameda ( Tokyo University of Technology )

得られた知見定理：関数 f(a) = (x 1 – a) + ( x 2 – a) + … + (x N – a) に対して、 f(a) = 0 となるのは、 a = m のときである。 14H. Kameda ( Tokyo University of Technology )

Problem ：関数 g(a) = |x 1 – a| + |x 2 – a| + … + |x N – a| に対して、 g(a) を最小にする a を求めよ。 Answer: a = ? （考えてみてください。） Comment: 平均偏差と関係あり？ 15 考えてみよう！ Let’s challenge! H. Kameda ( Tokyo University of Technology )

（参考）平均偏差 MD とは MD = (|x 1 – m| + |x 2 – m| + … + |x N – m|) / N でしたね。 16H. Kameda ( Tokyo University of Technology )

チャレンジ問題 2 Problem ：関数 h(a) = |x 1 – a| 2 + |x 2 – a| 2 + … + |x N – a| 2 に対して、 h(a) を最小にする a を求めよ。 Comment: これも平均 m の性質の１つ。 17H. Kameda ( Tokyo University of Technology )

具体的に計算してみよう！ 1. データ： 16, 45, 39, 53, 67 2. 平均 m = (16 + 45 + 39 + 53 + 67)/5=44 3.A = (16 - m) + (45 – m) + … + (67 – m) = 220 – 5×44 = 0 18H. Kameda ( Tokyo University of Technology )

4.f(a) = (16 – a) + (45 – a) + … + (67 – a) = 220 – 5a 従って、 f(a)=0 a = 44 = m 5.g(a) = |16 - a| + |45 - a| + |39 - a| + |53 - a| + |67 - a| = |16 - a| + |39 - a| + |45 - a| + |53 - a| + |67 - a| 19H. Kameda ( Tokyo University of Technology )

i.a ≦ 16g(a) = -5a + 220 ii.16 ≦ a ≦ 39g(a) = -3a + 188 iii.39 ≦ a ≦ 45g(a) = -a + 110 iv.45 ≦ a ≦ 53g(a) = a + 20 v.53 ≦ a ≦ 67g(a) = 3a - 86 vi.a ≧ 67 g(a) = 5a – 220 最小値は a=45 のとき。 45 は 16, 39, 45, 53, 67 の中央値！ 20H. Kameda ( Tokyo University of Technology )

（参考）中央値 (median) とは、データを大きさの順に並べたとき、真ん中にくるデータのこと。 16, 39, 45, 53, 67 これが中央値 21H. Kameda ( Tokyo University of Technology )

6.h(a) = |16 - a| 2 + … + |67 - a| 2 = (16 - a) 2 + (39 - a) 2 + (45 - a) 2 + (53 - a) 2 + (67 - a) 2 ちょっと計算すると … h(a) を最小にする a は、 a=m 。平均 22H. Kameda ( Tokyo University of Technology )

ここまでのまとめ次のスライドの通り。 23H. Kameda ( Tokyo University of Technology )

平均と中央値の性質 1. 基準点を m とするとき、（ x i - m ）の総和は常にゼロとなる。 2.|x i – a| の総和は、 a= 中央値（ median ）のとき最小になる。 3.|x i – a| 2 の総和は、 a=m （平均）のとき最小となる。平均 =(Σx i )/N の妥当性を示している。 24 H. Kameda ( Tokyo University of Technology )

以上のような事実を踏まえて，．．． 25H. Kameda ( Tokyo University of Technology )

各種統計量の考察 1.m = (Σxi ) / N の定義は妥当 2. 平均偏差 MD= (|x i – m| の平均 ) 3. 平均偏差の式において、中央値（ median ）には意味がある。（平均偏差の定義には中央値を用いるべきか？） 4. 分散 =(|x i – m| 2 の平均 ) 5. 分散の式において、 m が平均のとき最小となるので、平均 m を基準とするのは妥当である。 26H. Kameda ( Tokyo University of Technology )

簡単な練習問題 Problem: 次のデータは 50 人の成人男性の血圧値である。平均 m 、中央値 me 、モード mode （最頻値）、分散 s 2 、標準偏差 s をそれぞれ求めよ。 120115108111116 13293107114118 126124117102155 123124117152130 114126133120148 135110100120108 125136142113147 155132110136125 96112120118115 122168160126154 表．成人男性 50 人の血圧 Advice: EXCEL を使おう！ 27 H. Kameda ( Tokyo University of Technology )

まとめデータ群が与えられたとき、データの代表値： 1. 平均 (mean) 2. 中央値 (median) 3. モード (mode) or 最頻値データのバラツキ： 1. 範囲（ range ） or レンジ 2. 分散 (variance) 3. 標準偏差 (standard deviation) 赤字のものは、基本統計量とも呼ばれる。 28 H. Kameda ( Tokyo University of Technology )

データが与えられたら、指定されなくても基本統計量は常に計算するもの。 – 平均・中央値・モード・分散（ or 標準偏差）度数分布表やヒストグラムも言われなくても描きましょう！ 29H. Kameda ( Tokyo University of Technology )

再掲データ群データ全体としての性質を数値化すると – 平均（データの代表値, mean ） – 分散（データの散らばり, variance ） – 標準偏差（データの散らばり, standard deviation ） – 中央値（データの代表値, median ） – 最頻値（データの代表値, mode ） – 最大値＆最小値 – 範囲（データの散らばり, range ） etc. H. Kameda ( Tokyo University of Technology )

これらの改良版幹葉表示 (stem-leaf-and-forget-display) – 度数分布表５数表示 (five number display) – 基本統計量箱ヒゲ図 – 基本統計量の図示 H. Kameda ( Tokyo University of Technology )

4 2 0 3 1 0 2 3 0 3 2 0 4 3 0 3 1 0 幹葉表示 427 313 232 323 434 317 311 4 2 7 3 1 3 2 3 2 3 2 3 4 3 4 3 1 7 3 1 1 基本的考え方幹 (stem) Most Significant Digit 葉 (leaf ) 端数 (forget) H. Kameda ( Tokyo University of Technology )

幹葉表示（例） H. Kameda ( Tokyo University of Technology )

練習 Problem 以下のデータセットに関し「幹葉表示」を求めよ。 H. Kameda ( Tokyo University of Technology ) 283, 339, 350, 348, 386, 390, 360, 423, 393, 350, 239, 272, 150, 189, 340, 399, 288, 321, 331, 335, 283, 261, 253, 286, 284, 173, 132, 199, 235, 212, 310, 285, 258, 215, 267, 282, 278, 225, 183, 267, 311, 233, 322, 282, 315, 290, 273, 138

五数表示（五数要約）データのばらつきの様子をあらわすのに、最小値第１四分位数（小さいほうから 1/4 のところのデータ）第２四分位数（小さいほうから 2/4 のところのデータ、中央値と同じこと）第３四分位数（小さいほうから 3/4 のところのデータ）最大値の５つの数を用いて表すこと。 H. Kameda ( Tokyo University of Technology )

練習 Problem 先述のデータセットに関し「五数要約」を求めよ。 H. Kameda ( Tokyo University of Technology )

箱ひげ図（黒板で説明します） H. Kameda ( Tokyo University of Technology )

練習 Problem 先述のデータセットに関し「箱ひげ図」を求めよ。 H. Kameda ( Tokyo University of Technology )

練習次のデータセットを使って、ドットプロットを作成した見なさい。データセット： 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 10

ここまでの内容を復習 R 言語を使って、実際に処理してみよう！ – データセットの作り方 – データセットの読み込み方 H. Kameda ( Tokyo University of Technology )

Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

Similar presentations

Presentation on theme: "Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Advanced Data Analysis 先進的データ分析法 2015 （２） 平成 27 年前期第１クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当：亀田弘之.

Similar presentations

Presentation on theme: "Advanced Data Analysis 先進的データ分析法 2015 （２） 平成 27 年前期第１クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当：亀田弘之."— Presentation transcript:

Similar presentations

About project

フィードバック

Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

Presentation on theme: "Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之."— Presentation transcript: