Download presentation
Presentation is loading. Please wait.
1
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木)
2
前回の内容 データ解析の演習 度数分布表の作成 ヒストグラムの作成
3
今日の内容 データ解析 度数分布表の作成(復習) ヒストグラムの作成(復習) グラフの分析 (データの)代表値 (データの)散らばり
4
新生児60人の体重(1998) 表. 新生児の体重 (1998年) 単位はグラム
5
度数分布表の作成 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____
最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端を決める。
6
新生児の体重(1998年) 体重(g) 人数 ~2000 2000~2400 3 2400~2800 14 2800~3200 16 3200~3600 3600~4000 7 4000~4400 4 4400~4800 2
7
ヒストグラム
8
グラフに関する考察(思考実験) データの個数nをどんどん増やすと 区間の幅hをどんどん小さくすると 棒グラフがどんどん高くなる
度数がゼロの区間がなくなっていく 区間の幅hをどんどん小さくすると 棒グラフがどんどん低くなる 度数がゼロの区間が増えていき、ほとんどの区間で度数がゼロ、あっても1になる。
9
グラフに関する考察(思考実験) nを増やすとともにhを減らしていくと... ヒストグラムがある形状に落ち着く! これは統計的性質の1つ。
(大数の法則)
10
集団としての特徴値(代表値) いろんなグラフを比べてみよう! (正規分布、賃金分布、双峰分布など)
11
いろいろなグラフ
12
集団構造の記述 調査や測定により得られるデータの集まりに対して、その集団の構造(特徴)を端的に表現する指標(代表値)を求めることを、集団構造の記述という。 平均(平均値)はその代表例。
13
平均値 例(身長のデータ): データ群A = {167, 150, 161, 158, 164}
データ群B = {169, 174, 160, 165, 172} (単位:cm) cm
14
平均値の数学的定義 平均m = (x1 + x2 + x3 + … + xn)÷n
15
いろいろな代表値 算術平均 (いわゆる平均のこと) モード (mode) 中央値 (Median)
16
ここまでのまとめ
17
記述統計学 まず、データ(data)ありき データの分析 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。
全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。
18
記述統計学 まず、データ(data)ありき データの分析 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。
全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。
19
ポイント 個々のデータ1つ1つに目を奪われることなく (データを)全体的にとらえる (データの)集団としての特徴をとらえる ことがポイント。
データの集団としての特徴を数値的にとらえられないか? 代表値という考えが生まれる。
20
代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=
21
代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=12 それでは、簡単に分析してみよう!
22
例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 個数 n=12 合計 T=48 データ値 個 数
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 個数 n=12 合計 T=48 表.度数分布表 データ値 個 数 (度数) 小 計 1 2 3 9 4 8 5 6 12 7 合 計 n=12 T=48 図.ヒストグラム
23
ヒストグラム 図.ヒストグラム
24
特徴を分析してみよう データの重心(平均) m = (データの合計)÷(データの個数) = T / n = _____
26
モード(最頻値) 出現頻度が一番多いのはどれ? Mode= _____
27
最大値maxと最小値min max = _____ min = _____
28
大きさの順番に並べたとき、真ん中にあるデータの値が中央値 今の場合、med = _____ 3 ? 4 ?
中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 大きさの順番に並べたとき、真ん中にあるデータの値が中央値 今の場合、med = _____ 3 ? 4 ? 左から6個目 右から6個目
29
中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 大きさの順番に並べたとき、真ん中にあるデータの値が中央値 今の場合、med = (3 + 4)÷2 = 3.5
30
分析結果 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12 (算術)平均 m = 4 <= 代表値 モード(最頻値) mode = 3 <= 代表値 中央値(メディアン) med = 3.5 <= 代表値 最大値 max = 8 最小値 min = 1
31
例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = (算術)平均 m = <= 代表値 モード(最頻値) mode = <= 代表値 中央値(メディアン) med = <= 代表値 最大値 max = 最小値 min =
32
例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = 12 (算術)平均 m = 4 <= 代表値 モード(最頻値) mode = 3 <= 代表値 中央値(メディアン) med = 3.5 <= 代表値 最大値 max = 18 <= 分布の位置 最小値 min = -9 <= 分布の位置
33
例1と例2のデータの比較 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12
平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分布が異なっているにもかかわらず、代表値は同じ! => 何がいけないのか?
34
平均が同じでも分布の形状が違う例 O
35
平均が同じでも分布の形状が違う例 データの重心(平均)が同じでも、 データの散らばり方が違っている!
=> 散らばりを定式化してみよう!
36
散らばりの定式化 アイデア1: データの存在範囲 範囲(range) R = 最大値 – 最小値
37
アイデア1 範囲(range) R = 最大値 ー 最小値 長所: 短所: 単純(計算が楽) 2個のデータしか利用していない。
38
アイデア2 平均からのズレの総和Sの平均 長所 短所 平均mから各データがどれだけズレているかが偏差。
偏差 di = xi – m (i=1,2,3, … , n) 偏差の和 S = (x1 – m) + (x2 – m) + … + (xn – m) = 0 <= いつも必ずゼロ 偏差の和の平均 mean of S = S÷n = 0 <= いつも必ずゼロ 長所 すべてのデータの情報を利用 短所 いつもゼロになり意味がない。
39
アイデア3 平均からの距離の総和Sの平均 長所 短所 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n) S = | x1 – m | + | x2 – m | + … + | xn – m | 偏差の絶対値の平均(平均偏差M.D.) = S÷n 長所 すべてのデータの情報を利用 短所 数学的取り扱いが大変(どうやって絶対値をはずす?)
40
アイデア4 平均からの距離の二乗の総和Sの平均 長所 短所 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n) S = (x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2 距離の自乗の平均 = S÷n 長所 すべてのデータの情報を利用 数学的に取り扱いやすい 短所 計算が大変? <= コンピュータを利用すればOK! 解釈は?(データxやmと、Sの次元がちがう!)
41
分散と標準偏差 分散S 2 = {(x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2}÷n
標準偏差S = √ S 2 (分散の平方根) (短所の2番目を配慮して平方根をとった。)
42
散らばり 以上のような経緯により、データの散らばりの尺度として、 などが用いられる。 標準偏差S <= 一般によく利用される。
範囲R <= 工場等でよく利用される。 平均偏差M.D. <= これも利用されることが ある。 などが用いられる。
43
平均の考え方の重要性 データ{xi | i=1, 2, 3, …, n} 平均 m = (x1 + x2 +…+ xn)÷n 分散:
xi から (xi – m)2 を作り出し、この平均を求めている。
44
例1と例2のデータの比較 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12
平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 分散 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分散 分布が異なっているにもかかわらず、代表値は同じ! => 散らばりも考慮しよう!
45
おまけ to 統計」のページが出てきます。そを参考に、自習 することをお勧めします。特に、世の中に どのような統計データが収集・公開されて いるのかを知ってください。(統計学習も経験の積み重ねが大切。)
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.