Presentation is loading. Please wait.

Presentation is loading. Please wait.

確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).

Similar presentations


Presentation on theme: "確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木)."— Presentation transcript:

1 確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木)

2 前回の内容 データ解析の演習 度数分布表の作成 ヒストグラムの作成

3 今日の内容 データ解析 度数分布表の作成(復習) ヒストグラムの作成(復習) グラフの分析 (データの)代表値 (データの)散らばり

4 新生児60人の体重(1998) 表. 新生児の体重 (1998年) 単位はグラム

5 度数分布表の作成 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____
最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端を決める。

6 新生児の体重(1998年) 体重(g) 人数 ~2000 2000~2400 3 2400~2800 14 2800~3200 16 3200~3600 3600~4000 7 4000~4400 4 4400~4800 2

7 ヒストグラム

8 グラフに関する考察(思考実験) データの個数nをどんどん増やすと 区間の幅hをどんどん小さくすると 棒グラフがどんどん高くなる
度数がゼロの区間がなくなっていく 区間の幅hをどんどん小さくすると 棒グラフがどんどん低くなる 度数がゼロの区間が増えていき、ほとんどの区間で度数がゼロ、あっても1になる。

9 グラフに関する考察(思考実験) nを増やすとともにhを減らしていくと... ヒストグラムがある形状に落ち着く! これは統計的性質の1つ。
(大数の法則)

10 集団としての特徴値(代表値) いろんなグラフを比べてみよう! (正規分布、賃金分布、双峰分布など)

11 いろいろなグラフ

12 集団構造の記述 調査や測定により得られるデータの集まりに対して、その集団の構造(特徴)を端的に表現する指標(代表値)を求めることを、集団構造の記述という。 平均(平均値)はその代表例。

13 平均値 例(身長のデータ): データ群A = {167, 150, 161, 158, 164}
データ群B = {169, 174, 160, 165, 172}     (単位:cm) cm

14 平均値の数学的定義 平均m = (x1 + x2 + x3 + … + xn)÷n

15 いろいろな代表値 算術平均 (いわゆる平均のこと) モード (mode) 中央値 (Median)

16 ここまでのまとめ

17 記述統計学 まず、データ(data)ありき データの分析 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。
全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。

18 記述統計学 まず、データ(data)ありき データの分析 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。
全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。

19 ポイント 個々のデータ1つ1つに目を奪われることなく (データを)全体的にとらえる (データの)集団としての特徴をとらえる ことがポイント。
データの集団としての特徴を数値的にとらえられないか? 代表値という考えが生まれる。

20 代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=

21 代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=12 それでは、簡単に分析してみよう!

22 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 個数 n=12 合計 T=48 データ値 個 数
データ:  {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}    個数 n=12    合計 T=48 表.度数分布表 データ値 個 数 (度数) 小 計 1 2 3 9 4 8 5 6 12 7 合 計 n=12 T=48 図.ヒストグラム

23 ヒストグラム 図.ヒストグラム

24 特徴を分析してみよう データの重心(平均) m = (データの合計)÷(データの個数) = T / n = _____

25

26 モード(最頻値) 出現頻度が一番多いのはどれ? Mode= _____

27 最大値maxと最小値min max = _____ min = _____

28 大きさの順番に並べたとき、真ん中にあるデータの値が中央値 今の場合、med = _____ 3 ? 4 ?
中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}  大きさの順番に並べたとき、真ん中にあるデータの値が中央値  今の場合、med = _____ 3 ? 4 ? 左から6個目 右から6個目

29 中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}  大きさの順番に並べたとき、真ん中にあるデータの値が中央値  今の場合、med = (3 + 4)÷2 = 3.5

30 分析結果 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12
データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12 (算術)平均 m = 4 <= 代表値 モード(最頻値) mode = 3 <= 代表値 中央値(メディアン) med = 3.5 <= 代表値 最大値 max = 8 最小値 min = 1

31 例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = (算術)平均 m = <= 代表値 モード(最頻値) mode = <= 代表値 中央値(メディアン) med = <= 代表値 最大値 max = 最小値 min =

32 例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = 12 (算術)平均 m = 4 <= 代表値 モード(最頻値) mode = 3 <= 代表値 中央値(メディアン) med = 3.5 <= 代表値 最大値 max = 18 <= 分布の位置 最小値 min = -9 <= 分布の位置

33 例1と例2のデータの比較 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12
平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分布が異なっているにもかかわらず、代表値は同じ! => 何がいけないのか?

34 平均が同じでも分布の形状が違う例 O

35 平均が同じでも分布の形状が違う例 データの重心(平均)が同じでも、 データの散らばり方が違っている!
=> 散らばりを定式化してみよう!

36 散らばりの定式化 アイデア1: データの存在範囲 範囲(range) R = 最大値 – 最小値

37 アイデア1 範囲(range) R = 最大値 ー 最小値 長所: 短所: 単純(計算が楽) 2個のデータしか利用していない。

38 アイデア2 平均からのズレの総和Sの平均 長所 短所 平均mから各データがどれだけズレているかが偏差。
偏差 di = xi – m (i=1,2,3, … , n) 偏差の和 S = (x1 – m) + (x2 – m) + … + (xn – m)    = 0 <= いつも必ずゼロ 偏差の和の平均 mean of S = S÷n = 0 <= いつも必ずゼロ 長所 すべてのデータの情報を利用 短所 いつもゼロになり意味がない。

39 アイデア3 平均からの距離の総和Sの平均 長所 短所 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n) S = | x1 – m | + | x2 – m | + … + | xn – m | 偏差の絶対値の平均(平均偏差M.D.) = S÷n 長所 すべてのデータの情報を利用 短所 数学的取り扱いが大変(どうやって絶対値をはずす?)

40 アイデア4 平均からの距離の二乗の総和Sの平均 長所 短所 各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n) S = (x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2 距離の自乗の平均 = S÷n 長所 すべてのデータの情報を利用 数学的に取り扱いやすい 短所 計算が大変? <= コンピュータを利用すればOK! 解釈は?(データxやmと、Sの次元がちがう!)

41 分散と標準偏差 分散S 2 = {(x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2}÷n
標準偏差S = √ S 2 (分散の平方根) (短所の2番目を配慮して平方根をとった。)

42 散らばり 以上のような経緯により、データの散らばりの尺度として、 などが用いられる。 標準偏差S <= 一般によく利用される。
範囲R <= 工場等でよく利用される。 平均偏差M.D. <= これも利用されることが ある。 などが用いられる。

43 平均の考え方の重要性 データ{xi | i=1, 2, 3, …, n} 平均 m = (x1 + x2 +…+ xn)÷n 分散:
xi から (xi – m)2 を作り出し、この平均を求めている。

44 例1と例2のデータの比較 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12
平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 分散 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分散 分布が異なっているにもかかわらず、代表値は同じ! => 散らばりも考慮しよう!

45 おまけ to 統計」のページが出てきます。そを参考に、自習 することをお勧めします。特に、世の中に どのような統計データが収集・公開されて いるのかを知ってください。(統計学習も経験の積み重ねが大切。)


Download ppt "確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木)."

Similar presentations


Ads by Google