確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）.

確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）

前回の内容データ解析の演習度数分布表の作成ヒストグラムの作成

今日の内容データ解析度数分布表の作成（復習）ヒストグラムの作成（復習) グラフの分析（データの）代表値（データの）散らばり

新生児６０人の体重（１９９８）表. 新生児の体重 (1998年）単位はグラム

度数分布表の作成最大値=____，最小値=___ 範囲R=最大値－最小値区間数k=____ 区間幅h=____
最大値=____，　最小値=___ 範囲R=最大値－最小値区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端を決める。

新生児の体重（1998年）体重(g) 人数～2000 2000～2400 3 2400～2800 14 2800～3200 16 3200～3600 3600～4000 7 4000～4400 4 4400～4800 2

ヒストグラム

グラフに関する考察（思考実験）データの個数ｎをどんどん増やすと区間の幅ｈをどんどん小さくすると棒グラフがどんどん高くなる
度数がゼロの区間がなくなっていく区間の幅ｈをどんどん小さくすると棒グラフがどんどん低くなる度数がゼロの区間が増えていき、ほとんどの区間で度数がゼロ、あっても１になる。

グラフに関する考察（思考実験）ｎを増やすとともにｈを減らしていくと．．．ヒストグラムがある形状に落ち着く！これは統計的性質の１つ。
（大数の法則）

集団としての特徴値（代表値）いろんなグラフを比べてみよう！（正規分布、賃金分布、双峰分布など）

いろいろなグラフ

集団構造の記述調査や測定により得られるデータの集まりに対して、その集団の構造(特徴）を端的に表現する指標（代表値）を求めることを、集団構造の記述という。平均（平均値）はその代表例。

平均値例（身長のデータ）：データ群A = {167, 150, 161, 158, 164}
データ群B = {169, 174, 160, 165, 172} 　　　　(単位：cm) cm

平均値の数学的定義平均m = (x1 + x2 + x3 + … + xn)÷n

いろいろな代表値算術平均（いわゆる平均のこと）モード (mode) 中央値 (Median)

ここまでのまとめ

記述統計学まず、データ(data)ありきデータの分析以上により、データ全体の様子（分布の形状）が視覚的・感覚的にわかる。
全体を眺める整列（ソート）する度数分布表の作成 => どんな値が何個あるのか？ヒストグラムの作成 => よりvisualな表現へ分布曲線（ヒストグラムの概形）を求める => 数式表現可能以上により、データ全体の様子（分布の形状）が視覚的・感覚的にわかる。

ポイント個々のデータ１つ１つに目を奪われることなく（データを）全体的にとらえる（データの）集団としての特徴をとらえることがポイント。
データの集団としての特徴を数値的にとらえられないか？代表値という考えが生まれる。

代表値例：データ：　｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=

代表値例：データ：　｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=12 それでは、簡単に分析してみよう！

例：データ：｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 個数 n=12 合計 T=48 データ値個数
データ：　｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 　　　個数　n=12 　　　合計　T=48 表．度数分布表データ値個数（度数）小計 1 2 3 9 4 8 5 6 12 7 合計 n=12 T=48 図．ヒストグラム

ヒストグラム図．ヒストグラム

特徴を分析してみようデータの重心（平均） m = (データの合計)÷（データの個数） = T / n = _____

モード（最頻値）出現頻度が一番多いのはどれ？ Mode= _____

最大値maxと最小値min max = _____ min = _____

大きさの順番に並べたとき、真ん中にあるデータの値が中央値今の場合、med = _____ 3 ? 4 ?
中央値（median）データ：　｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 　大きさの順番に並べたとき、真ん中にあるデータの値が中央値　今の場合、med = _____ 3 ? 4 ? 左から６個目右から６個目

中央値（median）データ：　｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 　大きさの順番に並べたとき、真ん中にあるデータの値が中央値　今の場合、med = (3 + 4)÷2 = 3.5

分析結果例：データ：｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12
データ：　｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12 （算術）平均 m = 4 <= 代表値モード（最頻値） mode = 3 <= 代表値中央値(メディアン） med = 3.5 <= 代表値最大値 max = 8 最小値 min = 1

例２：データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = （算術）平均 m = <= 代表値モード（最頻値） mode = <= 代表値中央値(メディアン） med = <= 代表値最大値 max = 最小値 min =

例２：データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = 12 （算術）平均 m = 4 <= 代表値モード（最頻値） mode = 3 <= 代表値中央値(メディアン） med = 3.5 <= 代表値最大値 max = 18 <= 分布の位置最小値 min = -9 <= 分布の位置

例１と例２のデータの比較例１：｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12
平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 例２： {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分布が異なっているにもかかわらず、代表値は同じ！ => 何がいけないのか？

平均が同じでも分布の形状が違う例 O

平均が同じでも分布の形状が違う例データの重心（平均）が同じでも、データの散らばり方が違っている！
=> 散らばりを定式化してみよう！

散らばりの定式化アイデア１：データの存在範囲範囲(range) R = 最大値 – 最小値

アイデア１範囲(range) R = 最大値ー最小値長所：短所：単純（計算が楽）２個のデータしか利用していない。

アイデア２平均からのズレの総和Sの平均長所短所平均mから各データがどれだけズレているかが偏差。
偏差 di = xi – m (i=1,2,3, … , n) 偏差の和　S = (x1 – m) + (x2 – m) + … + (xn – m) 　　 = 0 <= いつも必ずゼロ偏差の和の平均 mean of S = S÷n = 0 <= いつも必ずゼロ長所すべてのデータの情報を利用短所いつもゼロになり意味がない。

アイデア3 平均からの距離の総和Sの平均長所短所各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n) S = | x1 – m | + | x2 – m | + … + | xn – m | 偏差の絶対値の平均（平均偏差M.D.） = S÷n 長所すべてのデータの情報を利用短所数学的取り扱いが大変（どうやって絶対値をはずす？）

アイデア４平均からの距離の二乗の総和Sの平均長所短所各データの平均からの距離 D = | di | = | 偏差 |
偏差 di = xi – m (i=1,2,3, … , n) S = (x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2 距離の自乗の平均 = S÷n 長所すべてのデータの情報を利用数学的に取り扱いやすい短所計算が大変？ <= コンピュータを利用すればOK! 解釈は？(データｘやｍと、Sの次元がちがう！)

分散と標準偏差分散S 2 = {(x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2}÷n
標準偏差S = √ S 2 (分散の平方根) （短所の２番目を配慮して平方根をとった。）

散らばり以上のような経緯により、データの散らばりの尺度として、などが用いられる。標準偏差S <= 一般によく利用される。
範囲R <= 工場等でよく利用される。平均偏差M.D. <= これも利用されることがある。などが用いられる。

平均の考え方の重要性データ{xi | i=1, 2, 3, …, n} 平均 m = (x1 + x2 +…+ xn)÷n 分散：
xi から (xi – m)2 を作り出し、この平均を求めている。

例１と例２のデータの比較例１：｛1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12
平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 分散例２： {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分散分布が異なっているにもかかわらず、代表値は同じ！ => 散らばりも考慮しよう！

おまけ to 統計」のページが出てきます。そを参考に、自習することをお勧めします。特に、世の中にどのような統計データが収集・公開されているのかを知ってください。（統計学習も経験の積み重ねが大切。）

確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）.

Similar presentations

Presentation on theme: "確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

確率と統計 メディア学部２００8年後期 No.3 平成20年10月16日（木）.

Similar presentations

Presentation on theme: "確率と統計 メディア学部２００8年後期 No.3 平成20年10月16日（木）."— Presentation transcript:

Similar presentations

About project

フィードバック

確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）.

Presentation on theme: "確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）."— Presentation transcript: