情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
よくある数値例 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 A 10 B 5 C
階級と度数 データをxiで表す xiの値がとりうる範囲をいくつかの区分に分けて集計することを考える 各区分を階級とよぶ 階級の中央の値を階級値とよぶ 各階級にxiが表れる回数を度数とよぶ 階級ごとに度数を表した表を度数分布表とよぶ
度数分布表 階級 3.33 5.00 8.33 合計 A 5 10 B C 1 8
棒グラフによる表現 縦軸に階級 横軸に階級 それぞれの棒は接して表現されることが多い 多くの場合「ヒストグラム」とよばれる
Aグループ
Bグループ
Cグループ
ヒストグラム間比較の問題点 階級の影響 縦軸(度数)意味が不明 全標本の数が異なった場合への対応
細かい区分による度数分布表 階級 1 2 3 4 5 6 7 8 9 10 A B C
より細かい階級による表現(A)
より細かい階級による表現(B)
より細かい階級による表現(C)
相対度数 全標本の個数に対する各階級の度数の割合を相対度数とよぶ 最大値は1.0 最小値は0.0 相対度数の利用により、標本の総数が違う場合でも比較が可能となる
相対度数分布表 階級 1 2 3 4 5 6 7 8 9 10 A 0.5 0.0 B 1.0 C 0.1 0.8
棒グラフで表現 縦軸に相対度数 横軸に階数 縦軸の最大値を1.0に統一
相対度数(A)
相対度数(B)
相対度数(C)
平均三種 (Average) 平均(Mean) 中央値(Median) 最頻値(Mode)
Mean 相加平均 算術平均 平均
MeanとTotalの関係
Median 中央値 小さい順に並べた時に中央に位置する値 データが偶数個の場合は中央に近い2つの値の算術平均 異常値に強い 1つまたは2つの値のみしか利用していない
Mode 最頻値 もっとも頻繁に出現した値 一つとは限らない 連続量の場合、階級によって値が変わる 名義尺度であっても意味を持つ
平均三種 Mean Median Mode A 5 0,10 B C
平均からの偏差の利用 ばらつきの指標
xiが平均からどれだけ隔たっているかの指標 平均からの偏差 xiが平均からどれだけ隔たっているかの指標
平均からの偏差の総和 問題 平均からの総和がゼロになることを証明しなさい
平均からの偏差の二乗の平均 分散とよび、ばらつきの指標として利用される Vで表されることが多い
問題 分散の定義式を展開し整理しなさい
分散の平方根 分散の平方根を標準偏差とよぶ Dやσで表されることが多い