代表値とは 散布度とは 分布のパラメータ 母集団とサンプル 平均と分散の計算 代表値とは 散布度とは 分布のパラメータ 母集団とサンプル (C) Katsuhiro Yamada
次のデータがあります 80 75 65 90 83 80 73 問題: こんなデータをどう表現しますか?
これを中央値(median)と言います。 とりあえず小さい順に並べます 65 73 75 80 80 83 90 真ん中の値は 80 です。 これを中央値(median)と言います。
度数を調べます 65 73 75 80 80 83 90 65 73 75 80 83 90 1 1 1 2 1 1 一番多く出たのは2回の 80 です。 これを最頻値(mode)と言います。
これを算術平均(arithmetic mean)と言います。 おなじみの平均を考えましょう 65 73 75 80 80 83 90 65+73+75+80+80+83+90 7 総和 546 をデータ数 7 で割ります。78 です。 これを算術平均(arithmetic mean)と言います。
ちなみに,平均 はこれだけではありません! 幾何平均 (geometric mean) 調和平均 (harmonic mean) 加重平均 (weighted mean) などなど
まとめ 80 75 65 90 83 80 73 大きさ 7 のデータがありました。 これらは 代表値 と呼ばれます。 中央値 = 80 80 75 65 90 83 80 73 大きさ 7 のデータがありました。 中央値 = 80 最頻値 = 80 算術平均 = 78 これらは 代表値 と呼ばれます。
代表値 と言えば通常, 計算しやすい 算術平均 を考えればよいでしょう。 代表値 と言えば通常, 計算しやすい 算術平均 を考えればよいでしょう。
次の2組のデータを考えましょう 80 75 65 90 83 80 73 78 77 77 78 79 78 79 算術平均は両方とも 78 です。 明らかに違うのに,同じ代表値 ですよ!
差異を考えます 80 75 65 90 83 80 73 78 77 77 78 79 78 79 上の例 は下の例 より散らばっています。 80 75 65 90 83 80 73 100 50 78 77 77 78 79 78 79 50 100 上の例 は下の例 より散らばっています。
個々のデータが平均からどれだけ離れているかを計算します。 散らばりの指標を考えます 平均 78 80 75 65 90 83 80 73 100 50 78 77 77 78 79 78 79 個々のデータが平均からどれだけ離れているかを計算します。 50 100
個々のデータの平均からの差の二乗 80 75 65 90 83 80 73 (80-78)2+ (75-78)2+ (65-78)2 平均 78 80 75 65 90 83 80 73 100 50 (80-78)2+ (75-78)2+ (65-78)2 + (90-78)2+ (83-78)2+ (80-78)2 + (73-78)2 = 380
同様に計算すると 平均 78 78 77 77 78 79 78 79 50 100 2×(77-78)2+ 3×(78-78)2 + 2×(79-78)2=2+0+2 = 4
データ1個当たりの散らばり 80 75 65 90 83 80 73 100 50 78 77 77 78 79 78 79 50 100 上の例 は 380/7= 54.28… 下の例 は 4/7= 0.57…
データ 1個当たりの偏差の2乗を 分散 (Variance) と言います。
分散の平方根をとったものを 標準偏差 (Standard deviation) と言います。
まとめ 代表値 → 平均 散布度 → 分散 で表せます。
平均と分散がわかれば, 正規分布のような分布では 分布を特定化できます。 この意味で,平均や分散を 分布のパラメータ と言います。
平均= 0 分散= 1 標準偏差= 1
母平均 母分散 母集団 サンプル (標本) サンプル平均 サンプル分散 *