標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄)
全数調査と標本調査 全数調査の代表的例が「国勢調査」 センサスCensusという言葉は、全数調査を意味するが、一方で「国勢調査」のことを指す場合もある。ただし、後者を指す場合は、Population Censusといったほうがよい。 標本には、誤差がつきものである。標本誤差。 全数調査にも誤差がある。非標本誤差。 全数調査の存在意義・標本調査の存在意義。 くじ引きをするには、くじをつくらなければならない!
標本の記述統計 標本抽出(sampling)は、「無作為」(random)である必要がある。 母集団 標本 標本抽出 統計的推測 標本抽出(sampling)は、「無作為」(random)である必要がある。 標本を抽出し、記述するのは、母集団がどうなっているかを統計的に推測するためである。
度数分布表とヒストグラム 度数分布表を作るとは、もとのデータを階級値と度数との組み合わせに変換すること。 連続量(例えば、身長)と離散量(世帯の児童数) グラフによる(=幾何的)記述 度数分布表を作成し、ヒストグラムをつくる。 計算による(=算術的)記述 分布の中心・位置の指標 分布のばらつきの指標
分布の中心 分布の中心の指標 平均(mean) メジアン(中央値、中位数) モード(最頻値) 算術平均 幾何平均 調和平均
階級 度数 階級値 //// 5 1000 //// 4 3000 / 1 5000 // 2 7000 // 2 9000 11000 527 3 918 4 1500 5 1550 6 2057 7 2521 8 2701 9 3040 10 4079 11 7000 12 7489 13 8400 14 9771 15 10153 16 10664 17 15321 18 15918 19 27868 20 30062 階級 度数 階級値 0以上-2000未満 //// 5 1000 2000-4000 //// 4 3000 4000-6000 / 1 5000 6000-8000 // 2 7000 8000-10000 // 2 9000 10000-12000 11000 12000-14000 13000 14000-16000 15000 16000-18000 17000 18000-20000 19000 20000- // 2 28965
ヒストグラム(柱状図形)を描く
資産額、所得額などの分布(*)では、 平均>メジアン(中央値、中位数)>モード(最頻値) の順になる。 *ユニモーダルな右裾の長い分布
標本の基本統計量
母集団の基本統計量
ヒストグラム(母集団)
分布のばらつきの尺度 範囲(レンジ) 四分位範囲 平均偏差 分散 標準偏差 変動係数
分散の考え方 個々のデータと平均値との「偏差」(deviation)の絶対値がすべて0ならば、<ばらつき>はないことになる。 を偏差 という
平均偏差 差をとって絶対値をとる 平均偏差(MD)mean deviation
分散と標準偏差 分散 標準偏差
分散と標準偏差の第二の算式 別式 不偏性のため 分散 標準偏差
分散の計算
算術平均とメジアンの性質
所得不平等度とばらつきの尺度 ばらつきの尺度は、所得のばらつきの尺度としても使える。 しかし、所得不平等度の尺度として最もよく使われるのは、「ジニ係数」(1912年)である。 ジニ係数とローレンツ曲線との間には密接な関係がある。
ローレンツ曲線( M.O.Lorenz 1905年)を描く:データ 5分位階級 所得 シェア 累積所得 1963 1975 Ⅰ 7.3 8.5 Ⅱ 12.5 13.4 19.8 21.9 Ⅲ 16.6 17.2 36.4 39.1 Ⅳ 22.1 22.3 58.5 61.4 Ⅴ 41.5 38.6 100 データ「家計調査」勤労者世帯
ローレンツ曲線を描く 累積所得シェア 累積相対度数 弓形の面積 は、 完全平等のとき 0 完全不平等のとき 1/2 となる。 完全平等のとき 0 完全不平等のとき 1/2 となる。 その面積を2倍したのが、 ジニ係数。 累積所得シェア 累積相対度数
ジニ係数の計算 q(2) 台形の面積を求める q(1) p(1) p(2)
ジニ係数の計算(1963年) 1-[0.2×0.073+0.2×0.271+0.2×0.562+・・・]=0.312. 1975年のジニ係数は、0.2764