第2章 統計データの記述 データについての理解 度数分布表の作成
データについての理解 フローデータ(flow data) 売上高、所得のように、四半期とか1年間などの一定期間の変化量を計測する数値。 売上高、所得のように、四半期とか1年間などの一定期間の変化量を計測する数値。 (表1.1) ストック(stock date) 人口、預金残高のように、その一定時点での水準を示す数値。(表1.2)
データについての理解 時系列データ(time series data) (表1.1、表1.2) (表1.1、表1.2) クロスセクションデータ(cross section data) ある期間や時点(t)を固定して、幾つかの異なった対象について調査・実験を行い、観測値を得た場合のデータ。 パネル・データ(panel data) (表1.3)
データについての理解 離散的データ(discrete data) 一般に各データに対して、その取りうる値として概念的に有限個もしくは加算個の数値 しか存在しない場合、 そのデータは離散的データであるという。 連続的データ(continuous data) ある範囲で連続的どのような値でも取りうるようなデータ
データの整理 試験点数の事例 60 70 60 45 80 60 30 30 55 64 72 24 35 50 65 40 42 10 30 40
データの整理 小さい順に並べてみれば 10 24 30 30 30 35 40 40 42 45 50 55 60 60 60 64 65 70 72 80
順序統計量 Order statistic: 以上のデータを一つの変数 x を用いて、 (ただし、 、n=20)と表現する。 (ただし、 、n=20)と表現する。 この大きさの順に並べたデータを順序統計量の値が呼ばれる。 Maximum(x)=80 Minimum(x)=10
試験得点の度数分布表 階 級 度 数 相対度数 累積相対度数 1 0.05 20-40 5 0.25 0.30 40-60 6 0.60 階 級 度 数 相対度数 累積相対度数 0以上20未満 1 0.05 20-40 5 0.25 0.30 40-60 6 0.60 60-80 7 0.35 0.95 80-100 1.00 100- 0 0.00 合 計 20
専門用語 階級(class)とは、データを分類するための区間である。 上限値と下限値:区間両側の境界値 右半開区間:区間の取り方を左側を含んで、右側を含まない半開区間。 例えば, [0, 20). 第6階級[100, ∞)オ―プンエンドという。 必要に応じて、左半開く区間を用いてもよい。
専門用語 度数(frequency)とは各階級に含まれるデータの数である 。 相対度数(relative)は、各階級 i の度数 をデータの合計数で割った比率である。 nは度数の合計、 mは階級数、 上例ではn=20, m=6
累積相対度数 Cumulative relative frequencyは、相対度数を階級の順に加えていくもので、第k階級の累積相対度数は第k階級までの相対度数の和となる。
度数分布 Frequency distributionは、データを大きさによっていくつかの階級に分け、各階級に入る度数を明らかにしたものである。度数分布表を通じて、データの全体の分布状況を表すことができる。
度数分布のグラフ
度数分布表作成の注意点 標本数nに対応して、階級数mを適切に定める。 階級幅は第1階級と最後の第m階級を除いて、均一幅にとる。 階級の端点はなるべく簡単な数字とする
階級数に関するスタージェス式 (Sturges, 1926)の公式が参考になる。観測値の数をnとしたとき、階級数m m=1+log2n=1+(log10n)/(log102) 上記の例では、n=20, 常用対数表からlog1020=1.3, log102=0.3 m=1+log1020/log102=5.3 階級数m≒5とする。