1変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009年度
あるクラスのテストの点数が次のようになっていたとする。 このように出席番号と点数が並んでいるものだけでは、このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要
1変量データの記述方法 数値による表現 視覚的な表現 代表値(中心的傾向) 散布度(散らばりの傾向) 算術平均、メディアン、モード 散布度(散らばりの傾向) 分散、標準偏差、レンジ、四分位偏差 ※ これらの数値のことを統計量または特性値という。 視覚的な表現 表による表現(度数分布表) グラフによる表現(ヒストグラム)
代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 代表値(中心的傾向をあらわす数値)として、 算術平均 メディアン(中央値) モード(最頻値) の3種類がある。
算術平均 算術平均 = データの合計 ÷ データ数 (例) 10人の数学のテストの点数
メディアン(中央値) メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン
モード(最頻値) モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。
散布度(散らばりの傾向)(1) 教員B 教員A チャイムと同時に教室にくることもあれば、15分以上遅れることもある。 チャイムの5分後に必ず教室にくる。 2人の教員はともに平均してチャイムの5分後に教室にくる
散布度(散らばりの傾向)(2) 2人の教員の特徴を表現するために、平均だけでは不十分。 散布度(散らばりの傾向をあらわす尺度)として →散布度(散らばりの傾向をあらわす尺度)の必要性 散布度(散らばりの傾向をあらわす尺度)として 分散 標準偏差 レンジ(範囲) 四分位偏差 などがある。
分散(1) 分散=偏差2乗和÷データ数 偏差2乗和-個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 偏差2乗和-個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 10人のテストの点数の例では
分散(2) 算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数10で割る 640 分散
標準偏差 標準偏差 ⇒ 分散の平方根 2人の教員の例では、教員Bの方が教員Aより、分散、標準偏差ともに大きくなる。 標準偏差 ⇒ 分散の平方根 10人のテストの点数の例では 2人の教員の例では、教員Bの方が教員Aより、分散、標準偏差ともに大きくなる。
レンジ(範囲) レンジ ⇒ データの取りうる範囲 レンジ = 最大値 ー 最小値
四分位偏差(1) データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 最大値 最小値 q1 q2 q3
四分位偏差(2) (例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 q3 最小値 最大値 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値
統計量とExcel関数の関係 統計量がそのまま求められるもの 工夫の必要なもの 算術平均 ⇒ 関数AVERAGE 算術平均 ⇒ 関数AVERAGE メディアン ⇒ 関数MEDIAN モード ⇒ 関数MODE 分散 ⇒ 関数VARP 標準偏差 ⇒ 関数STDEVP 工夫の必要なもの レンジ ⇒ 最大値(関数MAX)と最小値(関数MIN)の利用 四分位偏差 ⇒ 四分位数(関数QUARTILE)の利用 (例) q1 ⇒ = QUARTILE(範囲,1)