1変量データの記述 経済データ解析 2006年度
1変量データの記述方法 数値的表現(統計量) 視覚的表現 中心的傾向(算術平均、メディアン、モード) 散らばりの尺度(分散、標準偏差、レンジ、四分位偏差) 視覚的表現 表による表現(度数分布表) グラフによる表現(ヒストグラム)
中心的傾向 ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の3種類がある。
算術平均 算術平均 = データの合計 ÷ データ数 (例) 10人の数学のテストの点数
メディアン(中央値) メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン
モード(最頻値) モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。
散らばりの尺度(1) 教員B 教員A チャイムと同時に教室にくることもあれば、15分以上遅れることもある。 チャイムの5分後に必ず教室にくる。 2人の教員はともに平均してチャイムの5分後に教室にくる
散らばりの尺度(2) 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 散らばりの尺度として などがある。 →散らばりの尺度の必要性 散らばりの尺度として 分散 標準偏差 レンジ(範囲) 四分位偏差 などがある。
分散(1) 分散=偏差2乗和÷データ数 偏差2乗和-個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 偏差2乗和-個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 10人のテストの点数の例では
分散(2) 算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数10で割る 640 分散
標準偏差 標準偏差 ⇒ 分散の平方根 10人のテストの点数の例では
レンジ(範囲) レンジ ⇒ データの取りうる範囲 レンジ = 最大値 ー 最小値
四分位偏差(1) データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 最大値 最小値 q1 q2 q3
四分位偏差(2) (例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 q3 最小値 最大値 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値
統計量とExcel関数の関係 統計量がそのまま求められるもの 工夫の必要なもの 算術平均 ⇒ 関数AVERAGE 算術平均 ⇒ 関数AVERAGE メディアン ⇒ 関数MEDIAN モード ⇒ 関数MODE 分散 ⇒ 関数VARP 標準偏差 ⇒ 関数STDEVP 工夫の必要なもの レンジ ⇒ 最大値(関数MAX)と最小値(関数MIN)の利用 四分位偏差 ⇒ 四分位数(関数QUARTILE)の利用 (例) q1 ⇒ = QUARTILE(範囲,1)