1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期
あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要
1 変量データの記述方法 数値による表現 – 代表値(中心的傾向) 算術平均、メディアン、モード – 散布度(散らばりの傾向) 分散、標準偏差、レンジ、四分位偏差 ※ これらの数値のことを統計量または特性値という。 ※ これらの数値のことを統計量または特性値という。視覚的な表現 – 表による表現(度数分布表) – グラフによる表現(ヒストグラム)
代表値(中心的傾向) ある集団についてのデータ(例えば 50 人のクラ スの身長など)があるとき、集団の特徴をあら わすには、その中心的傾向を示す数値が必要と なる。 代表値(中心的傾向をあらわす数値)として、 – 算術平均 – メディアン(中央値) – モード(最頻値) の 3 種類がある。
算術平均 算術平均 = データの合計 ÷ データ数 (例) 10 人の数学のテストの点数
メディアン(中央値) メディアン → データを大きさの順に 並べたときに真ん中にくる値。データ数 が偶数のときは真ん中の 2 つの値を足して 2 で割る。 点数の低い順に並べ替え 真ん中 この 2 つを足して 2 で割った ( 60 + 70 ) ÷2=65 がメディア ン
モード(最頻値) モード - データの中で最も多く出 てくる値。 10 人のテストの点数の例で は 80 点が 3 人と最も多い。モードは 80 とな る。 † データのとりうる値が多いとき、データの最も多く 出てくるものではなく、度数分布表にしたときに、 最も度数の多い階級の階級値をモードと考える。
散布度(散らばりの傾向) (1) 教員 B チャイムと同時 に教室にくるこ ともあれば、1 5分以上遅れる こともある。 教員 A チャイムの5分後 に必ず教室にくる。 2人の教員はともに平均してチャ イムの5分後に教室にくる
散布度(散らばりの傾向) (2) 2 人の教員の特徴を表現するために、平均だ けでは不十分。 → 散布度(散らばりの傾向をあらわす尺度)の必要性 → 散布度(散らばりの傾向をあらわす尺度)の必要性 散布度(散らばりの傾向をあらわす尺度)と して – 分散 – 標準偏差 – レンジ(範囲) – 四分位偏差 などがある。
分散(1) 分散=偏差 2 乗和 ÷ データ数 偏差 2 乗和-個々のデータから算術平均を引い たもの(偏差)を 2 乗して、すべて加えたもの。 偏差 2 乗和-個々のデータから算術平均を引い たもの(偏差)を 2 乗して、すべて加えたもの。 10 人のテストの点数の例では
分散(2) 算術平均 60 を引 く 偏差 2 乗を求める 合計を求める 640 0 データ数 10 で割 る 64 0 分散
標準偏差 標準偏差 ⇒ 分散の平方根 10 人のテストの点数の例では
( 単位 : 分 ) ※ 2 人の教員が教室に来る時間の 例 教員 A
教員 B となり、教員 B の分散の方が大きいことがわ かる。 標準偏差も である。
レンジ(範囲) レンジ ⇒ データの取りうる範囲 レンジ = 最大値 ー 最小値 レンジ = 最大値 ー 最小値
四分位偏差(1) データを大きさの順(小さい順)に並べ て、 4 分割する点を q 1,q 2,q 3 とする。 このとき、次式で定義される Q を四分位偏 差という。 最小値 最大値 q1q1 q2q2 q3q3
四分位偏差(2) (例) 9 人のテストの点数が次のようになっ ていたとする。 点数の低い順に並べ替え 最小値 q1q1 q 2 (メディア ン) q3q3 最大値 q 1 ⇒最小値と q 2 (メディアン)の真ん中 の値 q 3 ⇒ q 2 (メディアン)と最大値の真ん中 の値
統計量とExcel関数の関係 統計量がそのまま求められるもの – 算術平均 ⇒ 関数AVERAGE – メディアン ⇒ 関数MEDIAN – モード ⇒ 関数MODE – 分散 ⇒ 関数VARP – 標準偏差 ⇒ 関数STDEVP 工夫の必要なもの – レンジ ⇒ 最大値(関数MAX)と最小値(関数MIN)の 利用 – 四分位偏差 ⇒ 四分位数(関数QUARTILE)の利用 (例) q 1 ⇒ = QUARTILE ( 範囲,1) (例) q 1 ⇒ = QUARTILE ( 範囲,1)