1 章 データの整理 1.1 データの代表値
■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報 = データ 情報の流れ 記号: { x 1, x 2, …, x n } 各種の代表値 統計的推測 (帰納論理:特殊 ⇒ 一般)
■ データの中心を示す代表値 例 : { x 1, …, x 5 } = { 7, 4, 3, 6, 1 } 標本平均値 (Sample Mean) Σ = Sum
順序標本 x [1], x [2], …, x [n] 観測値を昇順(小 → 大)に並べ替えた結果 最小値 = x [1] 最大値 = x [n] 例 : { x [1], …, x [5] } = { 1, 3, 4, 6, 7 } 中央値 (Median) (n が奇数の時 ) → 3 観測値 3 観測値 ←
例 : { x [1], …, x [4] } = { 1, 3, 4, 6 } 中央値 (Median) (n が偶数の時 ) → 半数半数 ←
最頻値 (Mode) 同じ値の個数(度数、頻度)が最も多い 値 例 : { x [1], …, x [9] } = { 1, 3, 3, 4, 4, 4, 6, 6, 7 } 3Ms Mean Median Mode 最多
■ データの広がりを示す代表値 x1x1 x2x2 データ D = (6, 2) 標本平均 M = (4, 4) ||DM|| 標本標準偏差 ×√ (n – 1) 母集団平均 C = (7, 7) 図1図1 45° 線
標本 分散 (Sample Variance) 標本 標準偏差 (Sample Standard Deviation) S ≧ 0 例 : { x 1, x 2 } = { 6, 2 } 標本 平均 値 = ( ) / 2 = 4 、 標本 分散 S 2 = [ ( 6 – 4 ) 2 + ( 2 – 4 ) 2 ] / ( 2 – 1 ) = = 8 標本 標準偏差
■ 偏差に関する基本公式 { x [1], …, x [6] }= { 1, 2, 2, 3, 5, 5 } 重心=標本平均値= 3 代数的証明
任意の実数 c について c = 0 と置くと x1x1 x2x2 データ D = (6, 2) 標本平均 M = (4, 4) ||DM|| 標本標準偏差 ×√ (n – 1) 45 度線上の 任意の点 C = (7, 7) 図1図1 45° 線
チェビシェフ不等式 (平均・標準偏差とデータ 割合) 任意の実数 k > 1 について データの割合 { 標本平均値 ± k× 標本標準偏差 の範囲外 } ≦ 1 / k 2 (k = 2) 平均から 2 標準偏差以上 離れたデータの割合 ≦ 1 / 2 2 = 1 / 4 = 25% (k = 3) 平均から 3 標準偏差以上 離れたデータの割合 ≦ 1 / 3 2 = 1 / 9 ≒ 11% S2S2S3S3S -S -2S-2S -3S-3S 平均
■ 安定した尺度 重心=標本平均値= 3 中央値= 3 重心=標本平均値= 4 データ: {x [1], …, x [7] }= { 1, 2, 2, 3, 4, 4, 5 } データ: {x [1], …, x [7] }= { 1, 2, 2, 3, 4, 4, 12 } 異常値?
■ 四分位点(四分位数、 Quartile ) 最小値 x [1] から最大値 x [n] までのデータを、 個数において 4 等分する 3 点。 5分位点、百分位点、 etc. 範囲 (Range) = 最大値 – 最小値 ( 上の例では 範囲 = 9 – 1 = 8) 四分位範囲 (Inter-Quartile Range) = 第 3 四分位点 - 第 1 四分位点 ( 上の例では 四分位範囲 = 7 – 2.5 = 4.5) { x [1], …, x [7] } = {1, 2, 3, 5, 6, 8, 9} ↑ 最小値 ↑ 最大値 ↑ 中央値 || 第 2 四分位点 = 5 第 1 四分位点 = 2.5↓ 第 3 四分位点 = 7 ↓
分位点の一般公式 (テキストの定義とは異なる。 Excel-Percentile と同じ) 例 (n = 7) :データ { x [1], …, x [7] } = {1, 2, 3, 5, 6, 8, 9} 縦軸の値は観測値が1つ右に進 む毎に 1 / (n – 1) づつ上昇 図2図2 xαxα α α = 0.25 ( = 第 1 四分位点) (n – 1) α + 1 = (7 – 1) = 2.5 番 目 x 0.25 = x [2] + 0.5(x [3] – x [2] ) = (3 – 2) = 2.5 α = 0.5 ( = 中央値 = 第 2 四分位点) (n – 1) α + 1 = (7 – 1) = 4.0 番目 x 0.5 = x [4] + 0.0(x [5] – x [4] ) 不 要 = (6 – 5) = 5