行動計量分析 Behavioral Analysis 第3回 推測統計学の考え方 inferential statistics 第4章 母集団と標本 Statistical Population and Sampling 第5章 統計的仮説検定 Statistical test of hypothesis
統計学(Statistics)の発展 統計学の始まり(紀元前3000年~2300年) 古代エジプト:ピラミッド建設のための基礎調査 古代中国:人口調査 17世紀頃:国勢調査の学問 status(国家)→statistics 記述統計学( 19世紀末~)Descriptive Statistics ゴールトン(Francis Galton)、ピアソン(Karl Pearson) データを要約し調査対象の情報を数学的に記述する方法 推測統計学(1925年) Inferential Statistics フィッシャー(Rinald Aylmer Fisher) 「研究者のための統計的方法」 標本集団の要約値から母集団の要約値を確率的に推測し、それによって母集団の様子を記述する ベイズ統計学・ノンパラメトリック手法 母集団の確率分布を事前に仮定しない方法
記述統計学の目的 Descriptive Statistics 沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段 例:学生100人の体重のデータがある. その100個の数値持っている情報を簡単に表わしたい データ,データ, データ,データ 要約値 (統計量) 判断 計画 平均値:「100人の学生の体重はだいたい60kgぐらいである」 +標準偏差: 「100人の日本人の体重はだいたい50~70kgである 」
記述統計学と推測統計学 多数データの 母集団の 数学的要約 データ ・記述 無作為 抽出 少数データの (仮想的) 標本集団 数学的要約 のデータ 確率的推測・記述
標本抽出(Sampling)の考え方 知りたいのは,同様の性質を持つデータの全体(母集団population)が持つ性質 全数調査は困難(日本中学生の実力テストの点数) 全数調査は無意味(強度が売り物のPCの破壊検査) 特定の性質を持った個体に偏らないようにして,少数の個体を抜き出す(標本sample) それらの観測値を手に入れる(標本値) 標本の代表値(例えば平均値)を求め,そこから母集団の性質(母数:母集団の平均や分散の値)を推測する 母集団の性質についての確からしさの判断→検定 母集団の記述統計値を推測→推定
目の前のさいころの出目 母集団:このサイコロを何回も振ったときに出る目の出方 標本値:確率変数X={1,2,3,4,5,6} サンプリング:例えば4回サイコロを振る 統計量:4回のサイコロの目の平均値 統計量の実現値がy=1.25であったとする (4回のうち3回が1,1回が2であったことを意味している)
4.2 推測統計の分類(p72) 統計的推定 statistical estimation, inference 4.2 推測統計の分類(p72) 統計的推定 statistical estimation, inference 得られた統計量の実現値をもとに,母集団の確率分布を決めるパラメータ(母数)を推定 一部の中学生の実力テストの結果を用いて,日本の中学生全体の同じ実力テストの点数を推測する 日本の中学生の平均点は60点ぐらいだろう(点推定) 日本の中学生の点数は50点から70点ぐらいだろう(区間推定) 統計的検定 statistical test 母集団の性質に関する何らかの仮説の是非を,得られた統計量の実現値に基づいて判断 一部の中学生に同じテストを5年後に受験させて,次のどちらであるかを判断したい 日本の中学生の実力は5年間で変化していない 日本の中学生の実力は5年間で変化した
4.3点推定 point estimation 17歳の日本人男性全体の平均身長を知りたい(母数:母平均) 10人の17歳男性を標本として抽出し身長の計測値を得る 10個の計測値から,標本の平均値を計算する(169.3) 標本平均の値を用いて,17歳日本人男性の平均身長を推測する > 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.9, 170.6, 168.4, 171.3) > 身長 [1] 165.2 175.9 161.7 174.2 172.1 163.3 170.9 170.6 168.4 171.3 > mean(身長) [1] 169.36
Population Parameters (p74図4.2)母集団と標本 母集団population 標本抽出 sampling 標本sample 記述 母数 Population Parameters (本当に知りたいもの) 母平均 母分散 母標準偏差 母相関係数 母比率 など 標本統計量 Sample Statistics (標本から計算できるもの) 標本平均 標本分散 不偏分散 標本標準偏差 標本相関係数 標本比率 など 推定 inference
標本抽出に伴う誤差(p75) サイズ2の 標本抽出 sampling 母集団population 標本sample 1,2,6 1,2 1,6 2,6 玉を2個取出し報告 記述 Aさんは数字が書かれた3つの「玉」が入った袋から,玉を出し,数字を報告 標本統計量 Sample Statistics (標本から計算できるもの) 標本平均 推定 inference 母数 Parameter (本当に知りたいもの) 母平均 (1+2+6)/3=3 1.5 3.5 4.0 標本統計値 (統計量の実現値) 標本誤差を含む 誤差を許容限度内に抑える方法 生じうる誤差の大きさの見通し
4.4 推定値がどれぐらい当てになるか?(p77) 標本抽出の方法 単純無作為抽出 抽出データの性質を表わす「確率変数」 4.4 推定値がどれぐらい当てになるか?(p77) 標本抽出の方法 単純無作為抽出 母集団内の各データが等確率で選ばれる方法 実際に取ったサンプルがたまたま「偏る」かも 抽出データの性質を表わす「確率変数」 実際に結果が得られるまで値がわからない変数,同じ手続きを踏んでも再現性がない 確率変数がどのような値をとるかを示す「確率分布」 実際の実現値から作るのではなく,理論的に決められるべきもの ただし,非常の多くの実現値が繰り返し得られるなら,度数分布から確率分布をほぼ知ることができる
推定値の確からしさ 推定値は,そのときの標本の実現値によっていろいろな値を取る:確率変数であり,「標本統計量」と呼ぶ 母集団のばらつきが少なければ,推定値は良く当たる(母集団の確率分布) 標本の確率分布 = 母集団分布 標本の実現値を全て使った平均値を, 「点推定値」とする場合 母集団分布 + 推定量の計算方法 ↓ 推定量の確率分布
4.5.1点推定量(標本統計量)の 望ましさ(p89) 不偏性:標本統計量の分布が,真値を中心に広がっているか? 有効性:標本統計量が狭い範囲に分布しているか?
モンテカルロ法による 標本統計量分布の経験的な検討 #母集団分布を仮定する(正規分布) 4.4.5 curve(dnorm(x,mean=50,sd=10)) 標本平均<-numeric(length=10000) #以下の作業を繰り返す for(i in 1:10000){ #正規母集団から無作為抽出をする 4.4.7 標本 <- rnorm(n=10,mean=50,sd=10) #標本統計量の実現値(標本統計値)を求める mean(標本) #統計量の実現値の分布を作る4.5.2 標本平均[i] <- mean(標本) }
標本平均(という統計量)の分布 #標本平均値の平均値 #ヒストグラムを相対値で書く #理論分布曲線(標準偏差が√N分の1になる)との比較 mean(標本平均) #ヒストグラムを相対値で書く hist(標本平均,freq=FALSE) #理論分布曲線(標準偏差が√N分の1になる)との比較 curve(dnorm(x,mean=50,sd=10/sqrt(10)),add=TRUE)
偏りのある統計量の例 #以下の作業を繰り返す #10個からなる標本を小さい順にならべる. 整列標本 <- sort(標本) 標本平均B<-numeric(length=10000) #以下の作業を繰り返す for(i in 1:10000){ 標本 <- rnorm(n=10,mean=50,sd=10) #10個からなる標本を小さい順にならべる. 整列標本 <- sort(標本) #初めの9個を取り出し,平均を残す 標本平均B[i] <- mean(整列標本[1:9]) } mean(標本平均B) #[1] 48.26386 hist(標本平均B,freq=FALSE)