数理統計学 西 山
前回の最後 クイズ 確率変数Xは、一様分布に従い0から1までの任意の値を等しい可能性でとる。いま変数Yを𝑌= 𝑋 と定義すると、𝑌はどんな分布に従い、期待値はいくらになるか? 6月10日(火)授業までに提出(任意)。中間試験・問4の理解度判定の参考にする。
変数Xは一様分布 𝑋 2 は小さい値をとりやすい 𝑋 は大きい値をとりやすい
各自、R@情報処理センターで確かめること > x <- runif(10000) > par(mfrow=c(3,1)) > hist(x,prob=T) > hist(x^2,prob=T) > hist(sqrt(x),prob=T)
Xが一様分布ということは 𝐹 𝑥 =𝑥 𝑥 1 𝐸 𝑋 = 1 2 𝑉 𝑋 = 1 12 𝑓 𝑥 = 𝐹 ′ 𝑥 =1 X 1 期待値の計算をすると(例題17) 1 𝐸 𝑋 = 1 2 𝑉 𝑋 = 1 12 𝑓 𝑥 = 𝐹 ′ 𝑥 =1 X 𝑥 1 (任意のある値)
問題はYの分布の形がどうなるか? 確率(=面積)に着目する 2
次の目標<教科書第3章> 標本分布(サンプリング分布) 標本分布とは何のことか? 出やすいデータ、出にくいデータ・・・まとめて考えます。 ここは統計の勉強全体で最大の難関 (今までは) 教科書: 第3章の頁99~111、特に108頁の例題29
【最初の例】データの出方 vs サンプルの結果の出方 サイコロを2回振って出る目の数を合計します。予測できますか? 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 11 12 出やすい目はない。しかし、2回の合計は7になりやすい。
『合計7が出やすい』 本当か?確認しよう Rの実行例 上の実験で「合計が7になった」割合は、確率の理論計算とほぼ一致したか? > sample(1:6,2,replace=T) [1] 4 4 > sum(sample(1:6,2,replace=T)) [1] 3 [1] 7 > jikken <- replicate(6000,sum(sample(1:6,2,replace=T))) > barplot(table(jikken)) ← その時によって出る目は違う 上の実験で「合計が7になった」割合は、確率の理論計算とほぼ一致したか? > sum(jikken==7)/6000 [1] 0.1651667
実験結果(6千回) 頻度 2回の合計
【発展】サイコロを10回振った平均 10回の平均値はどんな値が、どう出るのか? サンプルの平均値の出方を「標本分布」という Rの実行例 > sample(1:6,10,replace=T) [1] 3 3 2 3 4 4 2 3 1 3 [1] 2 5 3 6 6 6 3 2 3 6 データの出方は分かっている 10回の平均値はどんな値が、どう出るのか? > mean(sample(1:6,10,replace=T)) [1] 3.8 [1] 3.5 [1] 3.4 サンプルの平均値の出方を「標本分布」という
実験結果(1万回) 平均値の標本分布 定理8(106頁) > mean(jikken) [1] 3.49604 > sd(jikken) [1] 0.5330016
他にも、サンプルの分散、標準偏差、最大値 第3章のテーマ 標本分布 合計の出方(=分布) 平均の出方(=分布) 他にも、サンプルの分散、標準偏差、最大値 サイコロを6回振って、2番目に大きい目
理論的説明 さいころを10回振る問題<合計> 独立 𝑌= 𝑋 1 + 𝑋 2 +⋯+ 𝑋 10 値 確率 1 1 6 2 3 4 5 6
合計の期待値と分散・標準偏差
【続】合計の特徴 ⇔ 平均の特徴
正規分布を当てはめる! << データは30~100個以上が目安 最も有名な統計学の定理 中心極限定理 木曜 ここに戻る 同じ母集団からN個のサンプルをとって合計を求めるとき、Nが十分大きくなれば、合計や平均に当てはまる確率分布は(常に)正規分布に近づく。 教科書: 定理10 正規分布を当てはめる! << データは30~100個以上が目安
サイコロ10回の平均値 実験結果(1万回) 平均値の出方には 正規分布が当てはまる
【例題】社会の視聴率15% 300人への視聴率調査 何人くらいが「みた」と答えるか? 300人のサンプルの結果は視聴率何%くらいか?
アンケート調査: ゼロイチデータ 同じように考える アンケート調査: ゼロイチデータ 同じように考える 無作為データ、故に互いに独立 𝑌= 𝑋 1 + 𝑋 2 +⋯+ 𝑋 300 値 確率 0 0.85 1 0.15 このあとどうなる?次に、分散V 𝑌 は?
データはすべて0か1である データの出方 (どれも同じ) 結果の出方 (300個合計)
実験結果(1万回) 人数(合計) 平均値 (合計÷人数) 正規分布が 当てはまる > mean(jikken1); sd(jikken1) [1] 45.0199 [1] 6.197979 人数(合計) > mean(ritu1); var(ritu1); sd(ritu1) [1] 0.1500663 [1] 0.0004268327 [1] 0.02065993 正規分布が 当てはまる 平均値 (合計÷人数)
定理8(106頁)が重要ポイント 証明は合計の公式ですぐできる 母集団の特徴は、平均がμ、標準偏差がσ N個のサンプルをとると 合計値 平均値(定理8)
【クイズ】 サイコロを40回振って出る 目の数の平均値は? 期待値±標準偏差(=1シグマ区間)で結果を予想せよ。 木曜 ここから 前に戻る
理論的計算の検証(1万回) > mean(jikken40) [1] 3.499728 > sd(jikken40) [1] 0.2704703 > jikken <- replicate(10000,mean(sample(1:6,40,replace=T)))
【解答】 母集団 データの特徴 𝜇=3.5 σ=1.7 (サイコロの目) 平均値の出方は? サンプル 結果
【クイズ】100個の0-1変数の合計 値 確率 -10 0.5 +10 1000 100回後の標準偏差? 100日目 -1000