第11回 中心極限定理 と 大数の法則 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
数理統計学  第9回 西山.
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
数理統計学(第四回) 分散の性質と重要な法則
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学  第7回 西 山.
統計学 11/13(月) 担当:鈴木智也.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
第2章補足Ⅱ 2項分布と正規分布についての補足
統計学 11/19(月) 担当:鈴木智也.
第7回 二項分布(続き)、幾何分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
数理統計学 第11回 西 山.
10. 積分 積分・・確率モデルと動学モデルで使われる この章は計算方法の紹介 積分の定義から
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規分布確率密度関数.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
第3章 統計的推定 (その1) 統計学 2006年度.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
計測工学 -誤差、演習問題 計測工学(第6回) 2009年5月26日 Ⅱ限目.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
第8回 二項分布の近似、ポアソン分布、正規分布
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
数理統計学  第6回 西山.
プログラミング論 相関
第8回 ポアソン分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
Cプログラミング演習 ニュートン法による方程式の求解.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
第6回 ベルヌイ試行、二項分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
Presentation transcript:

第11回 中心極限定理 と 大数の法則 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散 確率変数の共分散 ベルヌイ試行、二項分布 二項分布(続き)、幾何分布 ポアソン分布 正規分布 正規分布(続き) 大数の法則、中心極限定理 統計学の基礎1(母集団と標本、確率論との関係) 統計学の基礎2(正規分布を用いた推定・検定) ここです!

中心極限定理と大数の法則 中心極限定理 大数の法則 二項分布の場合 意味の確認

中心極限定理 Sn = X1 + X2 + … + Xn とおく。 Sn は、 正規分布 N(nμ, nσ2) に“近づく” ただし、 E(Xi) =μ, V(Xi) =σ2 とする。 n→∞のとき Sn は、 正規分布 N(nμ, nσ2) に“近づく”

Sn の平均と分散 一般に、 E(Xi) =μ, V(Xi) =σ2 とするとき、

Sn の平均と分散 V がバラバラになるのは、独立だから。

中心極限定理(別表現) X = (X1 + X2 + … + Xn ) / n とおく。 X は、 ただし、 E(Xi) =μ, V(Xi) =σ2 とする。 n→∞のとき 統計学では中心極限定理をこちらの形で利用する。 X は、 正規分布 N(μ, σ2 / n ) に“近づく”

X の平均と分散 X = Sn / n = (X1+…+Xn) / n とおくとき、 (ただし、X1, …, Xn は独立で、E(Xi)=μ, V(Xi)=σ2 ) X の上に-をつけたのは、( X1 + … + Xn ) / n が単純算術平均の形をしているから。(実はあとで統計のほうで使うので、そちらの記号と合わせた) (なおこれも n に依存しているので、ほんとうは添え字 n をつけたほうがよいのだが、記号がまぎらわしくなるのでやめた。)  Sn = X1 + … + Xn の公式と、Sn / n = ( X1 + … + Xn ) / n の公式を混同しないこと。特に、分散が nσ2 になるのが前者、σ2 / n になるのが後者。

中心極限定理 補足 とおくと、 n→∞のとき は、 標準正規分布 N(0, 1) に“近づく”

中心極限定理と大数の法則 中心極限定理 大数の法則 二項分布の場合 意味の確認

大数の法則 X の分布が、μ= E(Xi) に“近づく” n→∞のとき これは次のことを意味する: (「大数の法則」) ほんとうは「近づく」の意味をもっと厳密にする必要がある。 X の分布が、μ= E(Xi) に“近づく”

大数の法則(例) P(X/n = r’) p=0.5 n=50 の二項分布の相対度数 X のグラフ P( X = r ) = P( X / n = r / n ) である(Pの中で同値変形しても確率は変わらない!)から、r / n = r’ とおけば、P( X / n = r’ ) = P( X = r ) となる。これが X / n の確率分布である。 r のとる値は 0, 1, …, n であるが、r’ = 0, 1/n, 2/n, …, 1 であることに注意。  グラフで言えば、X / n の分布のグラフは、0, 1, …, n に分布していた X の棒グラフを、棒の長さはそのままで、0, 1/n, …, 1 の位置に圧縮しただけである。

大数の法則(例) p=0.5 n=200 の二項分布の相対度数 X のグラフ P(X/n = r’)

大数の法則(例) P(X/n = r’) p=0.5 n=2000 の二項分布の相対度数 X のグラフ  グラフの縦軸の目盛りが、n が大きくなるにつれ、だんだん小さくなっている。これは、二項分布のとる値の個数が増えるにつれて、個々の r に対する確率はしだいに小さくなるからである。確率最大となる r’ = 0.5 におけるその最大確率も、n の増大とともにどんどん小さくなる。つまり相対的に 0.5 に密集してはくるが、グラフの高さはどんどん低くなるのである。  それでも、r のとりうる値(棒グラフの棒の数)は増えているから、確率(棒の長さ)の合計は常に 1 になるのである。 [余談]もしも、確率を棒の長さでなく面積で表すために、棒の幅を 1/n にして、くっついた長方形の集まりになるようにすると、面積はΣ(棒の高さ×1/n) = 1/n ×Σ(棒の高さ) = 1/n ×確率の合計 = 1/n となるから、面積が 1 になるようにするには、棒の長さをすべて n 倍しなければならない。: グラフの式で書けば n B( n r ) そうすると今度は、r = 0.5 のところの高さが、n の増大につれて無限に大きくなる。これは、あとで出てくる中心極限定理と同様、面積合計が 1 になるようにした棒グラフは確率「密度」関数に近づくためで、大数の法則を「 P( a < Sn/n < b ) の極限が∫[a,b] f (x) dx になる」という形に(無理やり)表そうとすると、密度関数 f (x) =δ( x – p ) (デルタ関数)と考えざるをえないことを示している。  なおこのことは小針「確率・統計入門」(岩波書店)にも書かれているが、そこでは密度の変換公式を離散分布である B( r ) に直接適用して n B( n r ) を導いたり、確率変数と確率分布(関数)と(関数の)変数が混同されていたりして、議論としては誤っている。(Sn / n の確率分布そのものは、 n B( n r ) ではなくB( n r ) が正しい。)

中心極限定理と大数の法則の関係 中心極限定理 大数の法則 精密化 大数の法則は、「X - μ が(ある意味で)0 に近づく」という定理だが、その極限のスピードは1/√n が 0 に近づくスピードと同じレベルであり、したがってその √n 倍は(∞と0が同じオーダーでちょうど釣り合って) 0でも∞でもないある分布(正規分布)に収束する。これが中心極限定理である。 ” Sn / 1 は発散し、 X = Sn / n は平均に集中する(大数の法則) 。 中心極限定理は、その中間のオーダーで割った Sn /√n を考えている。

正確な大数の法則 厳密な数学の定理としては、 大数の弱法則 (ベルヌーイの大数の法則) 大数の強法則 の2つがある。

大数の弱法則 大数の強法則 任意のε>0 に対して 大数の弱法則は、すこし分かりにくい主張だが、「チェビシェフの不等式」を用いて簡単に証明できる。

チェビシェフの不等式(復習) μ=E(X) XとしてX~をとれば、Vはσ2/n だから、右辺はn→∞のとき0に収束する。

中心極限定理と大数の法則 中心極限定理 大数の法則 二項分布の場合 意味の確認

二項分布の場合 1 p q Xi だから、和 Sn については…: Xi がベルヌイ分布の場合、 Sn は二項分布になる。 このとき、 確率 Xi このとき、 一致(結果的に) だから、和 Sn については…:

二項分布の場合 V がバラバラになるのは、独立だから。

Snの平均と分散のまとめ Sn = X1 +…+ Xn E(Sn) = nμ V(Sn) = nσ2 E(Xi) =μ, V(Xi) =σ2 特にベルヌイ分布の場合 二項分布 E(Sn)=np, V(Sn)=npq E(Xi) = p, V(Xi) = pq 1 p q Sn = X1 +…+ Xn

中心極限定理(二項分布の場合) Sn は、 正規分布 N(np, npq) に“近づく” 「ド・モアブル-ラプラスの定理」 (二項分布の正規近似) は、 中心極限定理の特別な場合。 Sn が二項分布 B(n, p) に従うとする。 n→∞のとき Sn は、 正規分布 N(np, npq) に“近づく”

大数の法則(二項分布の場合) X = Sn / n の意味は 「相対度数」 (確率 p の事象が起きた回数の割合) だから、「大数の法則」は次のことを意味する: この事実が、中学などで確率の導入に利用されている。すなわち、ベルヌイ試行の回数を増やしていくと、(成功の)相対度数がある一定値に近づくので、この一定値を(一回の試行の)確率と考えよう、と。 一回の成功確率が p の試行を繰り返していくと、成功の相対度数が p に “近づく”

中心極限定理と大数の法則 中心極限定理 大数の法則 二項分布の場合 意味の確認

大数の強法則(例) n=102~104 における実験値(10回分) p=0.5 の二項分布の相対度数 X の 対数目盛り 103=1000 104=10000

大数の強法則(例) n=1~104 における実験値(10回分) p=0.5 の二項分布の相対度数 X の

大数の強法則(例) n=102~105 における実験値 p=0.5 の二項分布の相対度数 X の 対数目盛り 103=1000 104=10000 105=100000

大数の法則? n=1~103 における実験値(1回分) p=0.5 の二項分布の度数 Sn の pからのずれ 大数の法則は、あくまでもnとの比であり、Sn自体が収束するわけではない。中心極限定理によれば、ズレは√nのオーダーで増大(!)する。 プラスの部分が利得、マイナスの部分が損失と考えられる。図のようなうねりは、「ツキ」があるのが当然であることを示している!

大数の法則? n=1~104 における実験値(1回分) p=0.5 の二項分布の度数 Sn の pからのずれ Nが大きくなると、うねりの大きさはますます大きくなっている。(前のページのn=1000までの様子は、この図では左1/10の部分にすぎないことに注意)

大数の法則? n=1~104 における再実験値(1回分) p=0.5 の二項分布の度数 Sn の pからのずれ 今回は、かなりツイているようだ。

大数の法則? n=1~104 における実験値(10回分) p=0.5 の二項分布の度数 Sn の pからのずれ 10回の実験結果はバラバラである。 ただし、ズレはほぼ±√nの範囲にある。

大数の法則? n=102~104 における実験値(10回分) p=0.5 の二項分布の度数 Sn の pからのずれ 対数目盛り ズレの範囲が±√nの範囲にあることを確認しよう。先へ行くほどズレは√n程度に増えていく。 対数目盛り 103=1000 104=10000

大数の法則(再) n=102~104 における実験値(10回分) p=0.5 の二項分布の相対度数 X の 対数目盛り 103=1000 104=10000

賭けと中心極限定理 例 : μ= -0.1, σ=1 の賭け 100回累積後の分布 (常にほぼ正規分布) マイナスになる確率 一回賭けるごとに、0.1ドルの損失がある(賭けはふつう、胴元がわずかに得をするようにできている)。ただしそれはあくまで期待値の話であり、分散(標準偏差)があるため個々の賭けでは勝つことも負けることもある。標準偏差1なら、-1.1ドル~0.9ドルくらいの変動は「標準的」であり、そう悪い賭けには見えないだろう。一回の利得の分布は正規分布ではないだろうが、参考のため正規分布のグラフを赤で示す。 さて、この賭けを100回やるとどうなるか? 長く繰り返すと「大数の法則」が働いて結局損をする、と書いてある本(たとえば「確率統計であばくギャンブルのからくり」講談社ブルーバックス)があるが、損をする理由として大数の法則を持ち出すのは正しくない。大数の法則からわかるのは、利得を「100で割った値」が -0.1 に近いということで、利得自体の話ではない。 利得自体は、中心極限定理によって、平均-10,標準偏差10の正規分布に近づく。すなわち図の青線のようになり、84%の確率で損をすることになる。得をする人も16%はいるが、-40ドル~+20ドルの範囲に99.7%の人が入り、100で割った場合には損も得も(一回の期待値0.1を中心とした)幅0.6ドルの区間におさまってしまう。「大数の法則」は「損得の幅」が「回数」よりずっと少ない、と言っているだけなのである。 まとめておこう。多く繰り返すと、平均も分散も大きくなる。期待値がわずかでもマイナスなら、利得の期待値は大きくマイナスになる。しかし標準偏差も大きくなるから、必ず損をするとはいいきれない。運命の幅が大きくなっているのである。ただ、期待値からのズレが√nのオーダーなのに(ここが中心極限定理の主要部)、期待値はnのオーダーでマイナスになっていくから、nが大きくなるほどマイナス部分の確率は増大していく、というからくりなのである。 マイナスになる確率 =P(Z*<1) μ =0.84 σ

メニューに戻る メニューへ