第11回中心極限定理と大数の法則確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均

第11回中心極限定理と大数の法則確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均
確率変数の分散確率変数の共分散ベルヌイ試行、二項分布二項分布（続き）、幾何分布ポアソン分布正規分布正規分布（続き）大数の法則、中心極限定理統計学の基礎1（母集団と標本、確率論との関係）統計学の基礎2（正規分布を用いた推定・検定）ここです！

中心極限定理と大数の法則中心極限定理大数の法則二項分布の場合意味の確認

中心極限定理 Sn = X1 + X2 + … + Xn とおく。 Sn は、正規分布 N(nμ, nσ2) に“近づく”
ただし、 E(Xi) =μ, V(Xi) =σ2 とする。 n→∞のとき Sn は、正規分布 N(nμ, nσ2) に“近づく”

Sn の平均と分散一般に、 E(Xi) =μ, V(Xi) =σ2 とするとき、

Sn の平均と分散 V がバラバラになるのは、独立だから。

中心極限定理（別表現） X = (X1 + X2 + … + Xn ) / n とおく。 X は、
ただし、 E(Xi) =μ, V(Xi) =σ2 とする。 n→∞のとき統計学では中心極限定理をこちらの形で利用する。 X は、正規分布 N(μ, σ2 / n ) に“近づく”

X の平均と分散 X = Sn / n = (X1+…+Xn) / n とおくとき、
(ただし、X1, …, Xn は独立で、E(Xi)=μ, V(Xi)=σ2 ) X の上に－をつけたのは、( X1 + … + Xn ) / n が単純算術平均の形をしているから。（実はあとで統計のほうで使うので、そちらの記号と合わせた） (なおこれも n に依存しているので、ほんとうは添え字 n をつけたほうがよいのだが、記号がまぎらわしくなるのでやめた。) 　Sn = X1 + … + Xn の公式と、Sn / n = ( X1 + … + Xn ) / n の公式を混同しないこと。特に、分散が nσ2 になるのが前者、σ2 / n になるのが後者。

中心極限定理補足とおくと、 n→∞のときは、標準正規分布 N(0, 1) に“近づく”

大数の法則 X の分布が、μ= E(Xi) に“近づく” n→∞のときこれは次のことを意味する：（「大数の法則」）
ほんとうは「近づく」の意味をもっと厳密にする必要がある。 X の分布が、μ= E(Xi) に“近づく”

大数の法則（例） P(X/n = r’) p=0.5 n=50 の二項分布の相対度数 X のグラフ
P( X = r ) = P( X / n = r / n ) である（Pの中で同値変形しても確率は変わらない！）から、r / n = r’ とおけば、P( X / n = r’ ) = P( X = r ) となる。これが X / n の確率分布である。 r のとる値は 0, 1, …, n であるが、r’ = 0, 1/n, 2/n, …, 1 であることに注意。　グラフで言えば、X / n の分布のグラフは、0, 1, …, n に分布していた X の棒グラフを、棒の長さはそのままで、0, 1/n, …, 1 の位置に圧縮しただけである。

大数の法則（例） p=0.5 n=200 の二項分布の相対度数 X のグラフ P(X/n = r’)

大数の法則（例） P(X/n = r’) p=0.5 n=2000 の二項分布の相対度数 X のグラフ
　グラフの縦軸の目盛りが、n が大きくなるにつれ、だんだん小さくなっている。これは、二項分布のとる値の個数が増えるにつれて、個々の r に対する確率はしだいに小さくなるからである。確率最大となる r’ = 0.5 におけるその最大確率も、n の増大とともにどんどん小さくなる。つまり相対的に 0.5 に密集してはくるが、グラフの高さはどんどん低くなるのである。　それでも、r のとりうる値（棒グラフの棒の数）は増えているから、確率（棒の長さ）の合計は常に 1 になるのである。［余談］もしも、確率を棒の長さでなく面積で表すために、棒の幅を 1/n にして、くっついた長方形の集まりになるようにすると、面積はΣ(棒の高さ×1/n) = 1/n ×Σ(棒の高さ) = 1/n ×確率の合計 = 1/n となるから、面積が 1 になるようにするには、棒の長さをすべて n 倍しなければならない。：グラフの式で書けば n B( n r ) そうすると今度は、r = 0.5 のところの高さが、n の増大につれて無限に大きくなる。これは、あとで出てくる中心極限定理と同様、面積合計が 1 になるようにした棒グラフは確率「密度」関数に近づくためで、大数の法則を「 P( a < Sn/n < b ) の極限が∫[a,b] f (x) dx になる」という形に（無理やり）表そうとすると、密度関数 f (x) =δ( x – p ) （デルタ関数）と考えざるをえないことを示している。　なおこのことは小針「確率･統計入門」（岩波書店）にも書かれているが、そこでは密度の変換公式を離散分布である B( r ) に直接適用して n B( n r ) を導いたり、確率変数と確率分布（関数）と（関数の）変数が混同されていたりして、議論としては誤っている。（Sn / n の確率分布そのものは、 n B( n r ) ではなくB( n r ) が正しい。）

中心極限定理と大数の法則の関係中心極限定理大数の法則精密化
大数の法則は、「X － μ が（ある意味で）0 に近づく」という定理だが、その極限のスピードは1/√n が 0 に近づくスピードと同じレベルであり、したがってその √n 倍は（∞と0が同じオーダーでちょうど釣り合って） 0でも∞でもないある分布（正規分布）に収束する。これが中心極限定理である。 ” Sn / 1 は発散し、 X = Sn / n は平均に集中する（大数の法則）。中心極限定理は、その中間のオーダーで割った Sn /√n を考えている。

正確な大数の法則厳密な数学の定理としては、大数の弱法則 (ベルヌーイの大数の法則) 大数の強法則の２つがある。

大数の弱法則大数の強法則任意のε>0 に対して
大数の弱法則は、すこし分かりにくい主張だが、「チェビシェフの不等式」を用いて簡単に証明できる。

チェビシェフの不等式（復習） μ=E(X) XとしてX~をとれば、Vはσ2/n だから、右辺はn→∞のとき0に収束する。

二項分布の場合 1 p q Xi だから、和 Sn については…： Xi がベルヌイ分布の場合、 Sn は二項分布になる。このとき、確率
Xi このとき、一致（結果的に）だから、和 Sn については…：

二項分布の場合 V がバラバラになるのは、独立だから。

Snの平均と分散のまとめ Sn = X1 +…+ Xn E(Sn) = nμ V(Sn) = nσ2 E(Xi) =μ, V(Xi) =σ2
特にベルヌイ分布の場合二項分布 E(Sn)=np, V(Sn)=npq E(Xi) = p, V(Xi) = pq 1 p q Sn = X1 +…+ Xn

中心極限定理（二項分布の場合） Sn は、正規分布 N(np, npq) に“近づく” 「ド・モアブル-ラプラスの定理」
（二項分布の正規近似）は、中心極限定理の特別な場合。 Sn が二項分布 B(n, p) に従うとする。 n→∞のとき Sn は、正規分布 N(np, npq) に“近づく”

大数の法則（二項分布の場合） X = Sn / n の意味は「相対度数」
（確率 p の事象が起きた回数の割合）だから、「大数の法則」は次のことを意味する：この事実が、中学などで確率の導入に利用されている。すなわち、ベルヌイ試行の回数を増やしていくと、（成功の）相対度数がある一定値に近づくので、この一定値を（一回の試行の）確率と考えよう、と。一回の成功確率が p の試行を繰り返していくと、成功の相対度数が p に “近づく”

大数の強法則（例） n=102～104 における実験値（10回分） p=0.5 の二項分布の相対度数 X の対数目盛り 103=1000
104=10000

大数の強法則（例） n=1～104 における実験値（10回分） p=0.5 の二項分布の相対度数 X の

大数の強法則（例） n=102～105 における実験値 p=0.5 の二項分布の相対度数 X の対数目盛り 103=1000
104=10000 105=100000

大数の法則？ n=1～103 における実験値（1回分） p=0.5 の二項分布の度数 Sn の pからのずれ
大数の法則は、あくまでもnとの比であり、Sn自体が収束するわけではない。中心極限定理によれば、ズレは√nのオーダーで増大（！）する。プラスの部分が利得、マイナスの部分が損失と考えられる。図のようなうねりは、「ツキ」があるのが当然であることを示している！

Nが大きくなると、うねりの大きさはますます大きくなっている。(前のページのn=1000までの様子は、この図では左1/10の部分にすぎないことに注意)

大数の法則？ n=1～104 における再実験値（1回分） p=0.5 の二項分布の度数 Sn の pからのずれ
今回は、かなりツイているようだ。

10回の実験結果はバラバラである。ただし、ズレはほぼ±√nの範囲にある。

大数の法則？ n=102～104 における実験値（10回分） p=0.5 の二項分布の度数 Sn の pからのずれ対数目盛り
ズレの範囲が±√nの範囲にあることを確認しよう。先へ行くほどズレは√n程度に増えていく。対数目盛り 103=1000 104=10000

大数の法則（再） n=102～104 における実験値（10回分） p=0.5 の二項分布の相対度数 X の対数目盛り 103=1000
104=10000

賭けと中心極限定理例： μ= -0.1, σ=1 の賭け 100回累積後の分布（常にほぼ正規分布）マイナスになる確率
一回賭けるごとに、0.1ドルの損失がある（賭けはふつう、胴元がわずかに得をするようにできている）。ただしそれはあくまで期待値の話であり、分散（標準偏差）があるため個々の賭けでは勝つことも負けることもある。標準偏差1なら、-1.1ドル～0.9ドルくらいの変動は「標準的」であり、そう悪い賭けには見えないだろう。一回の利得の分布は正規分布ではないだろうが、参考のため正規分布のグラフを赤で示す。さて、この賭けを100回やるとどうなるか？長く繰り返すと「大数の法則」が働いて結局損をする、と書いてある本（たとえば「確率統計であばくギャンブルのからくり」講談社ブルーバックス）があるが、損をする理由として大数の法則を持ち出すのは正しくない。大数の法則からわかるのは、利得を「100で割った値」が -0.1 に近いということで、利得自体の話ではない。利得自体は、中心極限定理によって、平均-10,標準偏差10の正規分布に近づく。すなわち図の青線のようになり、84%の確率で損をすることになる。得をする人も16%はいるが、-40ドル～+20ドルの範囲に99.7%の人が入り、100で割った場合には損も得も（一回の期待値0.1を中心とした）幅0.6ドルの区間におさまってしまう。「大数の法則」は「損得の幅」が「回数」よりずっと少ない、と言っているだけなのである。まとめておこう。多く繰り返すと、平均も分散も大きくなる。期待値がわずかでもマイナスなら、利得の期待値は大きくマイナスになる。しかし標準偏差も大きくなるから、必ず損をするとはいいきれない。運命の幅が大きくなっているのである。ただ、期待値からのズレが√nのオーダーなのに（ここが中心極限定理の主要部）、期待値はnのオーダーでマイナスになっていくから、nが大きくなるほどマイナス部分の確率は増大していく、というからくりなのである。マイナスになる確率 =P(Z*<1) μ =0.84 σ

メニューに戻るメニューへ

第11回中心極限定理と大数の法則確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均

Similar presentations

Presentation on theme: "第11回中心極限定理と大数の法則確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

第11回 中心極限定理 と 大数の法則 確率･統計Ⅰ ここです！ 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均

Similar presentations

Presentation on theme: "第11回 中心極限定理 と 大数の法則 確率･統計Ⅰ ここです！ 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均"— Presentation transcript:

Similar presentations

About project

フィードバック

第11回中心極限定理と大数の法則確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均

Presentation on theme: "第11回中心極限定理と大数の法則確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均"— Presentation transcript: