Download presentation
Presentation is loading. Please wait.
1
ホーエル『初等統計学』 第5章 主要な確率分布
富山大学知能情報工学科 「統計学」第7回 ホーエル『初等統計学』 第5章 主要な確率分布 高 尚策 (コウ ショウサク) 准教授
2
前回の復習 確率変数:標本空間の上で定義された実数値関数 確率分布の性質: 期待値 𝑉 𝑋 =𝐸 𝑋 2 − (𝐸 𝑋 ) 2
離散型 連続型 確率分布の性質: 標本の大きさを十分に大きくすると,標本平均mは母集団平均μに収束する 標本平均:m 標本分散:s2 母集団平均:μ 母集団分散:σ2 無作為抽出 母集団(確率分布) 標本(経験分布) 期待値 第3回の講義で 紹介ずみ 補足 𝑉 𝑋 =𝐸 𝑋 2 − (𝐸 𝑋 ) 2 𝑉 𝑐𝑋 = 𝑐 2 𝑉[𝑋]
3
この章で学ぶこと 代表的な2つの確率分布の導入 2項分布の正規近似 2項分布(離散型) (実践)エクセルを利用した 2項分布の確率計算
正規分布(連続型) (実践)エクセルで正規分布のグラフの書き方 2項分布の正規近似
4
1. 2項分布 1回の試行(trial)の結果が,「成功」か「失敗」のいずれかに分類されるとき.これをベルヌーイ試行(Bernoulli trial)と呼ぶ. 例:コインを投げて,表が出たら「成功」 例:さいころを投げて,1の目が出たら「成功」
5
2項分布(binominal distribution):成功確率 p の,n 回の独立な(independent)ベルヌーイ試行での,成功回数 X の確率分布. B(n, p) と表す.
観測される実際の分布ではなく,理論的な母集団分布であることに注意する. この確率変数X を2項変数と呼ぶことがある.
6
2項分布の例 さいころを投げて,1の目が出たら「成功」,それ以外は「失敗」とする.これを3回繰り返す.
下の表は,この実験での標本空間(可能な結果すべて)と,標本空間を構成する各点に付与された確率を表している. 成功:S 失敗: F 結果 SSS SSF SFS FSS SFF FSF FFS FFF 確率 ( 5 6 ) ( 5 6 ) ( 5 6 ) ( 1 6 ) ( 1 6 ) ( 1 6 ) ( 𝟏 𝟔 ) 𝟑 ( 𝟓 𝟔 ) 𝟑
7
x 3 2 1 P{X = x} 標本空間の各点から成功回数 への写像X を考える.簡単に,成功回数を確率変数X と考えてよい. 標本空間
FFS FSF FSS SFF SSS SSF SFS FFF 1 2 3 標本空間 成功回数 X もともとの標本点に付与されていた確率を,成功回数ごとに加算すると,x 回成功する確率P{X = x} がわかる. x 3 2 1 P{X = x} ( 𝟏 𝟔 ) 𝟑 ( 5 6 ) ( 1 6 ) ( 𝟓 𝟔 ) 𝟑
8
2項分布を与える関数 確率分布を計算する王道(だが大変) n 試行の2項分布は次の式で与えられる. 標本空間の構成 各標本点への確率付与
確率変数 X の構成 確率変数 X の値ごとに,標本点に付与された確率を加算 n 試行の2項分布は次の式で与えられる.
9
2項分布の式の導出(n=3) 3回とも成功の確率は, 2回成功する,ある特定の系列(たとえば,FSS)の出現確率は,
1回成功する,ある特定の系列(たとえば,FFS)の出現確率は,
10
0回成功する確率は, 成功回数が1回および2回となる系列は1通りではない.→ では何通りか? ある成功回数(たとえば,2回)になる,3回の独立なベルヌーイ試行での,成功試行の組み合わせの数を考えればよい.
11
成功回数2回の場合 3か所のうち,「成功」となる2か所を選ぶ 選び方の総数は,
12
一般に,n 回の試行で,成功となる x 回の試行を選ぶ
選び方の数は, よって, n 回の試行で,x 回成功する確率は,
13
2項係数 2項係数(binomial coefficient) 2項定理の展開式において,係数に現れる.
14
2. 2項分布の性質 分散(中心まわりの変動) 平均(分布の中心)
15
2項分布の平均と分散 平均(期待値) np ,分散 npq
q は「失敗」の確率,すなわち,1 – p この性質は覚えておくとよい この性質を証明する方法はいくつかあるが,もっとも簡単なのは,1回のベルヌーイ試行での平均と分散を考えるもの.
16
1回目のベルヌーイ試行(成功確率 p)での,「成功」回数を表す確率変数 X1 P{X1=1} = p, P{X1=0} = q
P(X1) p q 平均(期待値) 分散
17
n 回のベルヌーイ試行での,「成功」回数を表す確率変数 X
平均 分散(独立試行では加法性が成立)
18
実践1:エクセルを利用した 2項分布における成功確率の計算
ベルヌーイ試行おいてx回成功する確率P{X=x} は,エクセルのBINOMDIST 関数を用いて求められる.この関数名の由来はBinominal Distribution(2項分布)である. 例題:サイコロを投げる.1の目がでることを「成功」とする.3回投げた時の成功回数の確率分布は,2項分布となる.テキスト表3(p.95),図2(p.96)参照.
19
エクセルシートの準備 「成功回数」「2項係数」「成功確率P{x}」を記録する列を用意する.サイコロは3回投げるので, 成功回数は0回から3回である.
20
COMBIN関数 すべて成功あるいはすべて失敗という試行結果の系列は1通りしかない.
その他は複数とおりの系列がある.2項係数はいくつの系列があるかを表す. 2項係数を計算するエクセルの関数は COMBIN 関数である.たとえば, COMBIN(3,2)は,3C2を計算して,3を返す. この関数名の由来はCOMBINATION である.
21
2項係数の計算 n回の試行でx 回成功する系列の数(2項係数)を計算する書式は,=COMBIN(n, x) である.
22
2項係数を計算する列で,それぞれの成功回数(0回から3回)に対応する2項係数を計算 する.COMBIN(3, 0) からCOMBIN (3, 3) までを順に入力すると,下図のようになる.
23
成功確率の計算: BINOMDIST関数 =BINOMDIST(x,n,p,FALSE)
BINOMDIST 関数を用いて,P{x} を計算する.この関数は,成功数x,試行回数n,成功確率p を指定して, =BINOMDIST(x,n,p,FALSE) BINOMDIST 関数を挿入し,成功確率P{x} を求める. と書く.最後のFALSEはP{x} を求める場合の指定である. これをTRUE とすると,部分和の計算になる.
24
2項分布 下図のような確率分布(2項分布)が得られる. 最後に,確率分布のグラフを描く.
25
3. 正規分布 下の図のようなヒストグラムは,よく観察される.
3. 正規分布 下の図のようなヒストグラムは,よく観察される. 釣鐘型(bell curve) 左右対称 このようなヒストグラムの極限形(母集団分布)として,正規分布(normal distribution)と呼ばれる確率分布が仮定される.
26
確率密度関数 連続型の確率変数のデータで,ヒストグラムを描く.釣鐘型のヒストグラムが得られた.
適当に階級を設定する.柱の面積を,その階級に属する相対度数と等しくする.(全面積は1) 標本を大きくし,階級の幅を0に近づけていくと,柱の上部での段差はなめらかになり,全体として左右対称なグラフが見えてくる. このグラフの式が,正規分布の確率密度関数(probability density function)である.
27
正規分布の確率密度関数 正規分布の平均をμ(ミュー),分散をσ2(シグマ2乗)として,N(μ, σ2) と表す. 正規分布の確率密度関数
本質的には,
28
データから描かれるヒストグラムが釣鐘型に見えても,母集団の分布が正規分布であるとは限らない.
統計学では,母集団の分布として正規分布が仮定されることが多い.その仮定に問題があるようなら,そのときに対応を考える. 確率密度関数のグラフでは,縦軸は確率ではない.確率密度である.
29
確率密度関数の性質 正規分布に限らず,確率密度関数には以下の性質がある.数学的には,こうした性質を持つ関数を確率密度関数と定義する. グラフの値はどこでも0以上. グラフ下の全面積は1.理論的相対度数 のヒストグラムで,柱の面積をすべて足すと 1になることに対応している. X=a から X=b までの,グラフ下の 面積は,その区間の値が出現する確率. 確率=面積
30
正規分布の性質 区間 μ±σ の,正規曲線下の面積は,曲線下の全面積(=1)のおよそ68%
これは,正規分布に従う確率密度関数 X において,この区間の値が出現する確率である. 区間 μ±2σ の,正規曲線下の面積は,曲線下の全面積(=1)のおよそ95% 区間 μ±3σ の,正規曲線下の面積は,曲線下の全面積(=1)のおよそ99.7%
31
標準正規分布 確率=面積 標準正規分布(standard normal distribution):平均0,分散1の正規分布.
正規分布表:標準正規分布に従う確率変数 Z において,P{0≦Z≦z} (テキストp.295付録表IV)あるいはP{z≦Z}の一覧を示したもの. 標準正規分布の確率密度関数における,この区間での曲線下の面積である. 確率=面積
32
確率分布の標準化(非常に重要!!) Xの分布:N( μ , σ2 ) Zの分布:N(0, 1)
平均 μ,分散 σ2 の正規分布に従う確率変数Xは,以下の変数変換(X → Z)により,標準正規分布に従うようになる. μ を引くことで分布の位置を変え,平均を 0 にする. σ でわることにより,分散はもとの変数の 1/σ2 ,標準偏差は 1/σ になる
33
測定値の標準化 標準化の変換は,母集団の確率分布のみならず,実際のデータに対しても行われる.
この変換により,素点(raw score)は,平均から見て,標準偏差いくつ分はなれているかを表す標準得点(standardized score)に変換される. 偏差値は,標準得点を10倍し,50 を加えたもの.偏差値の平均と標準偏差は?
34
実践2:エクセルで正規分布のグラフを描く方法
ステップ1:確率変数 X の値 x を少しずつ変化させて,そのときの確率密度関数の値 f(x) を,エクセルの NORM.DIST 関数を用いて求める. ステップ2:点 (x, f(x) ) の散布図を描き,すべての点をなめらかな線でつなぐと,正規分布の確率密度関数のグラフができる.
35
ワークシートの準備 確率変数 X の値を入力する列(下図のA列)と,平均0,分散1の標準正規分布 N(0,1) の確率密度関数 f(x) の値を計算する列(下図のB列)を用意する.
36
Xの値を用意 Xの値は -3.5 から +3.5 まで,0.1 きざみで用意する.X の値を入力する列での一番上のセル(下図のA2セル)を選択し,-3.5 という値を入力する.
37
連続データの作成 -3.5 という値を入力した セルを選択し,「ホー ム」タブの右端にある 「編集」から,下向き矢 印のアイコンをマウス
で左クリックする.表示 されるメニューから「連 続データの作成」を選 択する.
38
連続データの作成 表示されるウィンドウで,「範囲」を列,「増分値」を 0.1,「停止値」を 3.5 とする.
[OK] ボタンを押すと,列方向に, 0.1 きざみで, -3.5 から 3.5 までの 値が入力される.
39
NORM.DIST 関数 X の値それぞれに対応する f(x) の値を計算する.これにはNORM.DIST関数を用いる.
NORM.DIST関数は,確率変数 X の値 x ,平均,標準偏差を指定して,=NORM.DIST(x, 平均, 標準偏差, FALSE) と入力する. 最後の引数としてFALSEを指定すると,x に対応する f(x) の値が返される.ここをTRUEとすると,与えられた正規分布において-∞から x までの値が出現する確率 P{-∞≦X≦x} が返される. NORM.DIST 関数は,Excel 2010 で新たに加えられた関数.Excel 2007 以前で実習を行うときには,NORMDIST 関数を用いる. NORM のあとのコンマなし. 使い方は NORM.DIST 関数と同じ.
40
確率密度関数の値の計算 標準正規分布での, X = -3.5 に対応する確率密度関数の値 f(-3.5) を求める.-3.5 という数字はセル番地(下図ではA2)で指定することにして,関数 f(x) の値を計算するセル(下図ではB2 )で,以下のように入力する. 標準正規分布の平均は0, 分散と標準偏差は1
41
確率密度関数の値の計算 確率変数 X の値それぞれに対して,対応する f(x) の値をNORM.DIST関数で計算する.最初に関数を入力したセルをコピーすればよい.
42
分散を変えて計算 分散の違いによる正規分布の曲線の変化を観察するために,N(0, ) と N(0, ) についても,下図のように f(x) の値を計算する. NORM.DIST 関数では,分散でなく標準偏差を与える(たとえば, でなく 1.5)ことに注意.
43
グラフを描く データの入力されたセルのいずれかをマウスで選択したあと,「挿入タブ」の「グラフ」から,「散布図(平滑線)」を選択する.
44
正規分布のグラフ完成 次のようなグラフができる.このように,「散布図(平滑線)」は,関数のグラフを描くのに便利である.
45
4. 2項分布の正規近似 2項分布を用いる問題は,n が大きくなると2項係数の計算が厄介. このようなときに,近似的な解法があると便利.
4. 2項分布の正規近似 2項分布を用いる問題は,n が大きくなると2項係数の計算が厄介. このようなときに,近似的な解法があると便利. 2項分布の正規近似(normal approximation):問題の2項分布に近い正規分布を利用することができる.
46
例:ある射撃手が標的に命中させる確率を1/3とするとき,この人が12回発射してそのうち少なくとも6回命中させる確率はいくらか.
答え: p=1/3, n=12 の2項分布: 命中回数x 1 2 3 4 5 6 p{X=x} 0.008 0.046 0.127 0.212 0.238 0.191 0.111 7 8 9 10 11 12 0.048 0.015 0.003 0.000 P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177
47
p=1/3, n=12 の2項分布: P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177
P{X>=6}の値は上の図のヒストグラムで x=5.5から右側にある柱の 面積の和である.
48
p=1/3, n=12 の2項分布(平均np,分散npq) と同じ平均と分散を持つ正規分布
N(np,npq)=N(4, 1.63^2) 𝑍= 𝑋−𝜇 𝜎 = 5.5− =0.92 正規分布でのP(X>=5.5)は標準化して テキストP.295の表IVからZ=0とZ=0.92の間の面積は0.321である. Z=0.92より右側の面積は0.5-0.321=0.179となる.
49
正規分布で近似できる2項分布の条件 p = q = 1/2のとき,2項分布の確率分布は左右対称になる.
同じ平均(np)と分散(npq)を持つ正規分布がよくあてはまる p = 1/2でなくても,p および q の値が小さすぎず,n が十分に大きいとき,2項分布は正規分布で近似できる. 目安として,np > 5(p が1/2より大きいときには,nq > 5) 例: n=20, p=0.1の2項分布には正規分布の左すそがうまく適合しない P{0}=(0.9)^20=0.12, 0はxが取りうる最小値であり、この確率はかなり大きいだから. 0.12
50
2項分布の正規近似 問題に合わせて,使う正規分布を変えるのか?
平均 np 分散 npq の正規分布を使う? 標準正規分布は扱いが簡単で,特定範囲の値が出現する確率を示した正規分布表も用意されている. 成功回数を標準化すれば,平均が0,分散が1となり,常に標準正規分布を利用できる.
51
図10 p=1/3, n=24 の2項分布 (横軸は成功回数)
52
図10 p=1/3, n=24 の2項分布で, 成功回数を標準化
53
2項分布の正規近似を用いた 問題解法(1/2) 成功回数 x を標準化する(確率変数X→Z)
z = 0 に対応する x は, x = 0 ではなく,x = np
54
2項分布の正規近似を用いた 問題解法(2/2) 問題にあわせて必要な計算を行う
z > 0 の場合(z < 0 は正規分布の対称性を利用) テキストの正規分布表を用いる場合,z 回以下の成功確率を求めたいのなら,読み取った値(成功回数が 0 から z までとなる確率)に0.5 を加える. z 回以上の成功確率を求めたいのなら,読み取った値(成功回数が 0 から z までとなる確率)を0.5 から引く. どの範囲の確率を求めているのか,図をよく見る
55
2項分布の正規近似を用いた 問題解法(注意点)
2項分布の正規近似を利用して,「回数」に関する問題を解くときには,離散型分布である2項分布での成功回数を,連続型分布である正規分布での成功回数に読みかえる必要がある. 例:「5回以上の成功」は「4.5回以上の成功」 割合に関する問題では読みかえ不要 読みかえ後の成功回数を標準化する テキストの例1(p.109),例2(p.110)をよく吟味せよ
56
まとめ 代表的な2つの確率分布の導入 2項分布の正規近似 2項分布(離散型) (実践)エクセルを利用した 2項分布の確率計算
正規分布(連続型) (実践)エクセルで正規分布のグラフの書き方 2項分布の正規近似
57
演習課題 課題: 正規分布の分散(標準偏差)でなく,平均を変えると,確率密度関数のグラフはどのように変化するだろうか? エクセルで実験してみよう. レポート内容: 1.作成した確率密度関数のグラフを貼り付ける. 2.説明文 名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。 提出先:工学部大学院棟7階 NO.7708室のドアのポストに入れてください 締め切り時間: 来週月曜日 午後5時まで
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.