ホーエル『初等統計学』第４章確率分布高尚策（コウショウサク）准教授

ホーエル『初等統計学』第４章確率分布高尚策（コウショウサク）准教授
富山大学知能情報工学科「統計学」第６回ホーエル『初等統計学』第４章　確率分布高　尚策　（コウ　ショウサク）　准教授

前回の復習：確率の諸公式 P H D = 𝑃(𝐷|𝐻)×𝑃(𝐻) 𝑃(𝐷)
P(A∪B) = P(A) + P(B) – P(A∩B) 　　（加法の定理） P(A∪B) = P(A) + P(B)　　　　　（排反事象の加法の定理） P(A∩B) = P(A)×P(B | A) 　　　 = P(B)×P(A | B)　　　　　　　　　　(乗法の定理) P(A∩B) = P(A)×P(B)　　　　　（独立事象の乗法の定理）ベイズの定理（事後確率を計算するための公式） P H D = 𝑃(𝐷|𝐻)×𝑃(𝐻) 𝑃(𝐷) 事後確率尤度事前確率

第２章で学んだヒストグラムは，得られたデータの分布を示したもの．経験分布（empirical distribution）と呼ばれる．
１．序説第２章で学んだヒストグラムは，得られたデータの分布を示したもの．経験分布（empirical distribution）と呼ばれる．第４章で学ぶ確率分布（probability distribution）は，母集団での分布．母集団ではこうなっているだろうと仮定する，理論的な分布．確率分布経験分布

確率分布は理論的に想定される数学的モデルである．
経験分布の極限としての確率分布確率分布は理論的に想定される数学的モデルである．推測統計では，母集団での分布として，特定の確率分布が仮定される．標本の大きさ（sample size）を十分に大きくすれば，相対度数を用いた経験分布は，確率分布に収束する．（今日の実践で確認する）

こうした測定は繰り返し行うことができる．繰り返しのたびに，変数 X の値が具体的に測定されると考える．
２．確率変数事象を観察し，なんらかの測定を行う．さいころを２回投げたときの，出た目の和学生の，１週間あたりの学習時間こうした測定は繰り返し行うことができる．繰り返しのたびに，変数 X の値が具体的に測定されると考える．注意：テキストでは変数を小文字の x で表しているが，ここでは大文字を用いる．

例：硬貨を３回投げる実験での，表の出る回数 X
HHH HHT HTH THH HTT THT TTH TTT 1 2 3

確率変数（random variable）：
定義：標本空間の上で定義された実数値関数．標本点それぞれに実数を対応させる．直感的には，とりうる値それぞれについて，その値が出現する確率が与えられている変数．「変数」なのに「関数」？ y = f(x) が，対応規則 f と，対応先の変数 y を表現していたのと同じ．確率変数の決め方については，『統計解析ハンドブック』など参照．

標本空間実数（表が出た回数） X TTT TTH HTT 1 THT THH 2 HTH 3 HHT HHH

確率変数は，X のような，アルファベットの大文字を用いて表す．実現値は小文字で表す．
確率変数（離散型）の表記法確率変数は，X のような，アルファベットの大文字を用いて表す．実現値は小文字で表す．確率変数が特定の値 xi をとる確率を，P{X=xi} あるいは単に P{xi} と表す．例：さいころを１回投げ，「１の目が出る」という事象に実数の１，「２の目が出る」という事象に実数の２，・・・と対応させた確率変数 X を考えると，

確率変数と確率との対応の全体を，確率分布（probability distribution）と呼ぶ．
確率分布（離散型）とびとびの値 x1, x2, … をとる確率変数 X を，離散型（discrete type）の確率変数と呼ぶ．たいていは有限個の値を考える．確率変数と確率との対応の全体を，確率分布（probability distribution）と呼ぶ．横軸に確率変数 X，縦軸に確率 P{X} をとって図示する． x 1 2 3 図：硬貨投げる実験で表の出る回数 Xの確率分布

経験分布について平均と分散を考えたのと同様に，確率分布の平均と分散を考えることができる．
３．確率分布の性質経験分布について平均と分散を考えたのと同様に，確率分布の平均と分散を考えることができる．無作為抽出母集団平均：μ 母集団分散：σ２標本平均：m 標本分散：s2 標本（経験分布）母集団（確率分布）

第２章で学んだ，分類されたデータから標本平均を求める式を書き換える．
母集団平均：確率分布の平均第２章で学んだ，分類されたデータから標本平均を求める式を書き換える．（n 回の試行で xi という値が fi 回観察された）経験分布での相対度数 fi / n は，標本の大きさ（n）を十分に大きくすれば，母集団での確率 P{X=xi} に収束する．

標本の大きさを十分に大きくすると，標本平均は母集団平均に収束する．
母集団平均：確率分布の平均標本の大きさを十分に大きくすると，標本平均は母集団平均に収束する．母集団平均（つまり，確率分布の平均）をギリシア文字 μ （ミュー）で表す．テキスト p.79 (1) 式

分類されたデータから分散を求める式を変形する．
母集団分散分類されたデータから分散を求める式を変形する．（n 回の試行で xi という値が fi 回観察された） n が大きいとき

標本の大きさを十分に大きくすると，標本から計算される分散は母集団分散に収束する．
母集団分散（つまり，確率分布の分散）を σ2 で表す．（ギリシア文字シグマ）テキスト p.79 (2) 式

分散＝２乗の平均 – 平均の２乗テキスト p.81 (3) 式

確率分布の平均は，期待値（expected value）とも呼ばれる．
４．期待値確率分布の平均は，期待値（expected value）とも呼ばれる．確率分布の期待値といえば，確率分布の平均という意味である．例：硬貨を１枚投げて，表が出れば100円がもらえるゲームをする．期待値は50円．非常に多数回の試行を行えば，平均的には50円もらえると期待できる．

確率変数（標本点と実数との対応規則）「表」→100 「裏」→0 確率分布： P{X=100} = 1/2 P{X=0} = 1/2
「表」→100　　「裏」→0 確率分布： P{X=100} = 1/2 P{X=0} = 1/2 期待値（expectation）：確率変数の値それぞれと，その値が出現する確率との積和テキスト p.82 (4) 式

確率変数 X に何らかの変換 g を行って得られる変数 Y は，やはり確率変数である．
確率変数の変換確率変数 X に何らかの変換 g を行って得られる変数 Y は，やはり確率変数である． Y の期待値は，テキスト p.83 (5) 式

確率分布の分散は，「平均からの偏差の２乗の期待値」であると言える．
という変換であると考えることができる．

確率変数に定数を加えると，期待値にも定数が加えられる．
期待値の性質１確率変数に定数を加えると，期待値にも定数が加えられる．確率変数を定数倍すると，期待値も定数倍されるテキスト p.83 (6) 式テキスト p.83 (7) 式

和の期待値は期待値の和（証明は，やや難）
期待値の性質２和の期待値は期待値の和（証明は，やや難）２つの確率変数が独立の場合に限り，積の期待値は期待値の積（これはテキストにはない．証明省略）テキスト p.83 (8) 式

第１項について考える（スライド次ページ）

ここでも，第１項について考える（スライド次ページ）

したがって，

同様に，したがって，参考：『よくわかる統計学 I 基礎編』p.59

個人が支払った9ドルの出費に対して,彼の手に戻ってくる金額の期待値はいくらか．
例：　（テキストP.83）ある慈善団体の主催する基金募集事業に参加した個人がパンチボードを1回はじくごとに４ドルを支払い,幸運の輪を1回まわすごとに5ドルを支払うものとする．　　　このパンチボードには100個の穴があって,そのうちの20個の穴に入れば10ドルの賞金がもらえ,これとは別の特別な1個の穴に入れば100ドルがもらえる．　　　一方,幸運の輪のほうは輪全体が5つの等面積なセクターに分かれ,各セクターには0から4までの数が１つずつ書き込んである．輪をまわし,輪がある点にとまればそのセクターの数の2倍だけのドルが支払われる．　　　個人が支払った9ドルの出費に対して,彼の手に戻ってくる金額の期待値はいくらか．パンチボード幸運の輪

答え：　Xをパンチボードを1回はじいたとき勝ちとる金額とし,
　　　　 Yを幸運の輪を1回まわして得られるセクターの数とする． Xが取りうる値と,それに対応する確率は, 次に、Yが取りうる値と,それに対応する確率は, ゆえに,　　　E[X]＝０×0.79＋10×0.2＋100×0.1＝3, 　　E[2Y]＝２E[Y]＝2×[0×0.2+1×0.2+2×0.2+3×0.2+4×0.2]＝４．勝ちとる金額の合計を表す確率変数をZ＝X+2Yとすれば、　　E[Z]＝E[X]＋E[２Y]＝７　となる．従って,この慈善団体は募金募集に参加した個人が各ゲームを1回行うたびに,平均9-7＝２ドルの利益を得ることになる．

ある範囲の実数すべてを取りうる確率変数を連続型（continuous type）の確率変数と呼ぶ．
５．連続型変数ある範囲の実数すべてを取りうる確率変数を連続型（continuous type）の確率変数と呼ぶ．身長テストの点数工場で生産される鋼棒の直径「真の値」を考える．測定に限界があるので，見かけ上は離散型になる．

離散型の確率変数の場合と同様に， X のような，アルファベットの大文字を用いて表す．
確率変数（連続型）の表記法離散型の確率変数の場合と同様に， X のような，アルファベットの大文字を用いて表す．連続型の確率変数は，ある範囲の実数すべてをとりうるので，特定のひとつの値に対する確率は考えることができない．確率変数が特定の範囲の値をとる確率（たとえば，P{a≦X≦b} ）を考える．『統計解析ハンドブック』など参照

柱すべてを合わせた面積が１になるようにヒストグラムを描くことにする．
ヒストグラムの極限としての確率分布柱すべてを合わせた面積が１になるようにヒストグラムを描くことにする．ひとつの柱の面積は，その階級に属する測定値の，相対度数となる．面積=相対度数標本の大きさを十分に大きくして，かつ，階級の幅を十分に小さくすれば，ヒストグラムの上端は次第に滑らかな曲線に近づく．この曲線を表す関数 f(x) があるとする.テキスト図8（p.86）参照．

確率密度関数連続型の確率変数 X がある範囲の値をとる確率が，関数 f(x)によって次のようにあらわされるとき，この関数を確率変数 X の確率密度関数（probability density function）と呼ぶ．面積＝確率：面積が確率に対応する．連続型変数の確率分布は，確率密度関数によって与えられる．

curve(df(x,10,20), 0,5, xlab="X", ylab="確率密度")

確率密度関数の性質値は必ず０以上（離散型確率分布のグラフと同様）全面積は１（全事象の確率は１）

確率密度関数は理論的に想定される数学的モデルである．
経験分布の極限としての確率密度関数確率密度関数は理論的に想定される数学的モデルである．推測統計では，母集団での分布として，特定の確率密度関数が仮定される．標本の大きさ（sample size）を十分に大きくすれば，相対度数を用いたヒストグラム（全面積＝１）は，確率密度関数に収束する．確率密度関数によって与えられる確率分布の平均を μ，分散を σ2 で表す．

標本の大きさ（sample size）を十分に大きくすれば，相対度数を用いた経験分布は，確率分布に収束する？

例で確認する例（テキストP.６９　問１０）赤球が4個,黒球が3個,緑球が2個,白球が1個入った箱がある．この箱から球を1個取り出し,次にそれをもとへ戻す．このとき、取り出した球が赤、黒、緑、白である確率P(赤)、 P(黒)、P(緑)、P(白)を求めよ．　　　　更に、数字0，1，2，3を赤球とよび,数字4,5,6を黒球とよび,数字7,8を緑球とよび,数字9を白球とよぶことによって,乱数表から１けたの数字を選ぶ実験のシミュレーションを行うとして,　乱数表から数字を選ぶ実験を　　　1回、10回、50回、100回、400回、1000回、2000回繰り返し実行せよ． 1 2 3 4 5 6 7 8 9

1 2 3 4 5 6 7 8 9 標本（経験分布）母集団（確率分布）無作為抽出母集団平均：μ 母集団分散：σ２標本平均：m
1 2 3 4 5 6 7 8 9 無作為抽出母集団平均：μ 母集団分散：σ２標本平均：m 標本分散：s2 標本（経験分布）標本の大きさ　N＝　　乱数表から数字を　選ぶ実験を繰り返す回数母集団（確率分布） P(赤)＝４/１０ P(黒)＝３/１０ P(緑)＝２/１０ P(白)＝１/１０つまり、 N＝１、１０、５０、１００、４００、１０００、２０００

Eｘcelでシミュレーションを行う説明：１）乱数の生成関数 =RANDBETWEEN(0,9) ２）確率モデル：母集団確率分布
２）確率モデル：　母集団確率分布３）実際に取った数字の回数：　赤球（０，１，２，３）　黒球（４，５，６）　　　　　　　　　　　　　　　　　　　　緑球（７，８）　白球（９） =E3/$E$7 ＝実際/N =COUNTIF(A2:A401,"<=3") ==COUNTIF(A2:A401,"<=6")-COUNTIF(A2:A401,"<=3") ==COUNTIF(A2:A401,"<=8")-COUNTIF(A2:A401,"<=6") =COUNTIF(A2:A401,９) =RANDBETWEEN(0,9) 0.4 0.3 0.2 0.1

VBAでシミュレーションを行う VBAとは
「乱数を何回発生させる？」のしたのセールに１、または１０、または　５０、１００、４００、１０００、２０００を入力して、スタートボタンを押す。「標本の大きさ（sample size）を十分に大きくすれば，相対度数を用いた経験分布は，確率分布に収束する」について、右下の図をよく考察する。

演習課題「標本の大きさを十分に大きくすれば，相対度数を用いた経験分布は，確率分布に収束する」であることを VBA によりもう一回確かめよ
VBAは下記のURLからダウンロードしてください　　ファイル名： ProbaDis.xlsm 提出形式：A4レポート用紙（表紙をつけること）。「確かめました」等だけのものは不可。簡単でいいので説明文（や必要なら計算式）を書いてください。名前と学籍番号をご記入のうえ、レポート用紙（A4）を提出する。提出先：工学部大学院棟７階　　　　 NO.７７０８室のドアのポストに入れてください締め切り時間：来週月曜日　午後５時まで

ホーエル『初等統計学』第４章確率分布高尚策（コウショウサク）准教授

Similar presentations

Presentation on theme: "ホーエル『初等統計学』第４章確率分布高尚策（コウショウサク）准教授"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

ホーエル『初等統計学』 第４章 確率分布 高 尚策 （コウ ショウサク） 准教授

Similar presentations

Presentation on theme: "ホーエル『初等統計学』 第４章 確率分布 高 尚策 （コウ ショウサク） 准教授"— Presentation transcript:

Similar presentations

About project

フィードバック

ホーエル『初等統計学』第４章確率分布高尚策（コウショウサク）准教授

Presentation on theme: "ホーエル『初等統計学』第４章確率分布高尚策（コウショウサク）准教授"— Presentation transcript: