Presentation is loading. Please wait.

Presentation is loading. Please wait.

ホーエル『初等統計学』 第4章 確率分布 高 尚策 (コウ ショウサク) 准教授

Similar presentations


Presentation on theme: "ホーエル『初等統計学』 第4章 確率分布 高 尚策 (コウ ショウサク) 准教授"— Presentation transcript:

1 ホーエル『初等統計学』 第4章 確率分布 高 尚策 (コウ ショウサク) 准教授
富山大学知能情報工学科 「統計学」第6回 ホーエル『初等統計学』 第4章 確率分布 高 尚策 (コウ ショウサク) 准教授

2 前回の復習:確率の諸公式 P H D = 𝑃(𝐷|𝐻)×𝑃(𝐻) 𝑃(𝐷)
P(A∪B) = P(A) + P(B) – P(A∩B)   (加法の定理) P(A∪B) = P(A) + P(B)     (排反事象の加法の定理) P(A∩B) = P(A)×P(B | A)     = P(B)×P(A | B)          (乗法の定理) P(A∩B) = P(A)×P(B)     (独立事象の乗法の定理) ベイズの定理(事後確率を計算するための公式) P H D = 𝑃(𝐷|𝐻)×𝑃(𝐻) 𝑃(𝐷) 事後確率 尤度 事前確率

3 第2章で学んだヒストグラムは,得られたデータの分布を示したもの.経験分布(empirical distribution)と呼ばれる.
1.序説 第2章で学んだヒストグラムは,得られたデータの分布を示したもの.経験分布(empirical distribution)と呼ばれる. 第4章で学ぶ確率分布(probability distribution)は,母集団での分布. 母集団ではこうなっているだろうと仮定する,理論的な分布. 確率分布 経験分布

4 確率分布は理論的に想定される数学的モデルである.
経験分布の極限としての確率分布 確率分布は理論的に想定される数学的モデルである. 推測統計では,母集団での分布として,特定の確率分布が仮定される. 標本の大きさ(sample size)を十分に大きくすれば,相対度数を用いた経験分布は,確率分布に収束する.(今日の実践で確認する)

5 こうした測定は繰り返し行うことができる.繰り返しのたびに,変数 X の値が具体的に測定されると考える.
2.確率変数 事象を観察し,なんらかの測定を行う. さいころを2回投げたときの,出た目の和 学生の,1週間あたりの学習時間 こうした測定は繰り返し行うことができる.繰り返しのたびに,変数 X の値が具体的に測定されると考える. 注意:テキストでは変数を小文字の x で表しているが,ここでは大文字を用いる.

6 例:硬貨を3回投げる実験での,表の出る回数 X
HHH HHT HTH THH HTT THT TTH TTT 1 2 3

7 確率変数(random variable):
定義:標本空間の上で定義された実数値関数.標本点それぞれに実数を対応させる. 直感的には,とりうる値それぞれについて,その値が出現する確率が与えられている変数. 「変数」なのに「関数」? y = f(x) が,対応規則 f と,対応先の変数 y を表現していたのと同じ. 確率変数の決め方については,『統計解析ハンドブック』など参照.

8 標本空間 実数(表が出た 回数) X TTT TTH HTT 1 THT THH 2 HTH 3 HHT HHH

9 確率変数は,X のような,アルファベットの大文字を用いて表す.実現値は小文字で表す.
確率変数(離散型)の表記法 確率変数は,X のような,アルファベットの大文字を用いて表す.実現値は小文字で表す. 確率変数が特定の値 xi をとる確率を,P{X=xi} あるいは単に P{xi} と表す. 例:さいころを1回投げ,「1の目が出る」という事象に実数の1, 「2の目が出る」という事象に実数の2,・・・と対応させた確率変数 X を考えると,

10 確率変数と確率との対応の全体を,確率分布(probability distribution)と呼ぶ.
確率分布(離散型) とびとびの値 x1, x2, … をとる確率変数 X を,離散型(discrete type)の確率変数と呼ぶ.たいていは有限個の値を考える. 確率変数と確率との対応の全体を,確率分布(probability distribution)と呼ぶ. 横軸に確率変数 X,縦軸に確率 P{X} をとって図示する. x 1 2 3 図:硬貨投げる実験で表の出る回数 Xの確率分布

11 経験分布について平均と分散を考えたのと同様に,確率分布の平均と分散を考えることができる.
3.確率分布の性質 経験分布について平均と分散を考えたのと同様に,確率分布の平均と分散を考えることができる. 無作為抽出 母集団平均:μ 母集団分散:σ2 標本平均:m 標本分散:s2 標本(経験分布) 母集団(確率分布)

12 第2章で学んだ,分類されたデータから標本平均を求める式を書き換える.
母集団平均:確率分布の平均 第2章で学んだ,分類されたデータから標本平均を求める式を書き換える. (n 回の試行で xi という値が fi 回観察された) 経験分布での相対度数 fi / n は,標本の大きさ(n)を十分に大きくすれば,母集団での確率 P{X=xi} に収束する.

13 標本の大きさを十分に大きくすると,標本平均は母集団平均に収束する.
母集団平均:確率分布の平均 標本の大きさを十分に大きくすると,標本平均は母集団平均に収束する. 母集団平均(つまり,確率分布の平均)をギリシア文字 μ (ミュー)で表す. テキスト p.79 (1) 式

14 分類されたデータから分散を求める式を変形する.
母集団分散 分類されたデータから分散を求める式を変形する. (n 回の試行で xi という値が fi 回観察された) n が大きいとき

15 標本の大きさを十分に大きくすると,標本から計算される分散は母集団分散に収束する.
母集団分散(つまり,確率分布の分散)を σ2 で表す.(ギリシア文字シグマ) テキスト p.79 (2) 式

16 分散 = 2乗の平均 – 平均の2乗 テキスト p.81 (3) 式

17 確率分布の平均は,期待値(expected value)とも呼ばれる.
4.期待値 確率分布の平均は,期待値(expected value)とも呼ばれる. 確率分布の期待値といえば,確率分布の平均という意味である. 例:硬貨を1枚投げて,表が出れば100円がもらえるゲームをする.期待値は50円. 非常に多数回の試行を行えば,平均的には50円もらえると期待できる.

18 確率変数(標本点と実数との対応規則) 「表」→100 「裏」→0 確率分布: P{X=100} = 1/2 P{X=0} = 1/2
「表」→100  「裏」→0 確率分布: P{X=100} = 1/2 P{X=0} = 1/2 期待値(expectation): 確率変数の値それぞれと, その値が出現する確率との 積和 テキスト p.82 (4) 式

19 確率変数 X に何らかの変換 g を行って得られる変数 Y は,やはり確率変数である.
確率変数の変換 確率変数 X に何らかの変換 g を行って得られる変数 Y は,やはり確率変数である. Y の期待値は, テキスト p.83 (5) 式

20 確率分布の分散は,「平均からの偏差の2乗の期待値」であると言える.
という変換であると考えることができる.

21 確率変数に定数を加えると,期待値にも定数が加えられる.
期待値の性質1 確率変数に定数を加えると,期待値にも定数が加えられる. 確率変数を定数倍すると,期待値も定数倍される テキスト p.83 (6) 式 テキスト p.83 (7) 式

22

23

24 和の期待値は期待値の和(証明は,やや難)
期待値の性質2 和の期待値は期待値の和(証明は,やや難) 2つの確率変数が独立の場合に限り, 積の期待値は期待値の積 (これはテキストにはない.証明省略) テキスト p.83 (8) 式

25 第1項について考える(スライド次ページ)

26 ここでも,第1項について考える (スライド次ページ)

27 したがって,

28 同様に, したがって, 参考:『よくわかる統計学 I 基礎編』p.59

29 個人が支払った9ドルの出費に対して,彼の手に戻ってくる金額の期待値はいくらか.
例: (テキストP.83)ある慈善団体の主催する基金募集事業に参加した個人がパンチボードを1回はじくごとに4ドルを支払い,幸運の輪を1回まわすごとに5ドルを支払うものとする.    このパンチボードには100個の穴があって,そのうちの20個の穴に入れば10ドルの賞金がもらえ,これとは別の特別な1個の穴に入れば100ドルがもらえる.    一方,幸運の輪のほうは輪全体が5つの等面積なセクターに分かれ,各セクターには0から4までの数が1つずつ書き込んである.輪をまわし,輪がある点にとまればそのセクターの数の2倍だけのドルが支払われる.    個人が支払った9ドルの出費に対して,彼の手に戻ってくる金額の期待値はいくらか. パンチボード 幸運の輪

30 答え: Xをパンチボードを1回はじいたとき勝ちとる金額とし,
     Yを幸運の輪を1回まわして得られるセクターの数とする. Xが取りうる値と,それに対応する確率は, 次に、Yが取りうる値と,それに対応する確率は, ゆえに,   E[X]=0×0.79+10×0.2+100×0.1=3,   E[2Y]=2E[Y]=2×[0×0.2+1×0.2+2×0.2+3×0.2+4×0.2]=4. 勝ちとる金額の合計を表す確率変数をZ=X+2Yとすれば、   E[Z]=E[X]+E[2Y]=7 となる. 従って,この慈善団体は募金募集に参加した個人が各ゲームを1回行うたびに,平均9-7=2ドルの利益を得ることになる.

31 ある範囲の実数すべてを取りうる確率変数を連続型(continuous type)の確率変数と呼ぶ.
5.連続型変数 ある範囲の実数すべてを取りうる確率変数を連続型(continuous type)の確率変数と呼ぶ. 身長 テストの点数 工場で生産される鋼棒の直径 「真の値」を考える.測定に限界があるので,見かけ上は離散型になる.

32 離散型の確率変数の場合と同様に, X のような,アルファベットの大文字を用いて表す.
確率変数(連続型)の表記法 離散型の確率変数の場合と同様に, X のような,アルファベットの大文字を用いて表す. 連続型の確率変数は,ある範囲の実数すべてをとりうるので,特定のひとつの値に対する確率は考えることができない. 確率変数が特定の範囲の値をとる確率(たとえば,P{a≦X≦b} )を考える. 『統計解析ハンドブック』など参照

33 柱すべてを合わせた面積が1になるようにヒストグラムを描くことにする.
ヒストグラムの極限としての確率分布 柱すべてを合わせた面積が1になるようにヒストグラムを描くことにする. ひとつの柱の面積は,その階級に属する測定値の,相対度数となる.面積=相対度数 標本の大きさを十分に大きくして,かつ,階級の幅を十分に小さくすれば,ヒストグラムの上端は次第に滑らかな曲線に近づく. この曲線を表す関数 f(x) があるとする.テキスト図8(p.86)参照.

34 確率密度関数 連続型の確率変数 X がある範囲の値をとる確率が,関数 f(x)によって次のようにあらわされるとき,この関数を確率変数 X の確率密度関数(probability density function)と呼ぶ. 面積=確率:面積が確率に対応する. 連続型変数の確率分布は,確率密度関数によって与えられる.

35 curve(df(x,10,20), 0,5, xlab="X", ylab="確率密度")

36 確率密度関数の性質 値は必ず0以上(離散型確率分布のグラフと同様) 全面積は1(全事象の確率は1)

37 確率密度関数は理論的に想定される数学的モデルである.
経験分布の極限としての 確率密度関数 確率密度関数は理論的に想定される数学的モデルである. 推測統計では,母集団での分布として,特定の確率密度関数が仮定される. 標本の大きさ(sample size)を十分に大きくすれば,相対度数を用いたヒストグラム(全面積=1)は,確率密度関数に収束する. 確率密度関数によって与えられる確率分布の平均を μ,分散を σ2 で表す.

38 標本の大きさ(sample size)を十分に大きくすれば,相対度数を用いた経験分布は,確率分布に収束する?

39 例で確認する 例(テキストP.69 問10) 赤球が4個,黒球が3個,緑球が2個,白球が1個入った箱がある.この箱から球を1個取り出し,次にそれをもとへ戻す.このとき、取り出した球が赤、黒、緑、白である確率P(赤)、 P(黒)、P(緑)、P(白)を求めよ.     更に、数字0,1,2,3を赤球とよび,数字4,5,6を黒球とよび,数字7,8を緑球とよび,数字9を白球とよぶことによって,乱数表から1けたの数字を選ぶ実験のシミュレーションを行うとして, 乱数表から数字を選ぶ実験を    1回、10回、50回、100回、400回、1000回、2000回繰り返し実行せよ. 1 2 3 4 5 6 7 8 9

40 1 2 3 4 5 6 7 8 9 標本(経験分布) 母集団(確率分布) 無作為抽出 母集団平均:μ 母集団分散:σ2 標本平均:m
1 2 3 4 5 6 7 8 9 無作為抽出 母集団平均:μ 母集団分散:σ2 標本平均:m 標本分散:s2 標本(経験分布) 標本の大きさ N=   乱数表から数字を  選ぶ実験を繰り返す回数 母集団(確率分布) P(赤)=4/10 P(黒)=3/10 P(緑)=2/10 P(白)=1/10 つまり、 N=1、10、50、100、400、1000、 2000

41 Excelでシミュレーションを行う 説明: 1)乱数の生成関数 =RANDBETWEEN(0,9) 2)確率モデル: 母集団確率分布
2)確率モデル: 母集団確率分布 3)実際に取った数字の回数: 赤球(0,1,2,3) 黒球(4,5,6)                     緑球(7,8) 白球(9) =E3/$E$7 =実際/N =COUNTIF(A2:A401,"<=3") ==COUNTIF(A2:A401,"<=6")-COUNTIF(A2:A401,"<=3") ==COUNTIF(A2:A401,"<=8")-COUNTIF(A2:A401,"<=6") =COUNTIF(A2:A401,9) =RANDBETWEEN(0,9) 0.4 0.3 0.2 0.1

42 VBAでシミュレーションを行う VBAとは
「乱数を何回発生させる?」のしたのセールに1、または10、または 50、100、400、1000、2000を入力して、 スタートボタンを押す。 「標本の大きさ(sample size)を十分に大きくすれば,相対度数を用いた経験分布は,確率分布に収束する」について、 右下の図をよく考察する。

43 演習課題 「標本の大きさを十分に大きくすれば,相対度数を用いた経験分布は,確率分布に収束する」であることを VBA によりもう一回確かめよ
VBAは下記のURLからダウンロードしてください   ファイル名: ProbaDis.xlsm 提出形式:A4レポート用紙(表紙をつけること)。 「確かめました」等だけのものは不可。 簡単でいいので説明文(や必要なら計算式)を書いてください。 名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。 提出先:工学部大学院棟7階     NO.7708室のドアのポストに入れてください 締め切り時間: 来週月曜日 午後5時まで


Download ppt "ホーエル『初等統計学』 第4章 確率分布 高 尚策 (コウ ショウサク) 准教授"

Similar presentations


Ads by Google