Download presentation
Presentation is loading. Please wait.
Published byなぎさ ふじつぐ Modified 約 7 年前
1
2.統計的方法の基礎知識 2.1 データのまとめ方 2.2 確率分布 2.3 検定と推定 練習問題 Revised
2
2.1 データのまとめ方 1つの量的変数の場合 基本統計量:平均,平方和,分散,標準偏差,範囲.... 統計量:
2.1 データのまとめ方 1つの量的変数の場合 基本統計量:平均,平方和,分散,標準偏差,範囲.... 統計量: 一組のデータに統計学的なアルゴリズムを適用して得られる数値 夙 夙 平均 平方和 分散 標準偏差 範囲
3
標本分散と不偏分散 標本分散 母集団 1~N 標本 母分散 1~n 母分散の推定値 (不偏分散) × × × × × × × × × × ×
4
標本分散と不偏分散 標本分散
5
標本分散と不偏分散
6
データの標準化 標準化後のデータの平均は0,分散は1となる.
7
2.1 データのまとめ方 2つの量的変数の場合 表2.1 2つの量的変数データ 偏差積和 共分散 相関係数
8
ピアソンのχ2統計量 (3)2つの質的変数の場合 表2.2 2つの質的変数データ アイテム(項目) :質的変数 カテゴリー :変数の値
表2.2 2つの質的変数データ アイテム(項目) :質的変数 カテゴリー :変数の値 ex. 性別,成績 アイテム 男,女 カテゴリー
9
ピアソンのχ2統計量 (3)2つの質的変数の場合 表2.3 分割表(クロス集計表) ピアソンのχ2統計量
10
クラメールの連関係数 ピアソンのχ2統計量:行数aや列数bに依存する
11
分散分析 (4)質的変数と量的変数が混在した場合 表2.4 混在例 表2.5 層別データ
12
平方和の分解 (4)質的変数と量的変数が混在した場合
13
2.2 確率分布 (0) 確率変数X(Random Variables) 様々な値を様々な確率でとる変数
2.2 確率分布 (0) 確率変数X(Random Variables) 様々な値を様々な確率でとる変数 離散確率変数(Discrete Random Variables) 例:サイコロ 連続確率変数(Continuous Random Variables) 例:身長 確率密度関数(連続) (Probability Density Function: PDF) スタージェスの式
14
確率密度関数 確率密度関数の性質 分布関数(Cumulative Distribution Function, CDF)
15
確率関数 (Probability Mass Function)
事象Xi が発生する確率. 例 Xi: 3枚のコインを投げた時の,表の枚数 0.1 0.2 0.3 0.4 1 2 3 Xi X0 = 0 X1 = 1 X2 = 2 X3 = 3 PX ( X0 ) = 1/8 PX ( X1 ) = 3/8 PX ( X2 ) = 3/8 PX ( X3 ) = 1/8
16
累積確率関数(Cumulative Mass Function)
C.M.F 1.0 0.8 P.M.F 0.6 0.4 0.4 0.3 0.2 0.2 0.1 Xi 0.0 Xi 1 2 3 1 2 3
17
確率変数(まとめ) 連続変数 2. 離散変数 確率密度関数 (PDF) 分布関数 (CDF) 1 Probabilty Probabilty Probabilty 確率関数 (PMF) 確率累積関数 (CMF) 1 1/6
18
(2)期待値と分散 期待値(Expected Value) 分散(Variance) 期待値の性質 分散の性質
19
期待値 Prob E(Xi) 0.002 20 0.010 10 0.100 10 0.888 Prize($) # 1st 10,000
Example 1. 1st 10,000 10 0.002 20 2nd 1,000 50 0.010 10 3rd 100 500 0.100 10 4th 4440 0.888 Example 2. アレのパラドックス Allis Paradox
20
期待値と分散の性質 E(aX+b) = aE(X) + b E(X+Y) = E(X) + E(Y)
E(XY) = E(X) E(Y) X, Y: Independent V(X) = E(X2) – {E(X)} 2 V(aX+b) = a2 V(X) b f(X) f(X+b) V(X+b) = V(X) X0 X0+b f(aX) f(X) X0 μ+σ aX aμ+aσ
21
(3)正規分布(Normal Distribution)
22
正規分布の性質 期待値 分散 μ±kσの範囲にデータの入る確率は Pr(μ-1.645σ ≦ x ≦ μ+1.645σ)=0.900
-k μ±kσの範囲にデータの入る確率は Pr(μ-1.645σ ≦ x ≦ μ+1.645σ)=0.900 Pr(μ-1.960σ ≦ x ≦ μ+1.960σ)=0.950 Pr(μ-3.000σ ≦ x ≦ μ+3.000σ)=0.997
23
標準正規分布 標準化 x~N(μ,σ2) → u~N(0,12) N(0,12):標準正規分布 Pr(u≧k)=P 数値表
24
(4)2次元分布 同時確率密度関数(Joint Probability Density Function)
(4)2次元分布 同時確率密度関数(Joint Probability Density Function) 同時分布関数(Joint Cumulative Density Function) 周辺確率密度関数(Marginal Probability Density Function)
25
2次元分布
26
同時確率密度関数 一様分布 分布関数(CDF)
27
2次元分布の例 連続変数 0.9-1 0.25 1 0.9 0.2 0.8 0.7 0-0.05 0.15 0.6 0.5 0.1 0.4 0.3 0.05 3 0-0.1 2 3.0 1 0.2 2.0 0.1 1.0 -1 -3 0.0 -2 -2.2 -1.4 0.2 1 -1.0 -0.6 -3 1.8 2.6 -3.0 -2.2 -2.0 -1.4 -0.6 0.2 1.0 1.8 -3.0 2.6
28
2次元分布 離散変数 同時確率関数(Joint Probability Mass Function)
2次元分布 離散変数 同時確率関数(Joint Probability Mass Function) 周辺確率関数(Marginal Probability Mass Function) 条件付き確率関数(Conditional Probability Mass Function)
29
p p 2次元分布の例 離散変数 (X,Y) X1 X2 (Y) X,Y Y Y1 0.1 0.2 0.3 Y2 0.3 0.4 0.7 p (X) 0.4 0.6 X pX,Y(X,Y): Joint PMF pY(Y): 周辺確率関数 0.7 0.6 Y Y2 0.4 0.4 pX(X|Y1): 条件付き確率関数 0.3 0.3 0.2 X X2 Y2 0.1 Y1 X2 =0.1/ =0.2/0.3 X1
30
2次元分布の期待値
31
2次元分布の共分散 共分散 母相関係数 共分散の性質
32
相関係数
33
3.3.3 疑似相関とは何か x(身長) y(学力) z(年齢) R=0.041 R=0.208 R=0.180
34
2変数の独立性 ならば,変数xと変数yは独立(Independent) 変数xと変数yは独立ならば
35
(5)2次元正規分布 同時確率密度関数 周辺確率密度関数
36
(6)統計量の確率分布 統計量:母集団の特徴を示す指標(eq.平均,分散)
37
(6)統計量の確率分布 統計量:母集団の特徴を示す指標(eq.平均,分散) xiが互いに独立ならば
38
χ2分布( Chi-square distribution)
Xi を、平均μi で分散 の正規分布に従う、k 個の独立なランダム変数とすると、統計量Zはカイ二乗分布に従う。 確率密度関数 が無限大に近づくとX の分布は正規分布に近づくが、近づき方はゆっくりしている
39
ガンマ関数 実部が正となる複素数z について、次の積分で定義される 自然数nについて
40
(7)その他の確率分布 ポアソン過程とポアソン分布 ポアソン過程(Poisson Process) 1) 事象はランダムに発生する
2)事象は独立に発生する 3) 微小時間tに事象が発生する確率は l t, 微小時間tに事象が2回発生することはない ポアソン分布(Poisson Distribution) 時間tの間に、事象がx回発生する確率は 以下の式で求められる Let’s define Poisson Process at first. Poisson process is based on the following assumptions; 1) An event can occur randomly at any time or any point in space. 2) The occurrence of an event is in a given time interval (or space interval) is independent of that in any other overlapping intervals. 3) The probability of occurrence in a small interval t is t, where is the mean rate of occurrence of the event and it is assumed to be constant, and the probability of two or more occurrences in t is negligible. Arrival of cars at a tool gate is a Poisson process when the number of cars is relatively small. A car arrives randomly at any time. An arrival of a car in a given time interval is statistically independent. When is mean arrival rate per minute, the probability that a car arrives in a small interval t is t. As Arrival of cars satisfies these three assumptions, it is a Poisson process. However, stirictly speaking, arrival of cars on one lane doesn’t satisfy the second assumption. Driving on one lane is affected by the other cars, for example, a slower car is an obstacle for a faster one. So the second assumption is not satisfied in the strict sense of the word. But when the number of cars is small, the influence is not so big. On the basis of these assumptions, the number of occurrences of an event in t is given by the Poisson distribution; that is, if Xt is the number of occurrences in time interval t then the probability that Xt=x becomes vt to the x th power over the factorial of x times the exponential of –vt. Furthermore, probability that Xt =x is equivalent to the product of vt over x and probability that Xt =x-1. We often use this equation in order to save our time when we calculate many kinds of x. l : 平均発生率
41
ポアソン過程とポアソン分布 ポアソン過程(Poisson Process) ex.交通事故発生件数 1) 事象はランダムに発生する
2)事象は独立に発生する 3) 微小時間tに事象が発生する確率は l t, 微小時間tに事象が2回発生することはない ex.交通事故発生件数 車両到着台数 ポアソン分布(Poisson Distribution) 時間tの間に、事象がx回発生する確率は 以下の式で求められる Let’s define Poisson Process at first. Poisson process is based on the following assumptions; 1) An event can occur randomly at any time or any point in space. 2) The occurrence of an event is in a given time interval (or space interval) is independent of that in any other overlapping intervals. 3) The probability of occurrence in a small interval t is t, where is the mean rate of occurrence of the event and it is assumed to be constant, and the probability of two or more occurrences in t is negligible. Arrival of cars at a tool gate is a Poisson process when the number of cars is relatively small. A car arrives randomly at any time. An arrival of a car in a given time interval is statistically independent. When is mean arrival rate per minute, the probability that a car arrives in a small interval t is t. As Arrival of cars satisfies these three assumptions, it is a Poisson process. However, stirictly speaking, arrival of cars on one lane doesn’t satisfy the second assumption. Driving on one lane is affected by the other cars, for example, a slower car is an obstacle for a faster one. So the second assumption is not satisfied in the strict sense of the word. But when the number of cars is small, the influence is not so big. On the basis of these assumptions, the number of occurrences of an event in t is given by the Poisson distribution; that is, if Xt is the number of occurrences in time interval t then the probability that Xt=x becomes vt to the x th power over the factorial of x times the exponential of –vt. Furthermore, probability that Xt =x is equivalent to the product of vt over x and probability that Xt =x-1. We often use this equation in order to save our time when we calculate many kinds of x. l : 平均発生率
42
ポアソン分布の応用例 -右折専用レーンの設計-
右折交通量: 100台/hr ,サイクルタイム: 1 min,超過は5%以下 l : 平均発生率
43
l: 平均到着率 lt: 到着量 ポアソン分布 t n n P:時間tの間にx回事象が発生する回数
44
マクローリン展開
45
ポアソン分布の平均と分散
46
指数分布(Exponential Distribution)
1 N-1 N t t+△t △t=t/N 0 から tまで、一人も客が来ない確率 t から t+Δtに、一人客が来る確率 lΔt 到着間隔がtとなる確率 e-lt lΔt 確率密度関数 f(t)=le-lt
47
指数分布の平均と分散
48
指数分布に従う乱数の発生方法 確率密度関数 f(t)=le-lt 分布関数 一様乱数 [0,1] 一様乱数 t 0.020173
平均 1.22 確率密度関数 f(t)=le-lt 分布関数 一様乱数 [0,1]
49
指数分布に従う乱数の発生方法 一様乱数 [0,1] 一様乱数 サイの目 0.020173 1 0.947356 6 0.313822 2
3 4 5 平均 3.70 一様乱数 [0,1]
50
指数分布からポアソン分布へ 到着時刻 毎分到着台数 ヒストグラム 1001サンプル 一様乱数 T(到着間隔) 0.020173
平均 1.22 2 3 4 5 6 7 8 9 10 13 14 16 17 24 2 1 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 データ区間 頻度 10 1 9 2 6 3 計 25 1001サンプル データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999
51
データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999
52
二項分布 結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布。
各試行における成功確率 p は一定であり、このような試行を、ベルヌーイ試行と呼ぶ。 例:コインを4回投げたときの,表が出た回数
53
2.3 検定と推計 仮説検定、統計学的仮説検定、(Statistical hypothesis testing)とは,
2.3 検定と推計 仮説検定、統計学的仮説検定、(Statistical hypothesis testing)とは, ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値=有意水準より)小さければ、「仮説は成り立ちそうもない」と判断できる。 推計統計学(inferential statistics)とは、無作為抽出された部分集団(抽出集団、標本集団)から抽出元全体(母集団)の特徴、性質を推定する統計学の分野である。 点推定 区間推定 信頼区間
54
けんてい【検定】 一定の基準のもとに検査をして、価値、品質、資格などを決めること。 P(H)=0.5, P(T)=0.5
HTTHHTHTHT HTHTHTHTHT HTHHHHHHH
55
1つの母平均の検定と推計 仮説検定、統計学的仮説検定、(Statistical hypothesis testing)とは,
ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値=有意水準より)小さければ、「仮説は成り立ちそうもない」と判断できる。 推計統計学(inferential statistics)とは、無作為抽出された部分集団(抽出集団、標本集団)から抽出元全体(母集団)の特徴、性質を推定する統計学の分野である。 点推定 区間推定 信頼区間
56
(1)母平均の検定と推定 1つの母集団を想定し,その母集団の分布が正規分布N(μ,σ2) である時,n個のデータに基づいて,母平均μが指定されたμ0と異なるかどうかを判定する作業を検定と呼ぶ. 帰無仮説H0:μ=μ0 対立仮説H1: μ≠μ0 検定統計量 なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「 μとμ0は,異なる」と判断
57
検定 (ピアソンの 検定) 自由度 φ=6-1=5 このサイコロは,正しく作られていない とは言えない. 1 2 3 4 5 6 計 観測値
検定 (ピアソンの 検定) 1 2 3 4 5 6 計 観測値 18 23 15 19 22 120 理論値 20 自由度 φ=6-1=5 このサイコロは,正しく作られていない とは言えない.
58
検定 (ピアソンの 検定) 検定は,割合でなく頻度を用いて行う. データ区間 頻度 割合 理論値 375 0.3746 0.3679 1
検定 (ピアソンの 検定) データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999 検定は,割合でなく頻度を用いて行う.
59
データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999
60
図 1.限点・級中心の定義
61
(1)母平均の検定と推定 母集団 n 標本 の平均値 から 母集団の平均値を推定: ①点推定 ②区間推定(95%信頼区間) × × × ×
標本 の平均値 から × × × × × 母集団の平均値を推定: ①点推定 ②区間推定(95%信頼区間)
62
(2)一つの母分散の検定と推定 1つの母集団を想定し,その母集団の分布が正規分布N(μ,σ2)である時,n個のデータに基づいて,母分散σ2が指定されたσ 20と異なるかどうかを判定する作業を検定と呼ぶ. 帰無仮説H0:σ 2=σ 20 対立仮説H1: σ 2≠σ 20 検定統計量 なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「 μとμ0は,異なる」と判断
63
(2)一つの母分散の検定と推定 母集団 n 標本 の不偏分散 から 母集団の分散を推定: ①点推定 ②区間推定(95%信頼区間) × × ×
標本 の不偏分散 から × × × × × 母集団の分散を推定: ①点推定 ②区間推定(95%信頼区間)
64
(3)2つの母平均の検定と推定 2つの母集団(正規分布N(μ1,σ2)とN(μ1,σ2):平均値は異なり,分散は等しい)から,それぞれn1個とn2個のデータをサンプリングする. これらのデータから2つの母平均が異なるかどうかを検定する 帰無仮説H0:μ1=μ2 対立仮説H1: μ1≠μ2 検定統計量 なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「 μとμ0は,異なる」と判断
65
(3)2つの母平均の検定と推定 母集団 n2 n1 標本 の平均値 と から 母集団の平均値の差を推定: ①点推定
× × × × 標本 の平均値 と から × × × × × 母集団の平均値の差を推定: ①点推定 ②区間推定(95%信頼区間)
66
(4)2つの母分散の検定と推定 2つの母集団(正規分布N(μ1,σ2)とN(μ1,σ2):平均値は異なり,分散は等しい)から,それぞれn1個とn2個のデータをサンプリングする. これらのデータから2つの母分散が異なるかどうかを検定する 帰無仮説H0:σ12=σ22 対立仮説H1: σ12≠σ22 検定統計量 なら,有意水準5%で有意であると判定し,帰無仮説を棄却し, 「 σ12とσ22は,異なる」と判断
67
(4)2つの母分散の検定と推定 母集団 n2 n1 標本 の平均値 と から 母集団の分散の比を推定: ①点推定
× × × × 標本 の平均値 と から × × × × × 母集団の分散の比を推定: ①点推定 ②区間推定(95%信頼区間)
68
(6)分割表のよる独立性の検定 分割表の行アイテムと列アイテムに関連があるかどうかを検定する 帰無仮説H0:行と列とは関連がない
検定統計量 なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「行と列とは関連がある」と判断
70
交通事故対策の効果 -ハイマウンテンブレーキランプ-
被追突事故 それ以外の事故 合計 HMブレーキ R1 O1 N1 普通ブレーキ R2 O2 N2 R=R1+R2 O=O1+O2 N=N1+N2 HM(理論値) R/N×N1 O/N×N1 普通(理論値) R/N×N2 O/N×N2
71
ハイマウンテンブレーキの効果 -比率の差の検定-
ハイマウンテンブレーキの効果 -比率の差の検定- 2つのグループのある比率が等しいかどうかの検定 2つのグループの標本数をそれぞれN1,N2,比率をp1=R1/N1,p2=R2/N2としたとき,帰無仮説H0: p1 = p2に対して検定統計量,Zが標準正規分布に従うことを利用して検定を行う.ここで,pは2つのグループの比率の加重平均値.この検定は2×2分割表に対する独立性の検定(X2検定)と同等なものである.
72
ハイマウンテンブレーキの効果 -χ2検定- 被追突事故 それ以外の事故 合計 HMブレーキ R1 O1 N1 普通ブレーキ R2 O2 N2
ハイマウンテンブレーキの効果 -χ2検定- 被追突事故 それ以外の事故 合計 HMブレーキ R1 O1 N1 普通ブレーキ R2 O2 N2 R=R1+R2 O=O1+O2 N=N1+N2 HM(理論値) R/N×N1 O/N×N1 普通(理論値) R/N×N2 O/N×N2
73
ハイマウンテンブレーキの効果 -計算例- 被追突事故 それ以外の事故 合計 HMブレーキ 10 90 100 普通ブレーキ 20 80 30
ハイマウンテンブレーキの効果 -計算例- 被追突事故 それ以外の事故 合計 HMブレーキ 10 90 100 普通ブレーキ 20 80 30 170 200 HM(理論値) 15 85 普通(理論値)
74
分散分析 pp.15 (4) 質的変数と量的変数が混在した場合 cf. 2変数とも量的変数 相関係数
2変数とも質的変数 ピアソンのχ2乗統計量 ○一元配置 ○二元配置 「交互作用」2つの要素による相乗効果 ○多元配置
75
データ例(1要因) 表2.4 質的変数と量的変数の混在したデータ例 表2.5 層別したデータ例 サンプル 変数 No. 処理方法x 濃度y
1 A2 y1 2 A1 y2 3 y3 4 A3 y4 5 A4 y5 ・ n yn 表2.4 質的変数と量的変数の混在したデータ例 表2.5 層別したデータ例 処理方法 データ y 計 平均 標準偏差 A1 y11,y12,‥,y1n2 T1・ y1 sy1 A2 y21,y22,‥,y2n2 T2・ y2 sy2 A3 y31,y32,‥,y3n2 T3・ y3 sy3 A4 y41,y42,‥,y4n2 T4・ y4 sy4
76
平方和の分解 相関比(寄与率)
77
分散分析表(一元配置) 表2.6 分散分析表 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しくない
表2.6 分散分析表 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しくない F0≧F(φA,φE ;0.05) 帰無仮説を棄却
78
水準 データ 平均 全平均 A1 4 5 3 4.00 4.75 A2 6 8 7 7.00 A3 2 2.50 問題2.7
79
平方和の分解(二元配置)
80
分散分析表(二元配置) 分散分析表 SAB=SA+SB+SA×B SAB=ΣΣ(各要素の平均-全体の平均) 要因 平方和S 自由度φ 分散V
分散比F0 A SA φA=a-1 VA=SA/φA F0A=VA/VE B SB φB=b-1 VB=SB/φB F0B=VB/VE A×B SA×B φA×B=(a-1)(b-1) VAB=SAB/φAB F0AB=VAB/VE E SE φE=ab(n-1) VE=SE/φE SAB=SA+SB+SA×B SAB=ΣΣ(各要素の平均-全体の平均)
81
分散分析表(二元配置) 分散分析表 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しいとは言えない
要因 平方和S 自由度φ 分散V 分散比F0 A SA φA=a-1 VA=SA/φA F0A=VA/VE B SB φB=b-1 VB=SB/φB F0B=VB/VE A×B SA×B φA×B=(a-1)(b-1) VAB=SAB/φAB F0AB=VAB/VE E SE φE=ab(n-1) VE=SE/φE 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しいとは言えない F0A ≧F(φA, φE ;0.05) 帰無仮説を棄却 F0B ≧F(φB, φE ;0.05) 帰無仮説を棄却 F0A×B≧F(φA×B,φE ;0.05) 帰無仮説を棄却
82
離散確率変数の関数の分布 g z (4.10) (4.11) Z=X+Y (4.12) z=g(x, y) X, Y : 離散確率変数
pX, Y(x, y) : 所与 g x1, y1 x2, y2 z x3, y3 (4.10) (4.11) Z=X+Y (4.12)
83
連続確率変数の関数の分布 z=g(x, y) 変数zで積分 (4.15) (4.15a) X, Y : 連続確率変数
fX, Y(x, y) : 所与 変数zで積分 (4.15) (4.15a)
85
Exercise (1) Pro(x<y) ? x y y=6: x=1, x=2, x=3, x=4, x=5
Pro(x<y)= P(y=6) ×P(x<6) + P(y=5) ×P(x<5) + P(y=4) ×P(x<4) + P(y=3) ×P(x<3) + P(y=2) ×P(x<2) + P(y=1) ×P(x<1) Before returning to the problem we tried to solve last class. Let’s solve the same kind of problem that are described by discrete variables. The values of Probability Mass Function represent the probability, you can understand this case more easily compare to the other case described by continuous variables. We use two dice and random variable x is a value of red one and random variable y is another value. Let’s get the probability of x is greater than y. This problem is as totally same as what I mentioned last class. The difference is discrete variables or continuous variables. If you write out the all cases, you can get the answer easily. When y is 6, the event that x is 1, 2, 3, 4, or 5 satisfied this condition, and so forth. You can easily calculate the probability of x is greater than y by summing up the 6 cases.
86
Exercise (2) Pro(x<y)= P(y=6) ×P(x<6) + P(y=5) ×P(x<5)
+ 1/6 × 4/6 + 1/6 × 3/6 + 1/6 × 2/6 + 1/6 × 1/6 + 1/6 × 0/6 = 15/36 = 5/12 3/12 1/6 1 2 3 4 5 6 The answer is 5 over twelve. Let’s cope with the different problem. This problem has some difference from the former one. In this problems, the probabilities of values of dice are not same because it was not made homogenously. Their Probability Mass Function is shown on this figure. Let’ try for some minutes with Probability Mass Function and Cumulative Mass Function on next slide. 2/12 Probability Mass Function 1/12 1 2 3 4 5 6
87
Exercise (2) cont. Pro(x<y) = 1/12 × 11/12 + 2/12 × 9/12
+ 3/12 × 6/12 + 3/12 × 3/12 + 2/12× 1/12 + 1/12× 0/12 = 58/144 = 29/72 Pro(x<y)= P(y=6) ×P(x<6) + P(y=5) ×P(x<5) + P(y=4) ×P(x<4) + P(y=3) ×P(x<3) + P(y=2) ×P(x<2) + P(y=1) ×P(x<1) C.M.F 12/12 11/12 9/12 What’s the answer ? Do you understand that Cumulative Mass Function is very useful when you get the probability of x is less than some value. You don’ t have to sum up the probability mass function but see the Cumulative Mass Function. 6/12 P.M.F 3/12 3/12 2/12 1/12 1/12 1 2 3 4 5 6 1 2 3 4 5 6
88
Continuous Variables f(x) x: Random Variables, which follows f(x)
y: Random Variables, which follows g(y) g(y) Q. Probability(x<y) ? y=y0 Pr(x<y0) = Pr(y=y0) = Let’s tackle the problem you want to solve. This problems are described by Continuous Variables. The way of thinking is almost same, and just pay attention to the difference between the probability and probability density function. Please don’t confuse them. Both x and y are Random Variables. X follows the probability density function f of x, and y follows the probability density function g of y. The problem is that to get the Probability of x is less than y. You will be able to get a solution at the almost same way that you tried. If you introduce small dy, you get the probability of y is greater than y sub 0 and less than y sub 0 plus dy. That is g of y sub 0 times dy. y0 y0+dy Pr(y0<y<y0+dy) = g(y0) dy
89
Q. Probability(x<y) ?
* Q. Probability(x<y) ? y=yi Pr(x<yi ) = f (x) g (y) Pr(yi <y<yi +dy) = g(yi) dy yi yi +dy Pr (x<y) = P(y1<y<y1+dy) ×P(x< y1) + P(y2<y<y2+dy) ×P(x< y2) + P(y3<y<y3+dy) ×P(x< y3) + P(y4<y<y4+dy) ×P(x< y4) + P(y5<y<y5+dy) ×P(x< y5) + P(y6<y<y6+dy) ×P(x< y6) Pr(x<y) = g(y1) dy× + g(y2) dy× + g(y3) dy× + g(y4) dy× + g(y5) dy× + g(y6) dy× : In this figure, I changed y o to y i Of course y0 will change continuously, Let’s deal with it like discrete variables. The image is shown on the next slide ↓ Probability of x is less than y is sum of the probability of y is greater than yi and less than yi + dy times the probability of x is less than yi From i= 1 to 6 . When we
90
ò ò Pr(x<y) = g (y1) dy× + g (y2) dy× + g (y3) dy× + g (y4) dy× :
- ) ( dy gy (y) y dx x fx If you use Cumulative Density Function F (y), the equation becomes more clear. When we approach dy to 0, ii becomes infinity. It means that discrete variables changes to continuous variables. And you can get the solution. If probability density functions are given concretely, you will calculate the values. dy → 0 i → ∞ = Pr(x<y) = ò F ( y ) g (y) dy = -
91
スタージェスの式 データ数n,階級数mとする 二項定理 をp=q=1/2として利用すると
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.