Presentation is loading. Please wait.

Presentation is loading. Please wait.

行動計量分析 Behavioral Analysis

Similar presentations


Presentation on theme: "行動計量分析 Behavioral Analysis"— Presentation transcript:

1 行動計量分析 Behavioral Analysis
第4回 推測統計学の考え方(2)       inferential statistics 母数の区間推定 interval estimation 第5章 統計的仮説検定  Statistical inference

2 記述統計学と推測統計学 多数データの 母集団の 数学的要約 データ ・記述 無作為 抽出 少数データの (仮想的) 標本集団 数学的要約
のデータ 確率的推測・記述

3 4.2 推測統計の分類(p72) 統計的推定 statistical estimation, inference
4.2 推測統計の分類(p72) 統計的推定 statistical estimation, inference 得られた統計量の実現値をもとに,母集団の確率分布を決めるパラメータ(母数)を推定 一部の中学生の実力テストの結果を用いて,日本の中学生全体の同じ実力テストの点数を推測する 日本の中学生の平均点は60点ぐらいだろう(点推定) 日本の中学生の点数は50点から70点ぐらいだろう(区間推定) 統計的検定 statistical test 母集団の性質に関する何らかの仮説の是非を,得られた統計量の実現値に基づいて判断 一部の中学生に同じテストを5年後に受験させて,次のどちらであるかを判断したい 日本の中学生の実力は5年間で変化していない 日本の中学生の実力は5年間で変化した

4 Population Parameters
(p74図4.2)母集団と標本 母集団population 標本抽出 sampling 標本sample 記述 母数 Population Parameters (本当に知りたいもの) 母平均 母分散 母標準偏差 母相関係数 母比率 など 標本統計量 Sample Statistics (標本から計算できるもの) 標本平均 標本分散 不偏分散 標本標準偏差 標本相関係数 標本比率 など 推定 inference

5 4.3点推定 17歳の日本人男性全体の平均身長を知りたい(母数:母平均) 10人の17歳男性を標本として抽出し身長の計測値を得る
10個の計測値から,標本の平均値を計算する(169.3) 標本平均の値を用いて,17歳日本人男性の平均身長を推測する > 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.9, 170.6, 168.4, 171.3) > 身長 [1] > mean(身長) [1]

6 点推定量の性質 たまたま取ってきた標本から計算した値(推定値)がどのぐらい真値に近いかはよくわからない。
さまざまな標本から同じ計算方法で推定値を求める場合のその推定量の統計的な性質を考える。 1)不偏性:標本を何回も取り直して推定量を計算すると、その平均値が真値に一致する 2)一致性:標本の数を十分大きくするとその一組の(大)標本から求めた推定量が、真値以外の値をとる確率は0に近づく 3)有効性:推定量の分散が、他の方法で計算した推定量の分散よりも小さい

7 母平均の不偏推定量 母集団の確率分布に関係なく、標本値の単純平均値は、母平均の不偏推定量である
母集団の確率分布に関係なく、標本値の重み付き平均値は、母平均の不偏推定量である (2個目以降の標本を無視し)1個目の標本の値を推定量としても、それは不偏性を持つ 標本の中の中央値を推定量としても、それは不偏性を持つ 標本から両極端の同一個数の標本を取り除き、残りの平均値を推定量とすると、それは不偏性を持つ

8 演習:有効推定量としての単純平均 重み付き平均値 は不偏性を持つことを示せ 母集団からの標本値 は母分散 で
 は不偏性を持つことを示せ 母集団からの標本値   は母分散   で  ばらつく。このとき、上記の重み付き平均値の分散は、        となる  この重み付き平均値の分散が最も小さくなるように重み   を定めなさい

9 母分散の不偏推定量(母平均既知) 母平均が既知であるなら、母分散の推定量は標本の母平均回りの分散を用いて不偏推定できる。

10 母分散の不偏推定量(母平均未知) 母平均が未知であるなら、標本の平均周りの分散を用いて計算する必要がある。
母分散の不偏推定量(不偏分散推定量)

11 点推定から区間推定へ 母平均μ母分散σ2の母集団 大きさnの標本を取り出す 標本平均(平均の点推定量)を計算
「標本平均」は母集団分布よりも中央に集まった分布に 正規母集団 N(50,10)からn=100のサンプルをとる 標本平均は正規分布に従う.                          > curve(dnorm(x,mean=50, sd=1), from=20, to=80) > curve(dnorm(x,mean=50, sd=10), add = TRUE) > hist(標本平均, freq=FALSE, add=TRUE) > 標本平均 <- numeric(length=10000) > for(i in 1:10000){ + 標本 <- rnorm(n=100,mean=50,sd=10) + 標本平均[i]<- mean(標本) + }

12 標準正規分布における確率 N(0,1)を標準正規分布という N(μ,σ2)に従うXの xに対する下側確率
> pnorm((49-50)/1) [1] > pnorm((48-50)/1) [1] N(0,1)を標準正規分布という ZがN(0,1)に従うとき Z≦zとなる確率(下側確率)を求める関数. Prob(Z≦z)=p pnorm(z) N(μ,σ2)に従うXの   xに対する下側確率  Prob(X≦x)=p pnorm((x-μ)/σ) μーσ までの 下側確率 0.158 μ-2σ までの 下側確率 0.022

13 標準正規分布における確率点 (p117) N(0,1)を標準正規分布という N(μ,σ2)の下側確率pの点
標準正規分布における確率点 (p117)     N(50,1)に従うXは,95%の確率でμ-1.96σ<X≦μ+1.96σの間に入る. N(0,1)を標準正規分布という 下側確率がpとなる確率の点zを求める関数. Prob(Z ≦z)=p qnorm(p) N(μ,σ2)の下側確率pの点  Prob(X≦x)=p x<μ+σqnorm(p) 下側確率 2.5% 下側確率 97.5% (μ-1.96σ) (μ+1.96σ) > curve(dnorm(x,mean=50, sd=1), from=45, to=55) > abline(v=50+qnorm(0.975)) > abline(v=50+qnorm(0.075))

14 母平均が異なる場合の 標本平均の分布 95%の確率で標本平均が 含まれる領域 μ=47 μ=46 μ=48 母平均μ 母平均 母平均
母平均が標本平均値に近い状況は 十分(5%以上) 起きる可能性がある 母平均が標本平均値から離れている状況は,めったに起きない(5%以下) 母平均 母平均 標本平均値 標本平均値

15 母平均の区間推定 (95%以上で母平均が存在する範囲)
母平均が標本平均値に近い状況は十分(5%以上)起きる可能性がある 母平均が標本平均値から離れている状況は,めったに起きない(5%以下) 母平均 母平均 標本平均値 標本平均値 5%以上の確率で起こりうる状況のうち,最も極端な2つのケースを考える 母平均が存在する範囲 標本平均値 標本平均値-1.96σ<μ≦標本平均値+1.96σ

16 区間推定 ある確率(たとえば95%)で母数の真値が存在する区間を求めたい
母数の真値が   のときに、ある観測統計量の確率分布を求め、「有意水準α以下の確率でしか実現しない領域」を棄却域として設定することが出来た。   統計量の実現値がこの棄却域に入り、かつ母数の真値が  である確率は、α/2以下である。 信頼区間 統計量の 確率 α/2 統計量の 確率 α/2 θ0 統計量の実現値

17 正規母集団の母平均の区間推定 母平均の区間推定(母分散σ2既知)
(正規分布に従う)n個の標本の平均値は、平均μ分散σ2/nの正規分布に従う。 平均μを引き標準偏差     で割れば、  統計量         は標準正規分布に従い、  確率1-αでZは、-z(α/2)<Z<z(α/2)を満たす。 X

18 Z(0.10/2)=1.645 Z(0.05/2)=1.96 Z(0.01/2)=2.575

19 信頼区間の導出(続き) すなわち となる確率が1-αである。変形して、 となる確率が1-αである。具体的には、 90%信頼区間
すなわち                      となる確率が1-αである。変形して、  となる確率が1-αである。具体的には、 90%信頼区間 95%信頼区間

20 [例題4.3] 次の10回の引張強度の計測結果から、鉄筋の母平均の99%信頼区間を求めよ。 ただし、標準偏差を4.3とする。
52,62,54,58,65,64,60,62,59,67(X=60.3)

21 代表的な確率分布 母集団の性質を決める,個々の事象が発生する確率や母集団の平均値(母数)が与えられたとき,
標本値から計算された統計量が取りうる値とその発生確率の組(統計量の確率分布)を計算したい 一般にこの計算は面倒であるが,いくつかの現象については計算式がわかっている. 母集団の性質 を決める数値 (個々の事象 の確率など) 要約値(統計量) の確率分布 法則性,計算式

22 中心極限定理(central limit theorem)
正しく作られたサイコロをn 回振り,出た目Xi の平均値 を求める。 Y の確率分布は どのようになるか? 図1-1 に,n = 1,2, 4, 8 の時 の分布を示す。 n が大きくなると滑らかな分布になる。 このn を無限に大きくしていく

23 中心極限定理(central limit theorem)
確率変数X1,X2,・・・,Xn が互いに独立で全て同一の分布(平均:μ,分散:σ2)に従うとき,統計量Y = (X1 +X2 + ・・・ + Xn)/n は,n →∞ の時,平均μ ,分散σ2 /n の正規分布に従う。 この定理はもとの確率分布がどんな分布であっても成立する。従っていろいろな段階で生じる相互に独立な誤差が重なり,その和として全体の誤差が発生しているような場合,その誤差の分布は正規分布に従うことが期待される。実際,多くの現象は正規分布に従う。

24 正規分布(Normal Distribution)
確率密度関数 平均と分散

25 標準正規分布 (standard normal distribution)
もとの確率変数Xが正規分布N(μ,σ2)に従うとき,新しい確率変数として,Z=(X-μ)/σを作る. このとき,確率変数Zは正規分布N(0,12)に従う. これを標準正規分布という. 確率密度関数 確率分布関数→数表(標準正規分布表)

26 標準正規分布表

27 【問題4】正規分布 あるクラスの英語の試験の平均点  は67で標準偏差   は8.5.また,数学の試験の平均点  は53で標準偏差    は12.6でした. このクラスのA君の成績は英語が75点で数学が68点でした. 英語と数学について,A君の成績よりも良い生徒の割合を計算しなさい.

28 【問題5】超過確率に対応する値の計算 過去の記録から,ある河川流域の年間の降雨量は,正規分布N (1500mm,(400mm)2)に従うと推定できる. この流域の90%確率年降雨量はいくらか.  すなわち,年降雨量がその値を超えない確率が90%であるような降雨量の値を求めよ.  (これを1/10年確率降雨ともいう)

29 χ2分布 (Chi squared distribution)
確率密度関数 自由度f のχ2 分布(カイ2乗分布) χ2 分布は正規分布と密接な関係がある。 X1,X2 ,・・・,Xf が互いに独立な標準正規分布N(0,12) に従うとき、2乗和Z = X21 +X22 + ・・・ +X2f の分布は自由度f のχ2 分布となる。 正規分布に従う変数の標本値から計算した分散(標本分散) も、χ2分布に従う。

30 χ2分布表 (Chi squared distribution)

31 t分布 (Student’s t distribution)
自由度f のt 分布 確率密度関数 t分布も正規分布と関係がある。 標準正規分布N(0, 12) に従う確率変数X と、自由度f のχ2 分布に従う確率変数Y が独立であるとき、 は自由度f のt 分布に従う。 したがって正規分布に従う変数を、標本分散で割った統計量は、t 分布に従う。

32 t値,t分布の名前の由来 t値を考え、t分布を発見したのは、ゴセット(William Sealy Gosset):ダブリンのギネスビールの統計技師 ギネス社が従業員の研究発表を認めていなかったため,ゴセットはスチューデント(Student)というペンネームで論文を書いた. フィッシャーがこの値と分布の重要性を認めた. スチューデントの名前から文字を取り、 「t分布」 「t値」と呼ばれるようになった (頭文字のsは標準偏差の記号として使われていた) t値のことを「スチューデントのt値」と呼ぶこともある

33 t分布表 (Student’s t distribution)

34 F分布 (F distribution) 確率密度関数 自由度(f1,f2) のF 分布 F分布もχ2分布と関係がある。
X, Y が独立でそれぞれ自由度f1, f2 のχ2 分布に従うとき、 は自由度(f1, f2) のF 分布に従う。 したがって2 つの標本群から計算した分散の比をとると、その統計量はF 分布に従う.

35  F分布表 (F distribution)

36 【問題6】正規分布での近似 硬貨を500回投げたとき,表が200~270回出る確率を求めよ
この問題は本来二項分布B(500,1/2) の分布を聞いている. この二項分布B(n,p)は,独立な二項分布B(1,p)に従うn個の変数Xiを加えたものであるから,nが十分大きければ,中心極限定理により,正規分布N(np,np(1-p))で近似できる. 標準正規分布表を用いて計算できる

37 正規母集団の母平均の区間推定 母平均の区間推定(母分散σ2未知) (正規分布に従う)n個の標本の平均値 と分散の不偏推定量 を用いれば、
t分布表の超過確率α/2の点を tn-1(α/2)とすれば、確率1-αでTは、-tn-1(α/2)<T<tn-1 (α/2)を満たす。 X

38 自由度が大きくなると、t分布は標準正規分布に近づく
たとえば n-1=9に対して t(0.10/2)=1.833 t(0.05/2)=2.262 t(0.01/2)=3.250 たとえば n-1>200に対して t(0.10/2)=1.645 t(0.05/2)=1.960 t(0.01/2)=2.576 自由度が大きくなると、t分布は標準正規分布に近づく

39 信頼区間の導出(続き) すなわち となる確率が1-αである。変形して、 となる確率が1-αであるので、これを確率(1-α)の信頼区間と出来る
すなわち                      となる確率が1-αである。変形して、  となる確率が1-αであるので、これを確率(1-α)の信頼区間と出来る 95%信頼区間

40 [問題4.3] 次の10回の引張強度の計測結果から、鉄筋の母平均の99%信頼区間を求めよ。 ただし、標準偏差はわからないものとする。
52,62,54,58,65,64,60,62,59,67(X=60.3)

41 正規母集団の母分散の区間推定 母分散の区間推定(母平均μ既知) 標本分散 から計算した統計量 が、自由度nのχ2分布に従う。
標本分散            から計算した統計量                      が、自由度nのχ2分布に従う。 χ2分布は、左右対称でないことに注意して、超過確率(1-α/2)の左側点と超過確率(α/2)の右側点を数表から読み取る。   である確率が1-αである。

42

43 信頼区間の導出(続き) すなわち                      となる確率が1-αである。変形して、  となる確率が1-αである。具体的には、 99%信頼区間

44 [例題4.4] 次の10回の引張強度の計測結果から、鉄筋の母分散の99%信頼区間を求めよ。 ただし、母平均をμ=65とする。
52,62,54,58,65,64,60,62,59,67(X=60.3)

45 正規母集団の母分散の区間推定 母分散の区間推定(母平均μ未知) 不偏分散推定量 から計算した統計量 が、自由度n-1のχ2分布に従う。
不偏分散推定量               から計算した統計量                            が、自由度n-1のχ2分布に従う。 χ2分布は、左右対称でないことに注意して、超過確率(1-α/2)の左側点と超過確率(α/2)の右側点を数表から読み取る。                        の確率が1-α。 確率1-α信頼区間

46 統計的仮説検定(5章)p109 標本を元に,母集団に関する何らかの仮説の真偽を確認したい. 1 母集団に対する帰無仮説と対立仮説を設定する
1 母集団に対する帰無仮説と対立仮説を設定する 2.検定統計量を選ぶ 3.有意水準の値を決める 4.データから,検定統計量の実現値を求める 5.検定統計量の実現値を棄却域と比較する (1)実現値⊂棄却域→帰無仮説を棄却,対立仮説を採択 (2)実現値⊂棄却域→帰無仮説を棄却しない(判断保留)

47 帰無仮説と対立仮説 帰無仮説(null hypothesis)
H0:日本人の平均体重は50kgである (μ=μ0 または δ=μ-μ0=0) 対立仮説(alternative hypothesis) H1:日本人の平均体重は50kgではない (μ≠μ0 または δ=μ-μ0≠0)  両側検定 H1:日本人の平均体重は50kgより大きい (μ>μ0 または δ=μ-μ0>0) 片側検定

48 検定統計量と棄却域・採択域 検定のために用いる標本統計量
帰無仮説が成り立つ場合には (母数の真値を用いて) 標本統計量が従う確率分布が理論的にわかり, 確率などを計算できる 帰無仮説の下で非常に生じにくい(ある小さな確率α以下でしか生じない)値の範囲を「棄却域」という. それ以外の領域を「採択域」という 採択域 採択域 棄却域(両側) 棄却域(片側)

49 第1種の誤りと第2種の誤り 第一種の誤り(あわてものの誤り) 第2種の誤り(のんびりものの誤り)
帰無仮説が真のとき,これを棄却してしまう誤り 本当は差がないのに「差がある」と判断する この確率はα以下にできる 第2種の誤り(のんびりものの誤り) 帰無仮説が偽のとき,これを棄却しない誤り 本当は差があるのに「差がない」と判断する

50 有意水準のきめかた 各自の考え方に依存するということ
エピソードがあります(真偽のほどは定かではありません) フィッシャーが推計学を開発した時、有意水準を決める段になってハタと考えた。 彼は当時30才だったが、50才までは現役で研究を続け、その後は釣りでもしながら悠々自適の余生を送ろうと常々考えていた。 そこで、 「農作物が相手だから、これから毎年1回ずつ実験をするとして、20年間に20回できることになる。 まあ、一生に一度ぐらいは間違いを犯しても、神様はお許し下さるだろう」と考え、20回に1回間違える確率として有意水準を5%にしたという。 この話を人から聞いた当のフィッシャーいわく、 「なるほど、それはうまい話だ。 実は私も、なぜ5%をよく使うのか説明を求められて困っていたんだ。 これからは、そう答えることにしよう!」 有意水準5%というのは、これくらいいい加減なものです

51 正規分布に従う母集団の母数に関する仮説検定
母集団が正規分布に従う場合(正規母集団)、母平均、母分散に関する仮説を検定してみよう。              平均    分散 母分散既知の場合 正規分布 χ2分布  母分散未知の場合 t分布     母分散未知で未知の母平均の同一性の検定 t 未知の母分散の同一性の検定:F

52 1) 母平均の検定(母分散既知)

53

54 2)母平均の検定(母分散未知)

55

56 3)母分散の検定(母平均既知)

57 4)2つのグループの分散の同一性の検定(母平均は未知)


Download ppt "行動計量分析 Behavioral Analysis"

Similar presentations


Ads by Google