2.統計的方法の基礎知識 2.1 データのまとめ方 2.2 確率分布 2.3 検定と推定 練習問題 2011.09.20 Revised.

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
ベイズの定理と ベイズ統計学 東京工業大学大学院 社会理工学研究科 前川眞一. 2 Coffe or Tea 珈琲と紅茶のどちらが好きかと聞いた場合、 Star Trek のファンの 60% が紅茶を好む。 Star Wars のファンの 95% が珈琲を好む。 ある人が紅茶を好むと分かったとき、その人が.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
      仮説と検定.
数理統計学(第四回) 分散の性質と重要な法則
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
第6回 分散分析(第7章) Analysis of Variance
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Chapter 11 Queues 行列.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
確率・統計Ⅱ 第7回.
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
Excelによる実験計画法演習 小木哲朗.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
第3章 統計的推定 (その1) 統計学 2006年度.
第2日目第1時限の学習目標 順列、組み合わせ、確率の入門的知識を学ぶ。 (1)順列とは? (2)組み合わせとは? (3)確率とは?
統計学 西 山.
大規模なこと Large scale.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
確率と統計 年1月12日(木)講義資料B Version 4.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
母分散の検定 母分散の比の検定 カイ2乗分布の応用
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
物理フラクチュオマティクス論 応用確率過程論 (2006年4月11日)
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
確率と統計 年12月16日(木) Version 3.
確率と統計 年1月7日(木) Version 3.
Presentation transcript:

2.統計的方法の基礎知識 2.1 データのまとめ方 2.2 確率分布 2.3 検定と推定 練習問題 2011.09.20 Revised

2.1 データのまとめ方 1つの量的変数の場合 基本統計量:平均,平方和,分散,標準偏差,範囲.... 統計量: 2.1 データのまとめ方 1つの量的変数の場合 基本統計量:平均,平方和,分散,標準偏差,範囲.... 統計量:   一組のデータに統計学的なアルゴリズムを適用して得られる数値 夙 夙 平均 平方和 分散 標準偏差 範囲

標本分散と不偏分散 標本分散 母集団 1~N 標本 母分散 1~n 母分散の推定値 (不偏分散) × × × × × × × × × × ×

標本分散と不偏分散 標本分散

標本分散と不偏分散

データの標準化 標準化後のデータの平均は0,分散は1となる.

2.1 データのまとめ方 2つの量的変数の場合 表2.1 2つの量的変数データ 偏差積和 共分散 相関係数

ピアソンのχ2統計量 (3)2つの質的変数の場合 表2.2 2つの質的変数データ アイテム(項目) :質的変数 カテゴリー :変数の値 表2.2 2つの質的変数データ アイテム(項目) :質的変数 カテゴリー     :変数の値  ex. 性別,成績 アイテム     男,女    カテゴリー

ピアソンのχ2統計量 (3)2つの質的変数の場合 表2.3 分割表(クロス集計表) ピアソンのχ2統計量

クラメールの連関係数 ピアソンのχ2統計量:行数aや列数bに依存する

分散分析 (4)質的変数と量的変数が混在した場合 表2.4 混在例 表2.5 層別データ

平方和の分解 (4)質的変数と量的変数が混在した場合

2.2 確率分布 (0) 確率変数X(Random Variables) 様々な値を様々な確率でとる変数 2.2 確率分布 (0) 確率変数X(Random Variables)      様々な値を様々な確率でとる変数     離散確率変数(Discrete Random Variables)   例:サイコロ 連続確率変数(Continuous Random Variables) 例:身長 確率密度関数(連続) (Probability Density Function: PDF) スタージェスの式

確率密度関数 確率密度関数の性質 分布関数(Cumulative Distribution Function, CDF)

確率関数 (Probability Mass Function) 事象Xi が発生する確率. 例 Xi: 3枚のコインを投げた時の,表の枚数 0.1 0.2 0.3 0.4 1 2 3 Xi X0 = 0 X1 = 1 X2 = 2 X3 = 3 PX ( X0 ) = 1/8 PX ( X1 ) = 3/8 PX ( X2 ) = 3/8 PX ( X3 ) = 1/8

累積確率関数(Cumulative Mass Function) C.M.F 1.0 0.8 P.M.F 0.6 0.4 0.4 0.3 0.2 0.2 0.1 Xi 0.0 Xi 1 2 3 1 2 3

確率変数(まとめ) 連続変数 2.  離散変数 確率密度関数 (PDF)          分布関数 (CDF) 1 Probabilty Probabilty Probabilty        確率関数 (PMF)        確率累積関数 (CMF) 1 1/6 1 2 3 4 5 6 1 2 3 4 5 6

(2)期待値と分散 期待値(Expected Value) 分散(Variance) 期待値の性質 分散の性質

期待値 Prob E(Xi) 0.002 20 0.010 10 0.100 10 0.888 Prize($) # 1st 10,000 Example 1. 1st 10,000 10 0.002 20 2nd 1,000 50 0.010 10 3rd 100 500 0.100 10 4th 4440 0.888 Example 2. アレのパラドックス Allis Paradox

期待値と分散の性質 E(aX+b) = aE(X) + b E(X+Y) = E(X) + E(Y) E(XY) = E(X) E(Y)        X, Y: Independent V(X) = E(X2) – {E(X)} 2 V(aX+b) = a2 V(X) b f(X) f(X+b) V(X+b) = V(X) X0 X0+b f(aX) f(X) X0 μ+σ aX0 aμ+aσ

(3)正規分布(Normal Distribution)

正規分布の性質 期待値 分散 μ±kσの範囲にデータの入る確率は Pr(μ-1.645σ ≦ x ≦ μ+1.645σ)=0.900 -k μ±kσの範囲にデータの入る確率は     Pr(μ-1.645σ ≦ x  ≦ μ+1.645σ)=0.900     Pr(μ-1.960σ ≦ x  ≦ μ+1.960σ)=0.950     Pr(μ-3.000σ ≦ x  ≦ μ+3.000σ)=0.997

標準正規分布 標準化 x~N(μ,σ2) → u~N(0,12)             N(0,12):標準正規分布 Pr(u≧k)=P 数値表

(4)2次元分布 同時確率密度関数(Joint Probability Density Function) (4)2次元分布  同時確率密度関数(Joint Probability Density Function) 同時分布関数(Joint Cumulative Density Function) 周辺確率密度関数(Marginal Probability Density Function)

2次元分布

同時確率密度関数 一様分布 分布関数(CDF)

2次元分布の例 連続変数 0.9-1 0.25 0.8-0.9 0.2-0.25 1 0.15-0.2 0.7-0.8 0.9 0.2 0.1-0.15 0.6-0.7 0.8 0.05-0.1 0.5-0.6 0.7 0-0.05 0.15 0.4-0.5 0.6 0.3-0.4 0.5 0.1 0.2-0.3 0.4 0.1-0.2 0.3 0.05 3 0-0.1 2 3.0 1 0.2 2.0 0.1 1.0 -1 -3 0.0 -2 -2.2 -1.4 0.2 1 -1.0 -0.6 -3 1.8 2.6 -3.0 -2.2 -2.0 -1.4 -0.6 0.2 1.0 1.8 -3.0 2.6

2次元分布 離散変数 同時確率関数(Joint Probability Mass Function) 2次元分布 離散変数 同時確率関数(Joint Probability Mass Function) 周辺確率関数(Marginal Probability Mass Function) 条件付き確率関数(Conditional Probability Mass Function)

p p 2次元分布の例     離散変数 (X,Y) X1 X2 (Y) X,Y Y Y1 0.1 0.2 0.3 Y2 0.3 0.4 0.7 p (X) 0.4 0.6 X pX,Y(X,Y): Joint PMF pY(Y): 周辺確率関数 0.7 0.3 0.7 0.6 Y1 Y2 0.4 0.4 pX(X|Y1): 条件付き確率関数 0.3 0.333 0.667 0.3 0.2 X1 X2 Y2 0.1 Y1 X2 0.333 0.667 =0.1/0.3 =0.2/0.3 X1

2次元分布の期待値

2次元分布の共分散 共分散 母相関係数 共分散の性質

相関係数

3.3.3 疑似相関とは何か x(身長) y(学力) z(年齢) R=0.041 R=0.208 R=0.180

2変数の独立性 ならば,変数xと変数yは独立(Independent) 変数xと変数yは独立ならば

(5)2次元正規分布 同時確率密度関数 周辺確率密度関数

(6)統計量の確率分布 統計量:母集団の特徴を示す指標(eq.平均,分散)

(6)統計量の確率分布 統計量:母集団の特徴を示す指標(eq.平均,分散) xiが互いに独立ならば

χ2分布( Chi-square distribution) Xi を、平均μi で分散 の正規分布に従う、k 個の独立なランダム変数とすると、統計量Zはカイ二乗分布に従う。 確率密度関数  が無限大に近づくとX の分布は正規分布に近づくが、近づき方はゆっくりしている

ガンマ関数 実部が正となる複素数z について、次の積分で定義される 自然数nについて

(7)その他の確率分布 ポアソン過程とポアソン分布 ポアソン過程(Poisson Process) 1) 事象はランダムに発生する 2)事象は独立に発生する 3) 微小時間tに事象が発生する確率は l t, 微小時間tに事象が2回発生することはない ポアソン分布(Poisson Distribution) 時間tの間に、事象がx回発生する確率は  以下の式で求められる Let’s define Poisson Process at first. Poisson process is based on the following assumptions; 1) An event can occur randomly at any time or any point in space. 2) The occurrence of an event is in a given time interval (or space interval) is independent of that in any other overlapping intervals. 3) The probability of occurrence in a small interval t is  t, where  is the mean rate of occurrence of the event and it is assumed to be constant, and the probability of two or more occurrences in t is negligible. Arrival of cars at a tool gate is a Poisson process when the number of cars is relatively small. A car arrives randomly at any time. An arrival of a car in a given time interval is statistically independent. When  is mean arrival rate per minute, the probability that a car arrives in a small interval t is  t. As Arrival of cars satisfies these three assumptions, it is a Poisson process. However, stirictly speaking, arrival of cars on one lane doesn’t satisfy the second assumption. Driving on one lane is affected by the other cars, for example, a slower car is an obstacle for a faster one. So the second assumption is not satisfied in the strict sense of the word. But when the number of cars is small, the influence is not so big. On the basis of these assumptions, the number of occurrences of an event in t is given by the Poisson distribution; that is, if Xt is the number of occurrences in time interval t then the probability that Xt=x becomes vt to the x th power over the factorial of x times the exponential of –vt. Furthermore, probability that Xt =x is equivalent to the product of vt over x and probability that Xt =x-1. We often use this equation in order to save our time when we calculate many kinds of x. l : 平均発生率

ポアソン過程とポアソン分布 ポアソン過程(Poisson Process) ex.交通事故発生件数 1) 事象はランダムに発生する 2)事象は独立に発生する 3) 微小時間tに事象が発生する確率は l t, 微小時間tに事象が2回発生することはない ex.交通事故発生件数   車両到着台数 ポアソン分布(Poisson Distribution) 時間tの間に、事象がx回発生する確率は  以下の式で求められる Let’s define Poisson Process at first. Poisson process is based on the following assumptions; 1) An event can occur randomly at any time or any point in space. 2) The occurrence of an event is in a given time interval (or space interval) is independent of that in any other overlapping intervals. 3) The probability of occurrence in a small interval t is  t, where  is the mean rate of occurrence of the event and it is assumed to be constant, and the probability of two or more occurrences in t is negligible. Arrival of cars at a tool gate is a Poisson process when the number of cars is relatively small. A car arrives randomly at any time. An arrival of a car in a given time interval is statistically independent. When  is mean arrival rate per minute, the probability that a car arrives in a small interval t is  t. As Arrival of cars satisfies these three assumptions, it is a Poisson process. However, stirictly speaking, arrival of cars on one lane doesn’t satisfy the second assumption. Driving on one lane is affected by the other cars, for example, a slower car is an obstacle for a faster one. So the second assumption is not satisfied in the strict sense of the word. But when the number of cars is small, the influence is not so big. On the basis of these assumptions, the number of occurrences of an event in t is given by the Poisson distribution; that is, if Xt is the number of occurrences in time interval t then the probability that Xt=x becomes vt to the x th power over the factorial of x times the exponential of –vt. Furthermore, probability that Xt =x is equivalent to the product of vt over x and probability that Xt =x-1. We often use this equation in order to save our time when we calculate many kinds of x. l : 平均発生率

ポアソン分布の応用例 -右折専用レーンの設計- 右折交通量: 100台/hr ,サイクルタイム: 1 min,超過は5%以下  l : 平均発生率

l: 平均到着率 lt: 到着量 ポアソン分布 t n-1 n 1 2 3 P:時間tの間にx回事象が発生する回数

マクローリン展開

ポアソン分布の平均と分散

指数分布(Exponential Distribution) 1 N-1 N t t+△t △t=t/N 0 から tまで、一人も客が来ない確率 t から t+Δtに、一人客が来る確率 lΔt 到着間隔がtとなる確率 e-lt lΔt 確率密度関数 f(t)=le-lt

指数分布の平均と分散

指数分布に従う乱数の発生方法 確率密度関数 f(t)=le-lt 分布関数 一様乱数 [0,1] 一様乱数 t 0.020173 0.020379 0.947356 2.944195 0.313822 0.376618 0.352062 0.43396 0.579608 0.866567 0.104099 0.109925 0.707541 1.229431 0.471603 0.637906 0.64156 1.025994 0.689901 1.170865 0.535783 0.767403 0.528855 0.75259 0.947172 2.940723 0.03058 0.031057 0.672933 1.117591 0.844874 1.86352 0.201697 0.225267 0.504929 0.703054 0.998932 6.841829 0.231239 0.262975 平均 1.22 確率密度関数 f(t)=le-lt 分布関数  一様乱数 [0,1]

指数分布に従う乱数の発生方法 一様乱数 [0,1] 一様乱数 サイの目 0.020173 1 0.947356 6 0.313822 2 0.352062 3 0.579608 4 0.104099 0.707541 5 0.471603 0.64156 0.689901 0.535783 0.528855 0.947172 0.03058 0.672933 0.844874 0.201697 0.504929 0.998932 0.231239 平均 3.70 一様乱数 [0,1]

指数分布からポアソン分布へ 到着時刻 毎分到着台数 ヒストグラム 1001サンプル 一様乱数 T(到着間隔) 0.020173 0.020379 0.947356 2.944195 0.313822 0.376618 0.352062 0.43396 0.579608 0.866567 0.104099 0.109925 0.707541 1.229431 0.471603 0.637906 0.64156 1.025994 0.689901 1.170865 0.535783 0.767403 0.528855 0.75259 0.947172 2.940723 0.03058 0.031057 0.672933 1.117591 0.844874 1.86352 0.201697 0.225267 0.504929 0.703054 0.998932 6.841829 0.231239 0.262975 平均 1.22 0.020379 2.964574 2 3.341192 3 3.775151 4.641718 4 4.751643 5.981074 5 6.618981 6 7.644975 7 8.81584 8 9.583243 9 10.33583 10 13.27656 13 13.30761 14.4252 14 16.28872 16 16.51399 17.21704 17 24.05887 24 24.32185 2 1 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 データ区間 頻度 10 1 9 2 6 3 計 25 1001サンプル データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999

データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999

二項分布 結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布。  各試行における成功確率 p は一定であり、このような試行を、ベルヌーイ試行と呼ぶ。 例:コインを4回投げたときの,表が出た回数

2.3 検定と推計 仮説検定、統計学的仮説検定、(Statistical hypothesis testing)とは, 2.3 検定と推計 仮説検定、統計学的仮説検定、(Statistical hypothesis testing)とは,  ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値=有意水準より)小さければ、「仮説は成り立ちそうもない」と判断できる。 推計統計学(inferential statistics)とは、無作為抽出された部分集団(抽出集団、標本集団)から抽出元全体(母集団)の特徴、性質を推定する統計学の分野である。  点推定  区間推定  信頼区間

けんてい【検定】 一定の基準のもとに検査をして、価値、品質、資格などを決めること。 P(H)=0.5, P(T)=0.5  HTTHHTHTHT  HTHTHTHTHT  HTHHHHHHH

1つの母平均の検定と推計 仮説検定、統計学的仮説検定、(Statistical hypothesis testing)とは,  ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値=有意水準より)小さければ、「仮説は成り立ちそうもない」と判断できる。 推計統計学(inferential statistics)とは、無作為抽出された部分集団(抽出集団、標本集団)から抽出元全体(母集団)の特徴、性質を推定する統計学の分野である。  点推定  区間推定  信頼区間

(1)母平均の検定と推定 1つの母集団を想定し,その母集団の分布が正規分布N(μ,σ2) である時,n個のデータに基づいて,母平均μが指定されたμ0と異なるかどうかを判定する作業を検定と呼ぶ. 帰無仮説H0:μ=μ0 対立仮説H1: μ≠μ0 検定統計量              なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「 μとμ0は,異なる」と判断

検定 (ピアソンの 検定) 自由度 φ=6-1=5 このサイコロは,正しく作られていない とは言えない. 1 2 3 4 5 6 計 観測値 検定 (ピアソンの  検定) 1 2 3 4 5 6 計 観測値 18 23 15 19 22 120 理論値 20 自由度 φ=6-1=5 このサイコロは,正しく作られていない とは言えない.

検定 (ピアソンの 検定) 検定は,割合でなく頻度を用いて行う. データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 検定 (ピアソンの  検定) データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999 検定は,割合でなく頻度を用いて行う.

データ区間 頻度 割合 理論値 375 0.3746 0.3679 1 359 0.3586 2 188 0.1878 0.1839 3 57 0.0569 0.0613 4 18 0.0180 0.0153 5 0.0040 0.0031 6 0.0000 0.0005 1001 1.0000 0.9999

図 1.限点・級中心の定義

(1)母平均の検定と推定 母集団 n 標本 の平均値 から 母集団の平均値を推定: ①点推定 ②区間推定(95%信頼区間) × × × × 標本    の平均値  から × × × × × 母集団の平均値を推定: ①点推定 ②区間推定(95%信頼区間)

(2)一つの母分散の検定と推定 1つの母集団を想定し,その母集団の分布が正規分布N(μ,σ2)である時,n個のデータに基づいて,母分散σ2が指定されたσ 20と異なるかどうかを判定する作業を検定と呼ぶ. 帰無仮説H0:σ 2=σ 20 対立仮説H1: σ 2≠σ 20 検定統計量 なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「 μとμ0は,異なる」と判断

(2)一つの母分散の検定と推定 母集団 n 標本 の不偏分散 から 母集団の分散を推定: ①点推定 ②区間推定(95%信頼区間) × × × 標本    の不偏分散  から × × × × × 母集団の分散を推定: ①点推定 ②区間推定(95%信頼区間)

(3)2つの母平均の検定と推定 2つの母集団(正規分布N(μ1,σ2)とN(μ1,σ2):平均値は異なり,分散は等しい)から,それぞれn1個とn2個のデータをサンプリングする. これらのデータから2つの母平均が異なるかどうかを検定する 帰無仮説H0:μ1=μ2 対立仮説H1: μ1≠μ2 検定統計量                なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「 μとμ0は,異なる」と判断

(3)2つの母平均の検定と推定 母集団 n2 n1 標本 の平均値 と から 母集団の平均値の差を推定: ①点推定 × × × × 標本    の平均値  と  から × × × × × 母集団の平均値の差を推定: ①点推定 ②区間推定(95%信頼区間)

(4)2つの母分散の検定と推定 2つの母集団(正規分布N(μ1,σ2)とN(μ1,σ2):平均値は異なり,分散は等しい)から,それぞれn1個とn2個のデータをサンプリングする. これらのデータから2つの母分散が異なるかどうかを検定する 帰無仮説H0:σ12=σ22 対立仮説H1: σ12≠σ22 検定統計量 なら,有意水準5%で有意であると判定し,帰無仮説を棄却し, 「 σ12とσ22は,異なる」と判断

(4)2つの母分散の検定と推定 母集団 n2 n1 標本 の平均値 と から 母集団の分散の比を推定: ①点推定 × × × × 標本    の平均値  と  から × × × × × 母集団の分散の比を推定: ①点推定 ②区間推定(95%信頼区間)

(6)分割表のよる独立性の検定 分割表の行アイテムと列アイテムに関連があるかどうかを検定する 帰無仮説H0:行と列とは関連がない 検定統計量                    なら,有意水準5%で有意であると判定し,帰無仮説を棄却し,「行と列とは関連がある」と判断

交通事故対策の効果 -ハイマウンテンブレーキランプ- 被追突事故 それ以外の事故 合計 HMブレーキ R1 O1 N1 普通ブレーキ R2 O2 N2 R=R1+R2 O=O1+O2 N=N1+N2 HM(理論値) R/N×N1 O/N×N1 普通(理論値) R/N×N2 O/N×N2

ハイマウンテンブレーキの効果 -比率の差の検定- ハイマウンテンブレーキの効果   -比率の差の検定- 2つのグループのある比率が等しいかどうかの検定 2つのグループの標本数をそれぞれN1,N2,比率をp1=R1/N1,p2=R2/N2としたとき,帰無仮説H0: p1 = p2に対して検定統計量,Zが標準正規分布に従うことを利用して検定を行う.ここで,pは2つのグループの比率の加重平均値.この検定は2×2分割表に対する独立性の検定(X2検定)と同等なものである.

ハイマウンテンブレーキの効果 -χ2検定- 被追突事故 それ以外の事故 合計 HMブレーキ R1 O1 N1 普通ブレーキ R2 O2 N2 ハイマウンテンブレーキの効果   -χ2検定- 被追突事故 それ以外の事故 合計 HMブレーキ R1 O1 N1 普通ブレーキ R2 O2 N2 R=R1+R2 O=O1+O2 N=N1+N2 HM(理論値) R/N×N1 O/N×N1 普通(理論値) R/N×N2 O/N×N2

ハイマウンテンブレーキの効果 -計算例- 被追突事故 それ以外の事故 合計 HMブレーキ 10 90 100 普通ブレーキ 20 80 30 ハイマウンテンブレーキの効果   -計算例- 被追突事故 それ以外の事故 合計 HMブレーキ 10 90 100 普通ブレーキ 20 80 30 170 200 HM(理論値) 15 85 普通(理論値)

分散分析 pp.15 (4) 質的変数と量的変数が混在した場合 cf. 2変数とも量的変数 相関係数       2変数とも質的変数 ピアソンのχ2乗統計量  ○一元配置 ○二元配置   「交互作用」2つの要素による相乗効果 ○多元配置

データ例(1要因) 表2.4 質的変数と量的変数の混在したデータ例 表2.5 層別したデータ例 サンプル 変数 No. 処理方法x 濃度y 1 A2 y1 2 A1 y2 3 y3 4 A3 y4 5 A4 y5 ・ n yn 表2.4 質的変数と量的変数の混在したデータ例 表2.5 層別したデータ例 処理方法 データ y 計 平均 標準偏差 A1 y11,y12,‥,y1n2 T1・ y1 sy1 A2 y21,y22,‥,y2n2 T2・ y2 sy2 A3 y31,y32,‥,y3n2 T3・ y3 sy3 A4 y41,y42,‥,y4n2 T4・ y4 sy4

平方和の分解 相関比(寄与率)

分散分析表(一元配置) 表2.6 分散分析表 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しくない 表2.6 分散分析表 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しくない   F0≧F(φA,φE ;0.05) 帰無仮説を棄却

水準 データ 平均 全平均 A1 4 5 3 4.00 4.75 A2 6 8 7 7.00 A3 2 2.50 問題2.7

平方和の分解(二元配置)

分散分析表(二元配置) 分散分析表 SAB=SA+SB+SA×B SAB=ΣΣ(各要素の平均-全体の平均) 要因 平方和S 自由度φ 分散V 分散比F0 A SA φA=a-1 VA=SA/φA F0A=VA/VE B SB φB=b-1 VB=SB/φB F0B=VB/VE A×B SA×B φA×B=(a-1)(b-1) VAB=SAB/φAB F0AB=VAB/VE E SE φE=ab(n-1) VE=SE/φE SAB=SA+SB+SA×B SAB=ΣΣ(各要素の平均-全体の平均)

分散分析表(二元配置) 分散分析表 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しいとは言えない 要因 平方和S 自由度φ 分散V 分散比F0 A SA φA=a-1 VA=SA/φA F0A=VA/VE B SB φB=b-1 VB=SB/φB F0B=VB/VE A×B SA×B φA×B=(a-1)(b-1) VAB=SAB/φAB F0AB=VAB/VE E SE φE=ab(n-1) VE=SE/φE 帰無仮説H0:母平均は,一様に等しい 対立仮説H0:母平均は,一様に等しいとは言えない   F0A   ≧F(φA, φE ;0.05) 帰無仮説を棄却   F0B   ≧F(φB, φE ;0.05) 帰無仮説を棄却   F0A×B≧F(φA×B,φE ;0.05) 帰無仮説を棄却

離散確率変数の関数の分布 g z (4.10) (4.11) Z=X+Y (4.12) z=g(x, y) X, Y : 離散確率変数   pX, Y(x, y) : 所与 g x1, y1 x2, y2 z x3, y3 (4.10) (4.11) Z=X+Y (4.12)

連続確率変数の関数の分布 z=g(x, y) 変数zで積分 (4.15) (4.15a) X, Y : 連続確率変数   fX, Y(x, y) : 所与 変数zで積分 (4.15) (4.15a)

Exercise (1) Pro(x<y) ? x y y=6: x=1, x=2, x=3, x=4, x=5 Pro(x<y)=  P(y=6) ×P(x<6)   + P(y=5) ×P(x<5) + P(y=4) ×P(x<4) + P(y=3) ×P(x<3) + P(y=2) ×P(x<2) + P(y=1) ×P(x<1) Before returning to the problem we tried to solve last class. Let’s solve the same kind of problem that are described by discrete variables. The values of Probability Mass Function represent the probability, you can understand this case more easily compare to the other case described by continuous variables. We use two dice and random variable x is a value of red one and random variable y is another value. Let’s get the probability of x is greater than y. This problem is as totally same as what I mentioned last class. The difference is discrete variables or continuous variables. If you write out the all cases, you can get the answer easily. When y is 6, the event that x is 1, 2, 3, 4, or 5 satisfied this condition, and so forth. You can easily calculate the probability of x is greater than y by summing up the 6 cases.

Exercise (2) Pro(x<y)= P(y=6) ×P(x<6) + P(y=5) ×P(x<5) + 1/6 × 4/6 + 1/6 × 3/6 + 1/6 × 2/6 + 1/6 × 1/6 + 1/6 × 0/6 = 15/36 = 5/12 3/12 1/6 1 2 3 4 5 6 The answer is 5 over twelve. Let’s cope with the different problem. This problem has some difference from the former one. In this problems, the probabilities of values of dice are not same because it was not made homogenously. Their Probability Mass Function is shown on this figure. Let’ try for some minutes with Probability Mass Function and Cumulative Mass Function on next slide. 2/12 Probability Mass Function 1/12 1 2 3 4 5 6

Exercise (2) cont. Pro(x<y) = 1/12 × 11/12 + 2/12 × 9/12 + 3/12 × 6/12 + 3/12 × 3/12 + 2/12× 1/12 + 1/12× 0/12 = 58/144 = 29/72 Pro(x<y)=  P(y=6) ×P(x<6)   + P(y=5) ×P(x<5) + P(y=4) ×P(x<4) + P(y=3) ×P(x<3) + P(y=2) ×P(x<2) + P(y=1) ×P(x<1) C.M.F 12/12 11/12 9/12 What’s the answer ? Do you understand that Cumulative Mass Function is very useful when you get the probability of x is less than some value. You don’ t have to sum up the probability mass function but see the Cumulative Mass Function. 6/12 P.M.F 3/12 3/12 2/12 1/12 1/12 1 2 3 4 5 6 1 2 3 4 5 6

Continuous Variables f(x) x: Random Variables, which follows f(x) y: Random Variables, which follows g(y) g(y) Q. Probability(x<y) ? y=y0 Pr(x<y0) = Pr(y=y0) = Let’s tackle the problem you want to solve. This problems are described by Continuous Variables. The way of thinking is almost same, and just pay attention to the difference between the probability and probability density function. Please don’t confuse them. Both x and y are Random Variables. X follows the probability density function f of x, and y follows the probability density function g of y. The problem is that to get the Probability of x is less than y. You will be able to get a solution at the almost same way that you tried. If you introduce small dy, you get the probability of y is greater than y sub 0 and less than y sub 0 plus dy. That is g of y sub 0 times dy. y0 y0+dy Pr(y0<y<y0+dy) = g(y0) dy

Q. Probability(x<y) ? * Q. Probability(x<y) ? y=yi Pr(x<yi ) = f (x) g (y) Pr(yi <y<yi +dy) = g(yi) dy yi yi +dy Pr (x<y) =  P(y1<y<y1+dy) ×P(x< y1) + P(y2<y<y2+dy) ×P(x< y2) + P(y3<y<y3+dy) ×P(x< y3) + P(y4<y<y4+dy) ×P(x< y4) + P(y5<y<y5+dy) ×P(x< y5) + P(y6<y<y6+dy) ×P(x< y6) Pr(x<y) = g(y1) dy× + g(y2) dy× + g(y3) dy× + g(y4) dy× + g(y5) dy× + g(y6) dy× : In this figure, I changed y o to y i Of course y0 will change continuously, Let’s deal with it like discrete variables. The image is shown on the next slide ↓ Probability of x is less than y is sum of the probability of y is greater than yi and less than yi + dy times the probability of x is less than yi From i= 1 to 6 . When we

ò ò Pr(x<y) = g (y1) dy× + g (y2) dy× + g (y3) dy× + g (y4) dy× : ¥ - ) ( dy gy (y) y dx x fx If you use Cumulative Density Function F (y), the equation becomes more clear. When we approach dy to 0, ii becomes infinity. It means that discrete variables changes to continuous variables. And you can get the solution. If probability density functions are given concretely, you will calculate the values. dy → 0  i  → ∞ = ¥ Pr(x<y) = ò F ( y ) g (y) dy = - ¥

スタージェスの式 データ数n,階級数mとする 二項定理                 をp=q=1/2として利用すると