●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)

Slides:



Advertisements
Similar presentations
母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
第6回授業( 5/15) の目標 先回の第1章の WEB 宿題実行上の注意。 第3章の区間推定の基本的考え方を学ぶ(こ の途中までで、終了)。 第3章の母平均の区間推定に必要な数表の見 方を知る(岩原テキスト、 p.434, t- 分布表)。 テキスト p.13 の信頼区間はどのようにして得 られる?-信頼区間導出の概要について学ぶ。
ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
第4章 統計的検定 統計学 2007年度.
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
      仮説と検定.
経済統計学 第2回 4/24 Business Statistics
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1章 統計学の準備 ー 計量経済学 ー.
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学  第7回 西 山.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
行動計量分析 Behavioral Analysis
母集団平均値の区間推定 大標本の区間推定 小標本の区間推定.
統計学 12/13(木).
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
数理統計学 第11回 西 山.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第3章 統計的推定 (その1) 統計学 2006年度.
統計学 西 山.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
確率と統計 年1月12日(木)講義資料B Version 4.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
確率と統計 メディア学部2009年 2009年11月26日(木).
母分散の信頼区間 F分布 母分散の比の信頼区間
1.母平均の検定:小標本場合 2.母集団平均の差の検定
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
第4章 統計的検定 (その2) 統計学 2006年度.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
統計学  第9回 西 山.
数理統計学 西 山.
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
サンプリングと確率理論.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
確率と統計 年12月16日(木) Version 3.
Presentation transcript:

●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学) 標本統計量 要約統計量 (平均値、分散、相関係数)

標本平均1≠標本平均2≠標本平均3≠標本平均4≠標本平均4 ●標本統計量は分布する 母集団 標本5 標本1 標本平均5 標本平均1 標本4 標本3 標本2 標本平均4 標本平均3 標本平均2 標本平均1≠標本平均2≠標本平均3≠標本平均4≠標本平均4 標本平均の分布は?

●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ↓ 母集団よりの無作為抽出実験 標本平均の算出 → 実験の繰り返し → 多数の標本平均値 → 標本平均の分布 抽出標本数は50、100、200の3ケースを実施 (各5万回) ①標本数を変化させても、分布の中心位置は殆ど変化しない ②標本数を大きくすると、分布の散布度は小さくなる

●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ①標本平均値の分布における平均値は標本数によらず常に母平均に一致する ②標本平均値の分布における分散も、標本数の増加に伴って減少する 分散の減少の仕方は? 「標本平均の分布」における分散は標本数の逆数に比例して減少する

母平均に近い標本平均を高い確率で得るためには、標本数を多くすれば良い ●中心極限定理 ・母平均μ、母分散σ2の場合、その母集団からのN個の無作為標本に基づく標本平均の分  布は、平均μ、分散σ2/Nである。 ・母集団が正規分布に従わない場合でも、Nが十分に大きければ(30~100以上)、その分  布は、平均μ、分散σ2/Nの正規分布に近似的に従う。 (母集団が正規分布に従えば、標本数の如何に関わらず標本平均の分布は正規分布に従う) <例> 母集団:平均30、分散10000(標準偏差100)  100個の標本に基づく標本平均値 → 平均30、分散100(=10000/100)の正規分布  500       〃      → 平均30、分散20(=10000/500)の正規分布 我々が行うのはただ1回の標本調査である。その調査で得られる標本平均値(実現値)は *標本数100 → 標本平均値は10~50の広い範囲の値をとる可能性がある *標本数500 → 標本平均値は20~40の範囲に収まる可能性が高い            ↓  母平均に近い標本平均を高い確率で得るためには、標本数を多くすれば良い 100個の標本 500個の標本

●標本比率の分布 *標本抽出実験1 *質的変数:得られるデータはカテゴリ分類であり、平均値などを求めることができない。  例)PCを持っているか否か → 回答:「持っている」、「持っていない」     ↓ 質的変数の場合の分布は  各回答カテゴリへの回答頻度、及び相対頻度 → 比率 *標本抽出実験1 母集団:A政党支持者(母比率0.4)とB政党支持者(母比率0.6)からなる無限母集団 ↓ 母集団よりの無作為抽出実験 標本比率(A党)の算出 → 実験の繰り返し → 多数の標本比率 → 標本平均の分布 抽出標本数は50、100、200の3ケースを実施 ①標本数を変化させても、分布の中心位置は殆ど変化しない ②標本数を大きくすると、分布の散布度は小さくなる

●標本比率とは 標本データから得られた回答カテゴリの比率 例)PC保有率、自民党支持率 等々 ↓ 比率を求めるためには     ↓ 比率を求めるためには  回答カテゴリに以下のような数値を与えた変数Xを考える ↓(比率を求めるカテゴリ(PC保有者)に数値「1」、それ以外のカテゴリに数値「0」)  標本比率=「1、0」変数Xの標本平均値 → 中心極限定理が適用可能  確率変数Xの母集団における分布は?   平均値:母集団における「1」カテゴリの比率 → 母比率π   分散 :母集団のサイズをNとすれば、        1:Nπ個 0:N(1-π)個

●標本抽出実験2 母集団:A政党支持者(母比率0.4)とB政党支持者(母比率0.6)からなる無限母集団 ①標本比率の分布における平均値は標本数によらず常に母比率に一致する ②標本比率の分布における分散も、標本数の増加に伴って減少する 「標本比率の分布」における分散は標本数の逆数に比例して減少する

<例>母比率0.4の母集団からの標本比率の分布 ●標本比率に対する中心極限定理 母比率がπの場合、その母集団からのN個の無作為標本に基づく標本比率の分布は、平均π、分散π(1-π)/Nであり、Nが十分に大きければ(30~100以上)、その分布は、平均π、分散π(1-π)/Nの正規分布に近似的に従う。 <例>母比率0.4の母集団からの標本比率の分布 標本数30 標本数100    標本数30 → 標本比率は0.2~0.6の広い範囲の値をとる可能性がある    標本数100 →   〃  0.3~0.5に収まる可能性が高い

●標本分散の分布 <標本抽出実験> 母集団:平均50、分散100の母集団 ↓ 母集団から無作為標本 <標本抽出実験> 母集団:平均50、分散100の母集団         ↓ 母集団から無作為標本 標本分散の算出 → 実験の繰り返し → 多数の標本分散 → 標本分散の分布 抽出標本数は右の7ケース(各5万回) *標本分散の分布の平均値は標本数の増加とともに単調に増加し、母分散(=100)に近づく 但し、標本平均、標本比率とは異なり、母分散とは一致しない   ↓  B欄:A欄の値と母分散の比  C欄:B欄の値に標本数をかけた値    標本数より約1だけ少ない数 標本分散の分布の平均値: 不偏分散:

母分散を推定する場合には、標本分散ではなく、不偏分散を用いる必要がある ●標本不偏分散の分布 <標本抽出実験> 母集団:平均50、分散100の母集団         ↓ 母集団から無作為標本 標本不偏分散の算出 → 実験の繰り返し → 多数の標本不偏分散 → 標本不偏分散の分布 抽出標本数は右の7ケース(各5万回) ①標本不偏分散の分布における平均値は標本数によらず母分散に一致する ②その分散も標本数の増加に伴って単調に減少する    ↓  標本数を増やせば、不偏分散は母分散の近傍の値をとる確率が高くなる 母分散を推定する場合には、標本分散ではなく、不偏分散を用いる必要がある

●標本平均の差の分布 ・関東圏と関西圏ではいずれの方が通勤時間は長いのだろうか ・20歳代の男女ではいずれの方が自動車保有率は高いのだろうか *標本抽出実験 <2つの母集団> 母集団1:1~9999の9999個の整数より構成されている(母平均=5000、母分散=8331667) 母集団2:1001~10999の9999個の整数より構成されている(母平均=6000、母分散=8331667) ↓ この2つの母集団からそれぞれ独立に同数の標本を無作為に抽出する 標本平均値の差(第2標本-第1標本)を求める → 実験を繰り返す → 標本平均の差の分布 ①標本数を変化させても、分布の中心位置は殆ど変化しない ②標本数を大きくすると、分布の散布度は小さくなる

●標本抽出実験2 *標本抽出実験 <2つの母集団> *標本抽出実験 <2つの母集団> 母集団1:1~9999の9999個の整数より構成されている(母平均=5000、母分散=8331667) 母集団2:1001~10999の9999個の整数より構成されている(母平均=6000、母分散=8331667) ①標本平均の差の分布における平均値は、2つの母平均の差に等しい ②標本平均値の差の分布における分散は標本数の増加に伴って単調に減少する 母分散:               標本数:n   「標本平均の差」の分布の分散:

●2つの標本平均の差の分布:中心極限定理 母集団1:平均    、分散 母集団2:平均    、分散 母集団1から無作為に抽出した  個の標本に基づく標本平均 母集団2から無作為に抽出した  個の標本に基づく標本平均 の差     の分布は、    、が大きければ、 平均      、分散  の正規分布に近似的に従う。(    の目安としては30以上)

●理論分布 ・・・ 正規分布 *平均値μを頂点とした釣鐘型の左右対称の分布で、ガウス分布、誤差分布等とも呼ばれる *確率密度関数 ●理論分布 ・・・ 正規分布 *平均値μを頂点とした釣鐘型の左右対称の分布で、ガウス分布、誤差分布等とも呼ばれる *確率密度関数 (-∞<X<∞) 中心極限定理で近似分布として利用 身長、体重、知能等も正規分布に従う(と言われている) 標準化 *標準正規分布 正規分布に従う変数X 平均0、分散1の正規分布  標準正規分布 N(0,1)

●正規分布に従う変数がある範囲をとる確率 *      に従う変数  が     の間の値をとる確率 ・指定された範囲における正規分布曲線の下の面積 ・数表を用いて求める *数表から ある指定された値以上の確率が得られる 平均、分散の異なるあらゆる数表を用意することは不可能 標準正規分布を利用した方法 しかし

●標準正規分布を利用した方法 を求めるためには 基本的な原理 変数X : 標準化 変数Z: ① を標準化 ② を標準化 変数X : 標準化 変数Z: を求めるためには ①    を標準化 ②    を標準化 ③標準正規分布表を利用して

●標準正規分布表の利用方法 ●Excelの関数を用いる NORMDIST(a1,a2,a3,1) ↓    ↓  平均a2、標準偏差a3の正規分布においてa1以下の確率を求める。  NORMINV(a1,a2,a3)  平均a2、標準偏差a3の正規分布においてその下側確率がa1となる値を求める

t : 標本数をn とすると 自由度n-1 のt分布 ● 理論分布 ・・・ t分布 正規分布 → 標準化 → 標準正規分布 これを行う前提としては 母分散、母平均が分かっている必要がある 一般には、これが分からないのが普通 *母平均は、推定の対象となる(分からないのが前提) *母分散は、不偏分散で推定する 不偏分散は、確率的に変動するため、tは標準正規分布とはならない t : 標本数をn とすると 自由度n-1 のt分布 

①自由度の小さい分布は標準正規分布とかなり異なった形状を示している ・中央部の山が低い ・その分だけ裾を長く引く形 ↓ 裾の重い分布 ②自由度が大きくなるとその分布は急速に標準正規分布に近づく ● t分布 標本数が多くなる → 不偏分散は母分散のより正確な推定値となる

①TDIST(a、df、1) → 自由度dfのt分布においてその値がa以上の確率を求める ● t分布から値(確率)を取り出す t分布表を使う方法 Excel の関数を利用する方法 ①TDIST(a、df、1) → 自由度dfのt分布においてその値がa以上の確率を求める ②TINV(b,df) → 自由度dfのt分布においてその上側確率がbとなる値を求める ① a ② TINV(b,df) ①TDIST(a,df,1) ② b