●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学) 標本統計量 要約統計量 (平均値、分散、相関係数)
標本平均1≠標本平均2≠標本平均3≠標本平均4≠標本平均4 ●標本統計量は分布する 母集団 標本5 標本1 標本平均5 標本平均1 標本4 標本3 標本2 標本平均4 標本平均3 標本平均2 標本平均1≠標本平均2≠標本平均3≠標本平均4≠標本平均4 標本平均の分布は?
●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ↓ 母集団よりの無作為抽出実験 標本平均の算出 → 実験の繰り返し → 多数の標本平均値 → 標本平均の分布 抽出標本数は50、100、200の3ケースを実施 (各5万回) ①標本数を変化させても、分布の中心位置は殆ど変化しない ②標本数を大きくすると、分布の散布度は小さくなる
●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ●標本平均の分布 <標本抽出実験> 母集団:1~9999の9999個の整数より構成される 母平均は5000、母分散は8331667 ①標本平均値の分布における平均値は標本数によらず常に母平均に一致する ②標本平均値の分布における分散も、標本数の増加に伴って減少する 分散の減少の仕方は? 「標本平均の分布」における分散は標本数の逆数に比例して減少する
母平均に近い標本平均を高い確率で得るためには、標本数を多くすれば良い ●中心極限定理 ・母平均μ、母分散σ2の場合、その母集団からのN個の無作為標本に基づく標本平均の分 布は、平均μ、分散σ2/Nである。 ・母集団が正規分布に従わない場合でも、Nが十分に大きければ(30~100以上)、その分 布は、平均μ、分散σ2/Nの正規分布に近似的に従う。 (母集団が正規分布に従えば、標本数の如何に関わらず標本平均の分布は正規分布に従う) <例> 母集団:平均30、分散10000(標準偏差100) 100個の標本に基づく標本平均値 → 平均30、分散100(=10000/100)の正規分布 500 〃 → 平均30、分散20(=10000/500)の正規分布 我々が行うのはただ1回の標本調査である。その調査で得られる標本平均値(実現値)は *標本数100 → 標本平均値は10~50の広い範囲の値をとる可能性がある *標本数500 → 標本平均値は20~40の範囲に収まる可能性が高い ↓ 母平均に近い標本平均を高い確率で得るためには、標本数を多くすれば良い 100個の標本 500個の標本
●標本比率の分布 *標本抽出実験1 *質的変数:得られるデータはカテゴリ分類であり、平均値などを求めることができない。 例)PCを持っているか否か → 回答:「持っている」、「持っていない」 ↓ 質的変数の場合の分布は 各回答カテゴリへの回答頻度、及び相対頻度 → 比率 *標本抽出実験1 母集団:A政党支持者(母比率0.4)とB政党支持者(母比率0.6)からなる無限母集団 ↓ 母集団よりの無作為抽出実験 標本比率(A党)の算出 → 実験の繰り返し → 多数の標本比率 → 標本平均の分布 抽出標本数は50、100、200の3ケースを実施 ①標本数を変化させても、分布の中心位置は殆ど変化しない ②標本数を大きくすると、分布の散布度は小さくなる
●標本比率とは 標本データから得られた回答カテゴリの比率 例)PC保有率、自民党支持率 等々 ↓ 比率を求めるためには ↓ 比率を求めるためには 回答カテゴリに以下のような数値を与えた変数Xを考える ↓(比率を求めるカテゴリ(PC保有者)に数値「1」、それ以外のカテゴリに数値「0」) 標本比率=「1、0」変数Xの標本平均値 → 中心極限定理が適用可能 確率変数Xの母集団における分布は? 平均値:母集団における「1」カテゴリの比率 → 母比率π 分散 :母集団のサイズをNとすれば、 1:Nπ個 0:N(1-π)個
●標本抽出実験2 母集団:A政党支持者(母比率0.4)とB政党支持者(母比率0.6)からなる無限母集団 ①標本比率の分布における平均値は標本数によらず常に母比率に一致する ②標本比率の分布における分散も、標本数の増加に伴って減少する 「標本比率の分布」における分散は標本数の逆数に比例して減少する
<例>母比率0.4の母集団からの標本比率の分布 ●標本比率に対する中心極限定理 母比率がπの場合、その母集団からのN個の無作為標本に基づく標本比率の分布は、平均π、分散π(1-π)/Nであり、Nが十分に大きければ(30~100以上)、その分布は、平均π、分散π(1-π)/Nの正規分布に近似的に従う。 <例>母比率0.4の母集団からの標本比率の分布 標本数30 標本数100 標本数30 → 標本比率は0.2~0.6の広い範囲の値をとる可能性がある 標本数100 → 〃 0.3~0.5に収まる可能性が高い
●標本分散の分布 <標本抽出実験> 母集団:平均50、分散100の母集団 ↓ 母集団から無作為標本 <標本抽出実験> 母集団:平均50、分散100の母集団 ↓ 母集団から無作為標本 標本分散の算出 → 実験の繰り返し → 多数の標本分散 → 標本分散の分布 抽出標本数は右の7ケース(各5万回) *標本分散の分布の平均値は標本数の増加とともに単調に増加し、母分散(=100)に近づく 但し、標本平均、標本比率とは異なり、母分散とは一致しない ↓ B欄:A欄の値と母分散の比 C欄:B欄の値に標本数をかけた値 標本数より約1だけ少ない数 標本分散の分布の平均値: 不偏分散:
母分散を推定する場合には、標本分散ではなく、不偏分散を用いる必要がある ●標本不偏分散の分布 <標本抽出実験> 母集団:平均50、分散100の母集団 ↓ 母集団から無作為標本 標本不偏分散の算出 → 実験の繰り返し → 多数の標本不偏分散 → 標本不偏分散の分布 抽出標本数は右の7ケース(各5万回) ①標本不偏分散の分布における平均値は標本数によらず母分散に一致する ②その分散も標本数の増加に伴って単調に減少する ↓ 標本数を増やせば、不偏分散は母分散の近傍の値をとる確率が高くなる 母分散を推定する場合には、標本分散ではなく、不偏分散を用いる必要がある
●標本平均の差の分布 ・関東圏と関西圏ではいずれの方が通勤時間は長いのだろうか ・20歳代の男女ではいずれの方が自動車保有率は高いのだろうか *標本抽出実験 <2つの母集団> 母集団1:1~9999の9999個の整数より構成されている(母平均=5000、母分散=8331667) 母集団2:1001~10999の9999個の整数より構成されている(母平均=6000、母分散=8331667) ↓ この2つの母集団からそれぞれ独立に同数の標本を無作為に抽出する 標本平均値の差(第2標本-第1標本)を求める → 実験を繰り返す → 標本平均の差の分布 ①標本数を変化させても、分布の中心位置は殆ど変化しない ②標本数を大きくすると、分布の散布度は小さくなる
●標本抽出実験2 *標本抽出実験 <2つの母集団> *標本抽出実験 <2つの母集団> 母集団1:1~9999の9999個の整数より構成されている(母平均=5000、母分散=8331667) 母集団2:1001~10999の9999個の整数より構成されている(母平均=6000、母分散=8331667) ①標本平均の差の分布における平均値は、2つの母平均の差に等しい ②標本平均値の差の分布における分散は標本数の増加に伴って単調に減少する 母分散: 標本数:n 「標本平均の差」の分布の分散:
●2つの標本平均の差の分布:中心極限定理 母集団1:平均 、分散 母集団2:平均 、分散 母集団1から無作為に抽出した 個の標本に基づく標本平均 母集団2から無作為に抽出した 個の標本に基づく標本平均 の差 の分布は、 、が大きければ、 平均 、分散 の正規分布に近似的に従う。( の目安としては30以上)
●理論分布 ・・・ 正規分布 *平均値μを頂点とした釣鐘型の左右対称の分布で、ガウス分布、誤差分布等とも呼ばれる *確率密度関数 ●理論分布 ・・・ 正規分布 *平均値μを頂点とした釣鐘型の左右対称の分布で、ガウス分布、誤差分布等とも呼ばれる *確率密度関数 (-∞<X<∞) 中心極限定理で近似分布として利用 身長、体重、知能等も正規分布に従う(と言われている) 標準化 *標準正規分布 正規分布に従う変数X 平均0、分散1の正規分布 標準正規分布 N(0,1)
●正規分布に従う変数がある範囲をとる確率 * に従う変数 が の間の値をとる確率 ・指定された範囲における正規分布曲線の下の面積 ・数表を用いて求める *数表から ある指定された値以上の確率が得られる 平均、分散の異なるあらゆる数表を用意することは不可能 標準正規分布を利用した方法 しかし
●標準正規分布を利用した方法 を求めるためには 基本的な原理 変数X : 標準化 変数Z: ① を標準化 ② を標準化 変数X : 標準化 変数Z: を求めるためには ① を標準化 ② を標準化 ③標準正規分布表を利用して
●標準正規分布表の利用方法 ●Excelの関数を用いる NORMDIST(a1,a2,a3,1) ↓ ↓ 平均a2、標準偏差a3の正規分布においてa1以下の確率を求める。 NORMINV(a1,a2,a3) 平均a2、標準偏差a3の正規分布においてその下側確率がa1となる値を求める
t : 標本数をn とすると 自由度n-1 のt分布 ● 理論分布 ・・・ t分布 正規分布 → 標準化 → 標準正規分布 これを行う前提としては 母分散、母平均が分かっている必要がある 一般には、これが分からないのが普通 *母平均は、推定の対象となる(分からないのが前提) *母分散は、不偏分散で推定する 不偏分散は、確率的に変動するため、tは標準正規分布とはならない t : 標本数をn とすると 自由度n-1 のt分布
①自由度の小さい分布は標準正規分布とかなり異なった形状を示している ・中央部の山が低い ・その分だけ裾を長く引く形 ↓ 裾の重い分布 ②自由度が大きくなるとその分布は急速に標準正規分布に近づく ● t分布 標本数が多くなる → 不偏分散は母分散のより正確な推定値となる
①TDIST(a、df、1) → 自由度dfのt分布においてその値がa以上の確率を求める ● t分布から値(確率)を取り出す t分布表を使う方法 Excel の関数を利用する方法 ①TDIST(a、df、1) → 自由度dfのt分布においてその値がa以上の確率を求める ②TINV(b,df) → 自由度dfのt分布においてその上側確率がbとなる値を求める ① a ② TINV(b,df) ①TDIST(a,df,1) ② b