社会福祉調査論 第9講 母集団の推計 12月14日
社会福祉調査論 第9講 【目標】 統計の散らばりを表す指標とそれを物差しとした散らばり具合について学びます。 社会福祉調査論 第9講 【目標】 統計の散らばりを表す指標とそれを物差しとした散らばり具合について学びます。 標本のデータから母集団の比率や平均を推計することを学びます(区間推計)。
【構成】 Ⅰ.散らばり 1.標準偏差 2.標本分布 Ⅱ.母集団の推測 1.母集団の比率 2.母集団の平均値 3.標本誤差
Ⅰ.散らばり ◎範囲 たまたまの最大・最小の幅 分布の型(パターン)が分らない ⇒ ちらばりの程度を知りたい
1.標準偏差 散らばりを考える 各データ(Xi)と平均(m)との差 偏差 Xi-m 偏差の絶対値の平均? 通常利用しない
文字の使い方 アルファベット 悉皆(関心事の全ての個体)を 扱っている場合 ギリシャ文字 抽出標本から 母集団の統計値を推測している場合
標準偏差 偏差平方=偏差×偏差 偏差平方和=偏差平方の合計 ↓ 分散=偏差平方和/個数 (偏差平方の平均) ↓ 分散=偏差平方和/個数 (偏差平方の平均) 標準偏差=分散の平方根 σ シグマ σ; sのギリシャ文字
σ以内の乖離 普通 中位2/3程度 σ以上の乖離 いい、悪い 上位あるいは下位 1/6(16%)程度 2σ以上の乖離 極めて上位あるいは下位 1/40(2.5%)程度
◎変動係数 標準偏差を平均で割った値 ν=σ/μ 多様な変数の物差し(尺度)の違いを超えて、ちらばり度合を見る μ; m ν; n
◎標準化 平均を引き標準偏差で割る 平均=0、標準偏差=1 物差しをずらし、拡大(縮小)する
2.標本分布 一様分布 同様の可能性で(一様に)でる サイコロ 1,2,3,4,5,6 Excel =RAND( ) 0~1の乱数 サイコロ =INT(RAND()*6)+1
二項分布 二種類のみの結果がでる実験を何回か行う(試行) →ベルヌーイ試行 コイントスの表・裏 サイコロで奇数・偶数、 2以下・3以上、 二種類のみの結果がでる実験を何回か行う(試行) →ベルヌーイ試行 コイントスの表・裏 サイコロで奇数・偶数、 2以下・3以上、 紅白玉の抜出しで紅・白 この試行を何度も行った場合の度数の分布 →二項分布
ツリー図から確率を考える 試行毎に枝分かれするツリーを描く 確率の検討は、根元事象を数え上げることが基本。 各枝端に達する確率は p^i*q^(n-i) 順列組合せから同じ結果の枝を数える
正規分布 二項分布で実験回数を増やした場合 離散的分布→連続的分布 試行回数を増やすと円滑な曲線が見えてくる 離散的分布→連続的分布 試行回数を増やすと円滑な曲線が見えてくる (正規分布、ガウス曲線、ベルカーブ)
N(平均,分散) N(μ,σ2) N(0,1)の数表 Zテーブル 一定の範囲の結果が起こる確率を求める 現在は、Excelで直接求める -∞~Xi の確率 NORMDIST(x,平均,標準偏差,1)
正規分布の利用例 試験の成績 受験者数 1,000人 平均点 50点 標準偏差 10点 あなたの成績 70点 あなたの凡その順位は? 受験者数 1,000人 平均点 50点 標準偏差 10点 あなたの成績 70点 あなたの凡その順位は? 左側からの累積確率 =NORMDIST(x,平均,標準偏差,1)
偏差 70-20 標準偏差の2倍 2σ 2σ~∞の確率 2.3% あなたの順位 1,000×0.023 23番目
よく使う偏差と確率 -σ~+σ 68.3% -2σ~+2σ 95.45% 右外側2.3% -1.96σ~+1.96σ 95.0% 両外側5% -σ~+σ 68.3% -2σ~+2σ 95.45% 右外側2.3% -1.96σ~+1.96σ 95.0% 両外側5% -1.645σ~+1.645σ 90.0%
Ⅱ.母集団の推測 1.母集団の比率の区間推計 ①標本の抽出(試行) Ⅱ.母集団の推測 1.母集団の比率の区間推計 ①標本の抽出(試行) 特定の事象が特定の確率で出現する抽出を一定回数繰り返す試行(二項分布の試行) (大きな袋の中に紅白の玉があり、それを取り出し、白となる場合などを考える)
②散らばりの尺度 それぞれ標本を何個か抽出する試行での標本の白となる比率には、試行によって散らばりがある。
③抽出回数を増やした試行での 比率の変化 標本個数が多くなるほど、各試行での白の比率を描いたグラフは尖がっていく。 つまり、散らばりが少なくなっていく(全体を1とした図で見ること)。 ちなみに、この比率の分布は、正規分布となる。
④正規分布の形 他方、正規分布の標準偏差と各試行の生起確率の関係は、 ±σの幅の中に68%入る。 ±1.96*σの幅の中に95%入る。
⑤抽出調査の結果としての比率 母集団(元の集団)の比率は分からないが、仮に比率Piとして、 抽出調査で比率Pとなる確率piは、二項分布で求められる。
⑥母集団でのいろいろな比率の可能性から真の比率の推測 標本調査で比率がPとなる場合の母集団でのいろいろな比率Piに対する確率piが分かるとすれば、 母集団の真の比率がPiである可能性はpiで最も高いと考えることが妥当であろう。
⑦母集団比率とし妥当な推測した場合の確率分布 こうした前提で、母集団の真の比率Poを推測すると 標本調査の比率Pに対して(以下pと記述) 平均p、標準偏差 の正規分布が 想定される。 ただし、nは標本数。 √(p*(1-p)/n)
⑧比率の区間推計 以上の結果として、母集団での比率は、次のとおり推測される。 p±√(p*(1-p)/n)の幅の中に68%入る
2.母集団の平均値 ①標本の抽出 無作為に一定数の標本を抽出し、その測定を行う。 (例えば、大学生の身長を測定する場合などを考える。)
②散らばりの尺度 一定の標本数の測定を繰り返した場合、それぞれの平均値には散らばりがある。
③抽出数を増やした場合の平均の変化 抽出数が多くなるほど、各平均値の分布を描いたグラフは尖がっていく。 つまり、散らばりが少なくなっていく。 ちなみに、この平均値の分布は、正規分布となる。 (標本数が少ない場合(概ね30以下)は t分布を使う)
④正規分布の形 他方、正規分布の標準偏差と各平均値との関係は、 ±σの幅の中に68%入る。 ±1.96*σの幅の中に95%入る。
⑤標本測定の平均値と 母集団の平均値の関係 母集団(元の集団)の平均値は分からないが、仮に平均値Miとして、 抽出調査での平均値Miとなる確率miは、上述のとおり正規分布となる。
⑥母集団でのいろいろな平均値Miの可能性から真の平均値の推測 標本調査で平均値がMとなる場合の 母集団でのいろいろな平均値Miに対する確率miが分かるとすれば、 母集団の真の平均値がMiである可能性はmiで最も高いと考えることが妥当であろう。
⑦母集団の平均値として妥当なMを推測した場合の確率分布 こうした前提で、母集団の真の平均値Mを推測すると 標本調査の平均値Mに対して(以下mと記述)、平均m、標準偏差 の正規分布が想定される。 ただし、σは標本調査の標準偏差を援用する。 nは標本数。
⑧平均値の区間推計 以上の結果として、母集団の平均値は、次のとおり推測される。 m±σ/√(n)の幅の中に68%入る。 m±1.96*σ/√(n)の幅の中に95%入る。
標本数が少ない場合 標本数が少ない(概ね30以下の)場合、正規分布でなくt分布を使う。 標本数が少ない(概ね30以下の)場合、正規分布でなくt分布を使う。 →上記⑧でのσの係数(1あるいは1.96)に替えて、標本数と有意水準に対応する値を使う。 分母はn-1を使うこと。
3.標本誤差 標本誤差 母集団推計での平均の標準偏差 標本誤差の許容範囲から必要標本数が決められる。
時間末レポート 所持金(万円) 1 5 2 3 7 4 6 8 9 10 右表の値の標準偏差を求めなさい。
時間末レポート 1.比率の区間推計 紅白の玉が入った袋から玉をとりだす。 標本数300個、白の比率25%の場合 紅白の玉が入った袋から玉をとりだす。 標本数300個、白の比率25%の場合 袋の中の白の比率を95%の確かさで求めなさい。 2.平均の区間推計 成人男性の身長を測る。 標本数400人、平均175.0cm、標準偏差5.0cmの場合 成人男性の平均身長を95%の確かさで求めなさい。
標本数300個、白の比率25%の場合 袋の中の白の比率を95%の確かさで求めなさい。
標本数400人、平均175.0cm、標準偏差5.0cmの場合 成人男性の平均身長を95%の確かさで求めなさい。