5 章 標本と統計量の分布 湯浅 直弘
5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合 ・有限な場合:有限母集合 → 1つの箱に入っているねじ. ・無限な場合:無限母集合 → 将来つくられると思われる ねじ.
■ 調査と標本 全数調査:母集団の個体すべてを調べるこ と. 例:国勢調査,ファラの下ネタ発言 無限母集合は全数調査はできない. ※全数調査は多大な労力,費用,時間がかかる. ↓ 一部から,効率よく傾向や特性などが分か れば嬉しい.
標本に関する用語 標本調査:母集団から 1 部の個体を抽出して特性 を推測する 標本抽出:母集団から 1 つの固体を抽出する 標本:抽出した固体の集合 標本の大きさ:個体の総数 無作為抽出:特性を推測するため,無作為に抽 出. 無作為標本:無作為抽出によって取り出された 標本.
■ 乱数表 乱数:無作為に抽出するための1つの手法とし て用いる. 乱数表:0から9までの数字を同確率で独立に 並べたもの. P.212 ・復元抽出:重複を認める ・非復元抽出:重複を認めない. 層別抽出:母集団を性別や年齢などの層に分け て, それより抽出を行う手法. より正確な情報が得られる.
例題 例 100 人の学生の中から 10 人を無作為抽出す る. 解 00 から 99 まで番号付けする 乱数表から 2 桁ずつを 1 つの数字として 10 個抽出. 今回は乱数表の 10 行目から抽出した. 96 | 75 | 41 | 76 | 76 | 55 | 65 | 94 | 41 | 05 | 47 この番号付けされた学生を抽出すればよい.
5-2 標本の整理 ■ 度数分布 抽出した標本から母集団の特性を推測す るために標本を整理する. 数値の範囲を区間に分けて,標本の個数 を数える. 階級:各区間のこと. 度数:その区間に入る標本の個数.
度数分布表.
身長の度数分布表
■ 標本平均 抽出した標本の平均値. 標本の大きさn,各標本の値 x1,x2,x3...xn 全体ではなく,抽出した標本についての算術平均. ・中央値 (median) :標本の値を並べたときの中央にあ る値. ・奇数なら,ちょうど真ん中. ・偶数なら,真ん中の値の平均を取る. ・最頻値 (mode) :度数分布表で度数のもっとも大きい 階級の標識の値. ( 一番出現する値.)
例題 ※例1.乱数を 100 個取得して,その値から度数分布表を生成. その値から標本平均を求める. ※例 2 .身長の度数分布から標本平均を求める. 標本値を用いたとき 全員の測定値を標本としたとき 度数分布は全員の計測値を元に計算した値のため,近似してい る.
■ 標本分散 標本のばらつきを示す量. 各標本値と標本 平均との差を 2 乗した値. 標本標準偏差:標本分散の平方根 s 標準分散 σ^2 は全体が分かっているときの分散 標本分散 s^2 は全体から抽出した標本について 計算した値.
5-3 統計量の性質 ■ 母集団の分布 母集団分布:有限母集団の数値付けを行った個 体に対して確率変数に従うときの値. 母集団分布の特性 母数 ・母平均: μ ・母分散: σ^2 ・母標準偏差: σ ・母比率:ある特性を持っている個体の割合
例題 不良品が 20 本含まれているねじ 100 本を母集 団とする. 不良品には 1 ,正常品 0 と数値付ける. 母平均 μ=1*0.2+0*0.8=0.2 母分散 σ^2={1-0.2}^2*0.2+{00.2}^2*0.8=0.16 不良品の割合母比率 p=20/100=0.2
■ 標本の分布 標本値から母集団の分布を考える. 母集団から標本 xi を抽出するときの確 以上.率変数 Xi を標本確率変数という 標本確率変数の平均 ( 標本平均 ) 標本確率変数の分散 ( 標本分散 ) 標本平均の分布を知るには, 大きさnの標本から多数回 x~ を計算することが重要
■ 標本平均の期待値と分散 標本平均の期待値 E[X]=μ( 母集団の平均 ) 標本平均の分散 E[(X-μ)^2]=σ^2( 母集団の分散 )
標本平均の期待値は母平均に等しい.
標本平均の分散は母分散を標本の大きさ で割ったものに等しい
■ 標本分散の期待値 標本分散 S^2 の期待値は母分散で表せる. 標本分散の期待値は母分散 σ^2 の (n-1)/n 倍に等しい.
終わり.
標本空間に対する確率変数では根元事象に対し て数値を対応させたもの. 例えば,サイコロを振るとき 1,2,...6 の数値に対 応する 6 個の根元事象のみを確率変数に含ませる. 確率が先に分かっているとき. 母集団に対する確率変数では無限回の測定の個 体を数値化して対応させたもの. 無限回の測定結果を確率変数に含ませる. 全数調査をして初めて決まる.