確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均 確率変数の平均(続き)、確率変数の分散 確率変数の共分散、チェビシェフの不等式 ベルヌイ試行と二項分布 二項分布(続き)、幾何分布など 二項分布の近似、ポアソン分布、正規分布 正規分布とその性質 i.i.d.の和と大数の法則 中心極限定理 統計学の基礎1(母集団と標本、確率論との関係) 統計学の基礎2(正規分布を用いた推定・検定) ここです!
統計学の基礎1 母集団と標本 統計学と確率論の関係 正規分布を用いた推定
母集団と標本 母集団 … 我々が知りたいと思う集団 全体 標本 …… 母集団について推測を行う ために抽出される一部 母集団 … 我々が知りたいと思う集団 全体 標本 …… 母集団について推測を行う ために抽出される一部 n 個の要素を抽出するとき、大きさ n の標本という。
母集団と標本のとらえ方 母集団の要素(がもつ値)は、定まった「分布」をしている。 標本は、母集団の分布を確率分布としてもつ確率変数である。 標本が「確率変数」であるというのは、はじめは分かりにくいかもしれない。標本の抽出を抽象的に考えて、抽出される前に「抽出された値をX とする」などとしていると考えれば、試行前に「出る目の数をX とする」などとしているのと同じことであると納得できるだろう。 母集団分布の平均・分散を、それぞれ母平均・母分散 という。
母集団と標本に対する仮定 母集団の要素数は、事実上無限と考える。 標本は、無作為抽出される。 母集団は、非常に大きな数の要素からなるとするのである。これは、母集団分布として正規分布のような連続分布を利用したいためと、標本の抽出が非復元抽出(抽出した要素を戻さずに次の抽出を行う)の場合でも、各標本を独立な確率変数として取り扱うためである。 そうすると、同じ母集団から無作為に抽出された大きさnの標本は、それぞれがいずれも母集団分布と同じ確率分布に従う独立な確率変数となる。すなわち、i.i.d.となるわけである。 このとき、標本 X1, X2, …, Xn は、 i.i.d. となる。
標本に関する概念 各標本 Xi について を、標本平均と呼ぶ。 母平均をμ, 母分散をσ2 とすると、 E(Xi)=μ, V(Xi)=σ2 これは標本の平均! これは確率変数! 「標本平均」は、算術平均の形をしているが、確率変数から定義された新しい確率変数である。確率変数の平均 E と混同しないこと。 「標本平均」の平均Eは、E(Xi)=μと一致するのであった。(第5回の項目10参照) を、標本平均と呼ぶ。
統計学の基礎 母集団と標本 統計学と確率論の関係 正規分布を用いた推定
統計学と確率論の関係(設定) X1, …, Xn は i.i.d.で、 E(Xi)=μ, V(Xi)=σ2
統計学と確率論の関係(意識) 確率変数 X の確率分布から、Xの実現値を予測 X1, …, Xn は i.i.d.で、 E(Xi)=μ, V(Xi)=σ2 確率論 標本 X の値(実現値)から、X の確率分布(=母集団分布)を推測 X1, …, Xn は 母平均μ, 母分散σ2 の母集団からの標本 統計学
統計学と確率論の関係(例) 確率変数 X の確率分布から、Xの実現値を予測 サイコロを n 回投げ、出た目の数を X1, …, Xn とする。 (これらは i.i.d. となる。) その和を X = X1+…+Xn とおく。 確率変数 X の確率分布から、Xの実現値を予測 確率論 1~6が一定の割合で含まれている無限母集団からの無作為標本を X1, …, Xn とする。 (これらは i.i.d. となる。) 標本平均を X = (X1+…+Xn ) / n とおく。 標本 X の値(実現値)から、X の確率分布(=母集団分布)を推測 統計学
統計学と確率論の関係(例) 確率論 統計学 サイコロを n 回投げ、出た目の数を X1, …, Xn とする。 (これらは i.i.d. となる。) その和を X = X1+…+Xn とおく。 Xi の確率分布が P(Xi=r) = 1/6 であったとすると、μ= E(Xi) = 3.5, σ2 = V(Xi) ≒ 2.92 また、 E(X)=3.5n, V(X)=2.92n X の分布も、Xi の分布からわかる。 確率論 X1, …, X16 の実際の値は次のようだった: 2, 3, 6, 3, 5, 1, 3, 2, 4, 5, 1, 1, 2, 3, 6, 1 ∴標本平均 X = 48 / 16 = 3.0 しかし Xi の確率分布(=母集団分布)はどんな分布か? 上の X の値は、ひとつの例(実現値)にすぎない。 1~6が一定の割合で含まれている無限母集団からの無作為標本を X1, …, Xn とする。 (これらは i.i.d. となる。) 標本平均を X = (X1+…+Xn ) / n とおく。 統計学
統計学と確率論の関係(例) Xi の確率分布が P(Xi=r) = 1/6 であったとすると、μ= E(Xi) = 3.5, σ2 = V(Xi) ≒ 2.92 また、 E(X)=3.5n, V(X)=2.92n X の分布も、Xi の分布からわかる。 確率論 X1, …, X16 の実際の値は次のようだった: 2, 3, 6, 3, 5, 1, 3, 2, 4, 5, 1, 1, 2, 3, 6, 1 ∴標本平均 X = 48 / 16 = 3.0 しかし Xi の確率分布(=母集団分布)はどんな分布か? 上の X の値は、ひとつの例(実現値)にすぎない。 たとえば、P(Xi=r) = 1/6 であったとすると、 E(X) = 3.5, V(X) = 2.92/16 = 0.18 抽出例の X の実現値(3.0)は、この仮定に対しそれほど不自然ではない。 もっと具体的に、 この仮定で P(X=3.0) = ? 95% 以上か?(それなら不自然ではない) E(Sn / n) = E(Xi), V(Sn / n) = V(Xi) / n であった。 統計学
統計学の基礎 母集団と標本 統計学と確率論の関係 正規分布を用いた推定
正規分布を用いた推定 標本の大きさ n が大きいとき、標本平均 X の標準化 X* の確率分布は標準正規分布に近い。(中心極限定理) Z* が標準正規分布 N(0,1) に従うとき、 P( -1.96 < Z* < 1.96) = 0.95 P( -2.58 < Z* < 2.58) = 0.99 この2つを考え合わせると…
正規分布を用いた推定 σも不明だが、標本の標準偏差 s で代用しよう。 つまり よって 標準正規分布と思ってよいから。 n が大きければ、σ を s で代用しても、それほど違いはない。σを s で代用することの是非についてや、n が小さいときどうするか、などについては、後期に詳しく学ぶ。 よって σも不明だが、標本の標準偏差 s で代用しよう。
正規分布を用いた推定(例) 1~6が一定の割合で含まれている無限母集団からの無作為標本が次のようだった: 2, 3, 6, 3, 5, 1, 3, 2, 4, 5, 1, 1, 2, 3, 6, 1 ∴ 標本平均 X = 48 / 16 = 3.0 標本分散 s2=2.875 s≒1.696 よって n が小さいので、この例はほんとうは適切ではない(標本平均の分布を正規分布で近似できるためには、最低でもn≧25 くらいは必要。また、n が小さいと、σを s で代用することにも問題がある)。あくまでも方法の説明のための例である。 (n が小さいときの適切な方法は、後期に学ぶ。)
正規分布を用いた推定(例) × P (2.17 ≦ μ ≦3.83) = 0.95 ∴ 95%の“信頼率”で 2.17 ≦ μ ≦3.83 1~6が一定の割合で含まれている無限母集団からの無作為標本が次のようだった: 2, 3, 6, 3, 5, 1, 3, 2, 4, 5, 1, 1, 2, 3, 6, 1 ∴ 95%の“信頼率”で 2.17 ≦ μ ≦3.83 μは確率変数ではないので、P( 2.17≦μ≦3.83 ) のような書き方をしてはいけない。区間推定の正確な意味などについては、後期に学習する。 × P (2.17 ≦ μ ≦3.83) = 0.95 95% の信頼率で、母平均μは 2.17以上3.83以下と推定される。
[演習]正規分布を用いた推定 [1] あるマンモス大学の受験生の得点分布は、昨年のデータから標準偏差4点と考えられる。この受験生の母集団から大きさ36の標本をとったところ、標本平均は60点であった。 全体の平均点を95%の信頼率で推定せよ。 σ/√n = 4 / √36 = 2 / 3 ∴ P ( -1.96 ≦ (60 – μ) / (2/3) ≦ 1.96 ) = 0.95
メニューに戻る メニューへ