第1章 統計学の準備 ー 計量経済学 ー
第1節 平均値と分散 第2節 確率分布 1 平均値と分散 2 度数分布表 3 ヒストグラムと度数折れ線 1 確率分布 2 正規分布 第1節 平均値と分散 1 平均値と分散 2 度数分布表 3 ヒストグラムと度数折れ線 第2節 確率分布 1 確率分布 2 正規分布 (1) 正規分布 (2) 正規分布の応用例 3 t分布 (1) t分布 (2) t分布の応用 4 検定 (1) 検定 (2) 検定の方法
第1節 平均値と分散 算術平均 = 合計 ÷ 個数 1. 平均値と分散 左の表は、学生15人の1ヶ月のアルバイト収入のデータである。 第1節 平均値と分散 1. 平均値と分散 左の表は、学生15人の1ヶ月のアルバイト収入のデータである。 15人の集団を代表する値を求めたい 代表する値として平均値(算術平均)が考えられる 算術平均 = 合計 ÷ 個数
教員A 教員B 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。 <ばらつきの尺度> 教員A チャイムの5分後に必ず教室にくる。 教員B チャイムと同時に教室にくることもあれば、10分以上遅れることもある。 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。 →ばらつきの尺度の必要性 ばらつきの尺度として、分散や標準偏差などがある。
偏差2乗和とは、個々の値から平均を引き(これを偏差という)、 分散 = 偏差2乗和 ÷ 個数 偏差2乗和とは、個々の値から平均を引き(これを偏差という)、 その2乗し、合計したもの
合計 データ数15で割る 標準偏差 → 分散の平方根 算術平均64000を引く 2乗する
※ 2人の教員が教室に来る時間の例 (単位:分) 教員A
教員B となり、教員Bの分散の方が大きいことがわかる。 標準偏差も である。
2.度数分布表 データをいくつかの階級に分け、その階級に入る度数を表の形でまとめたものが、度数分布表である。 ある大学の学生の1ヶ月のアルバイト収入 † その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。
算術平均=(度数×階級値)の総和÷度数の総和 <度数分布表からの算術平均、分散の導出> 度数分布表にまとめられたデータについて、算術平均と分散を求めることができる。(個々のデータが入手できず、度数分布表のみ入手できた場合に、この方法を使う。その階級に属するデータは、すべて階級値に等しいとみなす方法である。) 上のような度数分布表があったとする。 このとき、 算術平均=(度数×階級値)の総和÷度数の総和 として求められる。
分散={(階級値-算術平均)2×度数}の総和÷度数の総和 として求められる。 計算のためには、 これらの算術平均と分散は原データから求めた算術平均と分散の近似値となる。
この度数分布表から、平均値と分散を求めてみる。 元のデータから計算した値とは多少異なるが、近似値となる。
ヒストグラムにおいて縦軸に相対度数をとれば、全体の面積が1のヒストグラムとなる。 3.ヒストグラムと度数折れ線 度数分布表を棒グラフで表したもの ただし、棒どうしの間隔をつめて表す(階級は連続しているため) ヒストグラムにおいて縦軸に相対度数をとれば、全体の面積が1のヒストグラムとなる。 このヒストグラムにおいて、ある範囲(例えば55000円以上65,000円未満)の割合を求めたい場合、対応する棒の面積がこの割合となる。
第2節 確率分布 1.確率分布 確率変数 - とりうる値のそれぞれに対し、ある一定の確率が対応しているような変数のこと 第2節 確率分布 1.確率分布 確率変数 - とりうる値のそれぞれに対し、ある一定の確率が対応しているような変数のこと 確率分布 - 確率変数のとりうる値と、確率との対応関係
サイコロをふったとき、出た目をxとすると、xは1,2,3,4,5,6をある確率でとりうる。 <確率変数の例> サイコロをふったとき、出た目をxとすると、xは1,2,3,4,5,6をある確率でとりうる。 サイコロがどの目も同様に出るなら、それぞれには という確率が対応する。 しかし、6回サイコロを振ってもすべての目が出るとは限らない。サイコロを振る回数を多くすれば、その回数は に近づく。
一度の実験結果≠理論値 <確率分布の実験> サイコロを10回振り、1の目が出た回数をxとする。 この実験を100回繰り返す。 このxは0,1,2,…,10の値をある確率でとりうるので、確率変数である。 この実験を100回繰り返す。 理論上は次のような確率分布となる。 しかし、実際に100回実験をおこなった(コンピュータの乱数を用いる)ときの相対度数は、この理論値に一致するわけではない。 ただし、実験の回数を増やせば、理論上の値に近づく。 一度の実験結果≠理論値
1回の実験においてサイコロを振る回数を20回、50回と増やしてみる。 ⇒ ヒストグラムは正規分布に近づく ☆ やってみよう ex1-1
2.正規分布 (1) 正規分布 サイコロを10回振る実験で1の目が1回以下しか出なかった割合(確率)は? 0.18 + 0.36 = 0.54 グラフでは0と1の棒の面積を加えたもの
1回の実験でサイコロを振る回数を20回、50回、100回…と増やすと、xのとりうる値が多くなり、ヒストグラムの横軸は細くなっていく。 実験回数を無限に増やすと、反対に棒の太さは無限に細くなっていく 棒の面積の和 → 下図のような範囲の面積
サイコロを振る回数を多くしたとき、1の目が出る回数の分布は正規分布に近づく。 算術平均 (期待値)
<正規分布の形状> 正規分布は平均値を中心とする左右対称のつりがね型の分布であり、平均μ、分散σ2の値によって、中心の位置や山の高さが変わってくる。 ※ 平均の異なる正規分布
※ 分散の異なる正規分布
<正規分布と確率> xの分布が正規分布となるとき、たとえば となる確率を求める場合、それに対応する部分の面積を求める。 となる確率を求める場合、それに対応する部分の面積を求める。 ⇒ 正規分布の平均、分散が異なるとき、どうやって面積を求めれば良い?
<標準化と標準正規分布> 平均、分散の異なる正規分布について、 という変換をおこなうと、zは平均0、分散1の正規分布(標準正規分布)となる。 平均、分散の異なる正規分布について、 という変換をおこなうと、zは平均0、分散1の正規分布(標準正規分布)となる。 このような変換を標準化という。 標準化された変数の、標準正規分布における面積が求める確率となる。 標準化 → ☆ やってみよう ex1-2
<標準正規分布表> 標準正規分布から確率を求めるときは、標準正規分布表から求める。 この表はその部分から下側の面積(確率)をあらわしたものである。 引き算や反転を用いることによってさまざまな確率が求められる。
M大学の学生500人の中から、ランダムに50人を選んでアルバイト収入を調べ、その平均値を求める。 (2) 正規分布の応用例 母集団(M大学の学生500人) × × 標本1(50人)64000円 × × × × × × × × × 標本2(50人) 73000円 × × 標本3(50人)56000円 M大学の学生500人の中から、ランダムに50人を選んでアルバイト収入を調べ、その平均値を求める。 50人を選ぶたびにその平均値は変わってくる。 × × 標本4(50人)62000円 × × 標本5(50人)68000円
2011年9月4日付の朝刊各紙に掲載された野田内閣支持率を見ると、異なった結果になっている。 <野田内閣発足直後の支持率の例> 母集団(有権者1億人) × × 標本1(朝日1051人) 53% × × × × × × × × × 標本2(読売1100人) 65% × × 標本3(毎日1001人) 56% 2011年9月4日付の朝刊各紙に掲載された野田内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。 × × 標本4(日経954人) 67% × × 標本5(共同1014人) 62%
しかし、大きく外れた値をとるわけでもない。 母平均μ 母分散σ2 標本平均x 標本分散s2 推論 母数θ 標本統計量t 標本統計量から母数を推論する(たとえば標本平均から母平均を推論)のであるが、たまたま選ばれた標本の標本統計量が母数と一致することはほとんどない。 しかし、大きく外れた値をとるわけでもない。
標本平均と母平均の関係を考えるために、次のような数値例で考えてみる。 個体数6の母集団から個体数2の標本を抜き出し、個々の標本について標本平均を計算する。
とりうるすべての標本について、標本平均を計算してみる。 その標本平均の平均を考えると、母平均に一致する。
全国規模の統計調査などを考えた場合、母集団の大きさNは非常に大きいので、 は1に近くなり、 とみなせる。 <標本平均の分散> 標本平均の分散は となる。 全国規模の統計調査などを考えた場合、母集団の大きさNは非常に大きいので、 は1に近くなり、 とみなせる。 視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので
標本平均 の平均は母平均μに等しく、分散は となる。 <標本平均の分布> 標本平均 の平均は母平均μに等しく、分散は となる。 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標本の平均 の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ, )に近づく。 → 中心極限定理 標準化された変数 が標準正規分布にしたがう。 † 厳密に言えば、母集団の分布が正規分布の場合には、nの大きさにかかわらず、標本平均 の分布は正規分布 N(μ, )にしたがう。 ⇒ 正規分布の再生性
<中心極限定理の直感的解釈> 標本平均を考えると、大体母平均の近くになる。 母平均から遠く離れたところに標本平均が出ることはあまり多くない。 では、どの程度の区間を考えれば、その中に標本平均が入るのであろうか。 ⇒ 信頼区間 <信頼区間> 母平均のまわり に標本平均の95%が含まれる。 標本平均を中心に考えると、 の範囲に母平均が含まれる可能性が高い。 これをμの95%信頼区間という。
μ × × × × とりうるすべての標本の標本平均 の95%がこの区間に含まれる 反対に、標本平均をもとに、 とりうるすべての標本の標本平均 の95%がこの区間に含まれる μ × 反対に、標本平均をもとに、 という区間を考えると、そのうち95%は母平均を区間内に含む × × ×
<母分散が既知の場合の区間推定> (例) 20歳男性の身長を調べるために、100人を標本として選んだところ、標本平均 =170であった。σ=8であるとき、母平均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は となる。
3.t分布 (1) t分布 信頼区間を求める場合、 が標準正規分布 信頼区間を求める場合、 が標準正規分布 にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散σ2が分かっているということは、あまり多くない。 (過去の調査において母分散のおおよその値が分かり、それを用いるなどの例外はあるが) 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、 が自由度n-1のt分布にしたがう。
※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。 ※ 標本分散s2の代わりに標本不偏分散 を用いれば、 が自由度n-1のt分布にしたがう。
<自由度について> 自由度とは、自由に値を取ることのできる個体数のことである。 この場合は、t統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由に値を取ることのできる個数である。 なので、x1, …, xn-1 は自由に値をとることができるが、xn は を満たすように決められ、自由度はn-1となる。
母集団の分散が分からないとき、母平均μの95%信頼区間は、t分布の95%点をt0.95とあらわすと、 となる。 より正確には、母集団の分布が正規分布にしたがうとき、 が自由度n-1のt分布にしたがう。 しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、 は近似的に自由度n-1のt分布にしたがうとみなせる。
(例) 20歳女性の身長を調べるために、10人を標本として選んだところ、標本平均 =160であった。s=9であるとき、母平均μの95%信頼区間を求めよ。 (解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は となる。
視聴率について、区間推定をおこなうことができる。 しかし、関心があるのは「20%を超えたか?否か?」 4.検定 (1) 検定 視聴率について、区間推定をおこなうことができる。 しかし、関心があるのは「20%を超えたか?否か?」 この問題に答えるだけのために、いちいち信頼区間を構成するのは大変である。そこで、 H0: 視聴率が20%を超えた H1: 視聴率が20%を超えない という二者択一の仮説を考え、標本の情報によっていずれか一方の仮説を採択する。
検定仮説と対立仮説は、同時に成り立つことはなく、その2つですべての状況をあらわしている。 検定仮説(H0) 検定したい状況を表したもの。否定されることを目的とした仮説の設定をおこなうことがあるので、帰無仮説といわれることもある。 対立仮説(H1) 検定仮説と反対の状況をあらわしたもの。 検定仮説と対立仮説は、同時に成り立つことはなく、その2つですべての状況をあらわしている。
理想的な仮説検定は第1種の誤りと第2種の誤りがともに小さくなるような検定であるが、これらはトレードオフの関係である。 <2種類の誤り> 仮説検定には2種類の誤りがある。 理想的な仮説検定は第1種の誤りと第2種の誤りがともに小さくなるような検定であるが、これらはトレードオフの関係である。 通常は第1種の誤りを0.05などの一定の小さな値(有意水準という)以下におさえた検定をおこなう。 H0を採択 (逮捕) H1を採択 (不逮捕) H0が真 (真犯人) H1が真 (無実) 取り逃がし (第1種の誤り) 正 誤逮捕 (第2種の誤り) 正
仮説検定は次のような手順をとる。 <仮説検定の手順> <ステップ1> 仮説の設定 <ステップ2> 仮説検定に適当な統計量を選ぶ 検定仮説の採択域と棄却域を設定する <ステップ3> 統計量が採択域 統計量が棄却域 <ステップ4> H0を採択 H1を採択
仮説検定では、まず検定仮説が正しいと思ってみる。 (2) 検定の方法 仮説検定では、まず検定仮説が正しいと思ってみる。 たとえばH0: μ=70 vs. H1: μ≠70 という仮説検定をおこなう場合、 は平均70の分布にしたがうと仮定する。 を標準化したzの分布は標準正規分布となる。(母分散が分からない場合は、t分布で考える) の分布 zの分布 標準化 →
たとえば、 =75という標本平均を得たとする。 =5であったなら、 となるので、そのような標本が得られる可能性は十分にあるといえる。 の分布 zの分布 標準化 → たとえば、 =75という標本平均を得たとする。 =5であったなら、 となるので、そのような標本が得られる可能性は十分にあるといえる。 ⇒ H0が正しいという仮定は適切であったと考える。 ⇒ 検定仮説を採択
もし、z=2.4という結果が出たなら、どのように考えれば良いのであろうか。 この場合、 H0が正しいという仮定は適切ではなかったと考える。母平均は他の値(たとえばμ=85)から得られた標本と考える。 ⇒ 検定仮説を棄却し、対立仮説を採択
判定の境界値はそれぞれの統計量の分布による。 採択域と棄却域は次のように設定される。 判定の境界値はそれぞれの統計量の分布による。 統計量の分布が標準正規分布には、-1.96と1.96の間に入れば採択域、それ以外が棄却域となる。 t分布の場合にはt分布表において得られたt0.95の値を用いて、- t0.95 とt0.95の間に入れば採択域、それ以外が棄却域となる。 (自由度9であれば、t0.95=2.262なので、 -2.262と2.262の間に入れば採択域、それ以外が棄却域となる。) † 棄却域が採択域の片側となる片側検定も考えられるが、ここでは、説明を省略する。 棄却域 採択域 棄却域
<検定の例> a) 母分散が既知の場合 次のような問題を考える。 (例) ある工場では直径5mmのねじを標準偏差0.04mmにおさまるような管理体制で製造している。製造機械の劣化によって、品質に変化が生じたかどうかを検討するために、9本を標本として選んだところ、その平均が4.97mmであった。これは品質管理上異常なしと考えて良いだろうか。
この例の場合、 「品質管理上異常がない」か、「品質管理上異常がある」かを検定する。 1.仮説の設定 この例の場合、 「品質管理上異常がない」か、「品質管理上異常がある」かを検定する。 検定仮説としては「品質管理上異常がない」という仮説を用いる。このとき対立仮説は「品質管理上異常がある」という仮説となり、 H0: μ=5 vs. H1: μ≠5 と表すことができる。この場合、対立仮説は検定仮説の両側をとる(「異常がある」には、「大きすぎる」と「小さすぎる」の両方が含まれ、「異常がない」という検定仮説の両側の範囲をとる)。 ※1 検定仮説と対立仮説を逆にし、 H0: μ≠5 vs. H1: μ =5 とすることも考えられる。しかし、採択域と棄却域を構成する場合、検定仮説が正しいとみなして構成するため、検定仮説はある範囲(複合仮説)より、1つの数値(単純仮説)であることの方が望ましい。 ※2 「ねじがねじ穴に入るかどうか」を検定するなら、「ねじ穴に入る」という検定仮説と、「ねじ穴に入らない」という対立仮説が考えられる。すなわち、 H0: μ≦5 vs. H1: μ > 5 とすることである。
この例では母分散が分かっているので、標本平均 を用いて、 2.検定統計量 この例では母分散が分かっているので、標本平均 を用いて、 を考えると、これは標準正規分布にしたがう。 3.採択域と棄却域 検定仮説が正しいと仮定する。このとき、標本平均をもとに計算したzが0から大きく離れていたならばこの仮定は誤りだったと考える。 zがここだったら検定仮説が正しいが zがここだったら検定仮説は誤りで、 このような分布が正しいと考える。
この場合、zは標準正規分布にしたがうので、有意水準5%†の仮説検定をおこなうなら、 のとき検定仮説を採択し、 のとき検定仮説を採択し、 または のとき対立仮説を採択する。 † 検定仮説が正しいなら、z>1.96またはz<-1.96となるような が選ばれる確率は5%である。これは第1種の誤りの確率すなわち有意水準が5%であることを意味している。 4.統計量の計算 検定仮説が正しいとみなして(μに5を入れて)統計量を計算すると となる。よって なので棄却域に入り、検定仮説を棄却し、対立仮説を採択する。 棄却域 -1.96 採択域 1.96 棄却域
母分散が未知の場合は、zの代わりに を考え、これが自由度n-1のt分布にしたがうことを用いて仮説検定をおこなう。 b) 母分散が未知の場合 母分散が未知の場合は、zの代わりに を考え、これが自由度n-1のt分布にしたがうことを用いて仮説検定をおこなう。 次のような問題を考える。 (例) ある科目の試験を、平均点70点となるように作成したい。そこで、26人をサンプルとして選び、問題をといてもらったところ、26人の平均点は60点、分散が625であった。試験の問題作りは成功したといえるだろうか。
(解) 1.仮説の設定 「平均点が70点である」という仮説を、「平均点が70点でない」という仮説に対して検定するので、 H0: μ=70 vs. H1: μ≠70 という仮説を設定する。 2.検定統計量 標本平均 を用いて、 を考えると、これは自由度n-1のt分布にしたがう。 3.採択域と棄却域 検定仮説が正しいと仮定する。このとき、標本平均をもとに計算したtが0から大きく離れていたならばこの仮定は誤りだったと考える。tは自由度26-1=25のt分布にしたがうので、t0.95=2.060でる。有意水準5%の仮説検定をおこなうなら、 のとき検定仮説を採択し、 または のとき対立仮説を採択する。 4.統計量の計算 となる。 なので検定仮説を採択する。よって問題作りは成功したといえる。