専修大学経済学部 作間逸雄「経済統計学」講義 統計的推測 専修大学経済学部 作間逸雄「経済統計学」講義
統計的推測の種類 標本の観察 母集団の特徴 (標本統計量) (母数) 例:標本平均 母平均 統計的推測の種類 点推定 推定 区間推定 検定
標本から母集団を推測する1 池の魚の数を数える。 とりあえず、50匹を捕まえ、尾に赤い標識をつけて逃がす。次の日、10匹捕まえたところ、そのうち2匹が標識をつけていたとする。 池の魚全体(その数をXとする)のうち、標識のついている魚の割合が今回捕まえた魚の中での割合と等しいと仮定する。 すると、2÷10=50÷Xから、X=250と推測する。
最尤法 「尤(もっと)もらしい」の「尤」である。 母比率をπとする。πをいろいろ変化させてみて、実際のデータに含まれる比率pが観察される確率が一番高くなるように、πを決める方法を最尤法という。 10匹の中に2匹に標識のついた魚がいる確率は、 この確率が最大になるように、πを選ぶのが最尤法。微分を使って計算すると、π=2/10を得る。
点推定と不偏性 標本平均は、母平均の不偏推定量である。一般に、推定量が母数にたいして次の関係があるとき、不偏推定量という。
「標本分布」の概念が鍵 標本統計量(たとえば、標本平均のように、標本を与えるとその関数として決まる量を確率変数と考えたもの)の分布を標本分布という。 原理的には、母集団分布がわかっていて、標本分布を計算するわけだが… 母集団分布が知られなくても、標本分布について、わかることがある。
標本平均の期待値・分散 確率変数X、Yが独立であれば、 さらに、中心極限定理により、サンプル・サイズが大きければ、
中心極限定理(復習) 正規分布は、ガウスの発見以来、誤差の分布をあらわすときに、よく使われる。(複雑な多数の原因が相互に独立に不規則に作用すると考える!)
中心極限定理の図示
大数(たいすう)の法則 中心極限定理を使っても同じことがいえる。
大数(たいすう)の法則(補) 黒と白の球が入った壺から繰り返し球を1個取り出し、球の色を記録してから戻し、中身をかき混ぜたあと、また球を取り出す。これをN回繰り返し、取り出した球が黒である割合(相対頻度、標本比率)が壺の中の黒い球の割合(母比率)からわずかな誤差e以内である確率はいくらか?Nを大きくすれば誤差eをいくらでも小さくすることができる。このことを示したのは、ジャック・ベルヌーイ(1713)。 「大数の法則」(Law of Large Numbers)という名前をつけ、より一般的なケースで証明したのは、シメオン・ドゥニ・ポアソン(1837)。
正規分布と <正規分布を売り歩いた男>ケトレー ケトレー 1796-1874
正規分布とケトレー(続) 特定の人間集団(たとえば、イギリス人とか日本人とか)について、典型的な「平均人(the average man)」を構想し、集団をその諸特性の平均により記述できると考えた。その際、個人差は、正規分布(誤差曲線)に沿った誤差のようなものとされた。 最近、ケトレーの構想したBMI指数(ボディー・マス・インデックス= 「体重(kg)÷身長(m)の2乗)」 )が話題になっている。
BMI指数(ケトレー指数)の話題 マドリード・ファッションショー:やせ過ぎモデル、5人が「失格」 「少女らに誤ったメッセージを送る」としてやせ過ぎたファッションモデルの出場を禁じたマドリード・ファッションショーが18日、開幕した。17日に行われた事前の身体測定では、モデル68人中5人が規定値に達せず出場禁止となった。イタリア・ミラノのファッションショーも規定導入の動きをみせるなど波紋が広がっている。 マドリード・ファッションショー主催者によると、身体測定は「ボディーマス指数(BMI=体重を身長の2乗で割った比率)が18以上」とする拒食症防止のための地域規定に基づいて実施された。「失格」は5人だったが、前年出場者の約30%が事前の測定さえ許可されなかったという。 毎日新聞 2006年9月19日 東京朝刊
ファッション・モデルとBMI指数 拒食症のモデル死去、174センチで40キロ ブラジル 拒食症のモデル死去、174センチで40キロ ブラジル ブラジル・サンパウロ市内の病院で14日、女性ファッションモデルのアナ・カロリナ・ヘストンさん(21)が栄養失調による感染症で死亡した。ヘストンさんは拒食症で、174センチの身長に対し、体重はわずか40キロだった。体重を身長の2乗で割った体格指数(BMI)では18.5未満が「やせている」とされるが、ヘストンさんは13.2だった。 9月には「やせ過ぎモデルは過度のダイエットや拒食症を助長する」として、マドリードのファッションショーで複数のモデルが不採用となったばかり。世界的にやせ過ぎ問題が注目され始めている中、ヘストンさんの死はファッション界に大きな波紋を広げそうだ。( 2006年11月17日16時23分 時事)
正規分布(キー・ポイント) 正規分布表を使うためには、標準化する必要がある。 中心極限定理が重要。
区間推定とは何をやるのか?(1) 「標本分布」=標本統計量(標本平均とか標本分散とか、標本の関数である確率変数)の分布がキー。 中心極限定理によって、標本サイズ大の場合、 であることから
区間推定とは何をやるのか?(2) この式をかきかえて このように作られた区間を「信頼区間」という。
信頼区間の意味
練習問題 [問]ある交差点を通過する車のスピード(時速)を調べたところ、ほぼ正規分布にしたがっており、平均50km、標準偏差は18kmであった。制限速度が40km のとき、何% の車がスピード違反をしていると考えられるか。
練習問題 [問]ある集団のBMIが正規分布すること、またその標準偏差が1.00であることがわかっているとする。その集団から、100人のサンプルをとり、そのBMIの平均値が19.20であったとする。母集団のBMIの平均について、信頼度95%で区間推定をしなさい。 [問]その集団でBMIが18.00未満の人の割合はどのくらいか?
解答 次式により、(95%)信頼区間をつくる。 1.00 19.20 10 99%信頼区間なら?
この区間推定の問題 母集団の標準偏差(σ)が既知であることが前提されてしまっている。 標本の標準偏差(s)はわかっているだろうが、母集団の標準偏差はわかっていないのがむしろ普通の状況だろう。 その場合につかわれるのがt分布。次の確率変数tは、自由度n-1のt分布に従う。 標本標準偏差Sは、n-1で割る式による。nで割るS*だと、
正規分布とt分布 t分布の発見者は、ウィリアム・ゴセット。ゴセットは、ギネス・ビールの技術者だったので、会社の立場を考えて、“Student”というペンネームで論文を発表していたから、t分布のことをStudentのt分布とも呼ぶ。 t分布には、自由度というパラメーターがある。 自由度を無限大にすると、t分布は、正規分布に一致する。 したがって、サンプルが大きければ、σ未知でも、標本sで代用正規分布を使ってよいことになる。
t分布と正規分布の比較
標本から母集団を推測する2――失業率 標本の比率(割合)で母集団の対応する比率(割合)を推定しようとする典型例。 完全失業者数/労働力人口が完全失業率。 完全失業率の数字の見方を考えるには、概念がどうなっているか(「完全失業者」とは何か、「労働力人口」とは何か)を知る必要がある。また、統計的推測そのものについての理解(誤差への理解)が必要。
最近の失業率 2007年11月30日付け 『日本経済新聞』夕刊
最近の失業率 雇用改善は足踏み。 正社員の有効求人倍率はかなり低い。
職業安定業務統計 職業安定業務統計(一般職業紹介状況)は全国の公共職業安定所(ハローワーク)における職業紹介業務の実績を集計した業務統計である。 求人倍率・・・ 「有効求人倍率」と「新規求人倍率」とがある。1人の求職者に対してどれだけの求人があるかを示す指標である。 有効求人倍率=有効求人数/有効求職者数 (倍) 新規求人倍率=新規求人数/新規求職者数 (倍) 「有効」とは? 求人・求職票は、原則として翌々月末まで有効。
去年の「完全失業率」の報道 『日本経済新聞』2006年12月1日付夕刊
労働力調査について 1. 調査の目的・沿革 国民の「就業及び不就業の状態」(就業状態)を明らかにすることを目的とし、昭和21年9月以降毎月実施している。 2 調査対象 全国全世帯の中から、無作為に選定した約4万世帯に居住する15歳以上の者約10万人 3.調査の期日 毎月末日現在で、月末1週間における就業・不就業の状態を調査する(12月は20日から26日までの1週間) 4.調査の方法 調査員が対象世帯に調査票を配布し、世帯がこれに記入、再び調査員が調査票を取集する。
労働力調査について (就業状態の諸概念) 就業状態の区分 ────── 調査でのとらえ方 ─────── ───── 結果表の表し方 ───── ┌ 主に仕事 ┐ │ │ ├ 通学のかたわらに仕事 ┼………………従業者 ┐ │ │ │ ├ 家事などのかたわらに仕事 ┘ │ │ │ │ ├ 就業者 ┐ 調査期間中に少し ┤ │ │ でも仕事をしたか │ │ │ │ │ ├ 労働力人口 ┐ │ ┌ 仕事を休んでいた …… 休業者 ┘ │ │ │ │ │ │ │ ├ 仕事を探していた …………… 完全失業者 ┘ ├15歳以上人口 │ │ │ └ 仕事をしなかった ┼ 通学 ┐ │ │ │ │ ├ 家事 ┼ …………………… …非労働力人口 ┘ │ │ └ その他(高齢者など) ┘
労働力調査の用語(1) <就業状態> 15歳以上人口について,調査週間中の活動状態に基づいて次のように区分している。 <就業状態> 15歳以上人口について,調査週間中の活動状態に基づいて次のように区分している。 労働力人口:15歳以上人口のうち,就業者と完全失業者を合わせたもの 就 業 者 :従業者と休業者を合わせたもの 従 業 者:調査週間中に賃金,給料,諸手当,内職収入などの収入を伴う仕事(以下「仕事」という。)を 1時間以上した者。なお,家族従業者の場合は,無給であっても仕事をしたとする。 休 業 者:仕事を持ちながら,調査週間中少しも仕事をしなかった者のうち,1)雇用者で,給料,賃金の支払いを受けている者又は受けることになっている者 2)自営業主で,自分の経営する事業を持ったままで,その仕事を休み始めてから30日にならない者。なお,家族従業者で調査期間中に少しも仕事をしなかった者は休業に含めず,完全失業者又は非労働力人口のいずれかとしている。
労働力調査の用語(2) 失業の3条件(ILO) ①without work ②seeking work 完全失業者:次の3つの条件を満たす者 1)仕事がなくて調査週間中に少しも仕事をしなかった(就業者ではない) 2)仕事があればすぐ就くことができる 3)調査期間中に,仕事を探す活動や事業を始める準備をしていた(過去の求職活動の結果を待っている場合を含む) 非労働力人口:15歳以上人口で上記以外の者 労働力人口比率:15歳以上人口に占める労働力人口の割合 =(労働力人口÷15歳以上人口)×100 完全失業率:労働力人口に占める完全失業者の割合 =(完全失業者÷労働力人口)×100 失業の3条件(ILO) ①without work ②seeking work ③currently available for work
就業状態の調べ方 労働力(actual)方式 短い調査期間を限定し、その期間で就業状態を決定する。「月末1週間で少しでも仕事をしましたか?」……労働力調査、国勢調査 有業者(usual)方式 期間を限定せず、ふだんの状態で就業状態を決定する「あなたはふだん収入になる仕事をしていますか?」……就業構造基本調査
労働力調査の結果の公表 ・公表期日…………………原則として調査 月の翌月末 ・結果の刊行時期 労働力調査速報………公表時 ・公表期日…………………原則として調査 月の翌月末 ・結果の刊行時期 労働力調査速報………公表時 労働力調査月報………翌々月の下旬 労働力調査年報………翌年3月
労働・雇用に関する他の月次統計 ・世帯を通じて調査するもの………………… 労働力調査(総務省) ・事業所を通じて調査するもの……………… 労働力調査(総務省) ・事業所を通じて調査するもの……………… 毎月勤労統計調査(厚生労働省) ・業務統計によるもの………………………… 職業安定業務統計(厚生労働省)
労働力調査の調査票
労働力調査の調査票(続)
失業率の数字には誤差はどのくらいあるのか?(単純化された計算) 誤差には、標本誤差と非標本誤差とがある。 非標本誤差は、たとえば、誤記、集計ミス等々であったり、統計環境の問題であったりする。 標本誤差は、標本をとって調査することにより発生する誤差であるが、確率分布に関する知識を使ってコントロールすることができる。
失業率の数字には誤差はどのくらいあるのか?(単純化された計算) 実際にはそうではないが、単純無作為標本抽出(*)を行なって、労働力人口7万人のサンプルを得たとしよう。 そのサンプルに含まれる失業者数は、「失業」を「成功」と見た場合の「二項変数」。 「失業率」は、s/n。 サンプルが大きければ、失業率p=s/nは、平均π、分散π(1-π)/nの正規分布をする。 (*)実際は、層化二段抽出。
二項分布の期待値・分散(復習) 二項変数sは、ゼロワン変数の和であることに注意する。すなわち、πを成功確率とすると、
失業率の数字には誤差はどのくらいあるのか?(単純化された計算)
失業率の数字には誤差はどのくらいあるのか?(単純化された計算) P=0.040, n=70,000として±0.00145の誤差を見ておけば、95%の割合で(100回の内95回は)正しい推定になる。 0.03855 0.040 0.04145
失業率の数字には誤差はどのくらいあるのか?(単純化された計算) 信頼区間の幅には、nが大きく影響する。 以上の結果から見て、4.0%でなく、4.00%と発表する(もう一桁余計に発表する)ことはできそうもないことがわかる。 都道府県別失業率のように、サンプルが小さい場合、その数字の利用には注意が必要である。
謝辞 池の魚の数を数える例は、清水誠著『推測統計 はじめの一歩』(講談社ブルーバックス、2000年)のものを使わせていただきました。 池の魚の数を数える例は、清水誠著『推測統計 はじめの一歩』(講談社ブルーバックス、2000年)のものを使わせていただきました。 信頼区間の図示は、T.H.ウォナコット/R.J.ウォナコット著、国府田恒夫/田中一盛/細谷雄三訳『統計学序説』(培風館、1978年)のものです。 総務省統計局のホームページhttp://www.stat.go.jp に掲載されているいくつかの素材をつかわせていただきました。