専修大学経済学部 作間逸雄「経済統計学」講義

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
数理統計学 西 山. 前回のポイント<ルート N の法則> 1. データ(サンプル)の合計値 正規分布をあてはめる ルート N をかけて標準偏差を求める 2. データ(サンプル)の平均値 正規分布を当てはめる 定理8がポイント ルート N で割って標準偏差を求める.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
© Yukiko Abe 2012 All rights reserved
第4章 労働に関する統計 ー 経済統計 ー.
経済統計学 第2回 4/24 Business Statistics
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
推定の精度 例: 宍道湖に生育するある魚が今回の大水害でどのような影響を 受けたかを明らかにするために,魚を捕獲して調査しようとした.
検定 P.137.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学  第7回 西 山.
統計学 12/3(月).
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
経済統計 第三回 5/1 Business Statistics
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
統計的推論 正規分布,二項分布などを仮定 検定 統計から行う推論には統計的( )と統計的( )がある 推定
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
統計学 12/13(木).
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
統計学  西 山.
2004年度専修大学経済学部 作間「経済統計学」講義
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学  第6回 西山.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第4章 労働に関する統計 ー 経済統計 ー.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
第3章 統計的推定 (その1) 統計学 2006年度.
統計学 西 山.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
確率と統計 年1月12日(木)講義資料B Version 4.
数理統計学 西 山.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
母分散の信頼区間 F分布 母分散の比の信頼区間
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
経営学研究科 M1年 学籍番号 speedster
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
統計学  第9回 西 山.
数理統計学 西 山.
推定と予測の違い 池の魚の体重の母平均を知りたい→推定 池の魚を無作為に10匹抽出して調査 次に釣り上げる魚の体重を知りたい→予測
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
Presentation transcript:

専修大学経済学部 作間逸雄「経済統計学」講義 統計的推測 専修大学経済学部 作間逸雄「経済統計学」講義

統計的推測の種類 標本の観察        母集団の特徴   (標本統計量)        (母数)    例:標本平均       母平均 統計的推測の種類                  点推定          推定                          区間推定          検定       

標本から母集団を推測する1 池の魚の数を数える。 とりあえず、50匹を捕まえ、尾に赤い標識をつけて逃がす。次の日、10匹捕まえたところ、そのうち2匹が標識をつけていたとする。 池の魚全体(その数をXとする)のうち、標識のついている魚の割合が今回捕まえた魚の中での割合と等しいと仮定する。 すると、2÷10=50÷Xから、X=250と推測する。

最尤法 「尤(もっと)もらしい」の「尤」である。 母比率をπとする。πをいろいろ変化させてみて、実際のデータに含まれる比率pが観察される確率が一番高くなるように、πを決める方法を最尤法という。 10匹の中に2匹に標識のついた魚がいる確率は、 この確率が最大になるように、πを選ぶのが最尤法。微分を使って計算すると、π=2/10を得る。

点推定と不偏性 標本平均は、母平均の不偏推定量である。一般に、推定量が母数にたいして次の関係があるとき、不偏推定量という。

「標本分布」の概念が鍵 標本統計量(たとえば、標本平均のように、標本を与えるとその関数として決まる量を確率変数と考えたもの)の分布を標本分布という。 原理的には、母集団分布がわかっていて、標本分布を計算するわけだが… 母集団分布が知られなくても、標本分布について、わかることがある。

標本平均の期待値・分散 確率変数X、Yが独立であれば、 さらに、中心極限定理により、サンプル・サイズが大きければ、

中心極限定理(復習) 正規分布は、ガウスの発見以来、誤差の分布をあらわすときに、よく使われる。(複雑な多数の原因が相互に独立に不規則に作用すると考える!)

中心極限定理の図示

大数(たいすう)の法則 中心極限定理を使っても同じことがいえる。

大数(たいすう)の法則(補) 黒と白の球が入った壺から繰り返し球を1個取り出し、球の色を記録してから戻し、中身をかき混ぜたあと、また球を取り出す。これをN回繰り返し、取り出した球が黒である割合(相対頻度、標本比率)が壺の中の黒い球の割合(母比率)からわずかな誤差e以内である確率はいくらか?Nを大きくすれば誤差eをいくらでも小さくすることができる。このことを示したのは、ジャック・ベルヌーイ(1713)。 「大数の法則」(Law of Large Numbers)という名前をつけ、より一般的なケースで証明したのは、シメオン・ドゥニ・ポアソン(1837)。

正規分布と <正規分布を売り歩いた男>ケトレー ケトレー 1796-1874

正規分布とケトレー(続) 特定の人間集団(たとえば、イギリス人とか日本人とか)について、典型的な「平均人(the average man)」を構想し、集団をその諸特性の平均により記述できると考えた。その際、個人差は、正規分布(誤差曲線)に沿った誤差のようなものとされた。 最近、ケトレーの構想したBMI指数(ボディー・マス・インデックス= 「体重(kg)÷身長(m)の2乗)」 )が話題になっている。

BMI指数(ケトレー指数)の話題 マドリード・ファッションショー:やせ過ぎモデル、5人が「失格」 「少女らに誤ったメッセージを送る」としてやせ過ぎたファッションモデルの出場を禁じたマドリード・ファッションショーが18日、開幕した。17日に行われた事前の身体測定では、モデル68人中5人が規定値に達せず出場禁止となった。イタリア・ミラノのファッションショーも規定導入の動きをみせるなど波紋が広がっている。  マドリード・ファッションショー主催者によると、身体測定は「ボディーマス指数(BMI=体重を身長の2乗で割った比率)が18以上」とする拒食症防止のための地域規定に基づいて実施された。「失格」は5人だったが、前年出場者の約30%が事前の測定さえ許可されなかったという。            毎日新聞 2006年9月19日 東京朝刊

ファッション・モデルとBMI指数 拒食症のモデル死去、174センチで40キロ ブラジル 拒食症のモデル死去、174センチで40キロ ブラジル  ブラジル・サンパウロ市内の病院で14日、女性ファッションモデルのアナ・カロリナ・ヘストンさん(21)が栄養失調による感染症で死亡した。ヘストンさんは拒食症で、174センチの身長に対し、体重はわずか40キロだった。体重を身長の2乗で割った体格指数(BMI)では18.5未満が「やせている」とされるが、ヘストンさんは13.2だった。  9月には「やせ過ぎモデルは過度のダイエットや拒食症を助長する」として、マドリードのファッションショーで複数のモデルが不採用となったばかり。世界的にやせ過ぎ問題が注目され始めている中、ヘストンさんの死はファッション界に大きな波紋を広げそうだ。( 2006年11月17日16時23分 時事)

正規分布(キー・ポイント) 正規分布表を使うためには、標準化する必要がある。 中心極限定理が重要。

区間推定とは何をやるのか?(1) 「標本分布」=標本統計量(標本平均とか標本分散とか、標本の関数である確率変数)の分布がキー。 中心極限定理によって、標本サイズ大の場合、  であることから

区間推定とは何をやるのか?(2) この式をかきかえて このように作られた区間を「信頼区間」という。

信頼区間の意味

練習問題 [問]ある交差点を通過する車のスピード(時速)を調べたところ、ほぼ正規分布にしたがっており、平均50km、標準偏差は18kmであった。制限速度が40km のとき、何% の車がスピード違反をしていると考えられるか。

練習問題 [問]ある集団のBMIが正規分布すること、またその標準偏差が1.00であることがわかっているとする。その集団から、100人のサンプルをとり、そのBMIの平均値が19.20であったとする。母集団のBMIの平均について、信頼度95%で区間推定をしなさい。 [問]その集団でBMIが18.00未満の人の割合はどのくらいか?

解答 次式により、(95%)信頼区間をつくる。 1.00 19.20 10 99%信頼区間なら?

この区間推定の問題 母集団の標準偏差(σ)が既知であることが前提されてしまっている。 標本の標準偏差(s)はわかっているだろうが、母集団の標準偏差はわかっていないのがむしろ普通の状況だろう。 その場合につかわれるのがt分布。次の確率変数tは、自由度n-1のt分布に従う。 標本標準偏差Sは、n-1で割る式による。nで割るS*だと、

正規分布とt分布 t分布の発見者は、ウィリアム・ゴセット。ゴセットは、ギネス・ビールの技術者だったので、会社の立場を考えて、“Student”というペンネームで論文を発表していたから、t分布のことをStudentのt分布とも呼ぶ。 t分布には、自由度というパラメーターがある。 自由度を無限大にすると、t分布は、正規分布に一致する。 したがって、サンプルが大きければ、σ未知でも、標本sで代用正規分布を使ってよいことになる。

t分布と正規分布の比較

標本から母集団を推測する2――失業率 標本の比率(割合)で母集団の対応する比率(割合)を推定しようとする典型例。 完全失業者数/労働力人口が完全失業率。 完全失業率の数字の見方を考えるには、概念がどうなっているか(「完全失業者」とは何か、「労働力人口」とは何か)を知る必要がある。また、統計的推測そのものについての理解(誤差への理解)が必要。

最近の失業率 2007年11月30日付け 『日本経済新聞』夕刊

最近の失業率 雇用改善は足踏み。 正社員の有効求人倍率はかなり低い。

職業安定業務統計 職業安定業務統計(一般職業紹介状況)は全国の公共職業安定所(ハローワーク)における職業紹介業務の実績を集計した業務統計である。 求人倍率・・・  「有効求人倍率」と「新規求人倍率」とがある。1人の求職者に対してどれだけの求人があるかを示す指標である。 有効求人倍率=有効求人数/有効求職者数 (倍) 新規求人倍率=新規求人数/新規求職者数 (倍) 「有効」とは? 求人・求職票は、原則として翌々月末まで有効。

去年の「完全失業率」の報道 『日本経済新聞』2006年12月1日付夕刊

労働力調査について 1. 調査の目的・沿革 国民の「就業及び不就業の状態」(就業状態)を明らかにすることを目的とし、昭和21年9月以降毎月実施している。 2 調査対象 全国全世帯の中から、無作為に選定した約4万世帯に居住する15歳以上の者約10万人 3.調査の期日   毎月末日現在で、月末1週間における就業・不就業の状態を調査する(12月は20日から26日までの1週間) 4.調査の方法   調査員が対象世帯に調査票を配布し、世帯がこれに記入、再び調査員が調査票を取集する。

労働力調査について (就業状態の諸概念) 就業状態の区分     ────── 調査でのとらえ方 ───────     ───── 結果表の表し方 ─────           ┌ 主に仕事 ┐            │               │           ├ 通学のかたわらに仕事 ┼………………従業者 ┐           │ │            │           ├ 家事などのかたわらに仕事 ┘          │          │                          │           │                            ├ 就業者 ┐ 調査期間中に少し ┤                         │  │   でも仕事をしたか │      │   │           │                          │ ├ 労働力人口 ┐            │           ┌ 仕事を休んでいた …… 休業者 ┘  │        │           │          │                      │    │            │           ├ 仕事を探していた …………… 完全失業者 ┘      ├15歳以上人口           │          │                             │           └ 仕事をしなかった ┼ 通学          ┐              │                     │           │                │                     ├ 家事         ┼ …………………… …非労働力人口 ┘                     │           │                     └ その他(高齢者など) ┘

労働力調査の用語(1) <就業状態> 15歳以上人口について,調査週間中の活動状態に基づいて次のように区分している。 <就業状態> 15歳以上人口について,調査週間中の活動状態に基づいて次のように区分している。 労働力人口:15歳以上人口のうち,就業者と完全失業者を合わせたもの 就 業 者 :従業者と休業者を合わせたもの 従 業 者:調査週間中に賃金,給料,諸手当,内職収入などの収入を伴う仕事(以下「仕事」という。)を 1時間以上した者。なお,家族従業者の場合は,無給であっても仕事をしたとする。 休 業 者:仕事を持ちながら,調査週間中少しも仕事をしなかった者のうち,1)雇用者で,給料,賃金の支払いを受けている者又は受けることになっている者 2)自営業主で,自分の経営する事業を持ったままで,その仕事を休み始めてから30日にならない者。なお,家族従業者で調査期間中に少しも仕事をしなかった者は休業に含めず,完全失業者又は非労働力人口のいずれかとしている。

労働力調査の用語(2) 失業の3条件(ILO) ①without work ②seeking work 完全失業者:次の3つの条件を満たす者 1)仕事がなくて調査週間中に少しも仕事をしなかった(就業者ではない) 2)仕事があればすぐ就くことができる 3)調査期間中に,仕事を探す活動や事業を始める準備をしていた(過去の求職活動の結果を待っている場合を含む)     非労働力人口:15歳以上人口で上記以外の者 労働力人口比率:15歳以上人口に占める労働力人口の割合 =(労働力人口÷15歳以上人口)×100 完全失業率:労働力人口に占める完全失業者の割合 =(完全失業者÷労働力人口)×100 失業の3条件(ILO) ①without work ②seeking work ③currently available for work

就業状態の調べ方 労働力(actual)方式  短い調査期間を限定し、その期間で就業状態を決定する。「月末1週間で少しでも仕事をしましたか?」……労働力調査、国勢調査 有業者(usual)方式  期間を限定せず、ふだんの状態で就業状態を決定する「あなたはふだん収入になる仕事をしていますか?」……就業構造基本調査

労働力調査の結果の公表 ・公表期日…………………原則として調査 月の翌月末 ・結果の刊行時期 労働力調査速報………公表時 ・公表期日…………………原則として調査  月の翌月末 ・結果の刊行時期 労働力調査速報………公表時 労働力調査月報………翌々月の下旬 労働力調査年報………翌年3月

労働・雇用に関する他の月次統計 ・世帯を通じて調査するもの………………… 労働力調査(総務省) ・事業所を通じて調査するもの………………        労働力調査(総務省) ・事業所を通じて調査するもの………………        毎月勤労統計調査(厚生労働省) ・業務統計によるもの………………………… 職業安定業務統計(厚生労働省)

労働力調査の調査票

労働力調査の調査票(続)

失業率の数字には誤差はどのくらいあるのか?(単純化された計算) 誤差には、標本誤差と非標本誤差とがある。 非標本誤差は、たとえば、誤記、集計ミス等々であったり、統計環境の問題であったりする。 標本誤差は、標本をとって調査することにより発生する誤差であるが、確率分布に関する知識を使ってコントロールすることができる。

失業率の数字には誤差はどのくらいあるのか?(単純化された計算) 実際にはそうではないが、単純無作為標本抽出(*)を行なって、労働力人口7万人のサンプルを得たとしよう。 そのサンプルに含まれる失業者数は、「失業」を「成功」と見た場合の「二項変数」。 「失業率」は、s/n。 サンプルが大きければ、失業率p=s/nは、平均π、分散π(1-π)/nの正規分布をする。 (*)実際は、層化二段抽出。

二項分布の期待値・分散(復習) 二項変数sは、ゼロワン変数の和であることに注意する。すなわち、πを成功確率とすると、

失業率の数字には誤差はどのくらいあるのか?(単純化された計算)

失業率の数字には誤差はどのくらいあるのか?(単純化された計算) P=0.040, n=70,000として±0.00145の誤差を見ておけば、95%の割合で(100回の内95回は)正しい推定になる。  0.03855  0.040   0.04145

失業率の数字には誤差はどのくらいあるのか?(単純化された計算) 信頼区間の幅には、nが大きく影響する。 以上の結果から見て、4.0%でなく、4.00%と発表する(もう一桁余計に発表する)ことはできそうもないことがわかる。 都道府県別失業率のように、サンプルが小さい場合、その数字の利用には注意が必要である。

謝辞 池の魚の数を数える例は、清水誠著『推測統計 はじめの一歩』(講談社ブルーバックス、2000年)のものを使わせていただきました。 池の魚の数を数える例は、清水誠著『推測統計 はじめの一歩』(講談社ブルーバックス、2000年)のものを使わせていただきました。 信頼区間の図示は、T.H.ウォナコット/R.J.ウォナコット著、国府田恒夫/田中一盛/細谷雄三訳『統計学序説』(培風館、1978年)のものです。 総務省統計局のホームページhttp://www.stat.go.jp  に掲載されているいくつかの素材をつかわせていただきました。