担当者 河田正樹 E-mail kawada@tokuyama-u.ac.jp 2012年度 統計学講義内容 担当者 河田正樹 E-mail kawada@tokuyama-u.ac.jp
このスライドの内容 統計学とはどのようなものか 経済学と統計学 データの収集、分析をおこなう統計学は、学問として存在しているばかりでなく、日常生活の中で無意識のうちにその考え方が用いられているものである。 経済学と統計学 経済学部という文系の学部で、統計学という数学のようなものはあまり関係ないように思われる。しかし、経済学を学ぶ上で、統計学は非常に重要なものであり、現実経済の把握や将来の予測には統計学が必ず用いられる。
直観的であいまいな観察に、客観性を与えてくれる。 統計学とはどのようなものか a) 統計学の考え方 (問) 大学から徳山駅まで、車で何分かかるのを知りたい。 どのようにすれば知ることができるだろうか? いつも大体、15分ぐらいで着く。 ⇒ 15分というのはきちんと測定した数値ですか? 実際に車で走ってみた。そのとき16分30秒かかった。 ⇒ 実際に測定した数値ですが、1回だけ良いのでしょうか? ※ 数多くの観察(実験)をおこなった結果、大学から駅まで何分かかるかを知ることができる。 直観的であいまいな観察に、客観性を与えてくれる。
駅まで車で何分かかるかを、わざわざ多数観察することは必要か? ⇒ 必要と思う人と、思わない人がいるであろう。 ⇒ しかし、駅までの所要時間が分かれば、効率的に行動することができる。 ⇒ 実際に測定すべきか、なんとなくの時間でよいかは、その人の状況によって 異なる。 この観察をおこなうときに、「時間帯」、「時期」、「曜日」、「天候」などについても同時に観察することも考えられよう。 これらのデータの間にから何を見出せるのであろう? ⇒ (例) 雨の日は通常より時間がかかる 夕方は日中より時間がかかる など われわれは、得られたデータ間に見いだされた関係から、将来より効率的に行動するために、何を学びうるであろうか? ⇒ (例)雨の日や夕方に大学から駅まで車で行くときには、所要時間が多くかかることを予測し、行動することが効率的である。
統計学 「経験」を効率的に整理する(少ない経験で、豊富な経験と同等の知識を持つ)ためには、統計学の助けが必要不可欠である。 統計学とは、分析目的に対応してデータを収集し、分析することによって、予測や意思決定のための材料を提供する学問である。 統計学 予測・ 意思決定 分析目的 データの収集 分析
データを収集し、分析する統計学の立場には次の2種類が考えられる。 b) 記述統計と推測統計 データを収集し、分析する統計学の立場には次の2種類が考えられる。 まず、得られたデータの特徴を何らかの数値(例えば平均)や表・グラフにまとめたりすることが考えられる。 ⇒ 記述統計(または統計的記述)という。 次に、データの記述にもとづき、そのデータを生成した集団や構造(これを母集団という)についての推論をおこなうことが考えられる。 ⇒ 推測統計という。
あるクラスのテストの点数が次のようになっていたとする。 1) 記述統計の例 あるクラスのテストの点数が次のようになっていたとする。 39, 22, 67, 60, 43, 20, 46, 47, 20, 30 63, 69, 78, 88, 73, 20, 58, 87, 47, 75 44, 69, 34, 20, 17, 63, 36, 7, 27, 21 44, 66, 33, 54, 34, 69, 60, 23 このような数字の羅列だけでは、このクラスの特徴をとらえることは難しい。そのため、このクラスの特徴を何らかの数値であらわしたり、表・グラフにまとめたりする、記述統計の助けが必要である。
クラスの特徴を、特性値(統計量ともいう)といわれる数値であらわしたり、度数分布表とヒストグラムといった表やグラフにまとめてみる。 特性値(統計量) 度数分布表 ヒストグラム
そのほか、今まで見慣れている、さまざまなグラフをとりあげる。どのような場合にどのグラフが有効であるか、再整理する。 折れ線グラフ 棒グラフ 出典:総務省統計局『労働力調査』 仮想データから作成 円グラフ 帯グラフ 仮想データから作成 出典:総務省統計局『国勢調査』
ˆ 推論 x p 2) 推測統計の例 母平均 μ 母比率 p 標本平均 標本比率 母数 θ 標本統計量 t 母集団(個体数N) 2) 推測統計の例 母集団(個体数N) 母集団 - 知りたい対象の集まり 標本 - 母集団から抜き出されたその一部 × × × × × × × 標本(個体数n) × × × × 全数調査 - 母集団の全てについて調査をおこなうこと 標本調査 - 母集団から抜き出された一部について調査をおこなうこと 推論 母平均 μ 母比率 p 標本平均 標本比率 x ˆ p 母数 θ 標本統計量 t 標本統計量をもとに、母数についての推論をおこなうのが推測統計である。
晴れた日の夕方のバスの所要時間を知りたいとする。 晴れた日の夕方のバスの所要時間を知りたいとする。 晴れた日の夕方に走るすべてのバスについて、所要時間のデータを収集することは不可能である。このとき、たとえば10日間に乗ったバスを標本(サンプル)として考える。 母集団(晴れた日の夕方のバス全体) × × × × × × × 標本(乗ったバス10回) × × 推論 平均所要時間 μ 平均所要時間 x 少ない「経験」をもとに、多くを経験した場合のことを推論する。
標本から得た母集団についての情報は、誤差を持っている。 3) 推測統計の注意点 標本から得た母集団についての情報は、誤差を持っている。 たとえば、晴れた平日の夕方にAさんとBさんがそれぞれ別の日にバスに乗ってデータ収集をおこなう。 Aさんは10回乗ったところ、目的地まで平均15分でついた。 Bさんは運の悪い人で、乗ったバスが信号に何度もつかまり、10回乗ったところ平均時間は20分であった。 母集団(晴れた日の夕方のバス全体) × × 標本1(Aさんの乗ったバス10回) 平均15分 × × × × × × × × × 標本2(Bさんの乗ったバス10回) 平均20分
⇒ 選んだ標本(サンプル)から求めた平均所要時間には誤差がある。 ⇒ 選んだ標本(サンプル)から求めた平均所要時間には誤差がある。 ⇒ 標本誤差(標本の偏り)の問題 ※ 内閣発足直後、新聞各社は支持率調査をおこなうが、各社ごとにその結果が異なる。それはこの標本誤差(標本の偏り)の問題による。 推測統計では、標本から得られる情報にもとに、確率を用いて、誤差の大きさを評価し、母集団についての情報を推論する。
2011年9月4日付の朝刊各紙に掲載された野田内閣支持率を見ると、異なった結果になっている。 <野田内閣発足直後の支持率の例> 母集団(有権者1億人) × × 標本1(朝日1051人) 53% × × × × × × × × × 標本2(読売1100人) 65% × × 標本3(毎日1001人) 56% 2011年9月4日付の朝刊各紙に掲載された野田内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。 × × 標本4(日経954人) 67% × × 標本5(共同1014人) 62%
推測統計の例 -視聴率- ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリサーチ社が調査している。 推測統計の例 -視聴率- ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリサーチ社が調査している。 全国を各地区に分け、視聴率を調べているが、新聞などで大きく取り上げられるのは、関東地区の結果である。 関東地区の場合、約1580万世帯のうち、600世帯を標本(サンプル)として選び調査している。 母集団(1580万世帯) × × × × × × × 標本(600世帯) × × × ×
(例) 2012年4月1日放送の「キリンチャレンジカップサッカー2012・なでしこJAPAN×アメリカ」の視聴率は14.8%であった。 テレビ局の論理 1580万世帯×0.148 = 234万世帯が視聴している。 視聴率が1%増えるということは、関東地区だけで 1580万世帯×0.01 = 15万世帯増加 全国では4700万世帯×0.01 = 47万世帯(その世帯に住む人数を考えると約100万人の増加) ⇒ 標本誤差を考慮せず、標本から求めた視聴率が母集団から求めた視聴率に等しいとしている。
統計学の論理 標本の600世帯×0.148 = 89世帯が視聴しているというだけのこと。 視聴率が1%増えるということは、600世帯×0.01 = 6世帯がたまたまその番組を見ていたことである。 1%程度の視聴率は標本誤差によって変わる可能性がある。
では、標本調査で14.8%という結果を得た場合、母集団の視聴率はどの程度なのだろうか? ⇒ これに答えるのが統計的推定 ⇒ これに答えるのが統計的推定 視聴率10%以上の番組を作った場合、プロデューサーの査定にプラスになるという内規があったとする。しかし、この番組は本当に10%を超えたのだろうか? ⇒ これに答えるのが統計的検定 ※ 2003年10月に発覚した、視聴率操作事件をおこした日本テレビプロデューサーは、視聴率のわずかな差にこだわっていたが、統計学の立場からすると、わずかな差にこだわるのはバカバカしい。
経済学と統計学 経済学を学ぶ場合、マクロ経済学やミクロ経済学などの経済理論を学ぶとともに、それらが現実経済と一致するかを検証しなくてはならない。 一致? 現実経済 経済理論
現実経済の状態を把握するために、記述統計が用いられる。 完全失業率を算出する 株価の動きをグラフ化する 所得税減税効果と、消費増大の関係について、回帰分析をおこなう。 → 所得税を○○%引き下げることによって、消費が△△%増大する さらに、現状把握をもとに予測し、意思決定をおこなうためには、推測統計が用いられる。
完全失業率は、これは日本全国15歳以上(1億人)から10万人を標本として選んだ調査の結果である。この数値が前月と比べて0 完全失業率は、これは日本全国15歳以上(1億人)から10万人を標本として選んだ調査の結果である。この数値が前月と比べて0.1%増えたところで、誤差の範囲内ではないだろうか? 所得税を○○%引き下げることによって、消費が△△%増大することが回帰分析によってわかった。しかし、この分析は標本にもとづいて分析されたものであり、実際には ± □% の誤差がある。 ⇒ 誤差をふまえたうえでの意思決定が必要
マーケティングと統計学 マーケティングと統計学は密接な関係がある。 コンビニなどのPOSシステムのデータは、天候、時間、年齢、性別などによってどのような商品が売れるのかを解析するために用いられている。 市場調査のためにアンケートをおこなう場合には、調査対象者をどのぐらいの規模でどのようにして選ぶかなどには統計学の知識が必要不可欠である。(統計的推定に含まれるサンプリング(標本抽出法)の話)
スポーツと統計学 スポーツの戦術、トレーニング方法などを科学的に解明する場合、統計学の助けが必要となる。 野球の戦術において、打率、防御率などはどの選手をどのように起用するか(打順、登板順など)に用いられるし、投手の配球を読む上で統計学は非常に役に立つ。選手の起用に際して、メジャーリーグのアスレチックスを起源とするでは「セイバーメトリクス」という統計的分析手法が出てきており、OPS(On-base Plus Slugging)という出塁率+長打率で求められる指標が、得点との関連が高いことがいわれている。 トレーニングの面では、2つのトレーニング方法があった場合、どちらがより効果的なトレーニング方法であるかなどは、統計的検定によって検証される。
講義内容 第1章 記述統計の復習 第2章 確率と確率分布 第3章 統計的推定 第4章 統計的検定 第5章 回帰分析入門