データ分析
授業の目標 データから情報を読み取るために、次の技術を身に つける データを適切な図表に表す データの数量的要約の方法とその意味について学ぶ データ間の関係を説明する 統計調査の方法(課題解決的アプローチ)を学ぶ 統計的推測、確率的思考の基礎を学ぶ
参考書・評価方法 参考書 成績評価:課題・小テスト・レポート 実データで学ぶ、使うための統計入門 D. ムーア、G. マッケイブ 日本評論社 参考書 実データで学ぶ、使うための統計入門 D. ムーア、G. マッケイブ 日本評論社 完全独習 統計学入門 小島 寛之 ダイヤモンド社 読む統計学 使う統計学 広田 すみれ 慶応義塾大学出版会 統計学の基礎 中西寛子 多賀出版 成績評価:課題・小テスト・レポート
講義トピックス データとは・データの収集と分類 1次元データの記述(分布を見る) 正規分布 多次元データの記述(関係を見る) 時系列データの記述 経済時系列 回帰分析入門 統計的推測に向けて・確率論的思考
オフィス・アワー 金曜日 16:10~17:00 2号館8階 経済学部第10研究室 金曜日 16:10~17:00 2号館8階 経済学部第10研究室 メールによる質問も受け付けますが、必ず学籍番号と 氏名を入れてください!
授業についての注意 携帯 OFF! 私語・遅刻 厳禁 質問はいつでもOK! 授業中に発言(反応)しよう! 関係ないホームページを見ないこと! 私語・遅刻 厳禁 質問はいつでもOK! 授業中に発言(反応)しよう! 関係ないホームページを見ないこと! 5月13日(水)は4:30pmより行います (1年生は懇親会に出席してください)
なぜ、データ分析(統計的分析)? 数量的情報(データ)はあらゆるところに存在 数量的情報(データ)はあらゆるところに存在 情報の賢い消費者になる 図表の読み方、数量情報に関する議論を理解する必要 私達の日常生活に影響を及ぼす様々なものが、統計的手 法により決定されている 病気の治療法・薬の認可 水道水の品質 保険料 将来、どのような職業についても、データに基づく意思決定 が必要に
データ分析(統計的分析)の目的 データから学ぶ! そのための手段が統計学 データを見やすく要約・記述 データの規則性を探す データを見やすく要約・記述 データの規則性を探す 1,2をもとに予測・推測、意思決定 データから学ぶ! そのための手段が統計学 記述統計学 推測統計学
統計(statistics)とは 統計:集められた‘データの集合’自体 データ:ばらつきのある観測値の集合 データ:ばらつきのある観測値の集合 統計学: データから有益な情報(法則性)を引き出す方法 ---情報の賢い消費者になるために必要な技術 データを収集し、処理し、解釈するために用いられる手法
データ≠情報 360 300 420 840 330 400 240 480 600 180 540 380 270 120 280 450
統計的グラフによる表示
統計調査(課題解決的アプローチ) 調査企画(計画) 問題は何か? どのようなデータが必要か? データ収集 適切なデータの収集方法を計画、実行 調査企画(計画) 問題は何か? どのようなデータが必要か? データ収集 適切なデータの収集方法を計画、実行 データ整理(加工) 図表・数字を用いてデータを表現 データ分析 データの持つ情報を読み取る 結果を解釈 発表 必要であれば1.に戻る
データと変数(変量) 統計調査:あるグループ(母集団)についての情報を得るた めに、データを収集、分析 データ:観測または実験によって得られる値 他の人が集めたものを使うことも データ収集:母集団の要素(個体)を観測し、変数の値(デー タ)を測定 変数(変量): 各要素の性質 (特徴) 要素毎に異なる値 * 値に影響を及ぼさないよう観測することが大事
他人が集めたデータを調べるとき 何のために集められたデータか(目的) 何(誰)に関するデータか どのような特徴があるか (変数はいくつあるか・変数は何か・各変数の単位 は?)
統計調査(データ収集) 全数調査:興味の対象となる集団(母集団)のすべての 構成員について調査 例) 国勢調査 商業統計 工業統計 例) 国勢調査 商業統計 工業統計 標本調査:興味の対象となる集団の一部についてのみ 調査 例) 家計調査 労働力調査 選ばれた一部:標本
母集団と標本 母集団 標本調査 標本 記述統計学 × × 要素 × × × × × × × × × × × 推測統計学
記述統計学と推測統計学 記述統計学:データを 読みやすい形に要約、編集 推測統計学:標本データをもとに母集団の性質につい て推論
なぜ、標本調査? 費用の節減 時間の短縮 (データの調査及び集計) 母集団が無限である場合 情報の範囲の拡大 精度の向上 標本調査の欠点 費用の節減 時間の短縮 (データの調査及び集計) 母集団が無限である場合 情報の範囲の拡大 精度の向上 標本調査の欠点 地域別等の細分が困難 標本の偏り
偏った標本 調査しやすい要素を選択 例)箱詰めオレンジの品質調査 例)百貨店の客に対する調査 回答者が自らが調査に参加するか否かを決定 例)箱詰めオレンジの品質調査 例)百貨店の客に対する調査 回答者が自らが調査に参加するか否かを決定 例)電話による意思表示 恣意的な選択はバイアスをもたらす!
標本の選び方 有意抽出法 :調査者が意識的に標本の構成員を選ぶ 調査の精度、評価できない 調査の精度、評価できない 無作為抽出法 :調査者の主観が入らないように、機械 的な方法で標本を抽出すること(“偶然”を利用) 調査の誤差、客観的に評価可能
標本調査法(無作為抽出法) 無作為抽出 ① 単純無作為抽出法 ② 層別抽出法(単純無作為抽出の精緻化) ③ 系統抽出法 ④ 多段抽出法
単純無作為抽出法 母集団の構成要素のそれぞれに1~Nまでの番号を ふる(母集団リスト作成) くじ引きの要領でn個抽出(乱数を用いる) 全ての構成要素に等しいチャンス 他の要素とは独立(無関係)に抽出
単純無作為抽出法の欠点 母集団が大きい場合、母集団リストの作成は困難 調査費用大 母集団に関する予備知識の利用により精度を上げる ことが可能
家計調査の場合 層化三段抽出法 第1段階:市町村の層別と抽出 第2段階:調査地区の無作為抽出 第3段階:調査世帯の無作為抽出 調査拒否をどれだけ減らすことが出来るか? 家計調査
調査における誤差 標本抽出誤差(標本調査に固有) たまたま偏りのある標本が選ばれる 誤差の大きさ、客観的に評価可能 たまたま偏りのある標本が選ばれる 誤差の大きさ、客観的に評価可能 非標本誤差(全数調査においても発生) 調査漏れ(リスト欠落・調査拒否) 回答・測定の偏り こちらの方が深刻!
データの分類 質的データと量的データ 1次元データと多次元データ クロスセクションデータ・時系列データ・パネルデータ
質的データと量的データ(1) 性別 所有するPCのメーカー 郵政民営化への賛否 住居のある都道府県 etc. 数値として観測することができない あるカテゴリー(項目)に属していることや、ある状態 にあることだけがわかる 質的データ
質的データと量的データ(2) 家族の子供の数 預金残高 東京の年間降水量 所有するCDの枚数 etc. 本質的に数字で表されるもの 量的データ
量的データ ① 離散的データ…とりうる数値がとびとびの場合 典型的には数えることにより得られる ① 離散的データ…とりうる数値がとびとびの場合 典型的には数えることにより得られる ② 連続的データ…数直線上の特定の範囲でどのよう な値でも取れる場合 典型的には測る(量る)ことにより得られる
質的データ ① 名義(名目)尺度を持つデータ 項目間に自然な順序は存在しない 例)性別 PCのメーカー ビール会社 ① 名義(名目)尺度を持つデータ 項目間に自然な順序は存在しない 例)性別 PCのメーカー ビール会社 ② 順序(順位)尺度を持つデータ 項目間に自然な順序が存在 例)ある商品をどう思うか 1.非常に良い 2.良い 3.まあまあ 4.悪い 5.非常に悪い 例)成績 S/A/B/C/D/E/F
計測形態による分類 クロスセクション(横断面)データ 各観測値が同一の時点(期間)のデータ 各観測値が同一の時点(期間)のデータ 時系列データ 各観測値が時間の順序に並んでいるもの パネルデータ 同一集団が繰り返し調査される場合