データ分析第2回授業 第 2 章データ分析の進め方 第 3 章データの収集と編成
データ分析の手順 研究テーマの選択 仮説の設定 計画の立案 データの収集 収集したデータの吟 味 データの分析 分析結果の検討 考察と結論 報告書の作成 発表
研究のデザイン 研究計画書を書く 研究計画書に含まなければならない項 目 目的 関連先行研究の検討、提案研究の位置づけ (予算配分) 研究の枠組み 研究の内容 期待される成果、社会的意義
研究の枠組み 研究の仮説 作業計画(タイムスケジュール) 作業分担
研究の内容 データ収集の方法 分析の手法 予算
自分が興味を持てるテーマ 自分がこの研究をすることによってオ リジナルな成果が出せる。 文献をよくサーベイする(すでにされ ていることを繰り返しても意味がな い) 結果についてある程度見通しがつく (自分なりの仮説がある) テーマの選択
データの収集と分析 既製データの利用 自分でデータを収集
既製データの利用 データの出所 データ項目の意味と分類基準 他のデータとの整合性 異常値や欠損値のチェック
自分でデータを収集 実験あるいは調査をデザイン 倫理上の問題に留意 被調査者、被験者に実験の趣旨を説明、 同意を得る
データの吟味 はずれ値、欠損値のチェック 問題が生じる原因 データが異常な現実を反映 測定に問題 値の収集、処理のミス(入力ミスなど)
第 3 章 データの収集と編成
データの収集と編成 我々のまわりには多くのデータが存在してい る。 気温、身長、足の大きさ、タレント好感度、結婚件数、 出生率、株価、偏差値 ……. あなたの関心のあるデータは何だろうか?考 えてみよう。 そのデータを集める意味は何だろうか? そのデータはどのような性質を備えているだろ うか? どのようにそのデータを集めるのか?
データとは何か? 「推論・判断の基礎となる情報を含んでいる 事実・数値」 「コンピューターのよる情報処理などのため に記号化・数値化した資料」 「知りたい対象を数値で測定し、表現するも の」 ⇒数値で表現できないデータも存在する。 ⇒しかし、「データ分析」で対象とする多く のデータは数値で表現できるデータを前提と している。
なぜ「数」を使うのか? 正確さ 客観的で正確な記述が可能 曖昧性の排除 汎用性 比較性 ある基準を設定して他のデータと比較することが可能。 確率判断からある種の予測を行うことが可能。 要約性(数値的要約、視覚的要約) 多くのデータを特定の視点からまとめることが可能。 簡潔な表現によって、データ全体の特徴や傾向を知ることが可能。 統計処理が可能
データのもつ情報の要約性 3 大都市の観光客数(架空データ)
データのタイプ 表現される対象の性質によって、デー タの取り扱いも異なる。 データのタイプを見分ける 3 つのポイン ト 量的データか、質的データか? 離散変量か、連続変量か? 測定尺度(ものさし)は何か?
量的データの性質 対象の属性、特徴を数量によって表現 量的に変化する特性を備える。 数値、数量で表すのが容易なもの 一定の基準により計算することが可能 ⇒間隔尺度、比率尺度から得られる。 ⇒カテゴリー区分にすると、質的データ に変換することも可能
質的データの性質 対象の属性や性質を表す。 属性や言葉など質的な特性を表すもの 数値や数量で表すのが難しい、あるい は馴染まない。 ⇒名義尺度や順序尺度から得られる。 ⇒データの性質、必要に応じて「数量 化」の手続きを行う。
連続変量と離散変量 連続変量 連続的に変化する変量(小数点値もある) 例;長さ、広さ、重さ、時間など 一般的に、連続変量は量的データに分類される。 離散変量 頻度 整数値をとるデータ( 1 つ、 2 つ、 3 つと数えら れる) 例;人数や回数、個数など 離散変量は、量的データに分類されることが多いが、 数量化された質的データの中にも一部離散変量として 扱えるものがある。
基本的な測定尺度( 1 ) 名義尺度 数としてではなく単なる記号として任意の数字を用いて いる。 大小関係、差異に関する比較はできない。 ⇒例;支持政党を問う時、自民党なら「 1 」、民主党なら 「 2 」、公明党なら「 3 」というように回答を数で表す方 法。 順序尺度 測定値間の大小関係(順位関係)は表すが、その差異は 表現しない。平均をとる意味ない。 1番と2番の差は3番と4番の差と等しい保証は何もな い。 ⇒例;タレントの好き嫌いを問うとき、 “ とても嫌い ” なら 「 1 」、 “ やや嫌い ” なら「 2 」、 “ どちらでもない ” なら 「 3 」、 “ やや好き ” なら「 4 」、 “ とても好き ” なら「 5 」
基本的な測定尺度( 2 ) 間隔尺度 大小関係だけでなく、数値の間に等間隔性がある。 数値の差や和に意味があるが、測定値間の剰余は不可能。 間隔尺度で測定されるものの例は極めて少なく、比率尺 度と取り扱い上の共通点が多い。 ⇒例:温度(摂氏、華氏)、知能指数など。 比率尺度 (比例尺度) 原点0が一義的に決まっている。 間隔尺度に原点を加えたもの。(絶対原点からの等間隔 な目盛りづけ) ある対象の程度が別の対象の何倍であるかという比率を 評価できる。 ⇒例;時間、長さ、重さ、人数など
量的データの分類まとめ 量的データ 連続変量 離散変量 連続的に変化 計量データともいう。 例:身長、気温、距離 離散的に変化(常に整数値) 計数データともいう。 例:バスケットの得点差 ・量的に変化する特性を備える ・数値、数量で表すのが容易なもの ・一定の基準により計算することが可能 ⇒比率尺度か間隔尺度で測定
質的データの分類まとめ 質的データ 順序づけ可能 順序づけ不可能 数量化に馴染まないもの 例:血液型、性別、職業、出 身地 ⇒名義尺度で測定 例:顧客満足度、政治不信度、賛否意見 ⇒順序尺度で測定 属性や言葉など質的な特性を表すもの 数値や数量で表すのが難しいもの 例:日記、生活記録
どの尺度を用いている か??? 1. 好きなお酒の種類( “ 日本酒、ビール、ワイン、 ウイスキーの中でどれが最も好きか?という質 問に対する回答) 2. 結婚式にかけるお金の額 3. 横綱、大関、関脇という相撲取りの番付 4. 都道府県別交通事故数 5.“ 呼びすて ”“ 君づけ ”“ さん付け ” といった呼称の 様式 6. 学年別「データ分析」の受講者数 7. 生活満足度アンケート調査の回答( “ 大変満足 している ” を「 1 」、 “ 満足している ” を「 2 」、 “ あ まり満足していない ” を「 3 」、 “ 満足していな い ” を 4 とした場合)
どの尺度を用いているか?回 答 1. 好きなお酒の種類⇒名義尺度 2. 結婚式にかけるお金の額⇒比率尺度 3. 相撲取りの番付⇒順序尺度 4. 都道府県別交通事故数⇒比率尺度 5. 呼称の様式⇒名義尺度 6. 学年別「データ分析」の受講者数⇒比率尺度 7. 生活満足度アンケート調査の回答⇒順序尺度 間違っていた人はよく復習してください。
主要なデータの収集方法 実験⇒ 9 週 調査⇒ 9 週 質問紙法と面接法 図書館の活用 統計書 データベース 各種年鑑や資料 ※ 分析用のデータ収集の前に、関心あるテーマに関す る基本的な書物も読んでおこう。
統計データの種類 集計データ 最初から個別調査の結果を集計量として 提示されているもの 個票データ 集計される前の個別のデータとして利用 されているもの ※但し、日本では、プライバシーの観点か ら個票データが入手できる可能性は低い。
データ調査・作成主体 政府機関のデータ 政府統計 調査統計※統計作成自身が目的 例;国勢調査、事業所統計調査、商業統計調査 業務統計 例;通関統計、出入国管理統計、犯罪統計、司法統計 加工統計 例;国民経済統計 行政情報 各官庁が独自の調査 ※政府統計と異なり必ずしもデータが公開されるとは限らない 民間調査機関や業界団体などの諸機関
統計データの探索 統計情報の索引から統計調査項目で探す 『統計情報インデックス』、『統計調査総覧』、『~ 白書』 統計データを収録した年鑑類から数字を見な がら探す 新聞社の年鑑、『民力』、『地域経済総覧』『理科年 表』 統計データベースとインターネットの利用 日経 NEEDS DIALOG 官公庁のホームページ SFC のデータベース活用⇒『データベースガイド』参 考
統計データの探索例 例えば、貯蓄の動向についてのデータ を入手したい場合 htm
データの編成 時系列データ 時間軸に沿って並べられているデータ クロスセクションデータ 時点を一定に保って、異なった対象を観 測して得られるデータ パネルデータ クロスセクションデータがまとまって時 系列的に並んでいるデータ
課題 自分の関心のあるテーマに関する複数 のデータを収集する具体的な方法を考 えなさい。