Download presentation
Presentation is loading. Please wait.
Published byふじよし りゅうとう Modified 約 8 年前
1
データ分析第2回授業 第 2 章データ分析の進め方 第 3 章データの収集と編成
2
データ分析の手順 研究テーマの選択 仮説の設定 計画の立案 データの収集 収集したデータの吟 味 データの分析 分析結果の検討 考察と結論 報告書の作成 発表
3
研究のデザイン 研究計画書を書く 研究計画書に含まなければならない項 目 目的 関連先行研究の検討、提案研究の位置づけ (予算配分) 研究の枠組み 研究の内容 期待される成果、社会的意義
4
研究の枠組み 研究の仮説 作業計画(タイムスケジュール) 作業分担
5
研究の内容 データ収集の方法 分析の手法 予算
6
自分が興味を持てるテーマ 自分がこの研究をすることによってオ リジナルな成果が出せる。 文献をよくサーベイする(すでにされ ていることを繰り返しても意味がな い) 結果についてある程度見通しがつく (自分なりの仮説がある) テーマの選択
7
データの収集と分析 既製データの利用 自分でデータを収集
8
既製データの利用 データの出所 データ項目の意味と分類基準 他のデータとの整合性 異常値や欠損値のチェック
9
自分でデータを収集 実験あるいは調査をデザイン 倫理上の問題に留意 被調査者、被験者に実験の趣旨を説明、 同意を得る
10
データの吟味 はずれ値、欠損値のチェック 問題が生じる原因 データが異常な現実を反映 測定に問題 値の収集、処理のミス(入力ミスなど)
11
第 3 章 データの収集と編成
12
データの収集と編成 我々のまわりには多くのデータが存在してい る。 気温、身長、足の大きさ、タレント好感度、結婚件数、 出生率、株価、偏差値 ……. あなたの関心のあるデータは何だろうか?考 えてみよう。 そのデータを集める意味は何だろうか? そのデータはどのような性質を備えているだろ うか? どのようにそのデータを集めるのか?
13
データとは何か? 「推論・判断の基礎となる情報を含んでいる 事実・数値」 「コンピューターのよる情報処理などのため に記号化・数値化した資料」 「知りたい対象を数値で測定し、表現するも の」 ⇒数値で表現できないデータも存在する。 ⇒しかし、「データ分析」で対象とする多く のデータは数値で表現できるデータを前提と している。
14
なぜ「数」を使うのか? 正確さ 客観的で正確な記述が可能 曖昧性の排除 汎用性 比較性 ある基準を設定して他のデータと比較することが可能。 確率判断からある種の予測を行うことが可能。 要約性(数値的要約、視覚的要約) 多くのデータを特定の視点からまとめることが可能。 簡潔な表現によって、データ全体の特徴や傾向を知ることが可能。 統計処理が可能
15
データのもつ情報の要約性 3 大都市の観光客数(架空データ)
16
データのタイプ 表現される対象の性質によって、デー タの取り扱いも異なる。 データのタイプを見分ける 3 つのポイン ト 量的データか、質的データか? 離散変量か、連続変量か? 測定尺度(ものさし)は何か?
17
量的データの性質 対象の属性、特徴を数量によって表現 量的に変化する特性を備える。 数値、数量で表すのが容易なもの 一定の基準により計算することが可能 ⇒間隔尺度、比率尺度から得られる。 ⇒カテゴリー区分にすると、質的データ に変換することも可能
18
質的データの性質 対象の属性や性質を表す。 属性や言葉など質的な特性を表すもの 数値や数量で表すのが難しい、あるい は馴染まない。 ⇒名義尺度や順序尺度から得られる。 ⇒データの性質、必要に応じて「数量 化」の手続きを行う。
19
連続変量と離散変量 連続変量 連続的に変化する変量(小数点値もある) 例;長さ、広さ、重さ、時間など 一般的に、連続変量は量的データに分類される。 離散変量 頻度 整数値をとるデータ( 1 つ、 2 つ、 3 つと数えら れる) 例;人数や回数、個数など 離散変量は、量的データに分類されることが多いが、 数量化された質的データの中にも一部離散変量として 扱えるものがある。
20
基本的な測定尺度( 1 ) 名義尺度 数としてではなく単なる記号として任意の数字を用いて いる。 大小関係、差異に関する比較はできない。 ⇒例;支持政党を問う時、自民党なら「 1 」、民主党なら 「 2 」、公明党なら「 3 」というように回答を数で表す方 法。 順序尺度 測定値間の大小関係(順位関係)は表すが、その差異は 表現しない。平均をとる意味ない。 1番と2番の差は3番と4番の差と等しい保証は何もな い。 ⇒例;タレントの好き嫌いを問うとき、 “ とても嫌い ” なら 「 1 」、 “ やや嫌い ” なら「 2 」、 “ どちらでもない ” なら 「 3 」、 “ やや好き ” なら「 4 」、 “ とても好き ” なら「 5 」
21
基本的な測定尺度( 2 ) 間隔尺度 大小関係だけでなく、数値の間に等間隔性がある。 数値の差や和に意味があるが、測定値間の剰余は不可能。 間隔尺度で測定されるものの例は極めて少なく、比率尺 度と取り扱い上の共通点が多い。 ⇒例:温度(摂氏、華氏)、知能指数など。 比率尺度 (比例尺度) 原点0が一義的に決まっている。 間隔尺度に原点を加えたもの。(絶対原点からの等間隔 な目盛りづけ) ある対象の程度が別の対象の何倍であるかという比率を 評価できる。 ⇒例;時間、長さ、重さ、人数など
22
量的データの分類まとめ 量的データ 連続変量 離散変量 連続的に変化 計量データともいう。 例:身長、気温、距離 離散的に変化(常に整数値) 計数データともいう。 例:バスケットの得点差 ・量的に変化する特性を備える ・数値、数量で表すのが容易なもの ・一定の基準により計算することが可能 ⇒比率尺度か間隔尺度で測定
23
質的データの分類まとめ 質的データ 順序づけ可能 順序づけ不可能 数量化に馴染まないもの 例:血液型、性別、職業、出 身地 ⇒名義尺度で測定 例:顧客満足度、政治不信度、賛否意見 ⇒順序尺度で測定 属性や言葉など質的な特性を表すもの 数値や数量で表すのが難しいもの 例:日記、生活記録
24
どの尺度を用いている か??? 1. 好きなお酒の種類( “ 日本酒、ビール、ワイン、 ウイスキーの中でどれが最も好きか?という質 問に対する回答) 2. 結婚式にかけるお金の額 3. 横綱、大関、関脇という相撲取りの番付 4. 都道府県別交通事故数 5.“ 呼びすて ”“ 君づけ ”“ さん付け ” といった呼称の 様式 6. 学年別「データ分析」の受講者数 7. 生活満足度アンケート調査の回答( “ 大変満足 している ” を「 1 」、 “ 満足している ” を「 2 」、 “ あ まり満足していない ” を「 3 」、 “ 満足していな い ” を 4 とした場合)
25
どの尺度を用いているか?回 答 1. 好きなお酒の種類⇒名義尺度 2. 結婚式にかけるお金の額⇒比率尺度 3. 相撲取りの番付⇒順序尺度 4. 都道府県別交通事故数⇒比率尺度 5. 呼称の様式⇒名義尺度 6. 学年別「データ分析」の受講者数⇒比率尺度 7. 生活満足度アンケート調査の回答⇒順序尺度 間違っていた人はよく復習してください。
26
主要なデータの収集方法 実験⇒ 9 週 調査⇒ 9 週 質問紙法と面接法 図書館の活用 統計書 データベース 各種年鑑や資料 ※ 分析用のデータ収集の前に、関心あるテーマに関す る基本的な書物も読んでおこう。
27
統計データの種類 集計データ 最初から個別調査の結果を集計量として 提示されているもの 個票データ 集計される前の個別のデータとして利用 されているもの ※但し、日本では、プライバシーの観点か ら個票データが入手できる可能性は低い。
28
データ調査・作成主体 政府機関のデータ 政府統計 調査統計※統計作成自身が目的 例;国勢調査、事業所統計調査、商業統計調査 業務統計 例;通関統計、出入国管理統計、犯罪統計、司法統計 加工統計 例;国民経済統計 行政情報 各官庁が独自の調査 ※政府統計と異なり必ずしもデータが公開されるとは限らない 民間調査機関や業界団体などの諸機関
29
統計データの探索 統計情報の索引から統計調査項目で探す 『統計情報インデックス』、『統計調査総覧』、『~ 白書』 統計データを収録した年鑑類から数字を見な がら探す 新聞社の年鑑、『民力』、『地域経済総覧』『理科年 表』 統計データベースとインターネットの利用 日経 NEEDS DIALOG 官公庁のホームページ SFC のデータベース活用⇒『データベースガイド』参 考
30
統計データの探索例 例えば、貯蓄の動向についてのデータ を入手したい場合 http://www.stat.go.jp/data/chochiku/index. htm
31
データの編成 時系列データ 時間軸に沿って並べられているデータ クロスセクションデータ 時点を一定に保って、異なった対象を観 測して得られるデータ パネルデータ クロスセクションデータがまとまって時 系列的に並んでいるデータ
32
課題 自分の関心のあるテーマに関する複数 のデータを収集する具体的な方法を考 えなさい。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.