データ分析第2回授業 第 2 章データ分析の進め方 第 3 章データの収集と編成. データ分析の手順 研究テーマの選択 仮説の設定 計画の立案 データの収集 収集したデータの吟 味 データの分析 分析結果の検討 考察と結論 報告書の作成 発表.

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

はじめてのパターン認識 第1章 第4グループ 平田翔暉. パターン認識 パターン認識 o 観測されたパターンを、あらかじめ定められ たクラスに分類すること クラス o 硬貨: 1 円玉、 5 円玉、 10 円玉、 50 円玉、 100 円玉、 500 円玉 o アルファベット: 26 種類 o 数字:
提示順と判定基準が レレバンス判定に与える影響 安形 輝(亜細亜大学)
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
第1章 記述統計の復習 統計学 2007年度.
社会調査とは何か(3) 調査対象者の選定方法
Excelによる統計分析のための ワークシート開発
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成.
レポートの作成 効果的な発表の仕方.
実証分析の手順 経済データ解析 2011年度.
統計学 第3回 「データの尺度・データの図示」
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
データ分析入門(3) 第3章 データの収集と編成 廣野元久.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
 授業を設計する(その4) 情報科教育法 後期5回 2004/11/6 太田 剛.
「ICT社会におけるコミュニケーション力の育成」 研修モジュール C-1:パネルディスカッション
PPM手法を適用した 訓練評価手法構築の試み 第2報 - 平成13年度から平成16年度までの 指導員研修改善の経過 -
プログラムの動作を理解するための技術として
マーケティング・リサーチ.
経済データのダウンロードと グラフの作成 経済データ解析 2011年度.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
12月4日 伊藤 早紀 重回帰分析.
「教育工学をはじめよう」  第2章     学会発表に向けて     プロポーザルを書く 発表 菊池 陵  皂 智樹.
統計リテラシー育成のための数学の指導方法に関する実践的研究
データの分類 P.128 診断や治療を,長年の経験則に頼らず, 科学的根拠に裏付けされた事実に基づいて判断する。
調査結果の集計 集計と尺度 調査企画→調査票の作成・サンプリング→フィールドワーク→集計→分析→調査票の作成
データ分析基礎c(2012年以降入学) 情報編集基礎c(2011年以前入学)
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
地理情報システム論演習 地理情報システム論演習
Evidence-based Practice とは何か
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成.
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
仮想評価(仮想市場)法 CVM(Contingent Valuation Method)
動的依存グラフの3-gramを用いた 実行トレースの比較手法
経済データのダウンロードと グラフの作成 経済データ解析 2009年度.
数量分析 第2回 データ解析技法とソフトウェア
(社) 建設コンサルタンツ協会 技術委員会/照査に関する特別WG
IoT活用による糖尿病重症化予防法の開発を目指した研究
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
講師メモ 田中 潔 岡山商科大学商学部助教授 連絡先(質問や相談ごと) 〒700-8601(商大,専用番号)
データベースの作り方  リサーチカンファレンス.
analysis of survey data 堀 啓造
(別紙1) プレゼンテーション の実施方法 ・期末試験期間の後,1組,2組, 夜間主の全グループが一会場で行う.
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
情報コミュニケーション入門b 第9回 表計算ソフト入門(3)
第2章 統計データの記述 データについての理解 度数分布表の作成.
調査結果の集計 集計と尺度 調査企画→調査票の作成・サンプリング→フィールドワーク→集計→分析→調査票の作成
回帰分析入門 経済データ解析 2011年度.
30分でわかる 統計資料の探し方 平成22年10月29日 茨城大学図書館 図書館キャラクター 「わらづと君」 茨城大学図書館.
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

データ分析第2回授業 第 2 章データ分析の進め方 第 3 章データの収集と編成

データ分析の手順 研究テーマの選択 仮説の設定 計画の立案 データの収集 収集したデータの吟 味 データの分析 分析結果の検討 考察と結論 報告書の作成 発表

研究のデザイン 研究計画書を書く 研究計画書に含まなければならない項 目 目的 関連先行研究の検討、提案研究の位置づけ (予算配分) 研究の枠組み 研究の内容 期待される成果、社会的意義

研究の枠組み 研究の仮説 作業計画(タイムスケジュール) 作業分担

研究の内容 データ収集の方法 分析の手法 予算

自分が興味を持てるテーマ 自分がこの研究をすることによってオ リジナルな成果が出せる。 文献をよくサーベイする(すでにされ ていることを繰り返しても意味がな い) 結果についてある程度見通しがつく (自分なりの仮説がある) テーマの選択

データの収集と分析 既製データの利用 自分でデータを収集

既製データの利用 データの出所 データ項目の意味と分類基準 他のデータとの整合性 異常値や欠損値のチェック

自分でデータを収集 実験あるいは調査をデザイン 倫理上の問題に留意 被調査者、被験者に実験の趣旨を説明、 同意を得る

データの吟味 はずれ値、欠損値のチェック 問題が生じる原因 データが異常な現実を反映 測定に問題 値の収集、処理のミス(入力ミスなど)

第 3 章 データの収集と編成

データの収集と編成 我々のまわりには多くのデータが存在してい る。 気温、身長、足の大きさ、タレント好感度、結婚件数、 出生率、株価、偏差値 ……. あなたの関心のあるデータは何だろうか?考 えてみよう。 そのデータを集める意味は何だろうか? そのデータはどのような性質を備えているだろ うか? どのようにそのデータを集めるのか?

データとは何か? 「推論・判断の基礎となる情報を含んでいる 事実・数値」 「コンピューターのよる情報処理などのため に記号化・数値化した資料」 「知りたい対象を数値で測定し、表現するも の」 ⇒数値で表現できないデータも存在する。 ⇒しかし、「データ分析」で対象とする多く のデータは数値で表現できるデータを前提と している。

なぜ「数」を使うのか? 正確さ 客観的で正確な記述が可能 曖昧性の排除 汎用性 比較性 ある基準を設定して他のデータと比較することが可能。 確率判断からある種の予測を行うことが可能。 要約性(数値的要約、視覚的要約) 多くのデータを特定の視点からまとめることが可能。 簡潔な表現によって、データ全体の特徴や傾向を知ることが可能。 統計処理が可能

データのもつ情報の要約性 3 大都市の観光客数(架空データ)

データのタイプ 表現される対象の性質によって、デー タの取り扱いも異なる。 データのタイプを見分ける 3 つのポイン ト 量的データか、質的データか? 離散変量か、連続変量か? 測定尺度(ものさし)は何か?

量的データの性質 対象の属性、特徴を数量によって表現 量的に変化する特性を備える。 数値、数量で表すのが容易なもの 一定の基準により計算することが可能 ⇒間隔尺度、比率尺度から得られる。 ⇒カテゴリー区分にすると、質的データ に変換することも可能

質的データの性質 対象の属性や性質を表す。 属性や言葉など質的な特性を表すもの 数値や数量で表すのが難しい、あるい は馴染まない。 ⇒名義尺度や順序尺度から得られる。 ⇒データの性質、必要に応じて「数量 化」の手続きを行う。

連続変量と離散変量 連続変量 連続的に変化する変量(小数点値もある) 例;長さ、広さ、重さ、時間など 一般的に、連続変量は量的データに分類される。 離散変量 頻度 整数値をとるデータ( 1 つ、 2 つ、 3 つと数えら れる) 例;人数や回数、個数など 離散変量は、量的データに分類されることが多いが、 数量化された質的データの中にも一部離散変量として 扱えるものがある。

基本的な測定尺度( 1 ) 名義尺度 数としてではなく単なる記号として任意の数字を用いて いる。 大小関係、差異に関する比較はできない。 ⇒例;支持政党を問う時、自民党なら「 1 」、民主党なら 「 2 」、公明党なら「 3 」というように回答を数で表す方 法。 順序尺度 測定値間の大小関係(順位関係)は表すが、その差異は 表現しない。平均をとる意味ない。 1番と2番の差は3番と4番の差と等しい保証は何もな い。 ⇒例;タレントの好き嫌いを問うとき、 “ とても嫌い ” なら 「 1 」、 “ やや嫌い ” なら「 2 」、 “ どちらでもない ” なら 「 3 」、 “ やや好き ” なら「 4 」、 “ とても好き ” なら「 5 」

基本的な測定尺度( 2 ) 間隔尺度 大小関係だけでなく、数値の間に等間隔性がある。 数値の差や和に意味があるが、測定値間の剰余は不可能。 間隔尺度で測定されるものの例は極めて少なく、比率尺 度と取り扱い上の共通点が多い。 ⇒例:温度(摂氏、華氏)、知能指数など。 比率尺度 (比例尺度) 原点0が一義的に決まっている。 間隔尺度に原点を加えたもの。(絶対原点からの等間隔 な目盛りづけ) ある対象の程度が別の対象の何倍であるかという比率を 評価できる。 ⇒例;時間、長さ、重さ、人数など

量的データの分類まとめ 量的データ 連続変量 離散変量 連続的に変化 計量データともいう。 例:身長、気温、距離 離散的に変化(常に整数値) 計数データともいう。 例:バスケットの得点差 ・量的に変化する特性を備える ・数値、数量で表すのが容易なもの ・一定の基準により計算することが可能 ⇒比率尺度か間隔尺度で測定

質的データの分類まとめ 質的データ 順序づけ可能 順序づけ不可能 数量化に馴染まないもの 例:血液型、性別、職業、出 身地 ⇒名義尺度で測定 例:顧客満足度、政治不信度、賛否意見 ⇒順序尺度で測定 属性や言葉など質的な特性を表すもの 数値や数量で表すのが難しいもの 例:日記、生活記録

どの尺度を用いている か??? 1. 好きなお酒の種類( “ 日本酒、ビール、ワイン、 ウイスキーの中でどれが最も好きか?という質 問に対する回答) 2. 結婚式にかけるお金の額 3. 横綱、大関、関脇という相撲取りの番付 4. 都道府県別交通事故数 5.“ 呼びすて ”“ 君づけ ”“ さん付け ” といった呼称の 様式 6. 学年別「データ分析」の受講者数 7. 生活満足度アンケート調査の回答( “ 大変満足 している ” を「 1 」、 “ 満足している ” を「 2 」、 “ あ まり満足していない ” を「 3 」、 “ 満足していな い ” を 4 とした場合)

どの尺度を用いているか?回 答 1. 好きなお酒の種類⇒名義尺度 2. 結婚式にかけるお金の額⇒比率尺度 3. 相撲取りの番付⇒順序尺度 4. 都道府県別交通事故数⇒比率尺度 5. 呼称の様式⇒名義尺度 6. 学年別「データ分析」の受講者数⇒比率尺度 7. 生活満足度アンケート調査の回答⇒順序尺度 間違っていた人はよく復習してください。

主要なデータの収集方法 実験⇒ 9 週 調査⇒ 9 週 質問紙法と面接法 図書館の活用 統計書 データベース 各種年鑑や資料 ※ 分析用のデータ収集の前に、関心あるテーマに関す る基本的な書物も読んでおこう。

統計データの種類 集計データ 最初から個別調査の結果を集計量として 提示されているもの 個票データ 集計される前の個別のデータとして利用 されているもの ※但し、日本では、プライバシーの観点か ら個票データが入手できる可能性は低い。

データ調査・作成主体 政府機関のデータ 政府統計 調査統計※統計作成自身が目的 例;国勢調査、事業所統計調査、商業統計調査 業務統計 例;通関統計、出入国管理統計、犯罪統計、司法統計 加工統計 例;国民経済統計 行政情報 各官庁が独自の調査 ※政府統計と異なり必ずしもデータが公開されるとは限らない 民間調査機関や業界団体などの諸機関

統計データの探索 統計情報の索引から統計調査項目で探す 『統計情報インデックス』、『統計調査総覧』、『~ 白書』 統計データを収録した年鑑類から数字を見な がら探す 新聞社の年鑑、『民力』、『地域経済総覧』『理科年 表』 統計データベースとインターネットの利用 日経 NEEDS DIALOG 官公庁のホームページ SFC のデータベース活用⇒『データベースガイド』参 考

統計データの探索例 例えば、貯蓄の動向についてのデータ を入手したい場合 htm

データの編成 時系列データ 時間軸に沿って並べられているデータ クロスセクションデータ 時点を一定に保って、異なった対象を観 測して得られるデータ パネルデータ クロスセクションデータがまとまって時 系列的に並んでいるデータ

課題 自分の関心のあるテーマに関する複数 のデータを収集する具体的な方法を考 えなさい。