データ分析入門(9) 第9章 データの品質 廣野 元久.

Slides:



Advertisements
Similar presentations
計測工学 - 測定の誤差と精度 2- 計測工学 2009 年 4 月 28 日 Ⅱ限目. 授業内容 2.1 数値計算における誤差 2.2 計算過程での誤差 2.3 測定の精度.
Advertisements

東京大学医学系研究科 特任助教 倉橋一成 1.  背理法を使った理論展開 1. 帰無仮説( H0 、差がない)が真であると仮定 2. H0 の下で「今回得られたデータ」以上の値が観測でき る確率( P 値)を計算 3. P 値が 5% 未満:「 H0 の下で今回のデータが得られる可 能性が低い」
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
の範囲に、 “ 真の値 ” が入っている可能性が約 60% 以上ある事を意味する。 (測定回数 n が増せばこの可能性は増 す。) 平均値 偶然誤差によ るばらつき v i は 測定値と平均値の差 で残差、 また、 σ は、標準誤差( Standard Error, SE ) もしくは、平均値の標準偏差、平均値の平均二乗.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
数理統計学  第9回 西山.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
データ分析入門(7) 第7章 データの操作と比較 廣野元久.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
データ分析入門(11) 第11章 平均値の差の検定 廣野元久.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
臨床統計入門(2) 箕面市立病院小児科  山本威久 平成23年10月20日.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成.
レポートの作成 効果的な発表の仕方.
統計学  第7回 西 山.
統計学 12/3(月).
4.「血液透析看護共通転院サマリーVer.2」 の説明
経済統計 第三回 5/1 Business Statistics
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
統計学 11/30(木).
データ分析入門(10) 第10章 クロス集計表と仮説検定 廣野元久.
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
本時の目標 標本調査の意味を知り、全数調査と標本調査の違いを理解する。
統計的推論 正規分布,二項分布などを仮定 検定 統計から行う推論には統計的( )と統計的( )がある 推定
疫学(Epidemiology) 第4回 標本抽出法 誤差やバイアスの制御 中澤 港(内線1453)
市場調査のプロセス 企画段階.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
統計リテラシー教育における 携帯端末の利用
データ分析入門(13) 第13章 主成分分析 廣野元久.
統計学  第6回 西山.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
数理統計学 第11回 西 山.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成.
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第3章 統計的推定 (その1) 統計学 2006年度.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
統計学 西 山.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
疫学概論 バイアス Lesson 17. バイアスと交絡 §A. バイアス S.Harano, MD,PhD,MPH.
数理統計学 西 山.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
尺度化について 狩野 裕 大阪大学人間科学部.
誤 差 誤差 = 測定値 - 真値 ・真値は神様だけが知っている。 ・ばらつきの程度を表す意味が薄い。
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
統計学  第9回 西 山.
数理統計学 西 山.
推定と予測の違い 池の魚の体重の母平均を知りたい→推定 池の魚を無作為に10匹抽出して調査 次に釣り上げる魚の体重を知りたい→予測
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
設計工学 内容 目的 ★もの作りのための設計 ★実際の現場で役立つ設計 ★機械設計や機械作りの楽しさを知る。 ★工学的な理屈を考える。
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
サンプリングと確率理論.
Presentation transcript:

データ分析入門(9) 第9章 データの品質 廣野 元久

本章の概要 測定の誤差が生じる要因 誤差の回避方法 誤差は分析結果を歪める 他人の収集データの誤差つき方の認識 調査計画と誤差の回避法 実験計画と誤差の回避法 第9章 データの品質 廣野元久 &高橋行雄

1.誤差の種類とデータの品質(1) 1.1 データのばらつき 1.2 誤差の種類:かたよりとばらつき 1.1 データのばらつき データは誤差(Error)を持つ:小泉政権の支持率 1.2 誤差の種類:かたよりとばらつき 観測値=真値+誤差(真値は不明が多い) 誤差には 系統誤差:偏り(Bias)    =平均値-真値 偶然誤差:残差        =観測値-平均値 データの構造     観測値=真値+偏り+残差          =真値+(平均値-真値)+(観測値-平均値)                   正確さ     精密さ   第9章 データの品質 廣野元久 &高橋行雄

1.誤差の種類とデータの品質(2) 測定器:標準器に対して,通常使う測定器固有の偏り があるとき正確でないデータとなる 第9章 データの品質 第9章 データの品質 廣野元久 &高橋行雄

1.誤差の種類とデータの品質(3) 標準偏差が小さい 標準偏差が大きい 第9章 データの品質 廣野元久 &高橋行雄

2.データの収集方法が品質に与える影響 データ収集者 データをどのように収集したのかを記録した、 データヒストリーを記録する 分析者   データをどのように収集したのかを記録した、   データヒストリーを記録する 分析者   データヒストリーを吟味してから分析に入る どっちの料理でしょうでは、     特選素材を提供する仕事人のヒストリー     特選素材を使ったシェフの料理の進行 を楽しむことができる 第9章 データの品質 廣野元久 &高橋行雄

2.1 統計データの品質 第一義統計:素材が新鮮 第二義統計:加工食材 国の安定度、裕福さによってもデータの信憑性は異なる 2.1 統計データの品質 第一義統計:素材が新鮮 全数調査:原則的に誤差はない(除く、回答もれなど) 標本調査:標本抽出による誤差が生じる 第二義統計:加工食材 すでにある誤差を取り除くことは困難 データの信憑性の限界を考えておく 国の安定度、裕福さによってもデータの信憑性は異なる 昔の共産圏の国々のデータは、その政策上、あやしげだった 第9章 データの品質 廣野元久 &高橋行雄

2.2実験・調査データの品質 データの正確さ データの精密さ 抽出された集団の代表性 設問配置、方法、調査の言葉使い 被験者、評価者の思い込み、バイアス データの精密さ 標本の大きさ 実験環境の設定 測定技術 質問文の曖昧さ 第9章 データの品質 廣野元久 &高橋行雄

3.データの品質を保つ収集の技術 3.1 調査対象の抽出 多くの場合、全数調査は困難 3.1 調査対象の抽出 多くの場合、全数調査は困難 経済的、時間的、効率的、実際的に難しい 工業製品は、一部抜き取り検査で品質を保証 信頼性の高い製品では、無検査で市場に出る 対象全体(母集団)から標本をランダム抽出する 標本調査が現実的 対象全体が反映されるような標本を抽出する(代表性) 対象中の要素が偏りなく、平等に選ばれる 統計の神様は冷淡 第9章 データの品質 廣野元久 &高橋行雄

3.1 調査対象の抽出 臨床試験ではランダム割付 母集団はどんな性質をもっているか 母集団の状態はどうなっているか 第9章 データの品質 3.1 調査対象の抽出 臨床試験ではランダム割付 母集団はどんな性質をもっているか 母集団の状態はどうなっているか 第9章 データの品質 廣野元久 &高橋行雄

3.1.1抽出された集団の代表性 社会調査における集団の代表性 実験における集団の代表性 無作為抽出、ランダム抽出 選ばれ方が平等 他の要素に無関係に選ばれる ランダム抽出と場当たり抽出とは違う 実験における集団の代表性 仮説検証(自分のアイデアを証明する)素材 一般性が成り立つ限界の把握 再現性があるかどうかのチェック 統計の神様は冷淡 何を研究対象:母集団としているのか? 明確に定義しておく 第9章 データの品質 廣野元久 &高橋行雄

3.1.2 標本の大きさ(1) 標本の大きさ(サンプルサイズ)を増やせば、精密 大数の法則 調査では、標本の大きさが30以上の大標本を使う 3.1.2 標本の大きさ(1) 標本の大きさ(サンプルサイズ)を増やせば、精密 大数の法則 調査では、標本の大きさが30以上の大標本を使う 標本から求めた平均値や比率などの特性値は、標本数n  により精度が増す 1/√n 第9章 データの品質 廣野元久 &高橋行雄

3.1.2 標本の大きさ(2) 標本の大きさを考える:95%信頼区間 比率p=r/nの母集団の分布はnが大きいときには正規分布に近似できる 3.1.2 標本の大きさ(2) 標本の大きさを考える:95%信頼区間 比率p=r/nの母集団の分布はnが大きいときには正規分布に近似できる 平均値 p 測定の散らばり 0.025 0.025 この幅をある値にするために標本数を決める 第9章 データの品質 廣野元久 &高橋行雄

3.1.2 標本の大きさ(3) 第9章 データの品質 廣野元久 &高橋行雄

予防率の信頼区間 タミフル群 2人 / 155人 1.3% プラセボ群 13人 / 153人 8.5% 第9章 データの品質 タミフル群 2人 / 155人 1.3% プラセボ群   13人 / 153人 8.5% 第9章 データの品質 廣野元久 &高橋行雄

Excelの計算シート 第9章 データの品質 廣野元久 &高橋行雄

95%の正確な信頼区間 タミフル群 2人 / 155人 1.3% プラセボ群 13人 / 153人 8.5% タミフル群 2人 / 155人 1.3% 95%下限 = 0.002 = 0.2% 95%上限 = 0.040 = 4.0% プラセボ群   13人 / 153人 8.5% 95%下限 = 0.051 = 5.1% 95%上限 = 0.140 = 14.0% 第9章 データの品質 廣野元久 &高橋行雄

3.1.3 調査票の配布と回収 調査票は100%回収されない 調査票の配布,電話,直接面談 企業のCS(顧客満足度)調査が50%強で上出来 設問が多ければ回答しない 分からないから何でも聞くという態度は賢明ではない みんな忙しいので,回答のお願いをはがき等で出す 謝礼やお礼の粗品を工夫する 粗品と一緒に調査票を配る お願いの手紙を添える 分析結果を何がしかの方法で公開する旨を示す 責任者の連絡先を明記する 調査票の配布,電話,直接面談 服装,言葉使いには十分気をつける 第9章 データの品質 廣野元久 &高橋行雄

3.2実験環境の設定 3.2.1 実験計画 実験計画法 料理も段取りが大切!!,段取りが悪いとパニックになる 実験を行う場合には,何がしかの仮説があるので段取りをきちんと行う 科学的段取り方法として,実験計画法がある 実験計画法 局所管理(実験条件の管理) 仮説を確認する要因以外の条件は,できるだけ同じにする ランダマイズ 実験の順番は,偶然誤差だけが抽出されるように無作為に行う 水準設定の繰り返し,あるいは反復 第9章 データの品質 廣野元久 &高橋行雄

3.2.1 実験計画 新薬の実験計画 ある英国貴婦人はミルクティを作るのに 薬の効果,安全性を調べる 実験群は複数用意することもある 3.2.1 実験計画 新薬の実験計画 新薬を投与する群 :実験群 にせ薬(プラセボ)を投与する群:統制群,対照群 薬の効果,安全性を調べる 実験群は複数用意することもある ある英国貴婦人はミルクティを作るのに 1)はじめにミルクを入れる 2)次いで熱い紅茶を入れる 1),2)の順序が逆だとうっまずい(邪道という!!) 本当に1),2)の順番と2),1)の順番で差が分かるのか? 実験を計画してみよう 第9章 データの品質 廣野元久 &高橋行雄

3.2.2 精密な測定 計測器の出力の桁数が多いと精密と思いがちだが,きちんと測られている保証はない. 高い測定機器が精度が良いわけではない 3.2.2 精密な測定 計測器の出力の桁数が多いと精密と思いがちだが,きちんと測られている保証はない. 高い測定機器が精度が良いわけではない 昔,波形を測定する(回路のノイズ)のに2つの測定器の精度を比較したら,表示桁数の少ない旧式の方が精度が良かった. 実験装置や測り方や測る人を工夫する 測定機器の精度の限界を理解しておく 第9章 データの品質 廣野元久 &高橋行雄

3.2.3 客観的な測定 評価に恣意が入らないように注意する ある会社で,自社とライバル会社のコピー機の画質の比較をした. 3.2.3 客観的な測定 評価に恣意が入らないように注意する ある会社で,自社とライバル会社のコピー機の画質の比較をした. 設計者は自社を甘く,ライバル会社を厳しく評価しがちであった 検査者は自社を厳しく,ライバル会社を甘く評価しがちであった パイロットのヒューマンエラーを調べたら パイロットのミスはほとんどゼロになった. 実際は80%はヒューマンエラーだった パイロットは査定されると思い,無意識に自己防衛した 新薬では,二重盲検(マスキング法)を行う 患者も,薬を投与する先生も,どちらが新薬でどちらがプラセボか分からないように実験する 第9章 データの品質 廣野元久 &高橋行雄

3.3 設問の配置や方法 人は,ちょっとしたことに反応(気分を害する)する 相手に失礼や誤解がないような設問,質問の仕方をする 学歴,年齢などプライバシーに関る質問には十分な配慮 調査票の最後に配置し,もしよろしければ・・…を加える 回答に偏りや不必要なばらつきが生じないようにする 設問,質問は,単文で,分かりやすい言葉を使う 設問,質問には,主語である,あなたは…・とする 若者言葉や口語調の言いまわしはしない 第9章 データの品質 廣野元久 &高橋行雄

3.3.1 設問の配置 社会調査 実験 製品の満足度調査と不満足調査では結果が異なる 文脈効果,接近誤差(誘導尋問)に注意する 質問の前後の関連性が強くなることがある コピー機の故障の頻度とサービス窓口の対応を聞いたのに関連が強くなって解釈に困った 実験 同じ内容でも言いまわし(肯定的,否定的)で回答が異なる 製品の満足度調査と不満足調査では結果が異なる 第9章 データの品質 廣野元久 &高橋行雄

3.3.2 設問方法,実験方法や言葉使い(1) 1)設問や教示の正確性 時事用語,流行語,学術・専門語などの使用は十分注意 安易に英単語のカタカナ書きはしない ミッション,ファンクション,ベネフィット などなど 年代によって,言葉から受けるイメージが違う メロディの官能実験で 40代,50代:たそがれた と うらぶれた が関連が強かった 20代 :たそがれた と ロマンチックな が関連が強かった 質問の正確性 単文で,具体的記述であることが肝心 :複数の意味にとれるものは× 社会調査 安易に「その他」は使わない 必要な選択肢を用意しておく 実験 教示文(実験の前の説明,手順の紹介)は容易,簡潔,適切 第9章 データの品質 廣野元久 &高橋行雄

3.3.2 設問方法,実験方法や言葉使い(2) 2)反応,回答の偏りの防止 実験 もう1度,点数の順番に並べ替えて,調整する 黙従傾向 選挙の候補者の名前の順序や街角ポスターの順番はランダム 好き嫌いなどは,段階評点がよい,SD法など 社会調査 個人の倫理観,見栄,外聞に関する設問はバイアスがかかる 選挙にいきますか:選挙に行くと答える方が実際の思いより多くなる 実験 刺激(対象物)の順番は重要 ビールやお茶を官能評価するのに,最初に飲んだものが基準となる テストの点をつけるのに,始めは厳しくつけるが,だんだん甘くなる もう1度,点数の順番に並べ替えて,調整する 第9章 データの品質 廣野元久 &高橋行雄

3.3.2 設問方法,実験方法や言葉使い(3) 3)回答者の人格尊重 理解に苦しんだ タバコを吸う人にPRするものか 対象者の人格を考えて設問を作る どんなに配慮しても,お叱りは受けることを覚悟する 協力して頂いているという謙虚な気持ちが大切 学生であるという甘えは禁物 余談:昔,奥さんとデート中にアンケートの協力をした アンケートはタバコのコマーシャルフィルムの評価 タバコを吸わないので,どのフィルムも低い評価をつけた 理解に苦しんだ タバコを吸う人にPRするものか タバコを吸わない人の嫌悪感を調べるものか 第9章 データの品質 廣野元久 &高橋行雄

ある日の午後,食堂に行き,30人にアンケート用紙を配り,その結果を基にして,その大学の就職活動を行っている学生の意見とした アンケートの設問と選択肢の作成 ある大学の就職課では就職活動における性差の問題に関する調査を行うことになった. 以下の方法で調査をしたが,問題点はあるか 方法 ある日の午後,食堂に行き,30人にアンケート用紙を配り,その結果を基にして,その大学の就職活動を行っている学生の意見とした 第9章 データの品質 廣野元久 &高橋行雄

調査項目の作成(1) 携帯電話の購入理由を調査したい どのような質問文と選択肢を作ればよいか 得られたデータの尺度は何か 第9章 データの品質 廣野元久 &高橋行雄

トヨタとホンダのブランドが若者に与える印象を調査したい.どのような調査票を作成すべきか 調査項目の作成(2) トヨタとホンダのブランドが若者に与える印象を調査したい.どのような調査票を作成すべきか 第9章 データの品質 廣野元久 &高橋行雄

調査項目の作成(3) 携帯電話の当たり前(そのような機能があって当然と思う)品質と魅力品質(革新的な機能)について年代別に調査したい.どのような調査票を作るとよいか 第9章 データの品質 廣野元久 &高橋行雄