Download presentation
Presentation is loading. Please wait.
1
データ分析入門(9) 第9章 データの品質 廣野 元久
2
本章の概要 測定の誤差が生じる要因 誤差の回避方法 誤差は分析結果を歪める 他人の収集データの誤差つき方の認識 調査計画と誤差の回避法
実験計画と誤差の回避法 第9章 データの品質 廣野元久 &高橋行雄
3
1.誤差の種類とデータの品質(1) 1.1 データのばらつき 1.2 誤差の種類:かたよりとばらつき
1.1 データのばらつき データは誤差(Error)を持つ:小泉政権の支持率 1.2 誤差の種類:かたよりとばらつき 観測値=真値+誤差(真値は不明が多い) 誤差には 系統誤差:偏り(Bias) =平均値-真値 偶然誤差:残差 =観測値-平均値 データの構造 観測値=真値+偏り+残差 =真値+(平均値-真値)+(観測値-平均値) 正確さ 精密さ 第9章 データの品質 廣野元久 &高橋行雄
4
1.誤差の種類とデータの品質(2) 測定器:標準器に対して,通常使う測定器固有の偏り があるとき正確でないデータとなる 第9章 データの品質
第9章 データの品質 廣野元久 &高橋行雄
5
1.誤差の種類とデータの品質(3) 標準偏差が小さい 標準偏差が大きい 第9章 データの品質 廣野元久 &高橋行雄
6
2.データの収集方法が品質に与える影響 データ収集者 データをどのように収集したのかを記録した、 データヒストリーを記録する 分析者
データをどのように収集したのかを記録した、 データヒストリーを記録する 分析者 データヒストリーを吟味してから分析に入る どっちの料理でしょうでは、 特選素材を提供する仕事人のヒストリー 特選素材を使ったシェフの料理の進行 を楽しむことができる 第9章 データの品質 廣野元久 &高橋行雄
7
2.1 統計データの品質 第一義統計:素材が新鮮 第二義統計:加工食材 国の安定度、裕福さによってもデータの信憑性は異なる
2.1 統計データの品質 第一義統計:素材が新鮮 全数調査:原則的に誤差はない(除く、回答もれなど) 標本調査:標本抽出による誤差が生じる 第二義統計:加工食材 すでにある誤差を取り除くことは困難 データの信憑性の限界を考えておく 国の安定度、裕福さによってもデータの信憑性は異なる 昔の共産圏の国々のデータは、その政策上、あやしげだった 第9章 データの品質 廣野元久 &高橋行雄
8
2.2実験・調査データの品質 データの正確さ データの精密さ 抽出された集団の代表性 設問配置、方法、調査の言葉使い
被験者、評価者の思い込み、バイアス データの精密さ 標本の大きさ 実験環境の設定 測定技術 質問文の曖昧さ 第9章 データの品質 廣野元久 &高橋行雄
9
3.データの品質を保つ収集の技術 3.1 調査対象の抽出 多くの場合、全数調査は困難
3.1 調査対象の抽出 多くの場合、全数調査は困難 経済的、時間的、効率的、実際的に難しい 工業製品は、一部抜き取り検査で品質を保証 信頼性の高い製品では、無検査で市場に出る 対象全体(母集団)から標本をランダム抽出する 標本調査が現実的 対象全体が反映されるような標本を抽出する(代表性) 対象中の要素が偏りなく、平等に選ばれる 統計の神様は冷淡 第9章 データの品質 廣野元久 &高橋行雄
10
3.1 調査対象の抽出 臨床試験ではランダム割付 母集団はどんな性質をもっているか 母集団の状態はどうなっているか 第9章 データの品質
3.1 調査対象の抽出 臨床試験ではランダム割付 母集団はどんな性質をもっているか 母集団の状態はどうなっているか 第9章 データの品質 廣野元久 &高橋行雄
11
3.1.1抽出された集団の代表性 社会調査における集団の代表性 実験における集団の代表性 無作為抽出、ランダム抽出
選ばれ方が平等 他の要素に無関係に選ばれる ランダム抽出と場当たり抽出とは違う 実験における集団の代表性 仮説検証(自分のアイデアを証明する)素材 一般性が成り立つ限界の把握 再現性があるかどうかのチェック 統計の神様は冷淡 何を研究対象:母集団としているのか? 明確に定義しておく 第9章 データの品質 廣野元久 &高橋行雄
12
3.1.2 標本の大きさ(1) 標本の大きさ(サンプルサイズ)を増やせば、精密 大数の法則 調査では、標本の大きさが30以上の大標本を使う
3.1.2 標本の大きさ(1) 標本の大きさ(サンプルサイズ)を増やせば、精密 大数の法則 調査では、標本の大きさが30以上の大標本を使う 標本から求めた平均値や比率などの特性値は、標本数n により精度が増す /√n 第9章 データの品質 廣野元久 &高橋行雄
13
3.1.2 標本の大きさ(2) 標本の大きさを考える:95%信頼区間 比率p=r/nの母集団の分布はnが大きいときには正規分布に近似できる
3.1.2 標本の大きさ(2) 標本の大きさを考える:95%信頼区間 比率p=r/nの母集団の分布はnが大きいときには正規分布に近似できる 平均値 p 測定の散らばり 0.025 0.025 この幅をある値にするために標本数を決める 第9章 データの品質 廣野元久 &高橋行雄
14
3.1.2 標本の大きさ(3) 第9章 データの品質 廣野元久 &高橋行雄
15
予防率の信頼区間 タミフル群 2人 / 155人 1.3% プラセボ群 13人 / 153人 8.5% 第9章 データの品質
タミフル群 人 / 155人 1.3% プラセボ群 13人 / 153人 8.5% 第9章 データの品質 廣野元久 &高橋行雄
16
Excelの計算シート 第9章 データの品質 廣野元久 &高橋行雄
17
95%の正確な信頼区間 タミフル群 2人 / 155人 1.3% プラセボ群 13人 / 153人 8.5%
タミフル群 人 / 155人 1.3% 95%下限 = 0.002 = 0.2% 95%上限 = 0.040 = 4.0% プラセボ群 13人 / 153人 8.5% 95%下限 = 0.051 = 5.1% 95%上限 = 0.140 = 14.0% 第9章 データの品質 廣野元久 &高橋行雄
18
3.1.3 調査票の配布と回収 調査票は100%回収されない 調査票の配布,電話,直接面談 企業のCS(顧客満足度)調査が50%強で上出来
設問が多ければ回答しない 分からないから何でも聞くという態度は賢明ではない みんな忙しいので,回答のお願いをはがき等で出す 謝礼やお礼の粗品を工夫する 粗品と一緒に調査票を配る お願いの手紙を添える 分析結果を何がしかの方法で公開する旨を示す 責任者の連絡先を明記する 調査票の配布,電話,直接面談 服装,言葉使いには十分気をつける 第9章 データの品質 廣野元久 &高橋行雄
19
3.2実験環境の設定 3.2.1 実験計画 実験計画法 料理も段取りが大切!!,段取りが悪いとパニックになる
実験を行う場合には,何がしかの仮説があるので段取りをきちんと行う 科学的段取り方法として,実験計画法がある 実験計画法 局所管理(実験条件の管理) 仮説を確認する要因以外の条件は,できるだけ同じにする ランダマイズ 実験の順番は,偶然誤差だけが抽出されるように無作為に行う 水準設定の繰り返し,あるいは反復 第9章 データの品質 廣野元久 &高橋行雄
20
3.2.1 実験計画 新薬の実験計画 ある英国貴婦人はミルクティを作るのに 薬の効果,安全性を調べる 実験群は複数用意することもある
3.2.1 実験計画 新薬の実験計画 新薬を投与する群 :実験群 にせ薬(プラセボ)を投与する群:統制群,対照群 薬の効果,安全性を調べる 実験群は複数用意することもある ある英国貴婦人はミルクティを作るのに 1)はじめにミルクを入れる 2)次いで熱い紅茶を入れる 1),2)の順序が逆だとうっまずい(邪道という!!) 本当に1),2)の順番と2),1)の順番で差が分かるのか? 実験を計画してみよう 第9章 データの品質 廣野元久 &高橋行雄
21
3.2.2 精密な測定 計測器の出力の桁数が多いと精密と思いがちだが,きちんと測られている保証はない. 高い測定機器が精度が良いわけではない
3.2.2 精密な測定 計測器の出力の桁数が多いと精密と思いがちだが,きちんと測られている保証はない. 高い測定機器が精度が良いわけではない 昔,波形を測定する(回路のノイズ)のに2つの測定器の精度を比較したら,表示桁数の少ない旧式の方が精度が良かった. 実験装置や測り方や測る人を工夫する 測定機器の精度の限界を理解しておく 第9章 データの品質 廣野元久 &高橋行雄
22
3.2.3 客観的な測定 評価に恣意が入らないように注意する ある会社で,自社とライバル会社のコピー機の画質の比較をした.
3.2.3 客観的な測定 評価に恣意が入らないように注意する ある会社で,自社とライバル会社のコピー機の画質の比較をした. 設計者は自社を甘く,ライバル会社を厳しく評価しがちであった 検査者は自社を厳しく,ライバル会社を甘く評価しがちであった パイロットのヒューマンエラーを調べたら パイロットのミスはほとんどゼロになった. 実際は80%はヒューマンエラーだった パイロットは査定されると思い,無意識に自己防衛した 新薬では,二重盲検(マスキング法)を行う 患者も,薬を投与する先生も,どちらが新薬でどちらがプラセボか分からないように実験する 第9章 データの品質 廣野元久 &高橋行雄
23
3.3 設問の配置や方法 人は,ちょっとしたことに反応(気分を害する)する 相手に失礼や誤解がないような設問,質問の仕方をする
学歴,年齢などプライバシーに関る質問には十分な配慮 調査票の最後に配置し,もしよろしければ・・…を加える 回答に偏りや不必要なばらつきが生じないようにする 設問,質問は,単文で,分かりやすい言葉を使う 設問,質問には,主語である,あなたは…・とする 若者言葉や口語調の言いまわしはしない 第9章 データの品質 廣野元久 &高橋行雄
24
3.3.1 設問の配置 社会調査 実験 製品の満足度調査と不満足調査では結果が異なる 文脈効果,接近誤差(誘導尋問)に注意する
質問の前後の関連性が強くなることがある コピー機の故障の頻度とサービス窓口の対応を聞いたのに関連が強くなって解釈に困った 実験 同じ内容でも言いまわし(肯定的,否定的)で回答が異なる 製品の満足度調査と不満足調査では結果が異なる 第9章 データの品質 廣野元久 &高橋行雄
25
3.3.2 設問方法,実験方法や言葉使い(1) 1)設問や教示の正確性 時事用語,流行語,学術・専門語などの使用は十分注意
安易に英単語のカタカナ書きはしない ミッション,ファンクション,ベネフィット などなど 年代によって,言葉から受けるイメージが違う メロディの官能実験で 40代,50代:たそがれた と うらぶれた が関連が強かった 20代 :たそがれた と ロマンチックな が関連が強かった 質問の正確性 単文で,具体的記述であることが肝心 :複数の意味にとれるものは× 社会調査 安易に「その他」は使わない 必要な選択肢を用意しておく 実験 教示文(実験の前の説明,手順の紹介)は容易,簡潔,適切 第9章 データの品質 廣野元久 &高橋行雄
26
3.3.2 設問方法,実験方法や言葉使い(2) 2)反応,回答の偏りの防止 実験 もう1度,点数の順番に並べ替えて,調整する 黙従傾向
選挙の候補者の名前の順序や街角ポスターの順番はランダム 好き嫌いなどは,段階評点がよい,SD法など 社会調査 個人の倫理観,見栄,外聞に関する設問はバイアスがかかる 選挙にいきますか:選挙に行くと答える方が実際の思いより多くなる 実験 刺激(対象物)の順番は重要 ビールやお茶を官能評価するのに,最初に飲んだものが基準となる テストの点をつけるのに,始めは厳しくつけるが,だんだん甘くなる もう1度,点数の順番に並べ替えて,調整する 第9章 データの品質 廣野元久 &高橋行雄
27
3.3.2 設問方法,実験方法や言葉使い(3) 3)回答者の人格尊重 理解に苦しんだ タバコを吸う人にPRするものか
対象者の人格を考えて設問を作る どんなに配慮しても,お叱りは受けることを覚悟する 協力して頂いているという謙虚な気持ちが大切 学生であるという甘えは禁物 余談:昔,奥さんとデート中にアンケートの協力をした アンケートはタバコのコマーシャルフィルムの評価 タバコを吸わないので,どのフィルムも低い評価をつけた 理解に苦しんだ タバコを吸う人にPRするものか タバコを吸わない人の嫌悪感を調べるものか 第9章 データの品質 廣野元久 &高橋行雄
28
ある日の午後,食堂に行き,30人にアンケート用紙を配り,その結果を基にして,その大学の就職活動を行っている学生の意見とした
アンケートの設問と選択肢の作成 ある大学の就職課では就職活動における性差の問題に関する調査を行うことになった. 以下の方法で調査をしたが,問題点はあるか 方法 ある日の午後,食堂に行き,30人にアンケート用紙を配り,その結果を基にして,その大学の就職活動を行っている学生の意見とした 第9章 データの品質 廣野元久 &高橋行雄
29
調査項目の作成(1) 携帯電話の購入理由を調査したい どのような質問文と選択肢を作ればよいか 得られたデータの尺度は何か
第9章 データの品質 廣野元久 &高橋行雄
30
トヨタとホンダのブランドが若者に与える印象を調査したい.どのような調査票を作成すべきか
調査項目の作成(2) トヨタとホンダのブランドが若者に与える印象を調査したい.どのような調査票を作成すべきか 第9章 データの品質 廣野元久 &高橋行雄
31
調査項目の作成(3) 携帯電話の当たり前(そのような機能があって当然と思う)品質と魅力品質(革新的な機能)について年代別に調査したい.どのような調査票を作るとよいか 第9章 データの品質 廣野元久 &高橋行雄
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.