データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編 2009/9/19 岡山県看護協会一般研修 資料 データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編 岡山商科大学 経営学部商学科長 教授 田中 潔
スケジュールなど 午前 データ分析 総論編 9:30-11:00頃 統計的データ分析とは 11:00-12:30頃 統計分析のポイント 昼食 午前 データ分析 総論編 9:30-11:00頃 統計的データ分析とは 11:00-12:30頃 統計分析のポイント 昼食 午後 データ分析 検定編 13:30-15:00頃 統計的検定を知る 15:00-16:15頃 ノンパラ検定法
あなたはなぜデータ分析を迫られるのか? 素直なあなたはスタッフから相談を受けます 院内研究が回ってきた 学外・論文投稿が迫ってきた アンケートの集計を手伝って→手伝いが中心に あなたはエクセルが分かるから分析ね! PCができることと統計が分かることを混乱した上司に恵まれた 院内研究が回ってきた 予算はあまりない、スタッフの協力にたよる 学外・論文投稿が迫ってきた 国内や世界標準での点検・確認
その結果 断ることは許されない 自分は統計を知らない→習っていないものがわかるものか 私は理屈っぽく考えるのがイヤ! 私は数学がいやで看護へ来たのに 看護に統計はいらない 調査では患者ひとり一人は援助できない 統計ギライがこの世にまたひとり
データ分析の背景 国勢調査や行政調査 マーケティング(市場調査)・世論調査 実験や臨床研究、業務改善 国・県などの公的調査 国勢調査は統計法に基づくhttp://www.stat.go.jp/index/seido/houbun2.htm 政府統計ポータルサイト http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do マーケティング(市場調査)・世論調査 ある目的のため市場を調査する アンケート調査 実験や臨床研究、業務改善 比較的小規模
量か質か 量的研究(学部卒レベル) 質的研究(院レベル) 通常のアンケート調査、多くの場合対象者全員からの回答は無理→標本調査 量的研究の主目的は、市場の現況を把握すること 質的研究(院レベル) 通常のインタビュー調査、症例研究、観察など 未知なる問題の場合、仮説を発見するために比較的小規模にて行う http://www.geocities.co.jp/Technopolis-Mars/4688/ 南小樽病院 瀬畠さん
母集団と標本 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知
悉皆(しっかい)調査 母集団の全員が標本として測定されたこと 母集団サイズ=標本サイズ 標本での分析結果がすべて母集団結果 標本を捉えることの意義 標本の示す傾向=母集団の中心的な傾向+個々の誤差
統計解析法の目的 推定・推測: 標本から母集団値を求める 予測: 時系列データから将来を推測 記述統計: 標本を示す値やグラフで視覚化 推定・推測: 標本から母集団値を求める 一般には標本値±誤差を決める 予測: 時系列データから将来を推測 方程式を作成する 記述統計: 標本を示す値やグラフで視覚化 検定・テスト: 比較し判定する、○×効果 多変量分析群 3つ以上の項目からなるデータを分析する
統計の中の個人・ひとり 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 私は60kg=標準体重+誤差 標準体重:仮に50kg 誤差: 60-50=10kg 実は、中心的傾向とは平均値のこと
多変量解析の目的 ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ③ ものや項目の関係を視覚化したい ④ ものや項目を分類したい ⑤ 項目間の関係や構造を知りたい
主な多変量解析手法 予 測: 指 標: 視覚化: 分類: 潜在構造: 回帰分析、数量化1・2類、判別分析 予 測: 回帰分析、数量化1・2類、判別分析 指 標: 回帰分析、数量化1~3類、主成分分析、因子分析 視覚化: グラフ解析、数量化3・4類、主成分分析 分類: クラスター分析 潜在構造: 因子分析、共分散構造分析
データの値: 4つの測定尺度 名義尺度 情報量小 順序尺度 間隔尺度 比率尺度 名前を区別するため 演算は出来ない データの値: 4つの測定尺度 名義尺度 情報量小 名前を区別するため 演算は出来ない 1.男性 2.女性 度数表やクロス表は可 順序尺度 ゆるい順序性のみ許す 演算は本来△ 1.はい 2.どちらでもない 3.いいえ 間隔尺度 絶対ゼロを定めない量 演算は加減のみ ℃(摂氏)、カレンダー月 比率尺度 絶対ゼロを基準とした計測値 加減乗除可能 実験データ全て 情報量大
行側(ギョウソク)と列(レツソク)側 →列側(項目、変数、変量) 行側↓ (ケース)
ケースと項目 ケースとは1件の標本を示す ケースは個体を示す 時系列の場合時間変化 項目は列単位→1つの変数 1変数の集計や分析 1列ごとに処理するデータ 2変数の集計 2列ごとに処理 多変数の処理 3列以上をまとめて処理
入力したデータ
有効数字について 計算結果を小数点何桁まで取るべきか? 答え 測定値で影響されます。 身長160cmは「センチ単位」で測定されました。 160.1かも160.4かも知れません。 有効数字 小数点以下0桁 でした。 そこで平均値など計算結果の表示は、ひと桁多くし小数点以下1桁(2桁目を四捨五入して)で表示しましょう 教訓 計算結果の有効数字は測定値よりも1桁多く
欠測値について 計測されなかった、計測できなかった値 表ソフトで欠測値には0ゼロを入力しない 99や0など特定値を入れることは 欠測値という エクセルの場合何も入力しない セル値の削除はdeleteキーで 0は計測値として計算してしまいます 99や0など特定値を入れることは 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう
最初のデータ分析 記述統計量とは 平均値 標準偏差 最大、最小値 中央値 度数集計表
素データ~統計量 概念図 ちらばり(分散や標準偏差) ボール&スティックモデル × 代表値(平均値や中央値)
エクセルによる基礎統計量 関数で求める 平均 =AVERAGE(範囲指定) 標準偏差 =STDEV(範囲指定) 平均 =AVERAGE(範囲指定) 標準偏差 =STDEV(範囲指定) 中央値 =MEDIAN(範囲指定) 最大値 =MAX(範囲指定) 最小値 =MIN(範囲指定)
2つの項目の 基礎集計 投げ1のヒストグラム
投げ1と投げ2を書き分ける
散布図は2項目の関係図
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析 回帰直線y=x 相関係数r=0.43
算術平均の示すもの ここに5つのデータ 2、10、1、2、1がある 1 1 2 2 10 2+10+1+2+1=16 1 1 2 2 10 2+10+1+2+1=16 算術平均=16÷5=3.2 3.2は5つのデータを表現する代表値の一種
もう1つの代表値 中央値 2、10、1、2、1 これを 小さい(大きい)順に並び替える 1、1、2、2、10 もう1つの代表値 中央値 2、10、1、2、1 これを 小さい(大きい)順に並び替える 1、1、2、2、10 この真ん中番目を中央値(メジアン)と呼ぶ この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な値(極値)に左右されにくい →頑健(ロバスト)な代表値 算術平均3.2 中央値2
2グループの代表値を比べる グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2 グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2 この2つに有意な差があるか?→t検定
2つの平均値を比べる 2群の平均値差の検定(t検定) 群 平均 SD N A 3.2 3.8 5 B 5.2 8.2 5 等分散性の検定 有意確率2.3%(有意) 2群のばらつきは等しくない 平均値差のt検定 等分散仮定する 6.4% 等分散仮定せず 6.4% いずれも平均値差は有意でない この2群で平均値3.2と5.2は同程度と見るか?否か? 2群のばらつきは 等しくないと判定 ばらつき等しくない仮定の下で、 2つの平均値が等しいことを否定せず(つまり同程度)
マン-ホイットニ検定による2群の比較 中央値 A:2 B:2の比較 有意水準91.1%(有意差なし)→両群は同じ
データ分析のポイント □ 調査の種類、母集団と標本のちがい □ 統計手法は目的に応じてたくさんある □ 行と列→ケースと項目、測定尺度 □ 調査の種類、母集団と標本のちがい □ 統計手法は目的に応じてたくさんある □ 行と列→ケースと項目、測定尺度 □ 表ソフトへのデータ入力様式 □ 基礎統計のエクセル関数 □ グラフ→2項目 散布図と回帰式 □ 検定の一例t検定 → 次は検定をマスターしよう
統計的検定法(群) 統計手法の中で「検定(Test)」は医療統計でよく使われます。 薬効評価、効果判定のために用いられます 以前は、平均値を比較するパラメトリック手法が用いられましたが、最近ではノンパラメトリック検定が多く用いられています。
統計的検定はどんなもの ある仮説(○=△)を判定する 判定結果は採択、または棄却の2分法 採択とは「この仮説を積極的に否定しない」 例: この実験結果=160.0 例: 群1の平均=群2の平均 判定結果は採択、または棄却の2分法 採択とは「この仮説を積極的に否定しない」 (厳密には仮説を認めたくないがやむを得ない) 棄却とは「この仮説を積極的に否定する」
看護に代表的な検定 t検定 ある測定データの平均値がある値かどうか 2群の平均は等しいとみなせるか カイ2乗検定 仮説: 測定データの平均値=46.7 2群の平均は等しいとみなせるか 仮説: 群1の平均=群2の平均 カイ2乗検定 クロス表に傾向や関連性があるか 仮説: このクロス表の度数は同じか
(統計的)仮説検定の流れ ある検定手法を選択する(パラでもノンパラでも) 帰無仮説H0:とは 対立仮説H1:とは 否定する(だろう)ための仮説 帰無=無に帰する=否定を期待する 対立仮説H1:とは 帰無仮説以外の結果 H0を否定するだけなので積極的な採択はしない H0:とH1:を対にして用意する 分析データを統計ソフトにかける→有意水準を求める 有意水準の値に応じてH0かH1かを判定する 目的に応じて手法はたくさん存在する
仮説の立て方 1.自分の持っている仮説(作業仮説ともいう)を対立仮説H1とする 2.H1の否定(逆)をH0とする 3.H0は○=△のように等号で作成するのがよい 4.H0:○=△とした時、3種類のH1が考えられる H1その1: ○>△ 片側検定 H1その2: ○<△ 片側検定 H1その3: ○≠△ 両側検定
仮説の事例 新薬Bは薬Aより効果あることを証明したい H0は等号関係で作成すると良い H1には3つの作り方あり H0: 新薬B=薬A(同じ、効果なし) で決まり! H1には3つの作り方あり ① H1: 新薬B>薬A 優れる 片側 ② H1: 新薬B<薬A 劣る 片側 ③ H1: 新薬B≠薬A 同じでない 両側 「効果ある」なので通常③を採用
仮説H1に方向性があるならば両側検定 関係があるかないか ない= ある≠ 両側検定 正(負)や大小の関係があるかないか ない= ある> 片側検定 優れている(劣っている) 同じ= <や> 片側検定 同じか否か 同じ= 同じでない≠ 両側検定
H0とH1の例 H0はハッキリと1点で指定するのが普通(点指定) H1は指定された1点以外のすべて(だからはっきりと値が判定できない) ○ H0: 日本人の平均160センチ 平均=160 H1: 160センチではない(何センチかは不明) H0はハッキリと1点で指定するのが普通(点指定) H1は指定された1点以外のすべて(だからはっきりと値が判定できない) ○ 残り全てがH0 H0
棄却と採択 H0が明らかに成立しないならば棄却 つまりH1を採用 H0は帰無したいがどうしても棄却できない状態のことを採択(=積極的には帰無・棄却しない)という つまりH0を採用する
検定に見る計算と判定 計算: 統計ソフトなどを使用する 判定: 出てくる結果の有意確率か有意水準の値により判定 計算: 統計ソフトなどを使用する 判定: 出てくる結果の有意確率か有意水準の値により判定 有意水準>0.05 有意水準5%以上で採択 5%以下ならば棄却(有意、SIG.)←差あり 0.05~0.01 5%有意 * 星1つ 0.01~0.005 1%有意 ** 星2つ 0.005より小 0.5%有意 *** 星3つ
まとめましょう 正規分布を仮定できそうな時 正規分布を仮定できそうでない時 仮説は次に固定すると理解し易い 平均値に関するt検定 正規分布を仮定できそうでない時 ノンパラメトリックな検定法 仮説は次に固定すると理解し易い H0: A=B H1:A≠B(両側検定) 計算は統計ソフトやWebサイトで行う 有意かどうかの判定は有意水準で行う
検定の実際に慣れる
統計ソフトについて 記述統計、グラフなどはエクセルで十分 検定、多変量分析となると専用ソフトが望ましい http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで間に合うことも多い。いつまで続くかは不明 市販ソフトとしては PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。世界的権威ソフト 新規18万円 ライバル会社にSASがある。安価版としてJUMPも有名 エクセル統計 4万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない フリーソフト(無料) R 良くできているが上級者でなければ使いにくい!
サイトを使った統計分析の注意 例えば、検索エンジン 群馬大 青木 多くの計算がWebサイトで可能な時代 例えば、検索エンジン 群馬大 青木 多くの計算がWebサイトで可能な時代 これらの計算の多くはJAVA(ジャバ)という技術が使用されることが多い 施設のPCでは導入初期のままのためJAVAが有効でない(使えない)場合も多い 分析前にPCの確認を!
医療統計向けソフト比較 http://www.kenkyuu.net/comp-soft-01.htmlより引用 SPSS社はIBMに吸収のため、2009現在PASWに名称変更
2グループの平均値差検定 (通称t検定) 仮説は以下のとおりに立てる H0: 平均1=平均2(2つの平均は同じ) H0: 平均1=平均2(2つの平均は同じ) H1: 平均1≠平均2(同じでない)→両側 注意 H0: 平均1≠平均2(同じでない) H1: 平均1=平均2(2つの平均は同じ) のように逆には立てません。帰無仮説H0は等号関係で作ります!
パラメトリック検定 集めたデータが正規分布しそうな場合に適 検定力は強い 平均値と標準偏差に関する検定がおも 2群(実験群と対照群)の平均値差検定 =通称:t検定が有名
サイトで行う2群平均値差の検定(t検定) 次の2群の平均値は同じといえるか 平均 ケース数 標準 偏差 A群 10.0 10 5 平均 ケース数 標準 偏差 A群 10.0 10 5 B群 10.5 20 15 等分散性 0.002 棄却 2群は同じ分散ではない 平均値差 0.894 棄却 平均値は等しくない 使用サイト http://aoki2.si.gunma-u.ac.jp/Java/StatCalc/dist/StatCalc.html
ノンパラメトリック検定群 正規分布を仮定しない 検定力はパラメトリック検定にやや劣る 頑健な検定法 多いのは、平均値など代表値差の検定が多い クロス表のカイ2乗検定もノンパラ検定法の1つ
パラメトリックvsノンパラ比較表 http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.htmlより引用
主な統計的検定法の体系図
クロス表の独立性の検定 通称カイ2乗検定 実はノンパラメトリックな検定手法の1つです 2×2クロス表の精密なカイ2乗検定 http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html R×C表 クロス表入力 通常版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html R×C表 クロス表入力 正確計算版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html (計算量が多いため通常版で十分) R×C表 素データで入力する版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
代表的なノンパラメトリック検定法 対応のない2標本(群)の代表値差 対応のある2標本(群)の代表値差 マンーホイットニのU検定 2標本コルモゴロフースミロノフ検定 ファンデル・ワーデン検定 中央値検定 対応のある2標本(群)の代表値差 ウイルコクソン符号検定 ウイルコクソン符号付順位和検定
対応のあるデータ、ないデータ 対応ありと考えられる場合 同じ人やグループを追跡して測定 対応ないと考えられる場合 1回 2回 3回・・・ Aさん 1.0 1.5 2.0・・・ Bさん 1.2 1.7 2.2・・・ 対応ないと考えられる場合 毎回グループの構成者を取り替えて測定 岡山 東京 大阪 福岡・・・ 人口 生産額 学生数
対応のないk標本(群)の代表値差 クラスカル・ウォリス検定 中央値検定 対応のあるk標本(群)の代表値差 フリードマン検定
マンーホイットニ検定 2群、対応なし 9個の部品について4個は処置群、残り処置なし群とした。この2つの群の母代表値に差があるかどうか検定しなさい。 処置群の観察値 1.2,1.5,1.8,2.6 処置なし群の観察値 1.3,1.9,2.9,3.1,3.9
有意確率=0.142または0.190 有意確率>0.05なので有意差なし・採択 つまり両群に差は認められない 参考:http://aoki2.si.gunma-u.ac.jp/Java/TwoSamples/dist/TwoSamples.html つまり両群に差は認められない
ウイルコクソン符号検定 2群、対応あり 10 人の被検者について,五段階評価をした。同じ被検者に対して,1 年後にもう一度評価した。その結果を表 に示す。1 年間で母代表値に差があったかどうか検定しなさい 1 2 3 4 5 6 7 8 9 10 最 初 A A C B D A C B D B 1年後 C A E D B B D A E D
Wilcoxson符号検定の結果 正確有意確率=0.180>0.05 → 採択 最初と1年後では有意差ない 正確有意確率=0.180>0.05 → 採択 最初と1年後では有意差ない もしも計量値としてWilcoxsonの符号付順位検定を行ったならば、 漸近有意確率=0.114>0.05 採択 やはり 最初と1年後では差はない 分布計算 http://aoki2.si.gunma-u.ac.jp/CGI-BIN/mpsrtest.html
クラスカルーウォリス検定 3群以上、対応なし 12 匹のラットに 3 種類の餌を与えたときの肝臓の重量は表 1 のようであった。餌の種類により肝臓の重量の平均値に差があるといえるか SPSS入力 表 1.餌の種類による肝臓の重量 A餌 3.42 3.84 3.96 3.76 B餌 3.17 3.63 3.47 3.44 3.39 C餌 3.64 3.72 3.91
H0: 平均1=平均2=平均3 H1: 3群の平均は同じでない 漸近有意水準0.062>0.005 棄却 0.062>0.05 採択 結論: 3群の平均は同じではない(帰無できない) ただ、有意水準6.2%と5%に近いことにも留意する 参考http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html
フリードマン検定 3群以上、対応あり 表 1 のようなデータがある。4 種の肥料間で収量に差があるか 参考: 行列を入れ替えれば3品種間に差があるかを検定できる 表 1.フリードマン検定が対象とするデータ 肥料 品種 B1 B2 B3 B4 A1 9 17 12 16 A2 1 21 11 A3 7 19 6 9
漸近有意確率0.001<0.005 *** 0.5%有意 肥料4種の平均は等しくない 行列を入れ替えると 漸近有意確率0.004<0.005 エクセル版 http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html H0: 4群の平均は等しい H1: 4群の平均は等しくない 漸近有意確率0.001<0.005 *** 0.5%有意 肥料4種の平均は等しくない 行列を入れ替えると H0: 3品種の平均は等しい H1: 等しくない 漸近有意確率0.004<0.005 ***0.5%有意→3品種の平均は異なる 総合的には、肥料、品種いずれも差あり
表の形式は似ていても… 表はクロス表に似ている。しかしクロス表は対応なし、フリードマンは対応ありが大きく異なる。 肥料 品種 B1 B2 B3 B4 A1 9 17 12 16 A2 1 21 11 A3 7 19 6 9 表の形式は似ていても… 表はクロス表に似ている。しかしクロス表は対応なし、フリードマンは対応ありが大きく異なる。 クロス表では行か列はそれぞれ要因。フリードマンでは行か列は標本(ケース)である。
まとめ・チェックリスト □ 統計的検定法の概念 □ 採択と棄却がわかる □ 帰無仮説と対立仮説 H0とH1 □ 統計的検定法の概念 □ 採択と棄却がわかる □ 帰無仮説と対立仮説 H0とH1 □ 計算は統計ソフトで、統計ソフトは色々 □ 時代はパラメトリックからノンパラへ □ ノンパラ検定にはたくさんの手法 □ 代表的ノンパラ検定の用法・読み方
研修講師のメモ 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了の後商大へ勤務。助手、講師、助教授を経て現在教授。2008年より商学科長。 主な科目:情報システム論、情報ネットワーク論他 専門分野:計算機統計学、マーケティング 連絡先 岡山商科大学 〒700-8601(番号で届く) tanaka@po.osu.ac.jp http://www.osu.ac.jp/~tanaka 検索エンジン 「岡山商科大学 田中潔」 大学電話 086-252-0642 大学FAX 086-255-6947
研修後に相談があれば アポイントはメールtanaka@po.osu.ac.jpが最適。その他電話FAXは086-284-7726(自宅)だが捕まらないならごめんなさい データ分析相談は随時応ずるが、エクセルに素データを入力しておくのが望ましい また希望する仮説も事前に固まっている方がスムーズに進む。 遠方の場合メールだけで指導する場合もある
より大規模な分析体制 施設からの応需制度として岡山商科大学では産学官連携センター受付による受託研究や共同研究などの制度もあり。 おおむね1件1年50万円程度から受託し、担当者も指定可。 例:「アミューズメントにおけるマーケティング研究」パチンコ業受託2007~2009年