スケジュール予定など 2日目 午後 10:00-11:00頃 統計分析ソフトと 青木・すがやのサイト 11:00-12:00頃 統計的検定法 2日目 午後 10:00-11:00頃 統計分析ソフトと 青木・すがやのサイト 11:00-12:00頃 統計的検定法 昼食 13:00-14:30頃 平均値差のt検定 14:30-16:00 クロス表のカイ2乗検定
もしも…研修後に 質問・相談はeメールtanaka@po.osu.ac.jpが最適。メールなら返事確実。その他電話FAXは086-284-7726(自宅)でも可能。 相談の「三種の神器」: 看護研究計画書、使用アンケート用紙、データ入力エクセルファイル(すでにあれば) 遠方の場合メールだけで指導する場合もある(PC用メールがあるとファイルのやり取りが便利。連絡なら携帯メールでも可能)
大まかな統計分析の流れ 4段階(再掲) 母集団(未知であり不可視) 標本(可視) 集計 推定・検定 データの収集 データ集計 統計解析 大まかな統計分析の流れ 4段階(再掲) 母集団(未知であり不可視) 標本(可視) 集計 推定・検定 データの収集 データ集計 統計解析 アンケート調査 無作為抽出 平均値やクロス表 基礎統計量や集計表 t検定やカイ2乗検定結果 神の領域 人間界 第一段階 第二段階 第三段階 第四段階
データ分析の流れ(復習) 調査やデータの仮説設定(看護研究計画書) 対象者の選定(標本の決定) 母集団の想定 アンケート実査(アンケート用紙) データ入力(ほぼエクセル利用) 場合によっては、データ加工やデータ変換 データ分析の対象となる「素データ」が完成
散布図→単回帰分析(復習) 回帰直線y=x 相関係数Rの2乗=0.19 (目安: R2>0.5ならR>0.7なので相関性あり)
シートankstatの入力シート(復習)
項目ごとの基礎統計量や度数表(%表示も可能)を算出 シートに素データを入力して、 下のタブを選ぶと 項目ごとの基礎統計量や度数表(%表示も可能)を算出
分析へ 統計ソフトについて 記述統計、グラフなどはエクセルで十分 検定、多変量分析となると専用ソフトが望ましい サイト利用 分析へ 統計ソフトについて 記述統計、グラフなどはエクセルで十分 検定、多変量分析となると専用ソフトが望ましい サイト利用 総合的:「群馬 青木」で検索 「おしゃべりな部屋」 検 定:「すがやみつる」や「こんにちは統計学」サイトも 市販ソフトとしては SPSS 高い、施設向き、論文投稿には望ましい。世界的権威ソフト 新規18万円 ライバル会社にSASがある。安価版としてJUMPも有名 エクセル統計 4万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない フリーソフト(無料) R 良くできているが上級者でなければやや使いにくい!研究者向け
青木サイト使用の留意点 検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている 検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている Javaはサイトで計算処理を行うための仕組みでありPC購入後各自で導入するもの 施設のPCではセキュリティ保護の観点からJavaを導入していないものもあるので、青木サイトが利用できない場合がある 施設PCで利用できない場合、他の統計パッケージやJava導入した個人PCを利用する 最近ではスマートホンでも利用可能
検索エンジンで「群馬 青木」で検索
統計サイト「おしゃべりな部屋」
赤い部分から統計分析サイト
「Java」メニューの内容
「JavaScript」メニューの一例
あなたのPCのJAVAという仕組みが古いなどの原因で、警告が出たものです。「いいえ」を選んでうまく動作すればいいですね。
すがやみつる「こんにちは統計学」
看護に代表的な検定 t検定(二群の平均値差検定) カイ2乗検定(2元クロス表の独立性検定) ある測定データの平均値がある値かどうか 仮説: 測定データの平均値=46.7 または、2群の平均は等しいとみなせるか 仮説: 群1の平均=群2の平均 カイ2乗検定(2元クロス表の独立性検定) クロス表に傾向や関連性があるか 仮説: このクロス表の度数は同じか
○×検定とは二択判定すること 2つの群(グループ)を比較して 2群のある値が、母集団上でも、 「明らかな差異」か「明らかな差異とはいえない」のかを2択で決定したい 差があることと同義語 有意、検定は棄却、SIG(シグ)、棄却
2群の平均値差検定の流れ (俗にt検定と呼ばれる) 2つの標本平均値からみて母集団レベルで「明らかな差」があるといえるか? 統計分析の3ステップ 手順1 2グループの基礎統計量を各々算出する。 手順2 青木のサイトなどで必要な計算ページにかける(種類は2種類ある) 手順3 結果のp値から判定する
平均値差の検定(t検定) 2群を比較する場合のあれこれ ここに患者群A、非患者Bの2群について同じ項目が測定された。薬効、運動効果、何かの処置効果などなど 2群の考え方 異なる人々を2つの群と考える・・・・・・繰り返しなし 同じ人の前後を測定し2群と考える・・・繰り返しあり AとBのケース数が異なっている。良いか? かまわない AとBの測定日が異なっていて良いか? 少ない群は最低ケース数はいくつ? 理論上7ケース、実用上20ケース以上程度 名義尺度と比率尺度で手法は異なるか? 異なる(名義ではt検定は使用できない、理由は平均値が意味を持たない)
2つの平均値を比べる 2群の平均値差の検定(t検定) 群 平均 SD N A 3.2 3.8 5 B 5.2 8.2 5 等分散性の検定 有意確率2.3%(有意) 2群のばらつきは等しくない 平均値差のt検定 等分散仮定する 6.4% 等分散仮定せず 6.4% いずれも平均値差は有意でない この2群で平均値3.2と5.2は同程度と見るか?否か? 2群のばらつきは 等しくないと判定 ばらつき等しくない仮定の下で、 2つの平均値が等しいことを否定せず(つまり同程度)
手順1 基礎統計量の計算 エクセルの関数計算をする またはankstatシートで各群ごとに求める 2つの群の統計表を完成しておく 手順1 基礎統計量の計算 エクセルの関数計算をする average(),stdev(),count()など使用 またはankstatシートで各群ごとに求める 2つの群の統計表を完成しておく 人数 平均値 標準偏差 A群 B群
手順2 分析サイトに入力する 2種類のサイトのどちらか タイブ1 2群の統計表を入力するサイト (この場合、手順1は必要ない) 手順2 分析サイトに入力する 2種類のサイトのどちらか タイブ1 2群の統計表を入力するサイト (この場合、手順1は必要ない) http://aoki2.si.gunma-u.ac.jp/Java/TwoSamples/bin/TwoSamples.html タイプ2 統計表を入力する http://aoki2.si.gunma-u.ac.jp/Java/StatCalc/bin/StatCalc.html
タイプ1 素データ入力タイプ
タイプ2 統計表を入力するタイプ
手順3 いよいよ判定 検定結果P値を求める ソフトによっては、有意確率という場合あり P値の大小により決定する(すべての検定で同じ) 手順3 いよいよ判定 検定結果P値を求める ソフトによっては、有意確率という場合あり P値の大小により決定する(すべての検定で同じ) 採択の場合(棄却しない、差ありを保留する) P>0.05 P>5% 有意でない(2群は同じ) 棄却(母集団レベルで顕著な差あり)の場合 0.01<P<0.05 5%有意 星1つ * 0.005<P<0.01 1%有意 星2つ ** 0.001<P<0.005 0.5%有意 星3つ *** 星の数はさほど重要ではない
ちなみにボール投げの場合・・・ 計算結果から3つのP値が出てきます 二群の等分散性の検定 F 値 = 0.18593 自由度 = ( 14, 14 ) P 値 = 0.00332 (両側確率) 通常の t 検定(等分散性が仮定できるとき) t 値 = 0.00000 自由度 = 28 P 値 = 1.00000 等分散性が仮定できないとき(Welch の方法) t 値 = 0.00000 自由度 = 19.03215 P 値 = 1.00000 (小数自由度に対応した正確な値)
どのP値を使用すれば? どれを使えばいいですか? t検定では2群が「等分散(バラつきが同じ程度)」と仮定します。1つめのPは等分散性を検定しています。 P=0.003なので、正規性は棄却されました 2つめは等分散性を採択の場合のP値 3つめは等分散性を棄却の場合のP値 この場合は2つめのP値が目的の判断で十分です (2つめと3つめは同じP=1.00>0.05なので棄却) 2つの平均値には差がない(採択)という判定を下します。
二群の平均値差の検定 演習問題 以上 65 歳未満の住民検診 に来所した男子 42 名,女子 63 名の血色素量について 二群の平均値差の検定 演習問題 いずれもt検定(対応なし)として平均値差を検定せよ。青木サイトを使用する。 問1 群 平均 SD N 問2 A 3.2 3.8 5 B 5.2 8.2 5 問3 ある地区で行った40 歳 以上 65 歳未満の住民検診 に来所した男子 42 名,女子 63 名の血色素量について の検査成績は,男子では平 均値 15.2 g/dl,不偏分散 1.1,女子では平均値 12.7 g/dl,不偏分散 3.2 であった。 男女の平均値に差はあるか,
例題3の解決例: 青木サイトJavaの5番で解くと
左と右に各群の値を入力して、計算開始ボタンを押すだけ この例のように、t検定だけでなく、マン・ホイットニ検定もボタン1つで行える
出力欄に検定結果が表示される
まとめると 問3 免疫グロブミン値(の平均)に差があるか? 結論 2つのバラつき方はほぼ同じと見てよい。 問3 免疫グロブミン値(の平均)に差があるか? 等分散性の検定 P値=0.906 採択 「2つの群は同じ程度のバラつきと考える」 通常のt検定 P値=0.00(小さい) 棄却 Welchの方法 P値=0.00 棄却 結論 2つのバラつき方はほぼ同じと見てよい。 免疫グロブミン値は、健常群と透析群では、有意であった。(2群の平均は顕著に異なる) 透析群の平均値が高い。
名義尺度でも使える検定 クロス表の独立性の検定(カイ2乗) 通称、カイ2乗検定 名義尺度では平均値が意味を持たない そこで表に集計する。 一次元の表こそ度数分布表 2次元以上をクロス集計表 ではこの表での仮説とは 「クロス表のマス目(セル)は同じ割合かどうか」 「クロス表に偏りがあるのかないのか」
(2×2)クロス表とはこんなもの 行と列で作表する ただ集計したので分布に関係しない クロス表は因果を示している(行と列どちらでも) 行側:原因→列側:結果 例: 対応なし 投薬有無と結果や運動有無×効果 対応あり 1回目と2回目の状況
2×2クロス表(分割表) クロス表の最小形式(基本) さまざまなクロス表
P=1.00 P=0.38 0.02 1.00
R×Cクロス表のカイ2乗検定 基本は2×2(検討しやすい) 4つのセル値をサイトへ入力 計算結果P値で判断する P>0.05 採択 0.01<P<0.05 5%有意他 1%有意 0.5%有意により *、**、*** http://aoki2.si.gunma-u.ac.jp/Java/ChisqTest/bin/ChisqTest.html とか http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html
http://aoki2. si. gunma-u. ac. jp/JavaScript/FisherExactTest
クロス表の独立性の検定 通称カイ2乗検定 正規性を仮定しない頑健な手法です 2×2クロス表の精密なカイ2乗検定 http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html R×C表 クロス表入力 通常版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html R×C表 クロス表入力 正確計算版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html (計算量が多いため通常版で十分) R×C表 素データで入力する版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
クロス表独立性の検定 演習問題 各表は独立か? クロス表独立性の検定 演習問題 各表は独立か? 問1 0.83、2 0.76、3 0.31、4 0.60 5 0.01 6 0.00 採択 採択 採択 採択 棄却 棄却
統計的検定法(群) 統計手法の中で「検定(Test)」は医療統計でよく使われます。 薬効評価、効果判定のために用いられます 以前は、平均値を比較するパラメトリック手法が用いられましたが、最近ではノンパラメトリック検定が多く用いられています。
統計的検定はどんなもの ある仮説(○=△)を判定する 判定結果は採択、または棄却の2分法 採択とは「この仮説を積極的に否定しない」 例: この実験結果=160.0 例: 群1の平均=群2の平均 判定結果は採択、または棄却の2分法 採択とは「この仮説を積極的に否定しない」 (厳密には仮説を認めたくないがやむを得ない) 棄却とは「この仮説を積極的に否定する」
(統計的)仮説検定の流れ ある検定手法を選択する(パラでもノンパラでも) 帰無仮説H0:とは 対立仮説H1:とは 否定する(だろう)ための仮説 帰無=無に帰する=否定を期待する 対立仮説H1:とは 帰無仮説以外の結果 H0を否定するだけなので積極的な採択はしない H0:とH1:を対にして用意する 分析データを統計ソフトにかける→有意水準P値を求める 有意水準の値に応じてH0かH1かを判定する 目的や条件に応じて手法はたくさん存在する
仮説の立て方 1.自分の持っている仮説(作業仮説ともいう)を対立仮説H1とする 2.H1の否定(逆)をH0とする 3.H0は○=△のように等号で作成するのがよい 4.H0:○=△とした時、3種類のH1が考えられる H1その1: ○>△ 片側検定 H1その2: ○<△ 片側検定 H1その3: ○≠△ 両側検定
仮説の事例 新薬Bは薬Aより効果あることを証明したい H0は等号関係で作成すると良い H1には3つの作り方あり H0: 新薬B=薬A(同じ、効果なし) で決まり! H1には3つの作り方あり ① H1: 新薬B>薬A 優れる 片側 ② H1: 新薬B<薬A 劣る 片側 ③ H1: 新薬B≠薬A 同じでない 両側 「効果ある」なので通常③を採用
仮説H1に方向性があるならば両側検定 関係があるかないか ない= ある≠ 両側検定 正(負)や大小の関係があるかないか ない= ある> 片側検定 優れている(劣っている) 同じ= <や> 片側検定 同じか否か 同じ= 同じでない≠ 両側検定
H0とH1の例 H0はハッキリと1点で指定するのが普通(点指定) H1は指定された1点以外のすべて(だからはっきりと値が判定できない) ○ H0: 日本人の平均160センチ 平均=160 H1: 160センチではない(何センチかは不明) H0はハッキリと1点で指定するのが普通(点指定) H1は指定された1点以外のすべて(だからはっきりと値が判定できない) ○ 残り全てがH0 H0
棄却と採択 H0が明らかに成立しないならば棄却 つまりH1を採用 H0は帰無したいがどうしても棄却できない状態のことを採択(=積極的には帰無・棄却しない)という つまりH0を採用する
検定に見る計算と判定 計算: 統計ソフトなどを使用する 判定: 出てくる結果の有意確率か有意水準の値により判定 計算: 統計ソフトなどを使用する 判定: 出てくる結果の有意確率か有意水準の値により判定 有意水準>0.05 有意水準5%以上で採択 5%以下ならば棄却(有意、SIG.)←差あり 0.05~0.01 5%有意 * 星1つ 0.01~0.005 1%有意 ** 星2つ 0.005より小 0.5%有意 *** 星3つ
例: 2グループの平均値差検定 (通称t検定の場合) 例: 2グループの平均値差検定 (通称t検定の場合) 仮説は以下のとおりに立てる H0: 平均1=平均2(2つの平均は同じ) H1: 平均1≠平均2(同じでない)→両側 注意 H0: 平均1≠平均2(同じでない) H1: 平均1=平均2(2つの平均は同じ) のように逆には立てません。帰無仮説H0は等号関係で作ります!
補足2 代表的な ノンパラメトリック検定法 統計的検定では、普通「正規分布」に従うことが前提となっています。 補足2 代表的な ノンパラメトリック検定法 統計的検定では、普通「正規分布」に従うことが前提となっています。 しかし、近年「正規性を仮定しない」検定手法が、医学分野でもてはやされてきました。 これらの検定法を「ノンパラメトリック」手法と呼んで代表は以下の通りです。 対応のない2標本(群)の代表値差 マンーホイットニのU検定 2標本コルモゴロフースミロノフ検定 ファンデル・ワーデン検定 中央値検定 対応のある2標本(群)の代表値差 ウイルコクソン符号検定 ウイルコクソン符号付順位和検定
ノンパラ検定の続き 対応のないk標本(群)の代表値差 対応のあるk標本(群)の代表値差 フリードマン検定 クラスカル・ウォリス検定 中央値検定 対応のあるk標本(群)の代表値差 フリードマン検定 ノンパラ検定は仮定が少なく「頑健」な検定方法ですが、性能はt検定に劣ります。切れ味は良いが折れやすいナイフか切れ味は少々鈍いがなかなか折れないナイフ。あなたはどちらのナイフを使いますか?
医療統計向けソフト比較 http://www.kenkyuu.net/comp-soft-01.htmlより引用
パラメトリック検定 集めたデータが正規分布しそうな場合に適 検定力は強い 平均値と標準偏差に関する検定がおも 2群(実験群と対照群)の平均値差検定 =通称:t検定が有名
ノンパラメトリック検定群 正規分布を仮定しない 検定力はパラメトリック検定にやや劣る 頑健な検定法 多いのは、平均値など代表値差の検定が多い クロス表のカイ2乗検定もノンパラ検定法の1つ
まとめましょう 正規分布を仮定できそうな時 正規分布を仮定できそうでない時 仮説は次に固定すると理解し易い 平均値に関するt検定 正規分布を仮定できそうでない時 ノンパラメトリックな検定法 仮説は次に固定すると理解し易い H0: A=B H1:A≠B(両側検定) 計算は統計ソフトやWebサイトで行う 有意かどうかの判定は有意水準P値で行う
2日間を通した学び □ 統計はデータで決まる □ 実はデータ集め、データ加工が勝負 □ 分析は理解できるものから一歩ずつ □ 統計はデータで決まる □ 実はデータ集め、データ加工が勝負 □ 分析は理解できるものから一歩ずつ □ 使えるソフトはサイトにあり □ 聞いたことない分析手法にご用心 □ できる手法もまずは用法を知ろう □ 相関(回帰)と検定を中心にトライした □ 統計解析は職人芸。使いなれたノミでこそ仮説(岩)は砕ける。見える化(視覚)を忘れずに
統計手法用語の学び 母集団と標本集団 行と列、欠測値、ケースと項目、全数調査 質的研究と量的研究 基礎統計量、グラフ エクセルの基本関数 散布図 回帰分析 相関係数と決定係数 2群の平均値差検定 クロス表、分割表、度数表 統計処理は青木サイト 集計処理はアンクスタット 統計的仮説検定 H0とH1 採択と棄却 有意水準P(P値) 度数表とクロス表 ほんのさわり 多変量分析の役割や用途 正規性の仮定 ノンパラメトリック検定 統計学の戦略と流れ
研修でのおすすめ本 看護関係の書類、書籍ばかり読んでいませんか? たまにはこんな書籍で頭をリフレッシュ 「統計学が最強の学問である」、西内啓一、 ダイヤモンド社、2013。文系出身の著者が ビッグデータ時代に統計重要さを啓蒙し た本。13年のビジネスベストセラー 「統計学を拓いた異才たち」、竹内忠行、熊谷悦生訳、日本経済新聞社、2010。統計学をキチンと知るためには良いが入門書には絶対お奨めできない。無骨であり精緻な1冊。しかしためになったなぁ。統計を学んでいる人には一度目を通して欲しい本。
(引用:「セーラー服と機関銃」、薬師丸ら、1981) エンディング 研修の最後に サヨナラは別れの言葉じゃなくて 再び会うまでの遠い約束 (引用:「セーラー服と機関銃」、薬師丸ら、1981)