統計学第9回 「2群の差に関するノンパラメトリックな検定」 中澤 港

Slides:



Advertisements
Similar presentations
東京大学医学系研究科 特任助教 倉橋一成 1.  背理法を使った理論展開 1. 帰無仮説( H0 、差がない)が真であると仮定 2. H0 の下で「今回得られたデータ」以上の値が観測でき る確率( P 値)を計算 3. P 値が 5% 未満:「 H0 の下で今回のデータが得られる可 能性が低い」
Advertisements

数理統計学 西 山. 前回のポイント<ルート N の法則> 1. データ(サンプル)の合計値 正規分布をあてはめる ルート N をかけて標準偏差を求める 2. データ(サンプル)の平均値 正規分布を当てはめる 定理8がポイント ルート N で割って標準偏差を求める.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
統計学第10回 多群の差を調べる~ 一元配置分散分析と多重比較 中澤 港
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学  第7回 西 山.
統計学 第3回 「データの尺度・データの図示」
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
確率・統計Ⅱ 第7回.
3群以上の場合,t-検定か多重比較検定か? 片側か両側検定かどちらを選ぶ? ◎報告書に記載してください
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
統計学 11/08(木) 鈴木智也.
統計学  第6回 西山.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
数理統計学 第11回 西 山.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
相関分析.
リサーチカンファ 29 Aug, 2017.
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学 西 山.
中澤 港 統計学第4回 中澤 港
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
1.母平均の検定:小標本場合 2.母集団平均の差の検定
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
統計的検定   1.検定の考え方 2.母集団平均の検定.
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
「カテゴリ変数2つの解析」 中澤 港 統計学第7回 「カテゴリ変数2つの解析」 中澤 港
データ分布の特徴 基準化変量 歪度 尖度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
確率と統計 年12月16日(木) Version 3.
確率と統計 年1月7日(木) Version 3.
Presentation transcript:

統計学第9回 「2群の差に関するノンパラメトリックな検定」 中澤 港 http://phi.ypu.jp/stat.html 中澤 港 http://phi.ypu.jp/stat.html <minato@ypu.jp>

上側確率とは? 右の図の曲線 は標準正規分 布の確率密度 関数である。 ある統計量z0 が標準正規分 布に従うこと がわかってい て,その値が2 だったとき,上 側確率は右の 図の矢印で示 した部分の面 積になる。 ここの面積が標準正規分布に従う統計量の値が2だった場合の上側確率

ノンパラメトリックな検定とは? パラメータとは母集団の分布を示す値(母数)であ る。これまで説明した検定の多く(t検定,F検定な ど)は,母数に関して何らかの仮定を置いていた。 フィッシャーの正確な確率など,母数を仮定しない 検定をノンパラメトリックな検定という。 2群の差に関するノンパラメトリックな検定の場合, 母数を仮定しないといっても,母集団の分布が連続 であるとは仮定する。理想的には分布の形が同じ で位置だけがずれている「ズレのモデル」が成り立 つときに,その差を検出するための方法である。

2群の差に関するノンパラメトリックな検定 2群の差に関するノンパラメトリックな検定としては, Wilcoxonの順位和検定(またはMann-WhitneyのU検 定。両者は検定に使う統計量が若干違うが本質的 に同じもの)と符号付き順位和検定が代表的。前者 は2群間に対応がない場合,後者は対応がある場 合に用いる。 どういうときにノンパラメトリックな検定を使うかとい えば,母集団の分布がひどく歪んでいるとか,サン プル数が少ない場合である。そうでなければ,t検定 の方が簡単で検出力もよいので,敢えてノンパラメト リックな検定をする必要はない。

Wilcoxonの順位和検定 (Rank Sum Test) 群Xのデータ数m,群Yのデータ数n,m+n=Nとする。 2群を混ぜて小さい方から順に順位をつけ(同順位の 場合は平均順位をつける),片方の群について,順位 を合計する。この値をRとすると, {|R-E(R)|-1/2}/√var(R)が標準正規分布に 近似的に従うことを使って検定ができる。 但し, E(R)=m(N+1)/2 var(R)=mn(N+1)/12-mn/{12N(N-1)}Σ(dt3-dt) dtはt番目の同順位のところにいくつのデータが重な っているかを示す数。同順位がなければ var(R)=mn(N+1)/12となるので簡単。

練習問題の解答例 B群の方が数が少ないので計算が簡単。そこでB群に ついて順位和を計算する。 R=22+25+8+6+2+12+20+32+19+1=147 E(R)=10×(34+1)/2=175 var(R)=10*24*(34+1)/12=700 z0=(|147-175|-1/2)/√700=2.75/√7=1.04 1.04<1.96なので,両側検定で5%水準で有意ではない (ちなみに2*(1-pnorm(1.04))=0.298)。

順位の代わりにスコアを使う場合 正規スコア検定:順位の代わりに標準正規分布 の分位点関数を使って検定する。順位そのもの を使う場合に比べて,もとの分布が正規分布に 近い場合の検出力が良くなるが,計算は面倒に なるので,あまり使われていない。 メディアン検定:順位をざくっと単純化して,メデ ィアンより大きいか小さいかという情報だけを使 う。2群のどちらにメディアンより大きい値が相対 的に多いかを調べることになる。計算が簡単な ので時折使われるが,検出力はよくない。

対応のある場合 データに対応がある場合は,パラメトリックな検定の 「対応のあるt検定」と似た考え方で,2群の差の順位 を考えると,より良い検出力をもった分析ができる。 Wilcoxonの符号付き順位和検定 (Signed Rank Sum Test)と呼ばれる。 変数Xと変数Yをデータ数nの対応がある変数とし,同 じ値はないものとする。まず合成変数 U=X-Yを計算する。 Uの絶対値の小さい方から順位Rをつける。 Uが負なら-1,正なら1となる変数εを使って, R*=ΣεRを計算する。E(R*)=0, var(R*)=n(n+1)(2n+1)/6となるので, (|R*|-1/2)/√var(R*) が標準正規分布に従うことで検定できる。

順位以外のスコアを使う「符号検定」 対応のない場合と違って,差の順位については正規ス コアを割り当てることは行われない。 メディアン検定に対応するやり方はあって,XとYの大小 関係,つまり差が正か負かという符号だけを使う。これ は符号だけを使うので符号検定 (Sign Test)と呼ばれる。 符号付き順位和検定で差の絶対値に与える順位Rをす べて1とすると,R*はX>Yのデータ数からX<Yのデータ 数を引いた値になる。総数は決まっているので,X>Yの データ数そのものを検定統計量にしても同じである。 実際のX>Yのデータ数Kがn/2より大きい場合の有意確 率は,(nCK+nCK+1+...+nCn)/2nとなる。

Fisherの「並べかえ検定」 正確な確率を求めることができる。すべてのありうる組 み合わせについて順位和を計算し,それが実測値と同 じかより珍しい場合の数を全組み合わせ数で割ると有 意確率が得られる。 例で考えると,X={4,11,3}, Y={2,12,22,54} であるとき,ありうる組み合わせはX={2,3,4}, Y={11,12,22,54}から,X={54,22,12},Y={11,4,3,2}までの 7C3=7*6*5/(3*2)=35通りある。このうち X={4,11,3}の順位{3,4,2}の和9と同じかより珍しい順位和 をもつ組み合わせは,{1,2,3}{1,2,4}{1,3,4} {1,2,5},{1,3,5}{1,2,6}を合わせた小さい側の7通りと {7,6,5}{7,6,4}{7,5,4}{7,6,3}{6,5,4}{7,5,3}{7,6,2}を合わせた大 きい側の7通りなので,p=(7+7)/35=0.4となる。 対応のある場合も同様の考え方で計算できる。いずれ にせよ,コンピュータに計算させるのが普通。