保健統計学第3回 「計量データの解析」 2007.04.27.

Slides:



Advertisements
Similar presentations
東京大学医学系研究科 特任助教 倉橋一成 1.  背理法を使った理論展開 1. 帰無仮説( H0 、差がない)が真であると仮定 2. H0 の下で「今回得られたデータ」以上の値が観測でき る確率( P 値)を計算 3. P 値が 5% 未満:「 H0 の下で今回のデータが得られる可 能性が低い」
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
統計学第10回 多群の差を調べる~ 一元配置分散分析と多重比較 中澤 港
      仮説と検定.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
統計学第9回 「2群の差に関するノンパラメトリックな検定」 中澤 港
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第2回授業 (10/2)の学習目標 第5章平均値の差の検定の復習を行う。 (詳細を復習したい者は、千野のWEB頁の春学期パワ
ホーエル『初等統計学』 第8章1節~3節 仮説の検定(1)
第7回 独立多群の差の検定 問題例1 出産までの週数によって新生児を3群に分け、新生児期黄疸の
検定 P.137.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
保健統計学第5回 「3群以上のデータ解析」 と、その他色々
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
統計学 12/13(木).
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
母分散が既知あるいは大標本の 平均に関する統計的検定
統計学  西 山.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
社会統計学Ic・統計科学I 第六回 ~仮説検証~
Excelによる実験計画法演習 小木哲朗.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
リサーチカンファ 29 Aug, 2017.
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
統計学 西 山.
中澤 港 統計学第4回 中澤 港
確率と統計 年1月12日(木)講義資料B Version 4.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
統計処理2  t検定・分散分析.
1.母平均の検定:小標本場合 2.母集団平均の差の検定
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
統計的検定   1.検定の考え方 2.母集団平均の検定.
母分散の検定 母分散の比の検定 カイ2乗分布の応用
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
数理統計学 西 山.
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
数理統計学  第12回 西 山.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
確率と統計 年12月16日(木) Version 3.
確率と統計 年1月7日(木) Version 3.
Presentation transcript:

保健統計学第3回 「計量データの解析」 2007.04.27

前回の復習(1) ~データ解析の基礎~ データの種類 ・確率分布の種類 量的データの例 ・血圧値 ・血清コレステロール値 ・その他検査値等 前回の復習(1) ~データ解析の基礎~ データの種類 量的データの例  ・血圧値  ・血清コレステロール値  ・その他検査値等 質的データの例 (一般に「計数データ」と呼ばれます)  ・性別(単なる名義尺度)  ・薬効の有効、無効、著効等  ・「1.悪い」「2.普通」「3.良い」 などの順序データ ・確率分布の種類 連続型分布  ・正規分布等 (今週はこれが大量に出てきます!) 離散型分布  ・二項分布  ・ポアソン分布等

2群間に「差がある」ことを証明する方法とは? 前回の復習(2) 検定の原理 2群間に「差がある」ことを証明する方法とは? Q:どのぐらいの大きさならば「差がある」のか? A:その大きさがわからないから検定するのです!「差がある」ことはそのままでは検定できないので、まずは「差がない」ことを調べましょう。 「差がない」という仮説は「帰無仮説(H0)」 「差がある」という仮説は「対立仮説(H1)」 と呼びます。つまり、H0を否定することにより、H1を肯定すればよいのです!

前回の復習(3) 実際の事例で考えよう ①墨田区と江東区の住民の体重には差があるのか?どうやって証明する? 前回の復習(3) 実際の事例で考えよう ①墨田区と江東区の住民の体重には差があるのか?どうやって証明する? ②それでは、墨田区と江東区から30人ずつ抽出して、それぞれの体重を平均して比較してみよう。帰無仮説は「体重に差がない」です ③それぞれの平均体重の差を求め、検定に見合った分布表からそのような差が発生する確率を求めます。その確率があらかじめ定めた有意水準(通常0.05)以下であれば「差がない」とする仮設を棄却でき、「墨田区と江東区の住民の体重には差がある」と結論付けられます ④But・・・抽出した30人が「墨田区は力士ばかり」のような場合、当然「墨田区と江東区の住民の体重には差がある」という結果になります。意図的ではないにしても、このようなサンプルの偏りが偶然発生しないとも限りません 有意水準α=0.05とした場合、「本当に差がないのであれば、このような偶然が発生する可能性は20回に1回ぐらいの割合である」

前回の復習(3)-2 分布表から求められる確率とは、「本当に墨田区と江東区の住民の体重に差がない場合、平均値の差が偶然このようになる確率」である。(例えば・・・墨田区からは偶然力士ばかりが30人抽出されることが無いとも限らない) 当然、平均値の差が大きければその確率は小さくなり、平均値の差が小さければその確率は大きくなる こんなに平均体重の差が大きくなるってことは・・・「差がない」と思っていた私の仮説が間違っていたのだろう。ならば、最初の仮説(=帰無仮説)は棄てよう 偶然による偏りが発生したとは考えたくない・・・いや、考えてはいけないのだ!

本当は差がないのに「差がある」としてしまう *検定の原理 (追加2) 第一種の過誤(αエラー)・第二種の過誤(βエラー)         事実 検定結果 差がない 差がある 有意差なし 正しい βエラー(第二種の過誤) 有意差あり αエラー(第一種の過誤) 本当は差があるのに 「差がない」としてしまう 本当は差がないのに「差がある」としてしまう αは通常0.05(5%)に設定することで、差がないのに「差がある」としてしまうことを20分の1に抑えられます。αとβは両方同時に小さくすることは出来ないので、通常はαを5%に設定しつつ、なるべくβエラーを小さくするような方式が取られている・・・ようです。

前回の復習(4) 分布の種類 ~正規分布~ これは全ての分布の基本であります! 前回の復習(4) 分布の種類 ~正規分布~ これは全ての分布の基本であります! *f(x)=ex のとき、f(x)=exp(x) (母平均を μ,母分散 をσ2とする) (ここで、μ=0,σ=1とすると) *(x-平均)/標準偏差 これを「標準化する」といいます! (標準正規分布)・・・色々なところで使われます! 色々なところ・・・それはT検定、信頼区間推定・・・本日はその「T検定」の詳細です。

2-(7) 演習 では「裏が1回だけ」はどう考える?十分ありえるのだろうか? Q1(二項分布による検定) 2-(7) 演習 Q1(二項分布による検定) コインを8回投げて表が出たのは1回だけであった。このようなことは十分あり得るのか?十分あり得る=有意確率(α=0.05)で考えて下さい。 A1:P=po+p1=8C0(1/2)0+8C1(1/2)1×(1/2)7=0.035となるので、P<0.05(片側検定)となり、答は「あり得ない」。 *ただし両側検定ではP=0.070>0.05となり、「十分にあり得る」。 では「裏が1回だけ」はどう考える?十分ありえるのだろうか?

*検定の原理 (追加1) 片側検定・両側検定 先程の帰無仮説(H0)は、「A群とB群の統計量に差がない」としておりました。復習ですが、「差がない」ことを否定して「差がある」という対立仮説(H1)を採択するのはよろしいですね? 医学における検定では、A群とB群のどちらが大きいのかが判っていないことが多いので、圧倒的に両側検定を用います。 が・・・もしもA群の方が大きい(小さい)ことが事実として判っていることであり、それだけを確かめたいのであれば、片側検定を用います。 (当然、両側の2倍有意差が出易くなります。くれぐれも実験終了後に有意差を出すために用いるようなことはいけません!)

本日のテーマ ~計量データの解析~ データの種類により用いるべき統計手法は異なる! 量的データ 質的データ? 本日のテーマ ~計量データの解析~ データの種類により用いるべき統計手法は異なる! 量的データ  ・連続量 or 離散量?  ・平均、最大・最小・中央値、分散(標準偏差)は?  ・データの分布(グラフの形)は?  ・比較しようと思う群の数は?(2つ or 3つ以上?)  ・比較しようと思う群の関係は?(独立 or 出所は同じ?) 質的データ?  ・順位データ or 単なるカテゴリデータ? ここまで調べることで、ようやく採択すべき検定方法が決定出来ます!(昔は・・・何でもかんでもt検定だった時代も?)

データの持つ意味を考えよう! 本日は、取り扱うデータの種類により採択すべき統計手法は変化するということを学びましょう(重要)! 質的データの例   ・性別(単なる名義尺度)  ・「あり」「なし」等 前回はこのあたりについて学びました(χ2検定・・・独立性や適合度の検定) しかし、これらのデータは順番に意味を持ちません!   に対して・・・  ・薬効の有効、無効、著効等  ・「1.悪い」「2.普通」「3.良い」 などの順序データ これらデータは、順番に重要な意味を持ちます。 量的データの例  ・血圧値  ・血清コレステロール値  ・その他検査値等 何かの指標(単位)をもって計測することができるデータです。当然、その順番、大小の違いには重要な意味を持ちます。 本日は、取り扱うデータの種類により採択すべき統計手法は変化するということを学びましょう(重要)!

1.医学論文における統計手法の割合 よく見るとT検定、分散分析が圧倒しておりますね。それは、これらの手法を用いるようなデータが多いからなのでしょうか・・・? (共に計量データ、等分散、正規性の確認が求められる検定手法でございます) そんなわけがありません!医学のデータは基本的に等分散、正規性が確認できるデータなどほぼありません。しかも計量データよりも、圧倒的にカテゴリデータの扱いの方が多いです。 実はこれ・・・論文のjudgeにT検定や分散分析しか知らない人が多いから、もしくは、執筆者がT検定しか知らないからこうなったのです。マジですよ!

独立した2群のt検定 そもそも「独立した」とは何か? まずは難しく考えないで、「別々の人から得られたデータ」と、考えてみましょう。 その場合は、例えばA群とB群の例数が違うのが当たり前だったりします。 対応のない(unpaired)とも言いますね!

1-(1) t検定(1) Welchのt検定 2群間に差はあるのか? T統計量を求めて比較しましょう! XA:A群の平均値 XB:B群の平均値 SA:A群の標準偏差 SB:B群の標準偏差 nA:A群の例数 nB:B群の例数 まずはご利用条件の確認をお願い致します!  ・計量データですか?  ・A群・B群とも正規分布ですか?→正規性の検定 ここまでの条件が合致すれば、Welchのt検定を用いてよろしいです。ただし、A群、B群とも正規分布していることが条件です。 *時に対数変換することで正規分布になるデータもあります。例えば、糖尿病患者の血糖値のような、右側の裾が長い場合とか・・・。

1-(2) t検定(2) 正規性/等分散性の検定 F=S22/S12 2群は正規分布をしているか? =2群の中心は分布の真ん中にある? 1-(2) t検定(2) 正規性/等分散性の検定 2群は正規分布をしているか? =2群の中心は分布の真ん中にある? 群1 群2 まずはどんな形でもいいけど、正規分布しているか確認しましょう!(グラフ化等) 分散は等しいと言えますか? F検定で検定しましょう!(上の図だとダメ!) F=S22/S12 分散の大きい方を分子にしましょう。(この場合、群2の分散のほうが明らかに大きいですね)。当然、Fが1に近いほど分散が等しいということになります。

1-(3) t検定(3) Studentのt検定 考え方はWelchと全く同じですが、分散が異なる場合は? XA:A群の平均値 XB:B群の平均値 S:A群及びB群の標準偏差(分散は等しい) nA:A群の例数 nB:B群の例数 今一度ご利用条件の確認をお願い致します!(ご利用は計画的に)  ・計量データ?  ・分散は等しい?(SA/SB≒1)→等分散性の検定=F検定  *等分散なので、先程のWelchのT検定でSA=SB=S(共通の分散)とする  ・A群・B群とも正規分布?→正規性の検定 ここまでの条件が合致すれば、Studentのt検定を用いてよろしいです。先程のWelchのT検定以上に推定の精度は高くなります。

1-(4) t検定の原理 ①問題意識:データ数nA個とnB個の2組の標本A群・B群がある。これらの出所(=母集団)は同じなのだろうか? ③A群・B群の平均値の差を求める。(X=XA-XB) ④上記③を無限に繰り返すと、平均値の差(X)の理論分布が得られる(たくさん繰り返せば、理論分布は正規分布に近づきますね?) これを「中心極限定理」と申します! ⑤そこで、③で求めた平均値の差(X)は、上記④で求めた理論分布のどのあたりに位置するのか調べる。 差がないとした場合、平均値の差(X)は十分に起こり得る大きさなのであろうか・・・?T分布表で調べるのですが・・・最近は統計ソフトでやってくれます!

<参考>1-(5) t検定の頑強性(robustness) 疑問:先程、医学のデータには正規性・等分散を保障できるデータなどそうは存在しない・・・と言っておりましたが? それは事実です。実際にT検定の乱用が目立つのも事実ですし、経験上もそうそう使える場面はありませんでした。が・・・実は本当に使える場面も多々あります。 標本数(n数)が小さい場合 正規性・等分散性の検定をパスしやすくなりますので、t検定の適用が正当化されたりします。 標本数(n数)が大きい場合 データ数が十分大きく、標本分散から母集団の分散をほぼ正確に推定できる場合、正規検定で2群の平均値の差を調べることが可能になります。 Robustness:ローバスト性、丈夫さ、堅牢性、頑強性、粗暴、厳しさ・・・ということで、特にn数が大きい場合には有用と思われます。ただし、どれほどn数が大きくとも、計量データに用いられるべきものであることは変わりません!

1-(6) 演習 健常人5名(N群)、バセドウ氏病患者7名に糖負荷検査を行い、30分後の血糖上昇値を求めた。両群間に差があると考えてよいか?等分散性の検定の後、最適と思われる検定方法を用いること。(α=0.05におけるT値は2.23、F値は6.16とする)  Hint:まずはデータの基本統計量(平均・標準偏差)を求めましょう! N群:平均値44 分散56.5 B群:平均値56 分散80.3 より F≒1.44。1.44<6.16であるため、分散に差があるとは言えません。等分散とみなして、後はソフトにまかせましょう。両側でもP≒0.035<となるので、差があると言えるでしょう! 確かに複雑な計算を一瞬でやってくれますが、ソフトウエアが何をやってくれるかを理解してから用いましょう! 残念ながら、それを理解していない人々が多過ぎます!

関連した2群のt検定 そもそも「関連した」とは何か? ここでも難しく考えないで、「同じ人から得られた、異なる時点のデータ」と、考えてみましょう。 その場合は、当然A群とB群の例数は等しいのが当たり前だったりします。 対応のある(paired)とも言いますね!

1-(7) 対応のあるt検定 そんなことをするよりも、前後の差の平均から検定した方が良いのでは?その方が計算は楽ですし、簡略化できます。 1-(7) 対応のあるt検定 例:6人の患者に自律神経遮断剤を投与し、前後の脈拍を計測した。この薬には効果があると言えるか? (では、前と後の脈拍に差がないと仮定して・・・T検定をすればよいのでは・・・?) そんなことをするよりも、前後の差の平均から検定した方が良いのでは?その方が計算は楽ですし、簡略化できます。 _ d:平均値の差の平均 Sd:標本分散 n:データ数 何だってそうですが、処理は複雑よりも簡単な方が良いに決まっていますね!何よりも ミスが減少します! 「対応があるデータ」は、ほとんどの場合「前後の値」です。「投与前/後」「使用前/後」等々、臨床試験で言えば「クロスオーバー法」はこれに該当します。

1-(8) 演習 平均値の差の平均:d=42/6=7 標本分散:Sd=√{(12-7)2+・・・+(-2-7)2}/(7-1)=6.07 1-(8) 演習 例:6人の患者に自律神経遮断剤を投与し、前後の脈拍を計測した。この薬には効果があると言えるか?検定等計量Tの値を算出せよ。 平均値の差の平均:d=42/6=7  標本分散:Sd=√{(12-7)2+・・・+(-2-7)2}/(7-1)=6.07 T=2.82のとき、P値はP =0.037<0.05となる。よって、帰無仮説(この薬の効果はない=前後の平均値には差がない)は棄却され、この薬は効果があると言える。 これは手でも計算できます。(原理さえ解っていればですが)わざわざ自由度の計算やT分布表を確認する必要はなく、その部分はソフトウエアに任せてもよいでしょう。

順序データ等々の検定 順序データ「等々」とは何か? 計量データでない順位データ、もしくは計量データでも明らかにT検定を用いることができない場合などには、どのように検定すればよいでしょう? こんなパターンは臨床データには多いですね。実際に、近年では一番多く用いられつつあるかもしれません。

2-(1) Mann-Whitney検定 この治療法に差はあるのか? どうやって検定する? この治療法に差はあるのか? どうやって検定する? 悪化=1・・・治癒=4として平均値を算出して、治療法Aと治療法BでT検定・・・?実際にそのようなテキトーな(ムチャクチャな?)統計処理が多くて困っております! これは順序データですので、当然のことながらT検定は厳禁ですよ!使っている人がいたら、それは間違いなく誤用です。 ですが、統計パッケージはそれがどのようなデータであれ、セットさえすれば検定してくれます。上記のようなデータですら、T検定の命令を出せばきちんと有意差まで出してくれます! くどいようですが、統計手法はそのデータの形に見合った手法を選択しなければなりません。非連続データの検定を、連続分布に適合させて検定しても意味はありません!それで得られたP値がどれほど小さくても、それは何の意味もなしません!

2-(2) Mann-Whitney検定 続き ならばどうしましょうか? →順位に注目してみましょう! 両群を合わせて下から順番に並べた場合、「悪化」は1位~17位までを占有し、平均すると9位となる。 非常に判り辛いかもしれませんが、頑張りましょう! この場合の帰無仮説(H0)は「順位にバラツキがない」であり、さらにどちらの治療法が優れているか不明なので両側検定を用います。 ここまで見た限りでは治療法Aと治療法Bの間の「順位和」には非常に差があるように見えますが・・・?

2-(3) Mann-Whitney検定 続き こちらの検定統計量は以下の流れで示されます! UA=nAnB+nA(nA+1)/2-TA TA:A群の順位和 TB:B群の順位和 nA:A群の例数 nB:B群の例数 UA=nAnB+nA(nA+1)/2-TA UB=nAnB+nA(nA+1)/2-TB UA=32×37+32(32+1)/2-903=809 UB=32×37+32(32+1)/2-1512=375 上記のうち、値の小さいほうがMann-WhitneyU値として採用されます。各群の例数・順位和を代入してみますとUA>UBなので、UB=Uとなります。さらに、                        より、やっとσU=80.136                        より、ようやく統計量Z0=2.7079                        が求まりました!

2-(4) Mann-Whitney検定 続き 多くの皆様がt検定を用いたがる理由のひとつでもあります! 先の検定量Z0=2.7079についてα=0.05の有意水準点は1.96となるので、Zo=2.709>1.96となり、帰無仮説は棄却される。 よって、治療法Aと治療法Bには差があると言える・・・って。ここまでの計算を見てどう思われましたでしょうか? 私は疲れました・・・。 私が2時間かかった計算もコンピュータならば1秒で終了します。T検定よりも、実は複雑怪奇な処理をしているのですが・・・これは順位データを扱うゆえの問題でございます。 このような計算プロセスを覚える必要はございませんし、統計ソフトに任せておけば良いのですが、この考え方をリアルに体感して下さい。こんな複雑な計算をしても、多くの場合においてt検定よりも検出力は劣ります。 多くの皆様がt検定を用いたがる理由のひとつでもあります!

本日のまとめ T検定 Mann-Whitney検定(別名:Wilcoxonの順位和検定) ・基本的に正規分布に従うデータに用いる  ・基本的に正規分布に従うデータに用いる  ・計量データの検定に用いる  ・一般に例数が30以上のときに用いる。100を超えるようならばほぼ無条件に用いられる(当然計量データのみ!)  ・realな値そのものを検定統計量に用いるので、多くの場合において検出力が高い=有意差が出やすい! Mann-Whitney検定(別名:Wilcoxonの順位和検定)  ・計数データ(順位データ等)、正規分布に従わないデータに用いる  ・検定統計量は「データの順位」から求められる  ・多くの場合においてT検定よりも検出力が低く、有意差は出にくい。それゆえ、この検定法で有意差が出ている場合は基本的にかなり有意であると言える

T検定のように正規分布等々、分布を規定した方法による検定方法を「パラメトリック検定」と言います。 本日のまとめ 続きと次回予告 T検定のように正規分布等々、分布を規定した方法による検定方法を「パラメトリック検定」と言います。 一方、Mann-Whitney(Wilcoxon順位和検定)のように、分布に依存しない検定方法を「ノンパラメトリック検定」と言います。 次回は実習のほか講義もあります。必ずしも比較は2群とは限らない・・・むしろ3群以上の方が多い場合もございますので、そちらの手法について学びましょう! 実習は3~4名一組で行います。授業前に決定請う! 誤植などはご遠慮なくこちらまで wohashi@bioinfo.tmd.ac.jp