データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
統計的仮説検定の手順と用語の説明 代表的な統計的仮説検定ー標準正規分布を用いた検定、t分布を用いた検定、無相関検定、カイ二乗検定の説明
データ分析入門(12) 第12章 単回帰分析 廣野元久.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
スケジュール予定など 9:30-10:20頃 看護研究・データ分析再考 10:30-12:00頃 データ入力段階の留意 昼 食
スケジュール予定など(再掲) 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ
スケジュール予定など 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ 昼食
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
2008/9/24 岡山県看護協会一般研修 資料 データ分析の基礎知識 統計的検定編 岡山商科大学商学部 商学科長・教授 田中 潔.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
第9回 二標本ノンパラメトリック検定 例1:健常者8人を30分間ジョギングさせ、その前後で血中の
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
統計学 12/13(木).
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
クロス集計とχ2検定 P.144.
1変量データの記述 経済データ解析 2006年度.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
スケジュール予定など 2日目 午後 10:00-11:00頃 統計分析ソフトと 青木・すがやのサイト 11:00-12:00頃 統計的検定法
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
地理情報システム論演習 地理情報システム論演習
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
数量分析 第2回 データ解析技法とソフトウェア
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
1.母平均の検定:小標本場合 2.母集団平均の差の検定
analysis of survey data 堀 啓造
母分散の検定 母分散の比の検定 カイ2乗分布の応用
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
統計的検定   1.検定の考え方 2.母集団平均の検定.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
母分散の検定 母分散の比の検定 カイ2乗分布の応用
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
Presentation transcript:

データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編 2009/9/19 岡山県看護協会一般研修 資料 データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編 岡山商科大学 経営学部商学科長 教授 田中 潔

スケジュールなど 午前 データ分析 総論編 9:30-11:00頃 統計的データ分析とは 11:00-12:30頃 統計分析のポイント 昼食 午前 データ分析 総論編 9:30-11:00頃  統計的データ分析とは 11:00-12:30頃 統計分析のポイント          昼食 午後 データ分析 検定編 13:30-15:00頃 統計的検定を知る 15:00-16:15頃  ノンパラ検定法

あなたはなぜデータ分析を迫られるのか? 素直なあなたはスタッフから相談を受けます 院内研究が回ってきた 学外・論文投稿が迫ってきた アンケートの集計を手伝って→手伝いが中心に あなたはエクセルが分かるから分析ね! PCができることと統計が分かることを混乱した上司に恵まれた 院内研究が回ってきた 予算はあまりない、スタッフの協力にたよる 学外・論文投稿が迫ってきた 国内や世界標準での点検・確認

その結果 断ることは許されない 自分は統計を知らない→習っていないものがわかるものか 私は理屈っぽく考えるのがイヤ! 私は数学がいやで看護へ来たのに 看護に統計はいらない 調査では患者ひとり一人は援助できない      統計ギライがこの世にまたひとり

データ分析の背景 国勢調査や行政調査 マーケティング(市場調査)・世論調査 実験や臨床研究、業務改善 国・県などの公的調査 国勢調査は統計法に基づくhttp://www.stat.go.jp/index/seido/houbun2.htm 政府統計ポータルサイト http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do マーケティング(市場調査)・世論調査 ある目的のため市場を調査する アンケート調査 実験や臨床研究、業務改善 比較的小規模

量か質か 量的研究(学部卒レベル) 質的研究(院レベル) 通常のアンケート調査、多くの場合対象者全員からの回答は無理→標本調査 量的研究の主目的は、市場の現況を把握すること 質的研究(院レベル) 通常のインタビュー調査、症例研究、観察など 未知なる問題の場合、仮説を発見するために比較的小規模にて行う http://www.geocities.co.jp/Technopolis-Mars/4688/ 南小樽病院 瀬畠さん

母集団と標本 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知

悉皆(しっかい)調査 母集団の全員が標本として測定されたこと 母集団サイズ=標本サイズ 標本での分析結果がすべて母集団結果 標本を捉えることの意義 標本の示す傾向=母集団の中心的な傾向+個々の誤差

統計解析法の目的 推定・推測: 標本から母集団値を求める 予測: 時系列データから将来を推測 記述統計: 標本を示す値やグラフで視覚化 推定・推測: 標本から母集団値を求める 一般には標本値±誤差を決める 予測: 時系列データから将来を推測 方程式を作成する 記述統計: 標本を示す値やグラフで視覚化 検定・テスト: 比較し判定する、○×効果 多変量分析群 3つ以上の項目からなるデータを分析する

統計の中の個人・ひとり 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 個人(表層へ出現)=    中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 私は60kg=標準体重+誤差   標準体重:仮に50kg   誤差: 60-50=10kg 実は、中心的傾向とは平均値のこと                             

多変量解析の目的 ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ③ ものや項目の関係を視覚化したい ④ ものや項目を分類したい ⑤ 項目間の関係や構造を知りたい

主な多変量解析手法 予 測: 指 標: 視覚化: 分類: 潜在構造: 回帰分析、数量化1・2類、判別分析 予 測: 回帰分析、数量化1・2類、判別分析 指 標: 回帰分析、数量化1~3類、主成分分析、因子分析 視覚化: グラフ解析、数量化3・4類、主成分分析 分類: クラスター分析 潜在構造: 因子分析、共分散構造分析

データの値: 4つの測定尺度 名義尺度 情報量小 順序尺度 間隔尺度 比率尺度 名前を区別するため 演算は出来ない データの値: 4つの測定尺度 名義尺度                      情報量小 名前を区別するため 演算は出来ない 1.男性 2.女性  度数表やクロス表は可 順序尺度 ゆるい順序性のみ許す 演算は本来△ 1.はい 2.どちらでもない 3.いいえ 間隔尺度 絶対ゼロを定めない量 演算は加減のみ ℃(摂氏)、カレンダー月 比率尺度 絶対ゼロを基準とした計測値 加減乗除可能 実験データ全て                      情報量大

行側(ギョウソク)と列(レツソク)側          →列側(項目、変数、変量)   行側↓  (ケース)

ケースと項目 ケースとは1件の標本を示す ケースは個体を示す 時系列の場合時間変化 項目は列単位→1つの変数 1変数の集計や分析 1列ごとに処理するデータ 2変数の集計 2列ごとに処理 多変数の処理 3列以上をまとめて処理

入力したデータ

有効数字について 計算結果を小数点何桁まで取るべきか? 答え 測定値で影響されます。 身長160cmは「センチ単位」で測定されました。 160.1かも160.4かも知れません。 有効数字 小数点以下0桁 でした。 そこで平均値など計算結果の表示は、ひと桁多くし小数点以下1桁(2桁目を四捨五入して)で表示しましょう 教訓 計算結果の有効数字は測定値よりも1桁多く

欠測値について 計測されなかった、計測できなかった値 表ソフトで欠測値には0ゼロを入力しない 99や0など特定値を入れることは 欠測値という エクセルの場合何も入力しない セル値の削除はdeleteキーで 0は計測値として計算してしまいます 99や0など特定値を入れることは 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう

最初のデータ分析 記述統計量とは 平均値 標準偏差 最大、最小値 中央値 度数集計表

素データ~統計量 概念図       ちらばり(分散や標準偏差) ボール&スティックモデル × 代表値(平均値や中央値)

エクセルによる基礎統計量 関数で求める 平均 =AVERAGE(範囲指定) 標準偏差 =STDEV(範囲指定) 平均 =AVERAGE(範囲指定) 標準偏差 =STDEV(範囲指定) 中央値 =MEDIAN(範囲指定) 最大値 =MAX(範囲指定) 最小値 =MIN(範囲指定)

2つの項目の 基礎集計     投げ1のヒストグラム

投げ1と投げ2を書き分ける

散布図は2項目の関係図

グラフ点を右クリック→近似曲線の追加メニュー

散布図→単回帰分析 回帰直線y=x 相関係数r=0.43

算術平均の示すもの ここに5つのデータ 2、10、1、2、1がある 1 1 2 2 10 2+10+1+2+1=16 1     1 2     2 10 2+10+1+2+1=16 算術平均=16÷5=3.2 3.2は5つのデータを表現する代表値の一種

もう1つの代表値 中央値 2、10、1、2、1 これを 小さい(大きい)順に並び替える 1、1、2、2、10 もう1つの代表値 中央値 2、10、1、2、1         これを 小さい(大きい)順に並び替える 1、1、2、2、10 この真ん中番目を中央値(メジアン)と呼ぶ この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な値(極値)に左右されにくい →頑健(ロバスト)な代表値 算術平均3.2 中央値2

2グループの代表値を比べる グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2 グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2  この2つに有意な差があるか?→t検定

2つの平均値を比べる 2群の平均値差の検定(t検定) 群 平均 SD N A  3.2 3.8  5 B  5.2 8.2  5 等分散性の検定 有意確率2.3%(有意)  2群のばらつきは等しくない 平均値差のt検定 等分散仮定する 6.4% 等分散仮定せず 6.4% いずれも平均値差は有意でない この2群で平均値3.2と5.2は同程度と見るか?否か? 2群のばらつきは 等しくないと判定 ばらつき等しくない仮定の下で、 2つの平均値が等しいことを否定せず(つまり同程度)

マン-ホイットニ検定による2群の比較 中央値  A:2  B:2の比較 有意水準91.1%(有意差なし)→両群は同じ

データ分析のポイント □ 調査の種類、母集団と標本のちがい □ 統計手法は目的に応じてたくさんある □ 行と列→ケースと項目、測定尺度 □ 調査の種類、母集団と標本のちがい □ 統計手法は目的に応じてたくさんある □ 行と列→ケースと項目、測定尺度 □ 表ソフトへのデータ入力様式 □ 基礎統計のエクセル関数 □ グラフ→2項目 散布図と回帰式 □ 検定の一例t検定 → 次は検定をマスターしよう

統計的検定法(群) 統計手法の中で「検定(Test)」は医療統計でよく使われます。 薬効評価、効果判定のために用いられます 以前は、平均値を比較するパラメトリック手法が用いられましたが、最近ではノンパラメトリック検定が多く用いられています。

統計的検定はどんなもの ある仮説(○=△)を判定する 判定結果は採択、または棄却の2分法 採択とは「この仮説を積極的に否定しない」 例: この実験結果=160.0 例: 群1の平均=群2の平均 判定結果は採択、または棄却の2分法 採択とは「この仮説を積極的に否定しない」 (厳密には仮説を認めたくないがやむを得ない) 棄却とは「この仮説を積極的に否定する」

看護に代表的な検定 t検定 ある測定データの平均値がある値かどうか 2群の平均は等しいとみなせるか カイ2乗検定 仮説: 測定データの平均値=46.7 2群の平均は等しいとみなせるか 仮説: 群1の平均=群2の平均 カイ2乗検定 クロス表に傾向や関連性があるか 仮説: このクロス表の度数は同じか

(統計的)仮説検定の流れ ある検定手法を選択する(パラでもノンパラでも) 帰無仮説H0:とは 対立仮説H1:とは 否定する(だろう)ための仮説 帰無=無に帰する=否定を期待する 対立仮説H1:とは 帰無仮説以外の結果 H0を否定するだけなので積極的な採択はしない H0:とH1:を対にして用意する 分析データを統計ソフトにかける→有意水準を求める 有意水準の値に応じてH0かH1かを判定する 目的に応じて手法はたくさん存在する

仮説の立て方 1.自分の持っている仮説(作業仮説ともいう)を対立仮説H1とする 2.H1の否定(逆)をH0とする 3.H0は○=△のように等号で作成するのがよい 4.H0:○=△とした時、3種類のH1が考えられる    H1その1: ○>△ 片側検定    H1その2: ○<△ 片側検定    H1その3: ○≠△ 両側検定

仮説の事例 新薬Bは薬Aより効果あることを証明したい H0は等号関係で作成すると良い H1には3つの作り方あり H0: 新薬B=薬A(同じ、効果なし) で決まり! H1には3つの作り方あり ① H1: 新薬B>薬A 優れる    片側 ② H1: 新薬B<薬A 劣る     片側 ③ H1: 新薬B≠薬A 同じでない 両側 「効果ある」なので通常③を採用

仮説H1に方向性があるならば両側検定 関係があるかないか   ない= ある≠   両側検定 正(負)や大小の関係があるかないか   ない= ある>   片側検定 優れている(劣っている)   同じ= <や>   片側検定 同じか否か   同じ= 同じでない≠ 両側検定

H0とH1の例 H0はハッキリと1点で指定するのが普通(点指定) H1は指定された1点以外のすべて(だからはっきりと値が判定できない) ○ H0: 日本人の平均160センチ 平均=160 H1: 160センチではない(何センチかは不明) H0はハッキリと1点で指定するのが普通(点指定) H1は指定された1点以外のすべて(だからはっきりと値が判定できない)          ○ 残り全てがH0 H0

棄却と採択 H0が明らかに成立しないならば棄却 つまりH1を採用 H0は帰無したいがどうしても棄却できない状態のことを採択(=積極的には帰無・棄却しない)という つまりH0を採用する

検定に見る計算と判定 計算: 統計ソフトなどを使用する 判定: 出てくる結果の有意確率か有意水準の値により判定 計算: 統計ソフトなどを使用する 判定: 出てくる結果の有意確率か有意水準の値により判定 有意水準>0.05 有意水準5%以上で採択    5%以下ならば棄却(有意、SIG.)←差あり 0.05~0.01  5%有意  * 星1つ 0.01~0.005 1%有意  ** 星2つ 0.005より小 0.5%有意 *** 星3つ

まとめましょう 正規分布を仮定できそうな時 正規分布を仮定できそうでない時 仮説は次に固定すると理解し易い 平均値に関するt検定 正規分布を仮定できそうでない時 ノンパラメトリックな検定法 仮説は次に固定すると理解し易い H0: A=B H1:A≠B(両側検定) 計算は統計ソフトやWebサイトで行う 有意かどうかの判定は有意水準で行う

検定の実際に慣れる

統計ソフトについて 記述統計、グラフなどはエクセルで十分 検定、多変量分析となると専用ソフトが望ましい http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで間に合うことも多い。いつまで続くかは不明 市販ソフトとしては PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。世界的権威ソフト 新規18万円 ライバル会社にSASがある。安価版としてJUMPも有名 エクセル統計 4万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない フリーソフト(無料) R 良くできているが上級者でなければ使いにくい!

サイトを使った統計分析の注意 例えば、検索エンジン 群馬大 青木 多くの計算がWebサイトで可能な時代 例えば、検索エンジン 群馬大 青木 多くの計算がWebサイトで可能な時代 これらの計算の多くはJAVA(ジャバ)という技術が使用されることが多い 施設のPCでは導入初期のままのためJAVAが有効でない(使えない)場合も多い 分析前にPCの確認を!

医療統計向けソフト比較 http://www.kenkyuu.net/comp-soft-01.htmlより引用 SPSS社はIBMに吸収のため、2009現在PASWに名称変更

2グループの平均値差検定 (通称t検定) 仮説は以下のとおりに立てる H0: 平均1=平均2(2つの平均は同じ) H0: 平均1=平均2(2つの平均は同じ) H1: 平均1≠平均2(同じでない)→両側 注意 H0: 平均1≠平均2(同じでない) H1: 平均1=平均2(2つの平均は同じ) のように逆には立てません。帰無仮説H0は等号関係で作ります!

パラメトリック検定 集めたデータが正規分布しそうな場合に適 検定力は強い 平均値と標準偏差に関する検定がおも 2群(実験群と対照群)の平均値差検定 =通称:t検定が有名

サイトで行う2群平均値差の検定(t検定) 次の2群の平均値は同じといえるか 平均 ケース数 標準 偏差 A群 10.0 10 5     平均 ケース数 標準                 偏差 A群  10.0    10    5 B群  10.5    20   15 等分散性 0.002 棄却 2群は同じ分散ではない 平均値差 0.894 棄却 平均値は等しくない 使用サイト http://aoki2.si.gunma-u.ac.jp/Java/StatCalc/dist/StatCalc.html

ノンパラメトリック検定群 正規分布を仮定しない 検定力はパラメトリック検定にやや劣る 頑健な検定法 多いのは、平均値など代表値差の検定が多い クロス表のカイ2乗検定もノンパラ検定法の1つ

パラメトリックvsノンパラ比較表 http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.htmlより引用

主な統計的検定法の体系図

クロス表の独立性の検定 通称カイ2乗検定 実はノンパラメトリックな検定手法の1つです 2×2クロス表の精密なカイ2乗検定 http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html R×C表 クロス表入力 通常版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html R×C表 クロス表入力 正確計算版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html (計算量が多いため通常版で十分) R×C表 素データで入力する版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html

代表的なノンパラメトリック検定法 対応のない2標本(群)の代表値差 対応のある2標本(群)の代表値差 マンーホイットニのU検定 2標本コルモゴロフースミロノフ検定 ファンデル・ワーデン検定 中央値検定 対応のある2標本(群)の代表値差 ウイルコクソン符号検定 ウイルコクソン符号付順位和検定

対応のあるデータ、ないデータ 対応ありと考えられる場合 同じ人やグループを追跡して測定 対応ないと考えられる場合      1回 2回 3回・・・ Aさん  1.0 1.5 2.0・・・ Bさん  1.2 1.7 2.2・・・ 対応ないと考えられる場合 毎回グループの構成者を取り替えて測定      岡山 東京 大阪 福岡・・・ 人口 生産額 学生数   

対応のないk標本(群)の代表値差 クラスカル・ウォリス検定 中央値検定 対応のあるk標本(群)の代表値差 フリードマン検定

マンーホイットニ検定 2群、対応なし 9個の部品について4個は処置群、残り処置なし群とした。この2つの群の母代表値に差があるかどうか検定しなさい。 処置群の観察値 1.2,1.5,1.8,2.6 処置なし群の観察値 1.3,1.9,2.9,3.1,3.9

有意確率=0.142または0.190 有意確率>0.05なので有意差なし・採択 つまり両群に差は認められない 参考:http://aoki2.si.gunma-u.ac.jp/Java/TwoSamples/dist/TwoSamples.html つまり両群に差は認められない

ウイルコクソン符号検定 2群、対応あり 10 人の被検者について,五段階評価をした。同じ被検者に対して,1 年後にもう一度評価した。その結果を表 に示す。1 年間で母代表値に差があったかどうか検定しなさい      1 2 3 4 5 6 7 8 9 10 最 初 A A C B D A C B D B 1年後 C A E D B B D A E D

Wilcoxson符号検定の結果 正確有意確率=0.180>0.05 → 採択 最初と1年後では有意差ない 正確有意確率=0.180>0.05 → 採択 最初と1年後では有意差ない もしも計量値としてWilcoxsonの符号付順位検定を行ったならば、 漸近有意確率=0.114>0.05 採択 やはり 最初と1年後では差はない 分布計算 http://aoki2.si.gunma-u.ac.jp/CGI-BIN/mpsrtest.html

クラスカルーウォリス検定 3群以上、対応なし 12 匹のラットに 3 種類の餌を与えたときの肝臓の重量は表 1 のようであった。餌の種類により肝臓の重量の平均値に差があるといえるか      SPSS入力 表 1.餌の種類による肝臓の重量 A餌 3.42 3.84 3.96 3.76 B餌 3.17 3.63 3.47 3.44 3.39 C餌 3.64 3.72 3.91

H0: 平均1=平均2=平均3 H1: 3群の平均は同じでない 漸近有意水準0.062>0.005 棄却          0.062>0.05  採択 結論: 3群の平均は同じではない(帰無できない) ただ、有意水準6.2%と5%に近いことにも留意する 参考http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html

フリードマン検定 3群以上、対応あり 表 1 のようなデータがある。4 種の肥料間で収量に差があるか 参考: 行列を入れ替えれば3品種間に差があるかを検定できる 表 1.フリードマン検定が対象とするデータ 肥料  品種   B1   B2   B3   B4  A1 9  17  12  16  A2 1  21  11  A3 7  19  6  9

漸近有意確率0.001<0.005 *** 0.5%有意 肥料4種の平均は等しくない 行列を入れ替えると 漸近有意確率0.004<0.005 エクセル版 http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html H0: 4群の平均は等しい H1: 4群の平均は等しくない 漸近有意確率0.001<0.005 *** 0.5%有意 肥料4種の平均は等しくない 行列を入れ替えると H0: 3品種の平均は等しい H1: 等しくない 漸近有意確率0.004<0.005  ***0.5%有意→3品種の平均は異なる 総合的には、肥料、品種いずれも差あり

表の形式は似ていても… 表はクロス表に似ている。しかしクロス表は対応なし、フリードマンは対応ありが大きく異なる。 肥料  品種   B1   B2   B3   B4  A1 9  17  12  16  A2 1  21  11  A3 7  19  6  9 表の形式は似ていても… 表はクロス表に似ている。しかしクロス表は対応なし、フリードマンは対応ありが大きく異なる。 クロス表では行か列はそれぞれ要因。フリードマンでは行か列は標本(ケース)である。

まとめ・チェックリスト □ 統計的検定法の概念 □ 採択と棄却がわかる □ 帰無仮説と対立仮説 H0とH1 □ 統計的検定法の概念 □ 採択と棄却がわかる □ 帰無仮説と対立仮説 H0とH1 □ 計算は統計ソフトで、統計ソフトは色々 □ 時代はパラメトリックからノンパラへ □ ノンパラ検定にはたくさんの手法 □ 代表的ノンパラ検定の用法・読み方

研修講師のメモ 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了の後商大へ勤務。助手、講師、助教授を経て現在教授。2008年より商学科長。 主な科目:情報システム論、情報ネットワーク論他 専門分野:計算機統計学、マーケティング 連絡先 岡山商科大学 〒700-8601(番号で届く) tanaka@po.osu.ac.jp http://www.osu.ac.jp/~tanaka 検索エンジン 「岡山商科大学 田中潔」 大学電話 086-252-0642 大学FAX 086-255-6947

研修後に相談があれば アポイントはメールtanaka@po.osu.ac.jpが最適。その他電話FAXは086-284-7726(自宅)だが捕まらないならごめんなさい データ分析相談は随時応ずるが、エクセルに素データを入力しておくのが望ましい また希望する仮説も事前に固まっている方がスムーズに進む。 遠方の場合メールだけで指導する場合もある

より大規模な分析体制 施設からの応需制度として岡山商科大学では産学官連携センター受付による受託研究や共同研究などの制度もあり。 おおむね1件1年50万円程度から受託し、担当者も指定可。 例:「アミューズメントにおけるマーケティング研究」パチンコ業受託2007~2009年