看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
Microsoft PowerPoint IT講習会 /22 (Tue) テックサポーター 熊谷武将.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
Microsoft PowerPoint IT講習会 /9 (Mon) テックサポーター 佐藤 諒.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
コンピュータプラクティス I 口頭発表 水野嘉明
研修のめあて 授業記録、授業評価等に役立てるためのICT活用について理解し、ディジタルカメラ又はビデオカメラのデータ整理の方法について研修します。 福岡県教育センター 教員のICT授業活用力向上研修システム.
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
よいパワーポイントファイルの見本 ・小さい字が並ぶ、長い文章、スライドに番号がない、などは避けた方がよい
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
スケジュール予定など 9:30-10:20頃 看護研究・データ分析再考 10:30-12:00頃 データ入力段階の留意 昼 食
情報基礎(Week5) ≪Word 2007を使ったレポート作成の基礎≫
スケジュール予定など(再掲) 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
2015/7/10・11 於:協会会館+岡山商科大学 役立つ(かな?)情報管理2015 テキスト 岡山商科大学経営学部商学科 教授 田中 潔.
<4日目内容> 今後のスケジュール HP更新内容の確認 課題の確認 (i-sys) 発表準備・予行演習の進め方について
プレゼンテーションスキル 09:30~10:20 看護研究とプレゼン 10:30~11:20 プレゼン基礎と素材
2008/9/24 岡山県看護協会一般研修 資料 データ分析の基礎知識 統計的検定編 岡山商科大学商学部 商学科長・教授 田中 潔.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
1DS04168E 梅根綾花 1DS04184E 清 泰裕 1DS04197P 福井千尋
経済情報処理ガイダンス 神奈川大学 経済学部.
プレゼンテーションの仕方 学籍番号:?? 名前:?? 2017/3/17.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
経済情報処理ガイダンス 神奈川大学 経済学部.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
経済情報処理ガイダンス 神奈川大学 経済学部.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
岡山商科大学経営学部商学科 教授 (兼 大学院商学研究科、教学部長) 田 中 潔 岡山県看護協会、2011/8/25(木)
スケジュール予定など 2日目 午後 10:00-11:00頃 統計分析ソフトと 青木・すがやのサイト 11:00-12:00頃 統計的検定法
経済情報処理ガイダンス 神奈川大学 経済学部.
看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修
地理情報システム論演習 地理情報システム論演習
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
統計学 西 山.
数量分析 第2回 データ解析技法とソフトウェア
卒業研究で知っておくこと -研究実践と権利保護-
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
講師メモ 田中 潔 岡山商科大学商学部助教授 連絡先(質問や相談ごと) 〒700-8601(商大,専用番号)
統計処理2  t検定・分散分析.
analysis of survey data 堀 啓造
確率と統計2009 第12日目(A).
疫学初級者研修  ~2×2表~ 平成12年2月14日(月) 13:00~ 岡山理科大学情報処理センター.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第10回:Microsoft Excel (2/2)
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
経済情報処理ガイダンス 神奈川大学 経済学部.
岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
Presentation transcript:

看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修 看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修 到達目標 09:30~10:20  看護研究とデータマイニング 10:30~12:00  プレゼンテーションの留意点 13:00~14:30  データを収集し、集計~グラフ 14:40~16:00  「統計的検定法」をマスター 1

About 研修講師 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授 岡山県を中心に看護研修を長年担当(統計学や社会調査) 主な科目:ネットワークシステム演習、社会調査実践他など 連絡先 岡山商科大学 〒700-8601(専用番号で届く) tanaka@po.osu.ac.jp (eメール) http://www.nahaha.org (Web) 検索エンジン 「岡山商大 田中」で検索 大学電話 086-252-0642 大学FAX 086-255-6947

After 研修後 アポイントメント 質問・相談はeメールtanaka@po.osu.ac.jpが最適。メールなら返事確実。その他電話・FAXは086-284-7726(自宅)でも可能。 相談の「三種の神器」: 看護研究計画書、使用アンケート用紙、データ入力エクセルファイル(すでにあれば) 遠方の場合メールだけで指導する場合もある(PC用メールがあるとファイルのやり取りが便利。連絡なら携帯メールでも可能) 3

After インターネット上での情報源 検索エンジン「岡山商大 田中」

看護データの「データマイニング」とは何? データ分析はなぜ 研究やデータ分析の心構えと その背景

データマイニングとは データ(data)+マイニング(minning) 造語 データに基づいて、意味づけを行うこと 1回の調査からマイニングの2立場 1.膨大なデータ集め、新現象を発見する ビッグデータ分析など 2.仮説を立て、データを集め、仮説を証明する

望ましい研究スタイルとは 看護研究・調査研究を考える 量的研究 統計的な処理,何かの物差し(尺度)で計る 行動や現象を計量する学問 文章やインタビューからでも数値化すれば量的研究なのだ 質的研究 解析者の知見による見解 少なくても自然科学ではない 7 7

看護研究2つの目的 帰納的な研究 演繹的な研究 いずれも客観的に立証が不可欠 その1つに「データ分析・データマイニング」が 法則やルール、公式など結論を生み出す いくつかの事例を集め、結論を1つに 演繹的な研究 1つの真理や事実をもとに適用・応用範囲拡大 知られたことをもとに、新たな知見を いずれも客観的に立証が不可欠 その1つに「データ分析・データマイニング」が

コンピュータとデータ分析のハザマ 看護研究・データ分析 エビデンス 留意点 情報学 GIGO‘Garbege In Garbege Out) 看護の中で、課題を立証し客観的結論を得る エビデンス 明白なこと、証拠や根拠 留意点 情報学 GIGO‘Garbege In Garbege Out) ゴミからはゴミしか生まれない 統計学 群盲評象 尻尾を握って象がわかったつもりになっていませんか?

量的研究・データ分析を行う上で 科学の本質 つまり、否定は1つの反例で即決(強)>肯定は難しい(弱) ある現象を解明する際、反例を見つけ、否定するこの繰り返しで、可能性や真実に接近する。 「○○を肯定できる」のではなく、色々可能性を否定し続けたが、もう否定できない。だから「肯定せざるを得ない」という論法 つまり、否定は1つの反例で即決(強)>肯定は難しい(弱)

データ分析・調査の2立場 対象者全員の結果が得られた場合 対象者の一部しか調査できない場合 問題は、標本から本来の集団を推し量る 悉皆(しっかい)調査 その結果が唯一正しい、記述の統計で良い 対象者の一部しか調査できない場合 欠席者いた。未回答があったなど含む 標本調査でも標本統計は存在する 問題は、標本から本来の集団を推し量る

統計と確率 統計・・・過去(得られた)データを検討する 確率・・・未来・将来を検討する 統計の2立場 記述統計 データの「兆し(きざし)をつかむこと 標本(データ)を対象 集めたデータの様子を報告する(報告書) 推測統計 データから未来を推しはかる 母集団(同じ調査を複数回実施した究極の姿)を対象 研究発表や論文のめざすもの

計測や調査からデータを得ること 母集団と標本 研究目標の対象: 母集団(未知) 計測や調査から得た対象    標本:既知 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知

大まかなデータマイニング(統計的データ分析)の流れ 4段階 大まかなデータマイニング(統計的データ分析)の流れ 4段階 母集団(未知であり不可視)            標本(可視)          集計        推定・検定            データの収集      データ集計         統計解析            アンケート調査     記述統計          推測統計       無作為抽出                                     この調査を繰り返した                                      ら究極どうなる?                                    平均値やクロス表                       基礎統計量や集計表                         報告書は標本の結果でOK                           t検定やカイ2乗検定結果(有意かどうか) 神の領域                     人間界 第一段階      第二段階        第三段階          第四段階

統計解析法の目的 記述統計: 平均、標準偏差、分散、グラフ 推定・推測: 標本から母集団値を求める 予測: 時系列データから将来を推測 記述統計: 平均、標準偏差、分散、グラフ 推定・推測: 標本から母集団値を求める 一般には標本値±誤差を決める 予測: 時系列データから将来を推測 方程式を作成する 記述統計: 標本を示す値やグラフで視覚化 検定・テスト: 比較し判定する、○×効果 多変量分析群 3つ以上の項目からなるデータを分析する 15

なぜプレゼンに苦労しているのでしょう? 何をプレゼンすべきでしょう? 発表に備え プレゼンテーションを考えよう なぜプレゼンに苦労しているのでしょう? 何をプレゼンすべきでしょう? 16

プレゼンテーションとは プレゼンテーション、示説→みんなの前で発表すること 良いプレゼンとは 企画から発表までを見通す 見栄えのする(見易い)表示や資料を行う そのためにはパワーポイントpptが主流? 発表時間を厳守する 質疑応答にさわやかに(カッコ良く)回答する   企画から発表までを見通す   判明したことが分かっている 17

パワーポイント全盛時代への警鐘 トヨタがパワーポイント(ppt)禁止令 ダイヤモンド社オンライン(2009/5/20)より 18

記事のポイント 19

材料を集める,揃える プレゼン作品をPCで作成する プレゼン作品の実行 文字,表,図(写真),グラフ,デザイン図.. デジカメ,VTR機器の扱い方 PCへの音声・画像ファイルを移動 プレゼン作品をPCで作成する 作品の構成や起承転結 パワーポイント(パワポ)の使用・操作方法 Word,Excelからパワポへ連携 パワポでの作図,アニメ効果 プレゼン作品の実行 発表当日あせらないために 20

素材をPCに集める道具たち PC側の端子を確認 USB接続 機器接続の万能選手 IEEE1394 接続の基本はケーブル接続 USB1.0とUSB2.0(より高速、標準)が共存。USB3.0も実用化中 インテル社、マイクロソフト社 IEEE1394  動画などより高速接続向け 端子形状が異なる 小さな正方形 モトローラ社、アップル社 接続の基本はケーブル接続 挿すだけでOK          双方向 21

カード型メモリで移す 事実上の標準 デファクトスタンダード USBメモリ SDメモリカード(系) メモリスティック(廃れつつ) 事実上の標準 デファクトスタンダード USBメモリ USBに直接挿せる SDメモリカード(系) 標準サイズの他、ミニSDやマイクロSDも一般的 (携帯電話主流) メモリスティック(廃れつつ) ソニー独自のメモリカード 22

接続の小道具たち USBハブ(2~3千円) マルチカードリーダー(2から3千円) たくさんのUSB機器を接続する 最大128機器まで区別 たくさんの形状のメモリカードの読み書き 23

マイクロソフトOffice(MS-Office) マイクロソフト社のビジネスソフト群 ワード、エクセル、パワーポイント、アクセス PCを買うとWordとExcelはついているのが普通...でもでも本当は Word 文書や資料作成(看護研究計画書類) Excel データ分析・グラフ(データの視覚化・プレゼン) パワーポイント 必要に応じて購入するソフト(別売1~2万円) 施設PCには装備なしのこともあり プレゼン準備にハタと困る場合あり 24

自PCでソフト確認 PC購入時には「スタート」、「すべてのプログラム」を開いてMSOfficeの確認をする 25

Officeソフト間の連携・継承 Officeの操作性はほぼ統一されている あるソフトで作成したもの(オブジェクト)は ワードとパワーポイントは酷似・違和感なし あるソフトで作成したもの(オブジェクト)は 多くの場合、別のソフトへ移動できる MSOfficeソフト間は 「オブジェクト指向型」ソフト群 「まず対象を選び、動作を命令する」 26

コピー&貼り付け(ペースト)でパワーポイントに持ってくることが可能 Officeソフト間のオブジェクト交換 ワードで作成した文書(テキスト) エクセルで作成したグラフ ホームページから画像をさがす コピー&貼り付け(ペースト)でパワーポイントに持ってくることが可能 コピー : クリップボードへの取り込み ペースト: クリップボードから貼り付け 27

研究作業とOfficeソフト 仮説や課題設定 人間の頭で考える 研究計画書 ワード 調査用紙 ワードかエクセル 集計・分析 エクセル 仮説や課題設定 人間の頭で考える 研究計画書 ワード 調査用紙 ワードかエクセル 集計・分析 エクセル 発表資料 パワーポイント Officeファミリの利点 操作がほぼ同じ(大区分、中区分、小区分) 異なるソフト間でのやり取り(コピペ)

プレゼンは道具や効果・色使いではない、 しっかりした発表姿勢・立案が問われる

5W1Hを明確にする 5つの「W」 1つの「H」 1.WHEN いつ 2.WHERE どこで 3.WHO 誰が 4.WHAT  何を ...... そしてもう1つ, 5.WHY (なぜか) 1つの「H」 1.HOW   どのように

相手に伝わるコツ 上手な文章は「短い」 掲示資料は「である調」 さらに,箇条書きや体言止めも効果的 パワポのフォントはワードより大きい 読点や句点をやや多めに使う ところでどちらが。かご存知? 掲示資料は「である調」 ~である. ~なのです.(ですます調)は使わない さらに,箇条書きや体言止めも効果的 パワポのフォントはワードより大きい

経験格言 内容のない発表はきれい(に作ろう) 内容のある発表は汚ない(くても許す) 細かな資料は突っ込まれる ポイントを押さえた資料や効果(色やアニメーション) シンプル イズ ベスト 時間厳守 1分で400から500文字 発表会場は暗い場合も 原稿は、投影原稿に「キーワード」を埋め込んで プレゼンには「戦略」的に挑戦する

戦略=目的+手段 目的と手段は階層的につながっている (戦略の階層性) 目的が具体的・明快だと手段が立てやすい そして、戦略とは「選択と集中」 複数の選択肢を出来るだけたくさん作る 選択肢の長所と短所を吟味する その中から選び、まっしぐら(集中)

プレゼンが戦略的であることとは?チェックリスト □ 現状分析ができている □ 分析から(中・長期の)目標がはっきりしている □ 目的達成のため手段は適切か? □ 目的達成のため資源は集中されているか? □ その目的や手段を説明できるか?

論理的とは 文章やスピーチの場合: 段落と段落、話と話の関係がわかりやすいこと 文章やスピーチの場合: 段落と段落、話と話の関係がわかりやすいこと 企画書の場合: 話の筋道が分かりやすい、ページとページのつながりが分かりやすい 論理的とは結論・主張が明快で、その理由と話の筋道が分かりやすいこと

話の筋道→接続詞を上手に 上位目標確認 さて 現状分析 であるから 戦略目標(仮説)の提示 そのため 実施案の提示   さて 現状分析    であるから 戦略目標(仮説)の提示      そのため 実施案の提示        つまり   まとめ、展開なのです 

日常の接続詞一覧 順接 であるから、なので、そのため 逆接 しかし、だが 添加 そして、さらに 説明 要するに、つまり 転換 さて、ところで 順接 であるから、なので、そのため 逆接 しかし、だが 添加 そして、さらに 説明 要するに、つまり 転換 さて、ところで 例示 例えば       並列 かつ、または 補足 ちなみに 理由 なぜなら

論理に困ったら逆に考える、 並列もチェックする 三段論法に気をつける・・・ 「前向き推論」 AならばB、BならばCよってAならばC Cの理由はB、Bの理由はAそこでCの理由はAなのか・・・「逆向き推論」 逆向き推論チェックの徹底こそが納得しやすい論理形成 かつ(AND)、または(OR)、~でない(NOT) の組み合わせが多い(論理の並列)

帰納と演繹 帰納とは事実から結論を得る 統計は帰納的考えに近い 演繹は推論すること(症例研究) ラーメン店Aはうまく、行列があった ラーメン店Bはうまく、行列があった だからうまいラーメン店には行列がある 演繹は推論すること(症例研究) この疾病には斑点が出る。この患者には斑点がある。そこでこの患者はこの疾病か?

データマイニングを進めよう データを集め、集計する留意点

回答値(データ値)には4つの意味が4つの測定尺度 名義尺度                      情報量小 名前を区別するため 演算は出来ない 1.男性 2.女性  度数表やクロス表は可 順序尺度 ゆるい順序性のみ許す 演算は本来△           アンケート               1.はい 2.どちらでもない 3.いいえ              調査は 間隔尺度                        順序か名義 絶対ゼロを定めない量 演算は加減のみ ℃(摂氏)、カレンダー月 比率尺度                       検査値や 絶対ゼロを基準とした計測値 加減乗除可能    実験測定など 実験データ全て                      情報量大

素データ形式 行側(ギョウソク)と列(レツソク)側          →列側(項目、変数、変量)   行側↓  (ケース) 1ケースずつまとめたものを、「素データ」(生データ)とも呼ぶ

入力した「素データ」の形

欠測値について 計測されなかった、計測できなかった値 表ソフトで欠測値には0ゼロを入力しない 99や0など特定値を入れることは 欠測値という エクセルの場合何も入力しない セル値の削除はdeleteキーで 0は計測値として計算してしまいます 99や0など特定値を入れることは 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう

素データが用意できたら、まず 1項目ごとにデータの姿をつかむ 記述統計(基礎統計、度数・クロス集計、グラフ表示)

1項目ずつデータを視覚化する 名義、順序尺度 間隔、比率尺度 名義尺度は整数値で得られ 比率尺度は整数か小数値で得られる 度数やクロス表に集計する その表を棒グラフなどでながめる 間隔、比率尺度 ヒストグラムで眺める 基礎的な統計量を算出する 名義尺度は整数値で得られ 比率尺度は整数か小数値で得られる

記述統計の主な内容 グラフを描く 基礎統計量(中心と散らばりを) 層別 データの形(分布)、時刻変化(時系列)など 名義・順序尺度の場合 度数分布表の図示 比率・間隔尺度の場合 ヒストグラム 基礎統計量(中心と散らばりを) (算術)平均 グラフの重心位置・中心 中央値 極値がある場合平均の代用 標準偏差、分散、不偏分散 その分布のちらばり(散布度) 最大・最小値 グラフの上限・下限 層別 基礎統計はグループ別も

1項目のグラフと 基礎統計量の関係図 記述統計量とは 平均値 標準偏差 最大、最小値 中央値 度数集計表 何かの現象を棒グラフ・度数表で描いたもの=分布図 48

1項目ずつ視覚化と基礎統計量     投げ1のヒストグラム 49

素データから度数集計してみたら この集計表を「表データ」と呼んで、素データと区別することもある 50

層別:投げ1と投げ2を書き分ける 素データ→度数表→項目ごとにグラフ化 素データ→表データ→グラフ グラフを書くには、Excelが標準的 51

グラフは統計分析の設計図 最初のうちは、グラフ化することがとても大事 図中には、実は分析結果が見えています。 1項目の現象には 棒グラフか折れ線グラフがしばしば。 大切なことは、条件によりグラフを書き分けていますか?(群別、層別分析ともいう) 条件とは、女性・男性、学級A、B、C別など 52

発表・論文向け科学的なグラフの要点 Excelのグラフは、どちらかというと、プレゼンを意識した「ビジネス系」 グラフは、誰もが見て分かるもの。見た目は二の次、シンプルで情報豊富 縦軸下限は、必ず0(原点)から。途中からの省略(インチキ)グラフは最大の誤用 図はFig.、表はTable.例 Fig.5 Table.12 軸にはタイトルを必ず入れる 図はタイトルを最下、表はタイトルが最上 53

グラフの要点・誤用 左上① 縦軸と横軸は必ず明示する 左下② 棒グラフ 棒の並びに意味はない 右上③ 折れ線グラフ 横軸注意 左上① 縦軸と横軸は必ず明示する 左下② 棒グラフ 棒の並びに意味はない 右上③ 折れ線グラフ 横軸注意  横軸が時刻変化(左⇒右)とつい見てしまう

原点はゼロ 年々増加? 角度を変える 立体円グラフは誇張を意図?

2項目(変数・変量)を見る⇒散布図 アジアの人口と面積の関係 4つの現象 平均を境に左右と上下(2×2) 縦軸 面積大小 横軸 人口大小 縦軸 面積大小 横軸 人口大小 4つの現象 面積 大小 人口 大小 平均を境に左右と上下(2×2) まとめ 国土大人口密=インドネシア 国土小人口疎=韓国 国土小人口中=日本やバングラディシュ

統計的検定法の考え方 とその解釈をマスター

なぜ統計的検定法がある? 「統計的検定法」とは総称。 カイ2乗検定もt検定もウィルコクソン検定もみんな、対象や方法が異なるが、分析の考え方は同じ。検定法の仲間 統計的検定法は、 標本の比較や検定ではない 今回と同じ実験やデータ収集を難解も繰り返した場合(母集団上で考えた場合)、顕著な差異があるか?否か?を判定する手法

どの検定法を用いればよいか? 検定法の仲間はたくさん存在する 看護では2群の平均値をt検定、クロス表をカイ2乗検定する場合が大半 マンホイットニ検定(U検定)やウイルコクソン順位和検定(U検定に実質同じ)をt検定の代用にする場合も多い 検定法の選択 慣れないうちは先行研究や上司から指示される場合も多い、独自に迷ったらメールで問い合わせるのも良い方策

主な統計的検定法の体系図

検定法共通の流れ ①ある調査を行う → 一組の「素データ」を得る ②2つの群を決める → ②別法: クロス表の場合はカイ2乗検定 ①ある調査を行う → 一組の「素データ」を得る ②2つの群を決める →  疾病-正常、処置前-処置後、男女、若年-高齢など等 ②別法: クロス表の場合はカイ2乗検定 ③データと群分けで使用「検定」手法が決まる→ 先行研究や上司の助言なども参考に その分析手法のWebサイトや統計ソフトにより 「有意水準p(p値)」を求める p値により、①を複数回観測しても(母集団上では)、顕著な差(有意な差)か、どうかを判定する

p値とは 統計学や検定の考え方 標本調査で得られたこのデータや集計表について、 ある条件を仮定して、このデータや集計表を象徴する独特の検定統計量を算出する 検定統計量=対象データや集計表固有の値 p値とは、この検定統計量の発生する確率のこと 仮に、p=0.01ならマレなこと、p=0.60ならシバシバ起こること(今、測定したデータや集計表が得られることが) 統計学や検定の考え方 なぜマレな確率で素データや集計表が得られたのだろうか?きっと、何か特別な事情があるに違いない。注意しよう(有意としよう)。論文で発表しよう

有意水準pにより、判定 検定結果p値を求める ソフトによっては、有意確率という場合あり p値の大小により決定する(すべての検定で同じ) 検定結果p値を求める ソフトによっては、有意確率という場合あり p値の大小により決定する(すべての検定で同じ) 採択の場合(棄却しない、差ありを保留する) P>0.05 P>5%  有意でない(2群は同じ) 棄却(母集団レベルで顕著な差あり)の場合 0.01<P<0.05  5%有意  星1つ * 0.005<P<0.01  1%有意  星2つ ** 0.001<P<0.005 0.5%有意 星3つ *** 星の数はさほど重要ではない

p値をもとに多くの検定方法が データや表⇒検定統計量⇒その発生確率p 5%(0.05)を基準に、小さければマレ(有意)、大きければシバシバ(採択)と判定(医療では5%水準、他にも1%や0.5%なども工学で使用) 検定統計量や確率計算方法は、 条件や仮定で千差万別。また非常に難解。そこで、典型的な状況について、「○○検定」として確立されてる。(計算にはPCやサイトを) 例えば、2群の平均値差にはt検定を行う 別の条件なら、同じ目的でマンホイットニU検定も使える だから、検定手法は世に数多く存在する

検定結果が出ると、必ず陥るワナ 問1 なぜA検定やらB検定やらC検定やら色々あるの?1つでいいじゃん。⇒群盲評象に注意 問1 なぜA検定やらB検定やらC検定やら色々あるの?1つでいいじゃん。⇒群盲評象に注意 問2 どの検定方法を選んで良いか分からない 問3 A検定ならp>0.5なのにB検定ならp<0.5。だから私に都合の良い・優れた検定はBなのね? 答1: 検定方法ごとに細かな前提(仮定条件)がある。だから名称違えば異なる結果も当たり前 答2: 上司から指定された、代表的検定をまず 答3: 検定の前提の違い。優劣はない

2群の平均値差を検定する ある処置を行った群(1群)と行わなかった群(2群) この調査を何回やっても(母集団上で)、 2つの群の平均値に差があるか? (クロス表なら回答数に) 平均値ならば、                 2群の 1群(処置あり)の平均値、標準偏差、人数 ←基礎統計 2群(処置なし)の平均値、標準偏差、人数 クロス表なら   回答あり 回答なし←ある回答が  1群(処置した)  人数1    人数2   2群(処置ない)  人数3    人数4   (2×2)クロス表が1枚

分析Webサイトで解いてみる 「U検定 サイト」で検索、その中で「こんにちは統計学」で計算ページがあった。計算させてみる 田中のページの右隅からサイトへ進む (あえて、青木のページt検定を、なぜなら、最近になって青木のページは検索エンジンで出にくい) JavaScriptの(26)2群の平均値差の検定へ 使える計算サイト例: その他多数 「こんにちは統計学」サイト すがやみつる 旧「おしゃべりな部屋」サイト 青木繁伸

応用1 平均などで独立2標本検定 http://aoki2.si.gunma-u.ac.jp/JavaScript/t-test.html 応用1 平均などで独立2標本検定 http://aoki2.si.gunma-u.ac.jp/JavaScript/t-test.html 素データがなく、平均、標準偏差、ケース数のみがある場合のサイト 対応なしの場合、t検定 旧おしゃべりな部屋、Javascript、26番2群の平均値差の検定を参照

PC画面の例(集計データ入力)

結果の一例 p値が複数ある場合、関連したあるいは別の検定結果も合わせて算出している場合がある

二群の平均値差の検定 演習問題 以上 65 歳未満の住民検診 に来所した男子 42 名,女子 63 名の血色素量について 二群の平均値差の検定 演習問題 いずれもt検定(対応なし)として平均値差を検定せよ。青木サイトを使用する。 問1 群 平均 SD  N    問2     A  3.2 3.8  5     B  5.2 8.2  5 問3 ある地区で行った40 歳 以上 65 歳未満の住民検診                                       に来所した男子 42 名,女子 63 名の血色素量について の検査成績は,男子では平 均値 15.2 g/dl,不偏分散 1.1,女子では平均値 12.7 g/dl,不偏分散 3.2 であった。 男女の平均値に差はあるか, 71

(時間がないと思う 一応資料として) 応用3 名義尺度でも使える検定 クロス表の独立性の検定 (時間がないと思う 一応資料として) 応用3 名義尺度でも使える検定 クロス表の独立性の検定 通称、カイ2乗検定 名義尺度では平均値が意味を持たない そこで表に集計する。 一次元の表こそ度数分布表 2次元以上をクロス集計表 ではこの表での仮説とは 「クロス表のマス目(セル)は同じ割合かどうか」 「クロス表に偏りがあるのかないのか」

(2×2)クロス表とはこんなもの 行と列で作表する ただ集計したので分布に関係しない クロス表は因果を示している(行と列どちらでも) 行側:原因→列側:結果 例: 対応なし 投薬有無と結果や運動有無×効果    対応あり 1回目と2回目の状況

2×2クロス表(分割表) クロス表の最小形式(基本) さまざまなクロス表

http://aoki2. si. gunma-u. ac. jp/JavaScript/FisherExactTest

P=1.00採 P=0.38採   0.02棄   1.00採   0.02棄   1.00採 <解答編>

R×Cクロス表のカイ2乗検定 基本は2×2(検討しやすい) 4つのセル値をサイトへ入力 計算結果P値で判断する P>0.05 採択 0.01<P<0.05 5%有意他 1%有意 0.5%有意により *、**、*** http://aoki2.si.gunma-u.ac.jp/Java/ChisqTest/bin/ChisqTest.html (現在では、使用できない場合も多い) とか http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html 77

クロス表の独立性の検定 通称カイ2乗検定 正規性を仮定しない頑健な手法です 2×2クロス表の精密なカイ2乗検定 http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html R×C表 クロス表入力 通常版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html R×C表 クロス表入力 正確計算版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html (計算量が多いため通常版で十分) R×C表 素データで入力する版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html

クロス表独立性の検定 演習問題 各表は独立か? クロス表独立性の検定 演習問題 各表は独立か? 問1 0.83、2 0.76、3 0.31、4 0.60 5 0.01 6 0.00    採択   採択   採択   採択   **  ***

この研修での学び □ データマイニングや統計はデータで決まる □ データ集め、データ加工が勝負 □ 分析手法は理解できるものから一歩ずつ □ データマイニングや統計はデータで決まる □ データ集め、データ加工が勝負 □ 分析手法は理解できるものから一歩ずつ □ 使えるソフトはサイトにあり □ 聞いたことない分析手法にご用心 □ できる手法もまずは用法を知ろう □ 統計解析は職人芸。使いなれたノミでこそ仮説(岩)は砕ける。見える化(視覚)を忘れずに

データマイニング研修 用語の学び 統計処理はサイト利用 統計仮検定法の基礎 採択と有意(棄却) 有意水準p(p値)0.05(5%) データマイニング研修 用語の学び データマイニングとは 母集団と標本集団 行と列、欠測値、ケースと項目、全数調査 質的研究と量的研究 基礎統計量、グラフ、散布図 プレゼンの意義・戦略 素材集める機器 戦略を持った発表 2群の平均値差検定 クロス表、分割表、度数表 カイ2乗検定とt検定 統計処理はサイト利用 統計仮検定法の基礎 採択と有意(棄却) 有意水準p(p値)0.05(5%) 度数表とクロス表

研修でのおすすめ本 看護関係の書類、書籍ばかり読んでいませんか? たまにはこんな書籍で頭をリフレッシュ 「統計学が最強の学問である」、西内啓一、 ダイヤモンド社、2013。文系出身の著者が ビッグデータ時代に統計重要さを啓蒙し た本。13年のビジネスベストセラー 「統計学を拓いた異才たち」、竹内忠行、熊谷悦生訳、日本経済新聞社、2010。統計学をキチンと知るためには良いが入門書には絶対お奨めできない。無骨であり精緻な1冊。しかしためになったなぁ。統計を学んでいる人には一度目を通して欲しい本。 82

おすすめの本の続き 完全独習 統計学入門、小島寛之、ダイアモンド社、\1,944(kindle電子書籍¥1,440)、2006. Amazonレビューより: 大変わかりやすい良書である。簑谷千鳳彦氏の「統計学のはなし」、大村平氏の「統計のはなし」、和達三樹氏の「キーポイント確率・統計」といった良書群にひけをとらない、もしかしたら、それ以上の本かもしれない。(略) 田中の感想: 分析の基本を学ぶのに良い。○×手法のハウツーものではなくデータに対面する姿勢・基礎がていねい。平均や標準偏差。データマイニングする人の基本素養

個別相談で多い内容 統計分析の記述はこれでよいか? tanaka@po.osu.ac.jpにメールをどうぞ プレゼンのグラフはこれで良いか?または何グラフ使う? 検定や分析の解釈はこれで良いか? このデータでこの結論は言えるか? tanaka@po.osu.ac.jpにメールをどうぞ 随時、突然で結構 携帯からで十分ですがファイル送信や結果受け取りの場合はPCメールがいいでしょう

最後になりましたが あなたのデータマイニングや看護研究スキルの一助となれば幸いです。