看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修

Slides:



Advertisements
Similar presentations
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
Microsoft PowerPoint IT講習会 /22 (Tue) テックサポーター 熊谷武将.
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
Microsoft PowerPoint IT講習会 /9 (Mon) テックサポーター 佐藤 諒.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
コンピュータプラクティス I 口頭発表 水野嘉明
看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
よいパワーポイントファイルの見本 ・小さい字が並ぶ、長い文章、スライドに番号がない、などは避けた方がよい
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
スケジュール予定など(再掲) 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
2015/7/10・11 於:協会会館+岡山商科大学 役立つ(かな?)情報管理2015 テキスト 岡山商科大学経営学部商学科 教授 田中 潔.
<4日目内容> 今後のスケジュール HP更新内容の確認 課題の確認 (i-sys) 発表準備・予行演習の進め方について
プレゼンテーションスキル 09:30~10:20 看護研究とプレゼン 10:30~11:20 プレゼン基礎と素材
2008/9/24 岡山県看護協会一般研修 資料 データ分析の基礎知識 統計的検定編 岡山商科大学商学部 商学科長・教授 田中 潔.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
1DS04168E 梅根綾花 1DS04184E 清 泰裕 1DS04197P 福井千尋
経済情報処理ガイダンス 神奈川大学 経済学部.
確率・統計Ⅱ 第7回.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
統計学 12/13(木).
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
対応のあるデータの時のt検定 重さの測定値(g) 例:
クロス集計とχ2検定 P.144.
経済情報処理ガイダンス 神奈川大学 経済学部.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
経済情報処理ガイダンス 神奈川大学 経済学部.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
社会統計学Ic・統計科学I 第六回 ~仮説検証~
スケジュール予定など 2日目 午後 10:00-11:00頃 統計分析ソフトと 青木・すがやのサイト 11:00-12:00頃 統計的検定法
経済情報処理ガイダンス 神奈川大学 経済学部.
地理情報システム論演習 地理情報システム論演習
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
統計学 西 山.
数量分析 第2回 データ解析技法とソフトウェア
卒業研究で知っておくこと -研究実践と権利保護-
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
講師メモ 田中 潔 岡山商科大学商学部助教授 連絡先(質問や相談ごと) 〒700-8601(商大,専用番号)
統計処理2  t検定・分散分析.
analysis of survey data 堀 啓造
確率と統計2009 第12日目(A).
コンピュータにログイン 第1章 コンピュータにログイン 啓林館 情報A最新版 (p.6-13)
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第10回:Microsoft Excel (2/2)
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
経済情報処理ガイダンス 神奈川大学 経済学部.
岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
クロス表とχ2検定.
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
Presentation transcript:

看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修 看護データマイニング 研修 看護研究で(統計的)データ分析・データマイニングをお考えの方を対象。主に基礎と検定法への応用。学習型研修 到達目標 09:30~10:20  看護研究とデータマイニング 10:30~12:00  プレゼンテーションの留意点 13:00~14:30  データを収集し、集計~グラフ 14:40~16:00 Webで 「統計的検定法」を体験・克服 1

About 研修講師 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授 岡山県を中心にデータ分析・統計の看護研修を3X年 主科目:ネットワークシステム演習、社会調査実践他など 連絡先 岡山商科大学 〒700-8601(専用番号で届く) tanaka@po.osu.ac.jp (eメール)  http://www.nahaha.net (Web) 方法1 大学のプロフィールから 検索エンジン 「岡山商大 田中」で検索して、 教員プローフィルを探す 方法2 検索エンジンから直接開く 「www.nahaha,net」の語句検索でも 見つかります ナハハドットネット 大学FAX 086-255-6947             実物と同じでしょ

After 研修後 アポイントメント2018 質問・相談は、 eメールtanaka@po.osu.ac.jpが最適 メールなら返事確実。その他留守番電話・FAXは086-284-7726(自宅)でも可能。直接は出にくい。 大学電話086-252-0642㈹なら伝言可能 相談の「三種の神器」: 看護研究計画書、使用アンケート用紙、データ入力エクセルファイル(すでにあれば)。添付メール可。 遠方の場合メールだけで指導する場合もある(PC用メールがあるとファイルのやり取りが便利。連絡なら携帯メールでも可能) 3

After インターネット上での情報源2018 ①検索エンジン「岡山商大 田中」から、 「教員プロフィール」を選択。 ①検索エンジン「岡山商大 田中」から、 「教員プロフィール」を選択。 大学サイト右から進む方法。    または ②2018/7以降 検索エンジン語句 「www.nahaha.net」を検索する。 原因: 検索エンジンの更新が遅れ気味      先頭ページ 古い住所のままリンク切れ発生 対策: 検索用語 www.nahaha.netに するのが確実 順番来たらそのうち更新 される。年内中か?

看護データの「データマイニング」とは何? データ分析はなぜ 研究やデータ分析の心構えと その背景

データマイニングとは データ(data)+マイニング(minning) 造語 データに基づいて、意味づけを行うこと 1回の調査からマイニングの2立場 1.膨大なデータ集め、新現象を発見する ビッグデータ分析など 2.仮説を立て、データを集め、仮説を証明する

望ましい研究スタイルとは 看護研究・調査研究を考える 量的研究 統計的な処理,何かの物差し(尺度)で計る 行動や現象を計量する学問 文章やインタビューからでも数値化すれば量的研究なのだ 質的研究 解析者の知見による見解 少なくても自然科学ではない 7

看護研究2つの目的 帰納的な研究 演繹的な研究 いずれも客観的に立証が不可欠 その1つに「データ分析・データマイニング」が 法則やルール、公式など結論を生み出す いくつかの事例を集め、結論を1つに 演繹的な研究 1つの真理や事実をもとに適用・応用範囲拡大 知られたことをもとに、新たな知見を いずれも客観的に立証が不可欠 その1つに「データ分析・データマイニング」が

人工知能AIと ビッグデータの分析 【ビッグデータ】 大量に日々生み出される大量データから傾向、特徴さらに法則が見出されないか 統計学では、1970年代流行した「テユーキーの探索的データ解析」に同じ 【 最近2020年代AI 】 1970年代の学習型AIの壁を越えられるか? チェス→将棋でAI>人間

これらのIT伸展でデータ分析は自動化できるのか??? 医学の自動診断も近づいたと思われている。 ならば「データ分析」も可能では? 人類の夢か?将来ノーベル賞はAIが獲るのだろうか? 我々が生きている間には実現しそうにはない

2018年度トピックス 5分で押えるAI(人工知能) 2018年度トピックス 5分で押えるAI(人工知能) Artificial intlligenceの日本語訳 正しくは「機械的学習」 1970年代でいったん頓挫  当時 人間の脳並みの記憶あれば  知能は可能なはず との仮説が崩れる 2000年以降 方針変更 ニューロコンピューテングという技法  脳神経の平面結合モデル 当時はハードの制約で「1階層」どまり 2018年現在、ハード性能が進歩中 最近、囲碁や将棋やチェスで人間負かすのは、 「4階層ニューロ」に深化=別名:ディープラーニング 技法 AI技法は、厳密には知能ではない。だが、現実上の検索・判断・決定にはますます精度が上がり期待され実用上有益 注意 知能のように無から有は生み出していない。そう見えるだけ 統計は真理の探究 例:有意差 AIはこの決定を現実に実現

コンピュータとデータ分析のハザマ 看護研究・データ分析 エビデンス 留意点 情報学 GIGO‘Garbege In Garbege Out) 看護の中で、課題を立証し客観的結論を得る エビデンス 明白なこと、証拠や根拠 留意点 情報学 GIGO‘Garbege In Garbege Out) ゴミからはゴミしか生まれない 統計学 群盲評象 尻尾を握って象がわかったつもりになっていませんか?

量的研究・データ分析を行う上で 科学の本質 つまり、否定は1つの反例で即決(強)>肯定は難しい(弱) ある現象を解明する際、反例を見つけ、否定するこの繰り返しで、可能性や真実に接近する。 「○○を肯定できる」のではなく、色々可能性を否定し続けたが、もう否定できない。だから「肯定せざるを得ない」という論法 つまり、否定は1つの反例で即決(強)>肯定は難しい(弱)

データ分析・調査の2立場 対象者全員の結果が得られた場合 対象者の一部しか調査できない場合 問題は、標本から本来の集団を推し量る 悉皆(しっかい)調査 その結果が唯一正しい、記述の統計で良い 対象者の一部しか調査できない場合 欠席者いた。未回答があったなど含む 標本調査でも標本統計は存在する 問題は、標本から本来の集団を推し量る

統計と確率 統計・・・過去(得られた)データを検討する 確率・・・未来・将来を検討する 統計の2立場 記述統計 データの「兆し(きざし)をつかむこと 標本(データ)を対象 集めたデータの様子を報告する(報告書) 推測統計 データから未来を推しはかる 母集団(同じ調査を複数回実施した究極の姿)を対象 研究発表や論文のめざすもの

計測や調査からデータを得ること 母集団と標本 研究目標の対象: 母集団(未知) 計測や調査から得た対象    標本:既知 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知

大まかなデータマイニング(統計的データ分析)の流れ 4段階 大まかなデータマイニング(統計的データ分析)の流れ 4段階 母集団(未知であり不可視)            標本(可視)          集計        推定・検定            データの収集      データ集計         統計解析            アンケート調査     記述統計          推測統計       無作為抽出                                     この調査を繰り返した                                      ら究極どうなる?                                    平均値やクロス表                       基礎統計量や集計表                         報告書は標本の結果でOK                           t検定やカイ2乗検定結果(有意かどうか) 神の領域                     人間界 第一段階      第二段階        第三段階          第四段階

統計解析法の目的 記述統計: 平均、標準偏差、分散、グラフ 推定・推測: 標本から母集団値を求める 予測: 時系列データから将来を推測 記述統計: 平均、標準偏差、分散、グラフ 推定・推測: 標本から母集団値を求める 一般には標本値±誤差を決める 予測: 時系列データから将来を推測 方程式を作成する 記述統計: 標本を示す値やグラフで視覚化 検定・テスト: 比較し判定する、○×効果 多変量分析群 3つ以上の項目からなるデータを分析する

なぜプレゼンに苦労しているのでしょう? 何をプレゼンすべきでしょう? 発表に備え プレゼンテーションを考えよう なぜプレゼンに苦労しているのでしょう? 何をプレゼンすべきでしょう?

プレゼンテーションとは プレゼンテーション、示説→みんなの前で発表すること 良いプレゼンとは 企画から発表までを見通す 見栄えのする(見易い)表示や資料を行う そのためにはパワーポイントpptが主流? 発表時間を厳守する 質疑応答にさわやかに(カッコ良く)回答する   企画から発表までを見通す   判明したことが分かっている

パワーポイント全盛時代への警鐘 トヨタがパワーポイント(ppt) 禁止令 ダイヤモンド社オンライン(2009/5/20)より 21

記事のポイント

材料を集める,揃える プレゼン作品をPCで作成する プレゼン作品の実行 文字,表,図(写真),グラフ,デザイン図.. デジカメ,VTR機器の扱い方 PCへの音声・画像ファイルを移動 プレゼン作品をPCで作成する 作品の構成や起承転結 パワーポイント(パワポ)の使用・操作方法 Word,Excelからパワポへ連携 パワポでの作図,アニメ効果 プレゼン作品の実行 発表当日あせらないために

素材をPCに集める道具たち PC側の端子を確認 USB接続 機器接続の万能選手 IEEE1394 接続の基本はケーブル接続 USB1.0とUSB2.0(より高速、標準)が共存。USB3.0も実用化中 インテル社、マイクロソフト社 IEEE1394  動画などより高速接続向け 端子形状が異なる 小さな正方形 モトローラ社、アップル社 接続の基本はケーブル接続 挿すだけでOK          双方向

カード型メモリで移す 事実上の標準 デファクトスタンダード USBメモリ SDメモリカード(系) メモリスティック(廃れつつ) 事実上の標準 デファクトスタンダード USBメモリ USBに直接挿せる SDメモリカード(系) 標準サイズの他、ミニSDやマイクロSDも一般的 (携帯電話主流) メモリスティック(廃れつつ) ソニー独自のメモリカード

接続の小道具たち USBハブ(2~3千円) マルチカードリーダー(2から3千円) たくさんのUSB機器を接続する 最大128機器まで区別 たくさんの形状のメモリカードの読み書き

マイクロソフトOffice(MS-Office) マイクロソフト社のビジネスソフト群 ワード、エクセル、パワーポイント、アクセス PCを買うとWordとExcelはついているのが普通...でもでも本当は Word 文書や資料作成(看護研究計画書類) Excel データ分析・グラフ(データの視覚化・プレゼン) パワーポイント 必要に応じて購入するソフト(別売1~2万円) 施設PCには装備なしのこともあり プレゼン準備にハタと困る場合あり

自PCでソフト確認 PC購入時には「スタート」、「すべてのプログラム」を開いてMSOfficeの確認をする

Officeソフト間の連携・継承 Officeの操作性はほぼ統一されている あるソフトで作成したもの(オブジェクト)は ワードとパワーポイントは酷似・違和感なし あるソフトで作成したもの(オブジェクト)は 多くの場合、別のソフトへ移動できる MSOfficeソフト間は 「オブジェクト指向型」ソフト群 「まず対象を選び、動作を命令する」

コピー&貼り付け(ペースト)でパワーポイントに持ってくることが可能 Officeソフト間のオブジェクト交換 ワードで作成した文書(テキスト) エクセルで作成したグラフ ホームページから画像をさがす コピー&貼り付け(ペースト)でパワーポイントに持ってくることが可能 コピー : クリップボードへの取り込み ペースト: クリップボードから貼り付け

研究作業とOfficeソフト 仮説や課題設定 人間の頭で考える 研究計画書 ワード 調査用紙 ワードかエクセル 集計・分析 エクセル 仮説や課題設定 人間の頭で考える 研究計画書 ワード 調査用紙 ワードかエクセル 集計・分析 エクセル 発表資料 パワーポイント Officeファミリの利点 操作がほぼ同じ(大区分、中区分、小区分) 異なるソフト間でのやり取り(コピペ)

プレゼンは道具や効果・色使いではない、 しっかりした発表姿勢・立案が問われる

5W1Hを明確にする 5つの「W」 1つの「H」 1.WHEN いつ 2.WHERE どこで 3.WHO 誰が 4.WHAT  何を ...... そしてもう1つ, 5.WHY (なぜか) 1つの「H」 1.HOW   どのように

相手に伝わるコツ 上手な文章は「短い」 掲示資料は「である調」 さらに,箇条書きや体言止めも効果的 パワポのフォントはワードより大きい 読点や句点をやや多めに使う ところでどちらが。かご存知? 掲示資料は「である調」 ~である. ~なのです.(ですます調)は使わない さらに,箇条書きや体言止めも効果的 パワポのフォントはワードより大きい

経験格言 内容のない発表はきれい(に作ろう) 内容のある発表は汚ない(くても許す) 細かな資料は突っ込まれる ポイントを押さえた資料や効果(色やアニメーション) シンプル イズ ベスト 時間厳守 1分で400から500文字 発表会場は暗い場合も 原稿は、投影原稿に「キーワード」を埋め込んで プレゼンには「戦略」的に挑戦する

戦略=目的+手段 目的と手段は階層的につながっている (戦略の階層性) 目的が具体的・明快だと手段が立てやすい そして、戦略とは「選択と集中」 複数の選択肢を出来るだけたくさん作る 選択肢の長所と短所を吟味する その中から選び、まっしぐら(集中)

プレゼンが戦略的であることとは?チェックリスト □ 現状分析ができている □ 分析から(中・長期の)目標がはっきりしている □ 目的達成のため手段は適切か? □ 目的達成のため資源は集中されているか? □ その目的や手段を説明できるか?

論理的とは 文章やスピーチの場合: 段落と段落、話と話の関係がわかりやすいこと 文章やスピーチの場合: 段落と段落、話と話の関係がわかりやすいこと 企画書の場合: 話の筋道が分かりやすい、ページとページのつながりが分かりやすい 論理的とは結論・主張が明快で、その理由と話の筋道が分かりやすいこと

話の筋道→接続詞を上手に 上位目標確認 さて 現状分析 であるから 戦略目標(仮説)の提示 そのため 実施案の提示   さて 現状分析    であるから 戦略目標(仮説)の提示      そのため 実施案の提示        つまり   まとめ、展開なのです 

日常の接続詞一覧 順接 であるから、なので、そのため 逆接 しかし、だが 添加 そして、さらに 説明 要するに、つまり 転換 さて、ところで 順接 であるから、なので、そのため 逆接 しかし、だが 添加 そして、さらに 説明 要するに、つまり 転換 さて、ところで 例示 例えば       並列 かつ、または 補足 ちなみに 理由 なぜなら

論理に困ったら逆に考える、 並列もチェックする 三段論法に気をつける・・・ 「前向き推論」 AならばB、BならばCよってAならばC Cの理由はB、Bの理由はAそこでCの理由はAなのか・・・「逆向き推論」 逆向き推論チェックの徹底こそが納得しやすい論理形成 かつ(AND)、または(OR)、~でない(NOT) の組み合わせが多い(論理の並列)

帰納と演繹 帰納とは事実から結論を得る 統計は帰納的考えに近い 演繹は推論すること(症例研究) ラーメン店Aはうまく、行列があった ラーメン店Bはうまく、行列があった だからうまいラーメン店には行列がある 演繹は推論すること(症例研究) この疾病には斑点が出る。この患者には斑点がある。そこでこの患者はこの疾病か?

データマイニングを進めよう データを集め、集計する留意点

回答値(データ値)には4つの意味が4つの測定尺度 名義尺度                      情報量小 名前を区別するため 演算は出来ない 1.男性 2.女性  度数表やクロス表は可 順序尺度 ゆるい順序性のみ許す 演算は本来△           アンケート               1.はい 2.どちらでもない 3.いいえ              調査は 間隔尺度                        順序か名義 絶対ゼロを定めない量 演算は加減のみ ℃(摂氏)、カレンダー月 比率尺度                       検査値や 絶対ゼロを基準とした計測値 加減乗除可能    実験測定など 実験データ全て                      情報量大

素データ形式 行側(ギョウソク)と列(レツソク)側          →列側(項目、変数、変量)   行側↓  (ケース) 1ケースずつまとめたものを、「素データ」(生データ)とも呼ぶ

入力した「素データ」の形

欠測値について 計測されなかった、計測できなかった値 表ソフトで欠測値には0ゼロを入力しない 99や0など特定値を入れることは 欠測値という エクセルの場合何も入力しない セル値の削除はdeleteキーで 0は計測値として計算してしまいます 99や0など特定値を入れることは 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう

素データが用意できたら、まず 1項目ごとにデータの姿をつかむ 記述統計(基礎統計、度数・クロス集計、グラフ表示)

1項目ずつデータを視覚化する 名義、順序尺度 間隔、比率尺度 名義尺度は整数値で得られ 比率尺度は整数か小数値で得られる 度数やクロス表に集計する その表を棒グラフなどでながめる 間隔、比率尺度 ヒストグラムで眺める 基礎的な統計量を算出する 名義尺度は整数値で得られ 比率尺度は整数か小数値で得られる

記述統計の主な内容 グラフを描く 基礎統計量(中心と散らばりを) 層別 データの形(分布)、時刻変化(時系列)など 名義・順序尺度の場合 度数分布表の図示 比率・間隔尺度の場合 ヒストグラム 基礎統計量(中心と散らばりを) (算術)平均 グラフの重心位置・中心 中央値 極値がある場合平均の代用 標準偏差、分散、不偏分散 その分布のちらばり(散布度) 最大・最小値 グラフの上限・下限 層別 基礎統計はグループ別も

1項目のグラフと 基礎統計量の関係図 記述統計量とは 平均値 標準偏差 最大、最小値 中央値 度数集計表 何かの現象を棒グラフ・度数表で描いたもの=分布図 51

1項目ずつ視覚化と基礎統計量     投げ1のヒストグラム 52

素データから度数集計してみたら この集計表を「表データ」と呼んで、素データと区別することもある

層別:投げ1と投げ2を書き分ける 素データ→度数表→項目ごとにグラフ化 素データ→表データ→グラフ グラフを書くには、Excelが標準的

グラフは統計分析の設計図 最初のうちは、グラフ化することがとても大事 図中には、実は分析結果が見えています。 1項目の現象には 棒グラフか折れ線グラフがしばしば。 大切なことは、条件によりグラフを書き分けていますか?(群別、層別分析ともいう) 条件とは、女性・男性、学級A、B、C別など

発表・論文向け科学的なグラフの要点 Excelのグラフは、どちらかというと、プレゼンを意識した「ビジネス系」 グラフは、誰もが見て分かるもの。見た目は二の次、シンプルで情報豊富 縦軸下限は、必ず0(原点)から。途中からの省略(インチキ)グラフは最大の誤用 図はFig.、表はTable.例 Fig.5 Table.12 軸にはタイトルを必ず入れる 図はタイトルを最下、表はタイトルが最上

グラフの要点・誤用 左上① 縦軸と横軸は必ず明示する 左下② 棒グラフ 棒の並びに意味はない 右上③ 折れ線グラフ 横軸注意 左上① 縦軸と横軸は必ず明示する 左下② 棒グラフ 棒の並びに意味はない 右上③ 折れ線グラフ 横軸注意  横軸が時刻変化(左⇒右)とつい見てしまう

原点はゼロ 年々増加? 角度を変える 立体円グラフは誇張を意図?

2項目(変数・変量)を見る⇒散布図 アジアの人口と面積の関係 4つの現象 平均を境に左右と上下(2×2) 縦軸 面積大小 横軸 人口大小 縦軸 面積大小 横軸 人口大小 4つの現象 面積 大小 人口 大小 平均を境に左右と上下(2×2) まとめ 国土大人口密=インドネシア 国土小人口疎=韓国 国土小人口中=日本やバングラディシュ

統計的検定法の考え方 とその解釈をマスター

なぜ統計的検定法がある? 「統計的検定法」とは総称。 カイ2乗検定もt検定もウィルコクソン検定もみんな、対象や方法が異なるが、分析の考え方は同じ。検定法の仲間 統計的検定法は、 標本の比較や検定ではなく、標本をデータとして母集団での差(有意差)の有無 今回と同じ実験やデータ収集を難解も繰り返した場合(母集団上で考えた場合)、顕著な差異があるか?否か?を判定する手法

データの質で検定手法異なる 得られた標本データの様子や意味 何の有意差を調べたいか? 違いを調べる基本...2つのグループ、2群 10個のデータ: 1人を繰り返し10回測定 か 10人を1回か で方法が異なる。 何の有意差を調べたいか? 平均の違いか標準偏差の違いかでも方法違う。 違いを調べる基本...2つのグループ、2群 1群 比べようがない 3群以上 3群ならAとB、BとC、CとA 差が複雑

どの検定法を用いればよいか? 検定法の仲間はたくさん存在する 看護では2群の平均値をt検定、クロス表をカイ2乗検定する場合が大半 マンホイットニ検定(U検定)やウイルコクソン順位和検定(U検定に実質同じ)をt検定の代用にする場合も多い 検定法の選択 慣れないうちは先行研究や上司から指示される場合も多い、独自に迷ったらメールで問い合わせるのも良い方策

統計的検定法共通の流れ 2群の有意差を検定する場合 ①ある調査を行う → 一組の「素データ」を得る ②2つの群を決める →  疾病-正常、処置前-処置後、男女、若年-高齢など等 ②別法: クロス表の場合はカイ2乗検定 ③データと群分けで使用「検定」手法が決まる→ 先行研究や上司の助言なども参考に その分析手法のWebサイトや統計ソフトにより 「有意水準p(p値)」を求める p値により、複数回①をやっても(母集団上では)、顕著な差(有意な差)か、どうかを判定する

2群の平均値差を検定する ある処置を行った群(1群)と行わなかった群(2群) この調査を何回やっても(母集団上で)、 2つの群の平均値に差があるか? (クロス表なら回答数に) 平均値の有意差ならば、t検定 1群(処置あり)の平均値、標準偏差、人数 ←基礎統計 2群(処置なし)の平均値、標準偏差、人数 クロス表なら、カイ2乗検定 データで検定法も変わる            回答あり 回答なし←ある回答が  1群(処置した)  人数1    人数2   2群(処置ない)  人数3    人数4   (2×2)クロス表が1枚

2群の平均値差検定の流れ (俗にt検定と呼ばれる) 2つの標本平均値からみて母集団レベルで「明らかな差」があるといえるか? 統計分析(t検定)の3ステップ 手順1 2グループの基礎統計量を各々算出する。 手順2 Webサイトなどで必要な計算ページにかける(入力形式は2種類ある) 手順3 結果のp値から判定する

手順3 p値からいよいよ判定 検定結果p値を求める ソフトによっては、有意確率という場合あり p値の大小により決定する(すべての検定で同じ) 手順3 p値からいよいよ判定 検定結果p値を求める ソフトによっては、有意確率という場合あり p値の大小により決定する(すべての検定で同じ) 採択の場合(棄却しない、差ありを保留する) P>0.05 P>5%  有意でない(2群は同じ) 棄却(母集団レベルで顕著な差あり)の場合 0.01<P<0.05  5%有意  星1つ * 0.005<P<0.01  1%有意  星2つ ** 0.001<P<0.005 0.5%有意 星3つ *** 星の数はさほど重要ではない

平均値差の検定(t検定) 2群を比較する場合のあれこれ ここに患者群A、非患者Bの2群について同じ項目が測定された。薬効、運動効果、何かの処置効果などなど 2群の考え方 異なる人々を2つの群と考える・・・・・・繰り返しなし 同じ人の前後を測定し2群と考える・・・繰り返しあり AとBのケース数が異なっている。良いか? かまわない AとBの測定日が異なっていて良いか? 少ない群は最低ケース数はいくつ? 理論上7ケース、実用上20ケース以上程度 名義尺度と比率尺度で手法は異なるか? 異なる(名義ではt検定は使用できない、理由は平均値が意味を持たない)

分析Webサイトでp値を算出 「U検定 サイト」で検索、その中で「こんにちは統計学」で計算ページがあった。計算させてみる 田中のページの右隅からサイトへ進む アドレス・URL www.nahaha.netからアクセス (あえて、青木のページt検定を、なぜなら、最近になって青木のページは検索エンジンで見つけにくい) JavaScriptの(26)2群の平均値差の検定へ 使える計算サイト例: その他多数 「こんにちは統計学」サイト すがやみつる 旧「おしゃべりな部屋」サイト 青木繁伸

応用1 平均などで独立2標本検定 青木のサイト http://aoki2.si.gunma-u.ac.jp/JavaScript/t-test.html 素データがなく、平均、標準偏差、ケース数のみがある場合のサイト 対応なしの場合、t検定 旧おしゃべりな部屋、Javascript、26番2群の平均値差の検定を参照

PC画面の例(集計データ入力)

結果の一例 p値が複数ある場合、関連したあるいは別の検定結果も合わせて算出している場合がある

複数のp値が出る場合も驚くなかれ 3つのp値が出てくる場合も(例) 二群の等分散性の検定 F 値 = 0.18593 自由度 = ( 14, 14 ) p 値 = 0.00332 (両側確率) 通常の t 検定(等分散性が仮定できるとき) t 値 = 0.00000 自由度 = 28 p 値 = 1.00000 等分散性が仮定できないとき(Welch の方法) t 値 = 0.00000 自由度 = 19.03215 p 値 = 1.00000 (小数自由度に対応した正確な値)

二群の平均値差の検定 演習問題 以上 65 歳未満の住民検診 に来所した男子 42 名,女子 63 名の血色素量について 二群の平均値差の検定 演習問題 いずれもt検定(対応なし)として平均値差を検定せよ。青木サイトを使用する。 問1 群 平均 SD  N    問2 免疫グロブミン 平均値差は有意か?     A  3.2 3.8  5     B  5.2 8.2  5 問3 ある地区で行った40 歳 以上 65 歳未満の住民検診                                       に来所した男子 42 名,女子 63 名の血色素量について の検査成績は,男子では平 均値 15.2 g/dl,不偏分散 1.1,女子では平均値 12.7 g/dl,不偏分散 3.2 であった。 男女の平均値に差はあるか,

解答 問2 問3 免疫グロブミン値(の平均)に差があるか? 結論 2つのバラつき方はほぼ同じと見てよい。 解答 問2 問3 免疫グロブミン値(の平均)に差があるか? 等分散性の検定 P値=0.906 採択 「2つの群は同じ程度のバラつきと考える」 通常のt検定 P値=0.00(小さい) 棄却 Welchの方法 P値=0.00 棄却 結論 2つのバラつき方はほぼ同じと見てよい。 免疫グロブミン値は、健常群と透析群では、有意であった。(2群の平均は顕著に異なる) 透析群の平均値が高い。

(時間がないと思う 一応資料として) 応用3 名義尺度でも使える検定 クロス表の独立性の検定 (時間がないと思う 一応資料として) 応用3 名義尺度でも使える検定 クロス表の独立性の検定 通称、カイ2乗検定 名義尺度では平均値が意味を持たない そこで表に集計する。 一次元の表こそ度数分布表 2次元以上をクロス集計表 ではこの表での仮説とは 「クロス表のマス目(セル)は同じ割合かどうか」 「クロス表に偏りがあるのかないのか」

(2×2)クロス表とはこんなもの 行と列で作表する ただ集計したので分布に関係しない クロス表は因果を示している(行と列どちらでも) 行側:原因→列側:結果 例: 対応なし 投薬有無と結果や運動有無×効果    対応あり 1回目と2回目の状況

2×2クロス表(分割表) クロス表の最小形式(基本) さまざまなクロス表

http://aoki2. si. gunma-u. ac. jp/JavaScript/FisherExactTest

P=1.00採 P=0.38採   0.02棄   1.00採   0.02棄   1.00採 <解答編>

R×Cクロス表のカイ2乗検定 基本は2×2(検討しやすい) 4つのセル値をサイトへ入力 計算結果P値で判断する P>0.05 採択 0.01<P<0.05 5%有意他 1%有意 0.5%有意により *、**、*** 青木のサイトなら http://aoki2.si.gunma-u.ac.jp/Java/ChisqTest/bin/ChisqTest.html (現在では、使用できない場合もある) とか代わりに http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html

クロス表の独立性の検定 通称カイ2乗検定 青木のサイト例 クロス表の独立性の検定 通称カイ2乗検定 青木のサイト例 正規性を仮定しない頑健な手法です 2×2クロス表の精密なカイ2乗検定 http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html R×C表 クロス表入力 通常版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html R×C表 クロス表入力 正確計算版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html (計算量が多いため通常版で十分) R×C表 素データで入力する版 http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html

クロス表独立性の検定 演習問題 各表は独立か? クロス表独立性の検定 演習問題 各表は独立か? 問1 0.83、2 0.76、3 0.31、4 0.60 5 0.01 6 0.00    採択   採択   採択   採択   **  ***

知らない検定を指示された 与えられたデータでその検定が妥当かどうか 結局どの方法でもp値求め、5%で判定する サイトやソフトでp値は求められる時代 使う検定法は指示してもらう方が安心 従来 t検定 平均と標準偏差からp値を     カイ2乗検定 クロス表からp値を 最近 マンホイットニU検定、クラスカルウォリス検定、ウィルコクソン検定、フリードマン検定 なども論文や話題に上るように。結局p値を

この研修での学び □ データマイニングや統計はデータで決まる □ データ集め、データ加工が勝負 □ 分析手法は理解できるものから一歩ずつ □ データマイニングや統計はデータで決まる □ データ集め、データ加工が勝負 □ 分析手法は理解できるものから一歩ずつ □ 使えるソフトはサイトにあり □ 聞いたことない分析手法にご用心 □ できる手法もまずは用法を知ろう □ 統計解析は職人芸。使いなれたノミでこそ仮説(岩)は砕ける。見える化(視覚)を忘れずに □ 統計的検定をサイトであつかう体験

統計手法用語の学び データマイニング姿勢 母集団と標本集団 行と列、欠測値、ケースと項目、全数調査 質的研究と量的研究 基礎統計量、グラフ、散布図 プレゼンの意義 素材集める機器 戦略を持った発表 2群の平均値差検定 クロス表、分割表、度数表 カイ2乗検定とt検定 統計処理はサイト利用 統計仮検定法の基礎 採択と有意(棄却) 有意水準p(p値) 平均値とクロス表

研修でのおすすめ本 看護関係の書類、書籍ばかり読んでいませんか? たまにはこんな書籍で頭をリフレッシュ 「統計学が最強の学問である」、西内啓一、 ダイヤモンド社、2013。文系出身の著者が ビッグデータ時代に統計重要さを啓蒙し た本。13年のビジネスベストセラー どう最強なのか? 「統計学を拓いた異才たち」、竹内忠行、熊谷悦生訳、日本経済新聞社、2010。統計学をキチンと知るためには良いが入門書には絶対お奨めできない。無骨であり精緻な1冊。しかしためになったなぁ。統計を学んでいる人には一度目を通して欲しい本。 87

おすすめの本の続き 完全独習 統計学入門、小島寛之、ダイアモンド社、\1,944(kindle電子書籍¥1,440)、2006. Amazonレビューより: 大変わかりやすい良書である。簑谷千鳳彦氏の「統計学のはなし」、大村平氏の「統計のはなし」、和達三樹氏の「キーポイント確率・統計」といった良書群にひけをとらない、もしかしたら、それ以上の本かもしれない。(略) 田中の感想: 分析の基本を学ぶのに良い。○×手法のハウツーものではなくデータに対面する姿勢・基礎がていねい。平均や標準偏差。データマイニングする人の基本素養

個別相談で多い内容 統計分析の記述はこれでよいか? プレゼンのグラフはこれで良いか?または何グラフ使う? 検定や分析の解釈はこれで良いか? このデータでこの結論は言えるか? 田中サイトの検索が以前より少し面倒か 相談・質問は、まずtanaka@po.osu.ac.jpにメールで 随時、突然で結構 携帯からで十分ですがファイル送信や結果受け取りの場合はPCメールがいいでしょう

最後になりましたが あなたのデータマイニングや看護研究スキルの一助となれば幸いです。