Presentation is loading. Please wait.

Presentation is loading. Please wait.

岡山商科大学経営学部商学科 教授 田中 潔(教学部長)

Similar presentations


Presentation on theme: "岡山商科大学経営学部商学科 教授 田中 潔(教学部長)"— Presentation transcript:

1 岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
2012/1/21土 広島県看護協会研修会 資料 看護研究に役立つ統計学 第1日目 参考資料 岡山商科大学経営学部商学科 教授 田中 潔(教学部長)

2 スケジュール予定など 1/21 午前 9:50-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ 昼食
1/21 午前 9:50-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ           昼食 13:00-14:30頃 看護研究と統計手法 14:30-16:00  回帰分析と相関 1/28 午後 9:50-11:00頃 アンクスタットと青木のサイト 11:00-12:00頃 統計的検定法            昼食 13:00-14:30頃 平均値差のt検定 14:30-16:00  クロス表の独立性検定

3 研修講師のメモ 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後商大へ勤務。助手、講師、助教授を経て現在教授。管理職:商学科長、現在教学部長 岡山県看護協会の研修講師を25年以上歴任 主な科目:情報システム論、情報ネットワーク論、社会調査実践他 専門分野:計算機統計学、マーケティング 連絡先 岡山商科大学 〒 (専用番号で届く) (Web) 検索エンジン 「岡山商科大学 田中潔」で検索 大学電話  大学FAX 

4 もしも…研修後に相談があれば データ分析相談は随時応ずるが、エクセルに素データを入力しておくのが望ましい また希望する仮説も事前に固まっている方がスムーズに進む。 遠方の場合メールだけで指導する場合もある

5 「統計」のことば始め 「高き屋にのぼりて見れば煙けぶり立つ民のかまどはにぎはひにけり 」(新古今和歌集、仁徳天皇) 帝王の学問
「高き屋にのぼりて見れば煙けぶり立つ民のかまどはにぎはひにけり 」(新古今和歌集、仁徳天皇) 帝王の学問 最も古いのはBC3800年代バビロン王朝で行われ、約BC3000年エジプトや中国などで見られる 。 大化の改新(645年)によって班田収授の法 。 1920(大正9)年10月1日を 期して、第1回「国勢調査」 。

6 統計=stat(istics) 近代統計学の父ケトレー(コペルニクスに影響) 英語で統計または統計学= statistics。
     近代統計学の父ケトレー(コペルニクスに影響) 英語で統計または統計学= statistics。 語源はラテン語で「状態」を意味するstatisticum 。 イタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問。 さらに費用対効果から、必要最低限度の数を調査して、その場合の精度が、「目標達成のために満足のできるものであれば良しとする接近法」が考案される。⇒現代の「統計学」の基本原理 推測統計学(stochastics)。

7 近代統計学の巨人たち 1900年ごろに開花 カール・ピアソン 確率統計の帝国を確立 ロナルド・フィツシャー 実験計画法の大成功
カール・ピアソン 確率統計の帝国を確立 ロナルド・フィツシャー 実験計画法の大成功 エゴン・ピアソンとイェジー・ネイマン 仮説検定法の完成 コルモゴルフ 確率論基礎の確立 第2次大戦後の発展 エドワーズ・デミング 産業界の品質管理 ジョン・テューキー(高速フーリエ変換)、エフロン(ブートストラップ法) 戦後の日本では、林 知己夫(数量化)、赤池弘次、(AIC)、竹内啓(理論)、佐和隆光(経済)などなど

8 わが国における小さなコップの戦い 計算機統計学の黎明
1975年頃 COMPSTAT(欧州計算機統計会議)にてVisiCalc(後のExcel)発表 1980年頃 九大浅野、広大正法寺、岡大脇本・垂水、塩野義製薬後藤・武田製薬田中豊(大阪)、統数研(東京)林、大隈、北大佐藤らによって日本でも「計算機統計学」機運。科研費プロジェクトNISAN(ニイサン)始動。 1985年頃SPSS日本版上陸。垂水・田中潔アルバイト パソコン統計ハンドブック(脇本、垂水、田中豊・潔) これ以降、統計処理は「統計パッケージ」の時代へ

9 あなたはなぜデータ分析を迫られるのか? 素直なあなたはスタッフから相談を受けます 院内研究が回ってきた 学外・論文投稿が迫ってきた
アンケートの集計を手伝って→手伝いが中心に あなたはエクセルが分かるから分析ね! PCができることと統計が分かることを混乱した上司に恵まれた 院内研究が回ってきた 予算はあまりない、スタッフの協力にたよる 学外・論文投稿が迫ってきた 国内や世界標準での点検・確認

10 その結果 断ることは許されない 自分は統計を知らない→習っていないものがわかるものか 私は理屈っぽく考えるのがイヤ!
私は数学がいやで看護へ来たのに 看護に統計はいらないと思う 調査では患者ひとり一人は援助できない      統計ギライがこの世にまたひとり

11 統計を使用するステップ データの正しい収集法 データの集計方法 データの分析方法 統計分析、データ分析、データ科学、
計画的な抽出や正しい質問の作り方 データの集計方法 基礎統計量とクロス表、グラフ化 データの分析方法 検定、回帰分析、因子分析など多変量解析法 統計分析、データ分析、データ科学、 データマイニングなど呼び方はさまざま

12 データ分析の背景 国勢調査や行政調査 マーケティング(市場調査)・世論調査 実験や臨床研究、業務改善 国・県などの公的調査
国勢調査は統計法に基づく(2010年は調査年) 政府統計ポータルサイト(政府統計の窓口) マーケティング(市場調査)・世論調査 ある目的のため市場を調査する アンケート調査 実験や臨床研究、業務改善 比較的小規模、実験データ

13 大まかな統計分析の流れ 4段階 母集団(未知であり不可視) 標本(可視) 集計 推定・検定 データの収集 データ集計 統計解析
大まかな統計分析の流れ 4段階 母集団(未知であり不可視)            標本(可視)          集計        推定・検定            データの収集      データ集計         統計解析            アンケート調査       無作為抽出                       平均値やクロス表                       基礎統計量や集計表                           t検定やカイ2乗検定結果 神の領域                     人間界 第一段階      第二段階        第三段階          第四段階

14 医療分野で 統計的分析が好まれるわけ 統計分析の目的: 「目標達成のために満足のできるものであれば良しとする接近法」
医療で解決すべき課題(目標仮説)        (ここに看護的意味づけが必要) データで証明する(実現仮説または達成仮説) つまり、調査や実験の成否判定        (有意になれば良いのではありません。         有意にならないことが大事なときもあります) 仮説設計、データ収集、集計、統計分析の各作業

15 看護界に「統計」は不要??? 統計の持つ2つの役割 1)国家統計や国勢調査的に 2)この個人は1)とどう食い違うのか
社会調査や公衆衛生、疫学調査の視点 調査では個人は救えない 2)この個人は1)とどう食い違うのか 個人=人間共通な部分+個性や個人差 1)は厚生省を中心に進め 2)は施設を中心に進めるべきもの

16 看護研究に問われる量か質か 量的研究(学部卒レベル) 質的研究(院レベル)
通常のアンケート調査、多くの場合対象者全員からの回答は無理→標本調査 量的研究の主目的は、市場の現況を把握すること 質的研究(院レベル) インタビュー調査、症例研究、観察など 未知なる問題の場合、仮説を発見するために比較的小規模にて行う

17 質的研究と量的研究の関係 南小樽病院 瀬畠 克之さんのページより引用
南小樽病院 瀬畠 克之さんのページより引用 <表1> 質的研究と量的研究との比較               質的研究           量的研究                       仮説生成型         仮説検証型               言語や現象(概念)     数値データ               合目的的抽出        無作為抽出               哲学・社会学理論     数理統計学的理論 研究では“仮説を生み出す”というよりは“仮説を明確化していく”といった方が正確かもしれません。      <表2> 質的研究の分類(私案)              ミクロ研究(個人誌研究)   マクロ研究(一般化研究)          調査手法  個人面接              個人面接(複数)              デイスコース アナリシス    フォーカスグループ              観察法              (観察法)              ドキュメント分析         コンセンサスメソッド      研究視座  ケーススタデイ          グランデッド・セオリーアプローチ              エスノグラフィー              フェノメノロジー 学部で学ぶこと  実験方法、データ収集、分析方法やプレゼン 大学院で学ぶこと   仮説設計や問題設定

18 看護研究における統計の立場 2つの視点 1つめ: 国家統計の視点 2つめ: 推測統計的な視点
1つめ: 国家統計の視点 自分が「王」となり、対象集団の状況を広く知る、報告する立場、疫学調査など 母集団よりも標本集団をまとめること 2つめ: 推測統計的な視点 自分の得た標本から母集団を推し量りたい 自分は「標本」という実験結果を元に、真の集団(母集団)にたどり着きたい。真の看護や看護方式に近づきたい

19 標本統計量→母集団統計量 平均など「中心的傾向」代表値 標準偏差など「ちらばり」
理論により、標本の平均値は母集団の平均値を最も良く推定している 標本平均値=母集団平均値 同一 標準偏差など「ちらばり」 標本標準偏差より母集団標準偏差はやや大きい 標本標準偏差<母集団標準偏差

20 母集団と標本 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出
母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知

21 悉皆(しっかい)調査(全数調査) 母集団の全員が標本として測定されたこと 母集団サイズ=標本サイズ 標本での分析結果がすべて母集団結果
標本を捉えることの意義 標本の示す傾向=母集団の中心的な傾向+個々の誤差

22 統計解析法の目的 ○標本が集まった時の「統計」=集計 データの姿を知る統計 記述統計: 平均、標準偏差、分散、グラフ化
記述統計: 平均、標準偏差、分散、グラフ化 ○集計後の「統計」=統計的分析 原因や要因、あるいは影響や判定など決定付ける 推定・推測: 標本から母集団値を求める 一般には標本値±誤差を決める 予測: 時系列データから将来を推測 方程式を作成する 検定・テスト: 比較し判定する、○×効果 多変量分析群 3つ以上の項目からなるデータを分析する

23 統計の中の個人・ひとり 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。
個人(表層へ出現)=    中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 私は60kg=標準体重+誤差        真理・本質+個性・個人差   標準体重:仮に50kg(平均体重と呼ぶ)   誤差: 60-50=10kg 実は、中心的傾向とは平均値のこと                             

24 原因や要因に挑戦する 多変量解析の役割 ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい
① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ③ ものや項目の関係を視覚化したい ④ ものや項目を分類したい ⑤ 項目間の関係や構造を知りたい

25 主な多変量解析手法 予 測: 指 標: 視覚化: 分類: 潜在構造: 回帰分析、数量化1・2類、判別分析
予 測: 回帰分析、数量化1・2類、判別分析 指 標: 回帰分析、数量化1~3類、主成分分析、因子分析 視覚化: グラフ解析、数量化3・4類、主成分分析 分類: クラスター分析 潜在構造: 因子分析、共分散構造分析

26 統計学は節約する学問 ではありません 統計で分析する時の心がまえ、ポリシー 統計は「全力」な学問です。 基本的な手法を積み上げること
しばしば質問 何サンプルあれば分析できますか? 何例まで減らせますか? 統計は「全力」な学問です。 頑張ってデータを生かしたい。 手法のデパートは聞いてて分からない 基本的な手法を積み上げること

27 私たち看護がなぜ統計的な視野を必要とするか?少しヒントが得られましたか?
では次に統計を扱うためのいくつかの基礎知識いや基本マナーを (田中研に相談する場合、これらの知識を持っていると大変話が楽)

28 データの値: 4つの測定尺度 名義尺度 情報量小 順序尺度 間隔尺度 比率尺度 名前を区別するため 演算は出来ない
データの値: 4つの測定尺度 名義尺度                      情報量小 名前を区別するため 演算は出来ない 1.男性 2.女性  度数表やクロス表は可 順序尺度 ゆるい順序性のみ許す 演算は本来△ 1.はい 2.どちらでもない 3.いいえ 間隔尺度 絶対ゼロを定めない量 演算は加減のみ ℃(摂氏)、カレンダー月 比率尺度 絶対ゼロを基準とした計測値 加減乗除可能 実験データ全て                      情報量大

29 エクセル使いなら必需品A1 行側(ギョウソク)と列側(レツソク)
         →列側(項目、変数、変量)   行側↓  (ケース)

30 統計分野はエクセルに似たり でも言葉が違うケースと項目
ケースとは1件の標本を示す ケースは個体を示す 時系列の場合時間変化 項目は列単位→1つの変数 1変数の集計や分析 1列ごとに処理するデータ 2変数の集計 2列ごとに処理 多変数の処理 3列以上をまとめて処理

31 入力したデータ

32 データ収集の時、気づかうこと 有効数字について
計算結果を小数点何桁まで取るべきか? 答え 測定値で影響されます。 身長160cmは「センチ単位」で測定されました。 160.1かも160.4かも知れません。 有効数字 小数点以下0桁 でした。 そこで平均値など計算結果の表示は、ひと桁多くし小数点以下1桁(2桁目を四捨五入して)で表示しましょう 教訓 計算結果の有効数字は測定値よりも1桁多く

33 収集データの欠席扱いとは 欠測値について 計測されなかった、計測できなかった値・回答 表ソフトで欠測値には0ゼロを入力しない
欠測値という 表ソフトで欠測値には0ゼロを入力しない エクセルの場合何も入力しない セル値の削除はdeleteキーで 0は計測値として計算してしまいます 99や0など特定値を入れることは 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう

34 基礎統計について 基礎、キソと軽んじてはいけません。 この基礎統計からデータの概要を思い浮かべることが、解明の第一歩
基礎統計量算出やグラフ書きは地味ですが、 多くの発表はこれで決まります。 項目ずつ(1変数ごと)の統計分析です

35 基礎統計の次は、集計しましょう 度数分布表を作りましょう 表にまとめましょう(2つの項目) これを棒グラフ(ヒストグラム)に描きましょう
これである1項目の姿が見えてきます (全ての測定尺度で可能) 表にまとめましょう(2つの項目) 特に2次元クロス表(分割表)は大事 2つの項目を同時に表にまとめます (特に、順序や名義尺度でも作れます)

36 最初のデータ分析 記述統計量とは 平均値 標準偏差 最大、最小値 中央値 度数集計表

37 統計を始めるとやたら正規分布が でてくるのですが
自然界の多くの現象は、数多く収集する(度数グラフに集計する)と正規分布に近くなることが知られています。 ネイマン流大数の法則。 現象には正規分布しないものも多くありますが、合計点など加えると、極限では正規分布に帰着します。 中心極限定理。 「標本数を可能な限り集めなさい」は2つの意味で、正当なのです。 統計には2つの立場があります。 1)数多く集めたり、加工して正規性に持ち込む派 2)正規性を仮定しない分析方法をあみだす派 2)がよさそうですが、実は性能は1)を超えられません。分布系と分析力はトレードオフの関係に。

38 統計分析の道のり(再掲) 図は「大まかな統計分析の流れ 4段階」 (前掲を参照)
統計分析の道のり(再掲) 図は「大まかな統計分析の流れ 4段階」 (前掲を参照) 母集団を決める(想像する)、仮説を決める 見えないけれど、どんな現象集団 標本集団を収集する(実験や調査) 精密でなく正確な回答か?答えやすい用紙?、回収率 分析に合うよう素データの加工や集計 度数表、基礎等計量、グラフ、クロス表など 仮説をうらづけるグラフ? 統計手法で分析する 種々の統計解析法、仮説を説明できた?

39 素データから統計量を求める 概念図       ちらばり(分散や標準偏差) 標本 集団 ボール&スティックモデル × 代表値(平均値や中央値)

40 エクセルでは簡単に 基礎統計量を計算できる
関数をセルに挿入で求める ○○値を求める関数 平均 =AVERAGE(範囲指定) 標準偏差 =STDEV(範囲) 中央値 =MEDIAN(範囲) 最大値 =MAX(範囲) 最小値 =MIN(範囲) 表の度数を求める関数 該当数(通常) =COUNT(範囲)または 条件付該当数 =COUNTIF(範囲、条件)

41 2つの項目の 基礎集計     投げ1のヒストグラム

42 素データから度数集計してみたら

43 投げ1と投げ2の2群を書き分ける 素データ→度数表→ 2群別のグラフ 投げ2 投げ1

44 グラフは統計分析の設計図 最初のうちは、グラフ化することがとても大事 図中には、実は分析結果が見えています。 1項目の現象には
棒グラフか折れ線グラフがしばしば。 大切なことは、条件によりグラフを書き分けていますか? 条件とは、女性・男性、学級A、B、C別など

45 さらに、別の図「散布図」は 2項目の関係図

46 (単)回帰分析 散布図を描くとX軸とY軸の関係を目視 Y=aX+bという直線関係を考える XとYはデータとして測定される
傾きaとbを決定すれば、XとYの関係が決まる

47 係数aとbを求めれば 2つの項目XからYを推測できる 予測: 測定されていないXについて、Yの予測値をY←aX+bで予測可能

48 2つのミッション 直線の程度(相関度)はどのくらいか? 傾きaとbを求める 直線の相関性を示す指標 相関係数R
直線の相関性を示す指標 相関係数R またRの2乗のことを決定係数という -1<R<+1 経験的にR>0.7で正相関あり、R<-0.7で負相関あり、-0.7<R<0.7で無相関 決定係数なら -0.5<R<0.5で無相関

49 求め方: 散布図からエクセルで グラフ点を右クリック→近似曲線の追加メニュー
求め方: 散布図からエクセルで グラフ点を右クリック→近似曲線の追加メニュー

50 散布図→単回帰分析の完成 回帰直線y=x 相関係数Rの2乗=0.19 (目安: R2>0.5ならR>0.7なので相関性あり)

51 統計ソフトについて 記述統計、グラフなどはエクセルで十分 検定、多変量分析となると専用ソフトが望ましい
市販ソフトとしては PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。世界的権威ソフト 新規18万円 ライバル会社にSASがある。安価版としてJUMPも有名 エクセル統計 4万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない フリーソフト(無料) R 良くできているが上級者でなければ使いにくい!研究者向け

52 青木サイト使用の留意点 検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている
検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている Javaはサイトで計算処理を行うための仕組みでありPC購入後各自で導入するもの 施設のPCではセキュリティ保護の観点からJavaを導入していないものもあるので、青木サイトが利用できない場合がある 施設PCで利用できない場合、他の統計パッケージやJava導入した個人PCを利用する

53 あなたのPCのJAVAという仕組みが古いなどの原因で、警告が出たものです。「いいえ」を選んでうまく動作すればいいですね。

54 統計計算シートankstat (アンクスタット)時間があれば紹介
田中研究室で開発されたエクセル(バージョンは問わず)専用のシート 主に基礎集計や集計を行う。統計解析は実施しない。 検索エンジンにて「ankstat」で検索する 。2012/1/21最新は5.03版。 最大500ケース×200項目を集計可能

55 算術平均の示すもの ここに5つのデータ 2、10、1、2、1がある 1 1 2 2 10 2+10+1+2+1=16
1     1 2     2 10 2+10+1+2+1=16 算術平均=16÷5=3.2 3.2は5つのデータを表現する代表値の一種

56 もう1つの代表値 中央値 2、10、1、2、1 これを 小さい(大きい)順に並び替える 1、1、2、2、10
もう1つの代表値 中央値 2、10、1、2、1         これを 小さい(大きい)順に並び替える 1、1、2、2、10 この真ん中番目を中央値(メジアン)と呼ぶ この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な値(極値)に左右されにくい →頑健(ロバスト)な代表値 算術平均3.2 中央値2

57 2グループの代表値を比べる グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2
グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2  この2つに有意な差があるか?→t検定

58 予告 次回は「統計的検定」 比較する技法をマスターする 2グループや表が「明らかに」異なるのか? エクセル→青木の統計サイトを駆使する
1人で出来る統計分析を極める 次回もサービス、さーびすしちゃいましょう


Download ppt "岡山商科大学経営学部商学科 教授 田中 潔(教学部長)"

Similar presentations


Ads by Google