スケジュール予定など 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ 昼食

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
検定 P.137.
スケジュール予定など 9:30-10:20頃 看護研究・データ分析再考 10:30-12:00頃 データ入力段階の留意 昼 食
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1回 担当: 西山 統計学.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
2008/9/24 岡山県看護協会一般研修 資料 データ分析の基礎知識 統計的検定編 岡山商科大学商学部 商学科長・教授 田中 潔.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
第37回日本看護研究学会学術集会 シンポジウムII 20011/8/8(月)(デブの日)14:40~16:40 中山和弘(聖路加看護大学)
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
確率・統計Ⅱ 第7回.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
数理統計学 第11回 西 山.
統計リテラシー育成のための数学の指導方法に関する実践的研究
1変量データの記述 経済データ解析 2006年度.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
統計学の基礎と応用 張 南   今日の話:序   論          履修の注意事項.
地理情報システム論演習 地理情報システム論演習
相関分析.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
数量分析 第2回 データ解析技法とソフトウェア
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
講師メモ 田中 潔 岡山商科大学商学部助教授 連絡先(質問や相談ごと) 〒700-8601(商大,専用番号)
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
クロス表とχ2検定.
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1変量データの記述 (度数分布表とヒストグラム)
回帰分析入門 経済データ解析 2011年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

スケジュール予定など 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ 昼食 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ           昼食 13:00-14:30頃 看護研究と統計手法 14:30-16:00  回帰分析と相関 2日目 午後 10:00-11:00頃 アンクスタットと青木のサイト 11:00-12:00頃 統計的検定法            昼食 13:00-14:30頃 平均値差のt検定 14:30-16:00  クロス表の独立性検定

研修講師のメモ 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授 岡山県看護協会の研修講師を25年以上歴任 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授 岡山県看護協会の研修講師を25年以上歴任 最近は、広島、鳥取、香川県看護協会でも研修を行う 主な科目:情報ネットワーク論、社会調査実践他など 連絡先 岡山商科大学 〒700-8601(専用番号で届く) tanaka@po.osu.ac.jp (eメール) http://www.nahaha.org (Web) 検索エンジン 「岡山商科大学 田中潔」で検索 大学電話 086-252-0642 大学FAX 086-255-6947

もしも…研修後に 質問・相談はeメールtanaka@po.osu.ac.jpが最適。メールなら返事確実。その他電話FAXは086-284-7726(自宅)でも可能。 相談の「三種の神器」: 看護研究計画書、使用アンケート用紙、データ入力エクセルファイル(すでにあれば) 遠方の場合メールだけで指導する場合もある(PC用メールがあるとファイルのやり取りが便利。連絡なら携帯メールでも可能)

「統計」のことば始め 「高き屋にのぼりて見れば煙けぶり立つ民のかまどはにぎはひにけり 」(新古今和歌集、仁徳天皇) 帝王の学問 「高き屋にのぼりて見れば煙けぶり立つ民のかまどはにぎはひにけり 」(新古今和歌集、仁徳天皇) 帝王の学問 最も古いのはBC3800年代バビロン王朝で行われ、約BC3000年エジプトや中国などで見られる 。 大化の改新(645年)によって班田収授の法 。 1920(大正9)年10月1日を 期して、第1回「国勢調査」 。

統計=stat(istics) 近代統計学の父ケトレー(コペルニクスに影響) 英語で統計または統計学= statistics。      近代統計学の父ケトレー(コペルニクスに影響) 英語で統計または統計学= statistics。 語源はラテン語で「状態」を意味するstatisticum 。 イタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問。 さらに費用対効果から、必要最低限度の数を調査して、その場合の精度が、「目標達成のために満足のできるものであれば良しとする接近法」が考案される。⇒現代の「統計学」の基本原理 推測統計学(stochastics)。

近代統計学の巨人たち 1900年ごろに開花 カール・ピアソン 確率統計の帝国を確立 ロナルド・フィツシャー 実験計画法の大成功 カール・ピアソン 確率統計の帝国を確立 ロナルド・フィツシャー 実験計画法の大成功 エゴン・ピアソンとイェジー・ネイマン 仮説検定法の完成 コルモゴルフ 確率論基礎の確立 第2次大戦後の発展 エドワーズ・デミング 産業界の品質管理 ジョン・テューキー(高速フーリエ変換)、エフロン(ブートストラップ法) 戦後の日本では、林 知己夫(数量化)、赤池弘次、(AIC)、竹内啓(理論)、佐和隆光(経済)などなど

わが国における小さなコップの戦い 計算機統計学の黎明 1975年頃 COMPSTAT(欧州計算機統計会議)にてVisiCalc(後のExcel)発表 1980年頃 九大浅野、広大正法寺、岡大脇本・垂水、塩野義製薬後藤・武田製薬田中豊(大阪)、統数研(東京)林、大隈、北大佐藤らによって日本でも「計算機統計学」機運。科研費プロジェクトNISAN(ニイサン)始動。 1985年頃SPSS日本版上陸。垂水・田中潔アルバイト パソコン統計ハンドブック(脇本、垂水、田中豊・潔) これ以降、統計処理は「統計パッケージ」の時代へ

あなたはなぜデータ分析を迫られるのか? 素直なあなたはスタッフから相談を受けます 院内研究が回ってきた 学外・論文投稿が迫ってきた アンケートの集計を手伝って→手伝いが中心に あなたはエクセルが分かるから分析ね! PCができることと統計が分かることを混乱した上司に恵まれた 院内研究が回ってきた 予算はあまりない、スタッフの協力にたよる 学外・論文投稿が迫ってきた 国内や世界標準での点検・確認

その結果 断ることは許されない 自分は統計を知らない→習っていないものがわかるものか 私は理屈っぽく考えるのがイヤ! 私は数学がいやで看護へ来たのに 看護に統計はいらないと思う 調査では患者ひとり一人は援助できない      統計ギライがこの世にまたひとり

統計を使用するステップ データの正しい収集法 データの集計方法(標本集団の分析) データの分析方法(母集団を意識) 計画的な抽出や正しい質問の作り方 データの集計方法(標本集団の分析) 基礎統計量とクロス表、グラフ化 データの分析方法(母集団を意識) 検定、回帰・相関、因子分析など多変量解析法 統計分析、データ分析、データ科学、 データマイニングなど呼び方はさまざま

データ分析の背景 国勢調査や行政調査 マーケティング(市場調査)・世論調査 実験や臨床研究、業務改善 国・県などの公的調査 国勢調査は統計法に基づく(2010年は調査年)http://www.stat.go.jp/index/seido/houbun2n.htm 政府統計ポータルサイト(政府統計の窓口) http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do マーケティング(市場調査)・世論調査 ある目的のため市場を調査する アンケート調査 実験や臨床研究、業務改善 比較的小規模、実験データ

大まかな統計分析の流れ 4段階 母集団(未知であり不可視) 標本(可視) 集計 推定・検定 データの収集 データ集計 統計解析 大まかな統計分析の流れ 4段階 母集団(未知であり不可視)            標本(可視)          集計        推定・検定            データの収集      データ集計         統計解析            アンケート調査       無作為抽出                       平均値やクロス表                       基礎統計量や集計表                           t検定やカイ2乗検定結果(有意かどうか) 神の領域                     人間界 第一段階      第二段階        第三段階          第四段階

医療分野で 統計的分析が好まれるわけ 統計分析の目的: 「目標達成のために満足のできるものであれば良しとする接近法」 医療で解決すべき課題(目標仮説)        (ここに看護的意味づけが必要) データで証明する(実現仮説または達成仮説) つまり、調査や実験の成否判定        (有意になれば良いのではありません。         有意にならないことが大事なときもあります) 仮説設計、データ収集、集計、統計分析の各作業

看護界に「統計」は不要??? 統計の持つ2つの役割 1)国家統計や国勢調査的に 2)この個人は1)とどう食い違うのか 社会調査や公衆衛生、疫学調査の視点 調査では個人は救えない 2)この個人は1)とどう食い違うのか 個人=人間共通な部分+個性や個人差 1)は厚生省を中心に進め 2)は施設を中心に進めるべきもの

看護研究に問われる量か質か 量的研究(学部卒レベル) 質的研究(院レベル) 通常のアンケート調査、多くの場合対象者全員からの回答は無理→標本調査 量的研究の主目的は、市場の現況を把握すること 質的研究(院レベル) インタビュー調査、症例研究、観察など 未知なる問題の場合、仮説を発見するために比較的小規模にて行う http://www.geocities.co.jp/Technopolis-Mars/4688/ 南小樽病院 瀬畠さん

看護研究における統計の立場 2つの視点 1つめ: 国家統計の視点 2つめ: 推測統計的な視点 1つめ: 国家統計の視点 自分が「王」となり、対象集団の状況を広く知る、報告する立場、疫学調査など 母集団よりも標本集団をまとめること 2つめ: 推測統計的な視点 自分の得た標本から母集団を推し量りたい 自分は「標本」という実験結果を元に、真の集団(母集団)にたどり着きたい。真の看護や看護方式に近づきたい

統計分析にも2つの立場 伝統型: 実験的あるいは計画的立場 近年型: 探索的立場 どちらが多い?実験的立場が主流 伝統型: 実験的あるいは計画的立場 仮説を決める。立証のためのデータ集め 分析により仮説を検証(仮説主義) 近年型: 探索的立場 仮説は立てなくてもよい。1970年代米テュキー提唱。探索的データ解析とも 膨大なデータから新たな発見を 流行のビッグデータもこの流儀(データ主義) どちらが多い?実験的立場が主流 2つの立場を混在した研究はどちらの派からも嫌われる

標本統計量から母集団統計量へ 平均など「中心的傾向」代表値 標準偏差など「ちらばり」 理論により、標本の平均値は母集団の平均値を最も良く推定している 標本平均値=母集団平均値 同一 標準偏差など「ちらばり」 標本標準偏差より母集団標準偏差はやや大きい 標本標準偏差<母集団標準偏差

母集団と標本 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知

悉皆(しっかい)調査(全数調査) 母集団の全員が標本として測定されたこと 母集団サイズ=標本サイズ 標本での分析結果がすべて母集団結果 標本を捉えることの意義 標本の示す傾向=母集団の中心的な傾向+個々の誤差

統計解析法の目的 ○標本が集まった時の「統計」=集計 データの姿を知る統計 記述統計: 平均、標準偏差、分散、グラフ化 記述統計: 平均、標準偏差、分散、グラフ化 ○集計後の「統計」=統計的分析 原因や要因、あるいは影響や判定など決定付ける 推定・推測: 標本から母集団値を求める 一般には標本値±誤差を決める 予測: 時系列データから将来を推測 方程式を作成する 検定・テスト: 比較し判定する、○×効果 多変量分析群 3つ以上の項目からなるデータを分析する

統計の中の個人・ひとり 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 個人(表層へ出現)=    中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 私は60kg=標準体重+誤差        真理・本質+個性・個人差   標準体重:仮に50kg(平均体重と呼ぶ)   誤差: 60-50=10kg 実は、中心的傾向とは平均値のこと                             

原因や要因に挑戦する 多変量解析の役割 ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ③ ものや項目の関係を視覚化したい ④ ものや項目を分類したい ⑤ 項目間の関係や構造を知りたい

主な多変量解析手法 予 測: 指 標: 視覚化: 分類: 潜在構造: 回帰分析、数量化1・2類、判別分析 予 測: 回帰分析、数量化1・2類、判別分析 指 標: 回帰分析、数量化1~3類、主成分分析、因子分析 視覚化: グラフ解析、数量化3・4類、主成分分析 分類: クラスター分析 潜在構造: 因子分析、共分散構造分析

統計学は節約する学問 ではありません 統計で分析する時の心がまえ、ポリシー 統計は「全力」な学問です。 基本的な手法を積み上げること しばしば質問 何サンプルあれば分析できますか? 何例まで減らせますか? 統計は「全力」な学問です。 頑張ってデータを生かしたい。 手法のデパートは聞いてて分からない 基本的な手法を積み上げること

私たち看護がなぜ統計的な視野を必要とするか?少しヒントが得られましたか? では次に統計を扱うためのいくつかの基礎知識いや基本マナーを (田中研に相談する場合、これらの知識を持っていると大変話が楽)

データの値: 4つの測定尺度 名義尺度 情報量小 順序尺度 間隔尺度 比率尺度 名前を区別するため 演算は出来ない データの値: 4つの測定尺度 名義尺度                      情報量小 名前を区別するため 演算は出来ない 1.男性 2.女性  度数表やクロス表は可 順序尺度 ゆるい順序性のみ許す 演算は本来△ 1.はい 2.どちらでもない 3.いいえ 間隔尺度 絶対ゼロを定めない量 演算は加減のみ ℃(摂氏)、カレンダー月 比率尺度 絶対ゼロを基準とした計測値 加減乗除可能 実験データ全て                      情報量大

平均が意味ある場合、ない場合 比率や間隔尺度 順序尺度 名義尺度 身長160,170,180 平均は170cm ◎ 1.嫌い 2.まあまあ 3.好き どれか1つ選ぶ 回答 2,1,1,3,3,3,2 合計15 平均2.1 △ 名義尺度 1.品数 2.一ヶ所で買える 3.駐車場 4.その他 この場合平均は求められません→集計へ ×

データ収集時の最重要事項 無作為抽出: 特定の偏りや意図を持たずに、母集団から標本への抽出を心がける 皆さんがよくやる患者さんへのアンケート 無作為抽出: 特定の偏りや意図を持たずに、母集団から標本への抽出を心がける 皆さんがよくやる患者さんへのアンケート 本当に正しい抽出になっていますか? ある処置Aが効果ありか効果なしか? よくやる方法 来院者は私たちで決められない。だから無作為と考えていいんだ。本当でしょうか?

本当に無作為? そこで2~3月はAなしで行い、4~5月はAありで行い、2つのグループを分析する ことがよく行われています しかたがない? だって1患者から1回しか採れない 同一人物でも、再現性が期待できない しかたがない? 本来は、 調査期間2~5月として、対象者が追加されるごとにサイコロで、偶数ならAなし、奇数ならAありで行うべきではありませんか?

よい仮説とは、収集するデー タが優れている 仮説設計のポイント それを立証するためのデータ収集 データ収集が現実的に可能か? データ収集の制限により仮説が目標からずれてしまっていないか? データ研究=仮説+データ収集+分析の三位一体の「総合芸術」

こんな時どう計画する? 例題: ある運動療法Uを行い、その効果を立証したい 仮説: 療法Uは明らかにXを(増)減らせるか? データ収集: ① 同一被験者の前と後のXを比べる方法(対応ありの場合、繰り返し測定) ② 前の集団を測定し、後の集団を別々に2群測定し、2群を比較(対応なし、単独測定) ③ U後の集団だけ測定し、その原因を突き止める (UやXによる変化の立証よりも原因に関心)

データにより分析法も変化 ① 2群の繰り返しありの有意差検定 ② 2群の繰り返しなしの有意差検定 ③ 1群内の項目間の有意差検定 ① 2群の繰り返しありの有意差検定 ② 2群の繰り返しなしの有意差検定 ③ 1群内の項目間の有意差検定 分析に目が行きがちだが、データが採られた経緯に合わせた分析法を考える ひとたびデータが採られたら、現象の結論はもうデータの中に眠っています 分析の作業とは、眠った結論を掘り起こすこと

エクセル使いなら必需品A1 行側(ギョウソク)と列側(レツソク)          →列側(項目、変数、変量)   行側↓  (ケース)

統計分野はエクセルに似たり でも言葉が違うケースと項目 ケースとは1件の標本を示す ケースは個体を示す 時系列の場合時間変化 項目は列単位→1つの変数 1変数の集計や分析 1列ごとに処理するデータ 2変数の集計 2列ごとに処理 多変数の処理 3列以上をまとめて処理

入力したデータ

データ収集の時、気づかうこと 有効数字について 計算結果を小数点何桁まで取るべきか? 答え 測定値で影響されます。 身長160cmは「センチ単位」で測定されました。 160.1かも160.4かも知れません。 有効数字 小数点以下0桁 でした。 そこで平均値など計算結果の表示は、ひと桁多くし小数点以下1桁(2桁目を四捨五入して)で表示しましょう 教訓 計算結果の有効数字は測定値よりも1桁多く

収集データの欠席扱いとは 欠測値について 計測されなかった、計測できなかった値・回答 表ソフトで欠測値には0ゼロを入力しない 欠測値という 表ソフトで欠測値には0ゼロを入力しない エクセルの場合何も入力しない セル値の削除はdeleteキーで 0は計測値として計算してしまいます 99や0など特定値を入れることは 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう

基礎統計について (比率や間隔尺度の場合) 基礎、キソと軽んじてはいけません。 この基礎統計からデータの概要を思い浮かべることが、解明の第一歩 基礎統計量算出やグラフ書きは地味ですが、 多くの発表はこれで決まります。 項目ずつ(1変数ごと)の統計分析です

最初のデータ分析 記述または基礎統計量とは 平均値 標準偏差 最大、最小値 中央値 度数集計表

統計を始めるとやたら正規分布が でてくるのですが 自然界の多くの現象は、数多く収集する(度数グラフに集計する)と正規分布に近くなることが知られています。 ネイマン流大数の法則。 現象には正規分布しないものも多くありますが、合計点など加えると、極限では正規分布に帰着します。 中心極限定理。 「標本数を可能な限り集めなさい」は2つの意味で、正当なのです。 統計には2つの立場があります。 1)数多く集めたり、加工して正規性に持ち込む派 2)正規性を仮定しない分析方法をあみだす派 2)がよさそうですが、実は性能は1)を超えられません。分布系と分析力はトレードオフの関係に。

素データから統計量を求める 概念図       ちらばり(分散や標準偏差) 標本 集団 ボール&スティックモデル × 代表値(平均値や中央値)

エクセルでは簡単に 基礎統計量を計算できる 関数をセルに挿入で求める ○○値を求める関数(名前知らなくても利用できる) 平均 =AVERAGE(範囲指定) 標準偏差 =STDEV(範囲) 中央値 =MEDIAN(範囲) 最大値 =MAX(範囲) 最小値 =MIN(範囲) 表の度数を求める関数 該当数(通常) =COUNT(範囲)または 条件付該当数 =COUNTIF(範囲、条件)

名義や順序尺度の場合、基礎統計量はあまり意味を持ちません。 集計しましょう 度数分布表を作りましょう(1つの項目ずつ) これを棒グラフ(ヒストグラム)に描きましょう これである1項目の姿が見えてきます (全ての測定尺度で可能) クロス表(分割表)にまとめましょう(2つの項目ごと) 特に2次元クロス表(分割表)は大事 2つの項目を同時に表にまとめます (特に、順序や名義尺度でも作れます)

統計分析の道のり(再掲) 図は「大まかな統計分析の流れ 4段階」 (前掲を参照) 統計分析の道のり(再掲) 図は「大まかな統計分析の流れ 4段階」 (前掲を参照) 母集団を決める(想像する)、仮説を決める 見えないけれど、どんな現象集団 標本集団を収集する(実験や調査) 精密でなく正確な回答か?答えやすい用紙?、回収率 分析に合うよう素データの加工や集計 度数表、基礎等計量、グラフ、クロス表など 仮説をうらづけるグラフ? 統計手法で分析する 種々の統計解析法、仮説を説明できた?

2つの項目の 基礎集計     投げ1のヒストグラム

素データから度数集計してみたら

投げ1と投げ2の2群を書き分ける 素データ→度数表→ 2群別のグラフ 投げ2 投げ1

グラフは統計分析の設計図 最初のうちは、グラフ化することがとても大事 図中には、実は分析結果が見えています。 1項目の現象には 棒グラフか折れ線グラフがしばしば。 大切なことは、条件によりグラフを書き分けていますか? 条件とは、女性・男性、学級A、B、C別など

さらに、別の図「散布図」は 2項目の関係図

相関という考え方 2つの項目間の関係性を知りたい 2つの項目は「比例」するか「反比例」するか 比例には正比例と負比例(×反比例) 正の比例・・・片方が2倍→もう一方も2倍 負の比例・・・片方2倍→もう一方-2倍 相関は 正相関=片方が増加→もう片方も増加 負相関=片方が増加→もう片方は減少

(正)相関を目で見る

正負両方の相関程度が知りたい 相関係数R  -1~0~1で示す値

よく似た用語を間違えない 相関は散布図グラフを連想しましょう 相関係数はその点のシャープさを示す 相関係数が+なら正相関、-なら負相関 相関係数は記号ではRかrで表記 R2やR^2は相関係数を2乗したもの R2は重相関係数、決定係数とも呼ばれる R=√R2を計算し相関係数に直すとヨロシ

相関分析の手順 1.関係を知りたい2つの項目(列)を選ぶ 2.この2項目で散布図を描く 3.この図を元に直線回帰を行う すると グラフ内には中心直線=回帰直線が引かれ その方程式と相関係数の2乗R2=重相関係数が表示される これら一連の分析を単回帰分析と呼ぶ

(単)回帰分析 散布図を描くとX軸とY軸の関係を目視 Y=aX+bという直線関係を考える XとYはデータとして測定される 傾きaとbを決定すれば、XとYの関係が決まる

係数aとbを求めれば 2つの項目XからYを推測できる 予測: 測定されていないXについて、Yの予測値をY←aX+bで予測可能

単回帰分析のポイント 直線の程度(相関度)はどのくらいか? 傾きaとbを求める 直線の相関性を示す指標 相関係数R 直線の相関性を示す指標 相関係数R またRの2乗のことを決定係数・重相関係数という -1<R<+1 経験的にR>0.7で正相関あり、R<-0.7で負相関あり、-0.7<R<0.7で無・弱相関 決定係数なら 0<R<0.5で無・弱相関 相関係数の2乗=決定係数・重相関係数>0

求め方例: 散布図からエクセルで グラフ点を右クリック→近似曲線の追加メニュー 求め方例: 散布図からエクセルで グラフ点を右クリック→近似曲線の追加メニュー

散布図→単回帰分析の完成 回帰直線y=x 相関係数Rの2乗=0.19 (目安: R2>0.5ならR>0.7なので相関性あり)

統計ソフトについて 記述統計、グラフなどはエクセルで十分 検定、多変量分析となると専用ソフトが望ましい http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで間に合うことも多い。いつまで続くかは不明 市販ソフトとしては PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。世界的権威ソフト 新規18万円 ライバル会社にSASがある。安価版としてJUMPも有名 エクセル統計 4万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない フリーソフト(無料) R 良くできているが上級者でなければ使いにくい!研究者向け

青木サイト使用の留意点 検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている 検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている Javaはサイトで計算処理を行うための仕組みでありPC購入後各自で導入するもの 施設のPCではセキュリティ保護の観点からJavaを導入していないものもあるので、青木サイトが利用できない場合がある 施設PCで利用できない場合、他の統計パッケージやJava導入した個人PCを利用する 最近ではスマートホンでも利用可能

検索エンジンで「群馬 青木」で検索

統計サイト「おしゃべりな部屋」

赤い部分から統計分析サイト

「Java」メニューの内容

「JavaScript」メニューの一例

あなたのPCのJAVAという仕組みが古いなどの原因で、警告が出たものです。「いいえ」を選んでうまく動作すればいいですね。

統計計算シートankstat (アンクスタット)時間があれば紹介 田中研究室で開発されたエクセル(バージョンは問わず)専用のシート 主に基礎集計や集計を行う。統計解析は実施しない。 http://www.osu.ac.jp/~tanaka/ankstat/ 検索エンジンにて「ankstat」で検索する 。 最新は5.09版。 最大500ケース×200項目を集計可能

データ入力画面例 (エクセルに同じ)

基礎等計量もらくらく

度数も集計する

「ankstat」で検索

「最新版5.9版」でダウンロード

算術平均の示すもの ここに5つのデータ 2、10、1、2、1がある 1 1 2 2 10 2+10+1+2+1=16 1     1 2     2 10 2+10+1+2+1=16 算術平均=16÷5=3.2 3.2は5つのデータを表現する代表値の一種

もう1つの代表値 中央値 2、10、1、2、1 これを 小さい(大きい)順に並び替える 1、1、2、2、10 もう1つの代表値 中央値 2、10、1、2、1         これを 小さい(大きい)順に並び替える 1、1、2、2、10 この真ん中番目を中央値(メジアン)と呼ぶ この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な値(極値)に左右されにくい →頑健(ロバスト)な代表値 算術平均3.2 中央値2

2グループの代表値を比べる グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2 グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2  この2つに有意な差があるか?→t検定