岡山商科大学経営学部商学科 教授 田中 潔(教学部長)

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
1 市場調査の手順 1. 問題の設定 2. 調査方法の決定 3. データ収集方法の決定 4. データ収集の実行 5. データ分析と解釈 – データ入力 – データ分析 6. 報告書の作成.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
社会調査データの分析 社会調査・実習. 分析の手順(1) 1 1 入力データの点検 (全部の調査票 に目を通す) 2 2 通し番号の入力。必要ならば回答の コード化。 3 3 入力フォーマットの決定 4 4 データ入力( Excel, エディターなど)
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
グラフィカル多変量解析 ----目で見る共分散構造分析----
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
検定 P.137.
スケジュール予定など 9:30-10:20頃 看護研究・データ分析再考 10:30-12:00頃 データ入力段階の留意 昼 食
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
スケジュール予定など 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ 昼食
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
2008/9/24 岡山県看護協会一般研修 資料 データ分析の基礎知識 統計的検定編 岡山商科大学商学部 商学科長・教授 田中 潔.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
第37回日本看護研究学会学術集会 シンポジウムII 20011/8/8(月)(デブの日)14:40~16:40 中山和弘(聖路加看護大学)
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
1変量データの記述 経済データ解析 2006年度.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
統計学の基礎と応用 張 南   今日の話:序   論          履修の注意事項.
地理情報システム論演習 地理情報システム論演習
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
相関分析.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第4回 統計処理(1) 表計算ソフトの基本操作 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時
数量分析 第2回 データ解析技法とソフトウェア
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
講師メモ 田中 潔 岡山商科大学商学部助教授 連絡先(質問や相談ごと) 〒700-8601(商大,専用番号)
analysis of survey data 堀 啓造
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
岡山商科大学経営学部商学科 教授 田中 潔(教学部長)
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

岡山商科大学経営学部商学科 教授 田中 潔(教学部長) 2012/1/21土 広島県看護協会研修会 資料 看護研究に役立つ統計学 第1日目 参考資料 岡山商科大学経営学部商学科 教授 田中 潔(教学部長)

スケジュール予定など 1/21 午前 9:50-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ 昼食 1/21 午前 9:50-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ           昼食 13:00-14:30頃 看護研究と統計手法 14:30-16:00  回帰分析と相関 1/28 午後 9:50-11:00頃 アンクスタットと青木のサイト 11:00-12:00頃 統計的検定法            昼食 13:00-14:30頃 平均値差のt検定 14:30-16:00  クロス表の独立性検定

研修講師のメモ 田中 潔(たなかきよし) 略歴: 岡山大、九州大修了後商大へ勤務。助手、講師、助教授を経て現在教授。管理職:商学科長、現在教学部長 岡山県看護協会の研修講師を25年以上歴任 主な科目:情報システム論、情報ネットワーク論、社会調査実践他 専門分野:計算機統計学、マーケティング 連絡先 岡山商科大学 〒700-8601(専用番号で届く) tanaka@po.osu.ac.jp (eメール) http://www.nahaha.org (Web) 検索エンジン 「岡山商科大学 田中潔」で検索 大学電話 086-252-0642 大学FAX 086-255-6947

もしも…研修後に相談があれば アポイントはeメールtanaka@po.osu.ac.jpが最適。大学でも良いが、その他電話FAXは086-284-7726(自宅)。でも捕まらないならごめんなさい データ分析相談は随時応ずるが、エクセルに素データを入力しておくのが望ましい また希望する仮説も事前に固まっている方がスムーズに進む。 遠方の場合メールだけで指導する場合もある

「統計」のことば始め 「高き屋にのぼりて見れば煙けぶり立つ民のかまどはにぎはひにけり 」(新古今和歌集、仁徳天皇) 帝王の学問 「高き屋にのぼりて見れば煙けぶり立つ民のかまどはにぎはひにけり 」(新古今和歌集、仁徳天皇) 帝王の学問 最も古いのはBC3800年代バビロン王朝で行われ、約BC3000年エジプトや中国などで見られる 。 大化の改新(645年)によって班田収授の法 。 1920(大正9)年10月1日を 期して、第1回「国勢調査」 。

統計=stat(istics) 近代統計学の父ケトレー(コペルニクスに影響) 英語で統計または統計学= statistics。      近代統計学の父ケトレー(コペルニクスに影響) 英語で統計または統計学= statistics。 語源はラテン語で「状態」を意味するstatisticum 。 イタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問。 さらに費用対効果から、必要最低限度の数を調査して、その場合の精度が、「目標達成のために満足のできるものであれば良しとする接近法」が考案される。⇒現代の「統計学」の基本原理 推測統計学(stochastics)。

近代統計学の巨人たち 1900年ごろに開花 カール・ピアソン 確率統計の帝国を確立 ロナルド・フィツシャー 実験計画法の大成功 カール・ピアソン 確率統計の帝国を確立 ロナルド・フィツシャー 実験計画法の大成功 エゴン・ピアソンとイェジー・ネイマン 仮説検定法の完成 コルモゴルフ 確率論基礎の確立 第2次大戦後の発展 エドワーズ・デミング 産業界の品質管理 ジョン・テューキー(高速フーリエ変換)、エフロン(ブートストラップ法) 戦後の日本では、林 知己夫(数量化)、赤池弘次、(AIC)、竹内啓(理論)、佐和隆光(経済)などなど

わが国における小さなコップの戦い 計算機統計学の黎明 1975年頃 COMPSTAT(欧州計算機統計会議)にてVisiCalc(後のExcel)発表 1980年頃 九大浅野、広大正法寺、岡大脇本・垂水、塩野義製薬後藤・武田製薬田中豊(大阪)、統数研(東京)林、大隈、北大佐藤らによって日本でも「計算機統計学」機運。科研費プロジェクトNISAN(ニイサン)始動。 1985年頃SPSS日本版上陸。垂水・田中潔アルバイト パソコン統計ハンドブック(脇本、垂水、田中豊・潔) これ以降、統計処理は「統計パッケージ」の時代へ

あなたはなぜデータ分析を迫られるのか? 素直なあなたはスタッフから相談を受けます 院内研究が回ってきた 学外・論文投稿が迫ってきた アンケートの集計を手伝って→手伝いが中心に あなたはエクセルが分かるから分析ね! PCができることと統計が分かることを混乱した上司に恵まれた 院内研究が回ってきた 予算はあまりない、スタッフの協力にたよる 学外・論文投稿が迫ってきた 国内や世界標準での点検・確認

その結果 断ることは許されない 自分は統計を知らない→習っていないものがわかるものか 私は理屈っぽく考えるのがイヤ! 私は数学がいやで看護へ来たのに 看護に統計はいらないと思う 調査では患者ひとり一人は援助できない      統計ギライがこの世にまたひとり

統計を使用するステップ データの正しい収集法 データの集計方法 データの分析方法 統計分析、データ分析、データ科学、 計画的な抽出や正しい質問の作り方 データの集計方法 基礎統計量とクロス表、グラフ化 データの分析方法 検定、回帰分析、因子分析など多変量解析法 統計分析、データ分析、データ科学、 データマイニングなど呼び方はさまざま

データ分析の背景 国勢調査や行政調査 マーケティング(市場調査)・世論調査 実験や臨床研究、業務改善 国・県などの公的調査 国勢調査は統計法に基づく(2010年は調査年)http://www.stat.go.jp/index/seido/houbun2n.htm 政府統計ポータルサイト(政府統計の窓口) http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do マーケティング(市場調査)・世論調査 ある目的のため市場を調査する アンケート調査 実験や臨床研究、業務改善 比較的小規模、実験データ

大まかな統計分析の流れ 4段階 母集団(未知であり不可視) 標本(可視) 集計 推定・検定 データの収集 データ集計 統計解析 大まかな統計分析の流れ 4段階 母集団(未知であり不可視)            標本(可視)          集計        推定・検定            データの収集      データ集計         統計解析            アンケート調査       無作為抽出                       平均値やクロス表                       基礎統計量や集計表                           t検定やカイ2乗検定結果 神の領域                     人間界 第一段階      第二段階        第三段階          第四段階

医療分野で 統計的分析が好まれるわけ 統計分析の目的: 「目標達成のために満足のできるものであれば良しとする接近法」 医療で解決すべき課題(目標仮説)        (ここに看護的意味づけが必要) データで証明する(実現仮説または達成仮説) つまり、調査や実験の成否判定        (有意になれば良いのではありません。         有意にならないことが大事なときもあります) 仮説設計、データ収集、集計、統計分析の各作業

看護界に「統計」は不要??? 統計の持つ2つの役割 1)国家統計や国勢調査的に 2)この個人は1)とどう食い違うのか 社会調査や公衆衛生、疫学調査の視点 調査では個人は救えない 2)この個人は1)とどう食い違うのか 個人=人間共通な部分+個性や個人差 1)は厚生省を中心に進め 2)は施設を中心に進めるべきもの

看護研究に問われる量か質か 量的研究(学部卒レベル) 質的研究(院レベル) 通常のアンケート調査、多くの場合対象者全員からの回答は無理→標本調査 量的研究の主目的は、市場の現況を把握すること 質的研究(院レベル) インタビュー調査、症例研究、観察など 未知なる問題の場合、仮説を発見するために比較的小規模にて行う http://www.geocities.co.jp/Technopolis-Mars/4688/ 南小樽病院 瀬畠さん

質的研究と量的研究の関係 南小樽病院 瀬畠 克之さんのページより引用 南小樽病院 瀬畠 克之さんのページより引用 <表1> 質的研究と量的研究との比較               質的研究           量的研究                       仮説生成型         仮説検証型               言語や現象(概念)     数値データ               合目的的抽出        無作為抽出               哲学・社会学理論     数理統計学的理論 研究では“仮説を生み出す”というよりは“仮説を明確化していく”といった方が正確かもしれません。      <表2> 質的研究の分類(私案)              ミクロ研究(個人誌研究)   マクロ研究(一般化研究)          調査手法  個人面接              個人面接(複数)              デイスコース アナリシス    フォーカスグループ              観察法              (観察法)              ドキュメント分析         コンセンサスメソッド      研究視座  ケーススタデイ          グランデッド・セオリーアプローチ              エスノグラフィー              フェノメノロジー 学部で学ぶこと  実験方法、データ収集、分析方法やプレゼン 大学院で学ぶこと   仮説設計や問題設定

看護研究における統計の立場 2つの視点 1つめ: 国家統計の視点 2つめ: 推測統計的な視点 1つめ: 国家統計の視点 自分が「王」となり、対象集団の状況を広く知る、報告する立場、疫学調査など 母集団よりも標本集団をまとめること 2つめ: 推測統計的な視点 自分の得た標本から母集団を推し量りたい 自分は「標本」という実験結果を元に、真の集団(母集団)にたどり着きたい。真の看護や看護方式に近づきたい

標本統計量→母集団統計量 平均など「中心的傾向」代表値 標準偏差など「ちらばり」 理論により、標本の平均値は母集団の平均値を最も良く推定している 標本平均値=母集団平均値 同一 標準偏差など「ちらばり」 標本標準偏差より母集団標準偏差はやや大きい 標本標準偏差<母集団標準偏差

母集団と標本 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知、 標本:既知 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団 無作為抽出 母集団:未知 標本・サンプル 既知:データ分析の対象 標本は分析できる 未知または既知

悉皆(しっかい)調査(全数調査) 母集団の全員が標本として測定されたこと 母集団サイズ=標本サイズ 標本での分析結果がすべて母集団結果 標本を捉えることの意義 標本の示す傾向=母集団の中心的な傾向+個々の誤差

統計解析法の目的 ○標本が集まった時の「統計」=集計 データの姿を知る統計 記述統計: 平均、標準偏差、分散、グラフ化 記述統計: 平均、標準偏差、分散、グラフ化 ○集計後の「統計」=統計的分析 原因や要因、あるいは影響や判定など決定付ける 推定・推測: 標本から母集団値を求める 一般には標本値±誤差を決める 予測: 時系列データから将来を推測 方程式を作成する 検定・テスト: 比較し判定する、○×効果 多変量分析群 3つ以上の項目からなるデータを分析する

統計の中の個人・ひとり 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 個人(表層へ出現)=    中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 私は60kg=標準体重+誤差        真理・本質+個性・個人差   標準体重:仮に50kg(平均体重と呼ぶ)   誤差: 60-50=10kg 実は、中心的傾向とは平均値のこと                             

原因や要因に挑戦する 多変量解析の役割 ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ① いろいろな要因によってある項目を予測したい ② 観測された複数の項目から総合的指標を作りたい ③ ものや項目の関係を視覚化したい ④ ものや項目を分類したい ⑤ 項目間の関係や構造を知りたい

主な多変量解析手法 予 測: 指 標: 視覚化: 分類: 潜在構造: 回帰分析、数量化1・2類、判別分析 予 測: 回帰分析、数量化1・2類、判別分析 指 標: 回帰分析、数量化1~3類、主成分分析、因子分析 視覚化: グラフ解析、数量化3・4類、主成分分析 分類: クラスター分析 潜在構造: 因子分析、共分散構造分析

統計学は節約する学問 ではありません 統計で分析する時の心がまえ、ポリシー 統計は「全力」な学問です。 基本的な手法を積み上げること しばしば質問 何サンプルあれば分析できますか? 何例まで減らせますか? 統計は「全力」な学問です。 頑張ってデータを生かしたい。 手法のデパートは聞いてて分からない 基本的な手法を積み上げること

私たち看護がなぜ統計的な視野を必要とするか?少しヒントが得られましたか? では次に統計を扱うためのいくつかの基礎知識いや基本マナーを (田中研に相談する場合、これらの知識を持っていると大変話が楽)

データの値: 4つの測定尺度 名義尺度 情報量小 順序尺度 間隔尺度 比率尺度 名前を区別するため 演算は出来ない データの値: 4つの測定尺度 名義尺度                      情報量小 名前を区別するため 演算は出来ない 1.男性 2.女性  度数表やクロス表は可 順序尺度 ゆるい順序性のみ許す 演算は本来△ 1.はい 2.どちらでもない 3.いいえ 間隔尺度 絶対ゼロを定めない量 演算は加減のみ ℃(摂氏)、カレンダー月 比率尺度 絶対ゼロを基準とした計測値 加減乗除可能 実験データ全て                      情報量大

エクセル使いなら必需品A1 行側(ギョウソク)と列側(レツソク)          →列側(項目、変数、変量)   行側↓  (ケース)

統計分野はエクセルに似たり でも言葉が違うケースと項目 ケースとは1件の標本を示す ケースは個体を示す 時系列の場合時間変化 項目は列単位→1つの変数 1変数の集計や分析 1列ごとに処理するデータ 2変数の集計 2列ごとに処理 多変数の処理 3列以上をまとめて処理

入力したデータ

データ収集の時、気づかうこと 有効数字について 計算結果を小数点何桁まで取るべきか? 答え 測定値で影響されます。 身長160cmは「センチ単位」で測定されました。 160.1かも160.4かも知れません。 有効数字 小数点以下0桁 でした。 そこで平均値など計算結果の表示は、ひと桁多くし小数点以下1桁(2桁目を四捨五入して)で表示しましょう 教訓 計算結果の有効数字は測定値よりも1桁多く

収集データの欠席扱いとは 欠測値について 計測されなかった、計測できなかった値・回答 表ソフトで欠測値には0ゼロを入力しない 欠測値という 表ソフトで欠測値には0ゼロを入力しない エクセルの場合何も入力しない セル値の削除はdeleteキーで 0は計測値として計算してしまいます 99や0など特定値を入れることは 一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう

基礎統計について 基礎、キソと軽んじてはいけません。 この基礎統計からデータの概要を思い浮かべることが、解明の第一歩 基礎統計量算出やグラフ書きは地味ですが、 多くの発表はこれで決まります。 項目ずつ(1変数ごと)の統計分析です

基礎統計の次は、集計しましょう 度数分布表を作りましょう 表にまとめましょう(2つの項目) これを棒グラフ(ヒストグラム)に描きましょう これである1項目の姿が見えてきます (全ての測定尺度で可能) 表にまとめましょう(2つの項目) 特に2次元クロス表(分割表)は大事 2つの項目を同時に表にまとめます (特に、順序や名義尺度でも作れます)

最初のデータ分析 記述統計量とは 平均値 標準偏差 最大、最小値 中央値 度数集計表

統計を始めるとやたら正規分布が でてくるのですが 自然界の多くの現象は、数多く収集する(度数グラフに集計する)と正規分布に近くなることが知られています。 ネイマン流大数の法則。 現象には正規分布しないものも多くありますが、合計点など加えると、極限では正規分布に帰着します。 中心極限定理。 「標本数を可能な限り集めなさい」は2つの意味で、正当なのです。 統計には2つの立場があります。 1)数多く集めたり、加工して正規性に持ち込む派 2)正規性を仮定しない分析方法をあみだす派 2)がよさそうですが、実は性能は1)を超えられません。分布系と分析力はトレードオフの関係に。

統計分析の道のり(再掲) 図は「大まかな統計分析の流れ 4段階」 (前掲を参照) 統計分析の道のり(再掲) 図は「大まかな統計分析の流れ 4段階」 (前掲を参照) 母集団を決める(想像する)、仮説を決める 見えないけれど、どんな現象集団 標本集団を収集する(実験や調査) 精密でなく正確な回答か?答えやすい用紙?、回収率 分析に合うよう素データの加工や集計 度数表、基礎等計量、グラフ、クロス表など 仮説をうらづけるグラフ? 統計手法で分析する 種々の統計解析法、仮説を説明できた?

素データから統計量を求める 概念図       ちらばり(分散や標準偏差) 標本 集団 ボール&スティックモデル × 代表値(平均値や中央値)

エクセルでは簡単に 基礎統計量を計算できる 関数をセルに挿入で求める ○○値を求める関数 平均 =AVERAGE(範囲指定) 標準偏差 =STDEV(範囲) 中央値 =MEDIAN(範囲) 最大値 =MAX(範囲) 最小値 =MIN(範囲) 表の度数を求める関数 該当数(通常) =COUNT(範囲)または 条件付該当数 =COUNTIF(範囲、条件)

2つの項目の 基礎集計     投げ1のヒストグラム

素データから度数集計してみたら

投げ1と投げ2の2群を書き分ける 素データ→度数表→ 2群別のグラフ 投げ2 投げ1

グラフは統計分析の設計図 最初のうちは、グラフ化することがとても大事 図中には、実は分析結果が見えています。 1項目の現象には 棒グラフか折れ線グラフがしばしば。 大切なことは、条件によりグラフを書き分けていますか? 条件とは、女性・男性、学級A、B、C別など

さらに、別の図「散布図」は 2項目の関係図

(単)回帰分析 散布図を描くとX軸とY軸の関係を目視 Y=aX+bという直線関係を考える XとYはデータとして測定される 傾きaとbを決定すれば、XとYの関係が決まる

係数aとbを求めれば 2つの項目XからYを推測できる 予測: 測定されていないXについて、Yの予測値をY←aX+bで予測可能

2つのミッション 直線の程度(相関度)はどのくらいか? 傾きaとbを求める 直線の相関性を示す指標 相関係数R 直線の相関性を示す指標 相関係数R またRの2乗のことを決定係数という -1<R<+1 経験的にR>0.7で正相関あり、R<-0.7で負相関あり、-0.7<R<0.7で無相関 決定係数なら -0.5<R<0.5で無相関

求め方: 散布図からエクセルで グラフ点を右クリック→近似曲線の追加メニュー 求め方: 散布図からエクセルで グラフ点を右クリック→近似曲線の追加メニュー

散布図→単回帰分析の完成 回帰直線y=x 相関係数Rの2乗=0.19 (目安: R2>0.5ならR>0.7なので相関性あり)

統計ソフトについて 記述統計、グラフなどはエクセルで十分 検定、多変量分析となると専用ソフトが望ましい http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで間に合うことも多い。いつまで続くかは不明 市販ソフトとしては PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。世界的権威ソフト 新規18万円 ライバル会社にSASがある。安価版としてJUMPも有名 エクセル統計 4万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない フリーソフト(無料) R 良くできているが上級者でなければ使いにくい!研究者向け

青木サイト使用の留意点 検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている 検索エンジン 群馬 青木 → おしゃべりな部屋 青木サイトの統計処理の多くには「Java技術」が使われている Javaはサイトで計算処理を行うための仕組みでありPC購入後各自で導入するもの 施設のPCではセキュリティ保護の観点からJavaを導入していないものもあるので、青木サイトが利用できない場合がある 施設PCで利用できない場合、他の統計パッケージやJava導入した個人PCを利用する

あなたのPCのJAVAという仕組みが古いなどの原因で、警告が出たものです。「いいえ」を選んでうまく動作すればいいですね。

統計計算シートankstat (アンクスタット)時間があれば紹介 田中研究室で開発されたエクセル(バージョンは問わず)専用のシート 主に基礎集計や集計を行う。統計解析は実施しない。 http://www.osu.ac.jp/~tanaka/ankstat/ 検索エンジンにて「ankstat」で検索する 。2012/1/21最新は5.03版。 最大500ケース×200項目を集計可能

算術平均の示すもの ここに5つのデータ 2、10、1、2、1がある 1 1 2 2 10 2+10+1+2+1=16 1     1 2     2 10 2+10+1+2+1=16 算術平均=16÷5=3.2 3.2は5つのデータを表現する代表値の一種

もう1つの代表値 中央値 2、10、1、2、1 これを 小さい(大きい)順に並び替える 1、1、2、2、10 もう1つの代表値 中央値 2、10、1、2、1         これを 小さい(大きい)順に並び替える 1、1、2、2、10 この真ん中番目を中央値(メジアン)と呼ぶ この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な値(極値)に左右されにくい →頑健(ロバスト)な代表値 算術平均3.2 中央値2

2グループの代表値を比べる グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2 グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2  この2つに有意な差があるか?→t検定

予告 次回は「統計的検定」 比較する技法をマスターする 2グループや表が「明らかに」異なるのか? エクセル→青木の統計サイトを駆使する 1人で出来る統計分析を極める 次回もサービス、さーびすしちゃいましょう