1時限で理解する 統計の基礎 応用情報処理II 2015/12/4 講師:新居雅行.

Slides:



Advertisements
Similar presentations
数理統計学 西 山. 前回のポイント<ルート N の法則> 1. データ(サンプル)の合計値 正規分布をあてはめる ルート N をかけて標準偏差を求める 2. データ(サンプル)の平均値 正規分布を当てはめる 定理8がポイント ルート N で割って標準偏差を求める.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
数理統計学 西 山. 推定には手順がある 信頼係数を決める 標準誤差を求める ← 定理8 標準値の何倍の誤差を考慮するか  95 %信頼区間なら、概ね ±2 以内  68 %信頼区間なら、標準誤差以 内 教科書: 151 ~ 156 ペー ジ.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
数理統計学  第9回 西山.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
経済統計学 第2回 4/24 Business Statistics
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学  第7回 西 山.
第1回 担当: 西山 統計学.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
統計解析 第9回 第9章 正規分布、第11章 理論分布.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
確率・統計Ⅱ 第7回.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
数理統計学  第8回 西山.
統計学 12/13(木).
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
統計学  第6回 西山.
橋本 保健統計演習への準備.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
社会福祉調査論 第9講 母集団の推計 12月14日.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
数理統計学 第11回 西 山.
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
数理統計学 第4回 西山.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
統計学 西 山.
中澤 港 統計学第4回 中澤 港
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
確率と統計 年1月12日(木)講義資料B Version 4.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
統計学  第9回 西 山.
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
プログラミング論 相関
統計現象 高嶋 隆一 6/26/2019.
Presentation transcript:

1時限で理解する 統計の基礎 応用情報処理II 2015/12/4 講師:新居雅行

今日の目的 統計は難しい、けど知らずにパソコンに向かって やり方だけ勉強しても仕方ない だけど、まじめに勉強する機会も少ない まじめに勉強することを勧めるが、最低限の知識 を今日の1時限で詰め込む

統計とは 過去に起こった事実を 数値的に評価するもの すなわち、現象や実態を、客観的に判断するため のよりどころとしての統計がある あくまで事実を求めるというスタンスが基本にある 数値的に評価するもの 定性的に評価するものではない すなわち、現象や実態を、客観的に判断するため のよりどころとしての統計がある

統計は数学の1分野である 数字を求め、数字を評価の基礎とする 数字を求めるためには計算が必要 そこで、数式をベースにした一般化が図られる しかしながら、鶴亀算じゃあるまいし、手順化は手詰まりになる そこで、数式をベースにした一般化が図られる 微積分(解析学)の基礎の上にあるので、それを知らないと厳しい面もある 数学の強みと大変な面は、いずれも「一般化」されているという点である

数学と統計学の違い イコールは、実は=ではない 真の意味でのイコールではない 数学的な意味ではイコールでかまわない 例えば、平均値=合計÷個数 このイコールは何を意味するか? 公式にあてはめて求めた数値は、実は推定値であるというのが一般的なスタンス 真の意味でのイコールではない 数学的な意味ではイコールでかまわない 計算結果を求めるという意味ではイコールである

確率と統計 確率は、どちらかというと未来に起こるできごと を、数学的に推定するといった世界 したがって、起こってもいないことをあれこれ言うというこれも不思議な世界 ただし、確率を求めるよりどころは統計にあると いうのが一般的 確率論によるモデル化をベースに統計がある 数学的な意味付けは、確率の考え方が基本にある

確率の例 サイコロを2つ振って、同じ目が出る確率 確率の数値は解釈が必要 サイコロの6面は、同じ確率(1/6)で出てくる 組み合わせは、6×6=36通り 同じ目が出るのは全部で6通り 従って、1/6=0.16…(17%) 確率の数値は解釈が必要 たとえば、100回振り、同じ目が出る回数をカウントする いつも、17回とは限らない、13回かもしれないが、20回かもしれない 100回の試行をたくさん行うと、恐らく17回の場合がいちばん多くなるはず

統計の非常に重要な概念 母集団とサンプル 事象は確率的に発生する 平均 測定値は元データなのか、元データの一部を取り出した者なのか? 一見ランダムに見えても、一定の統計モデルに従う 言い換えれば、統計モデルに合致する部分を見つける 平均 これを理解できれば統計は制覇したものと同じ!というのは言い過ぎかも しかし、あまりに意味が深く、勉強して、勉強して、行き着いたのは平均だった 母集団=データが全て得られている場合 サンプル=すべてのデータが得られない場合

平均 求め方はもう説明は必要ないでしょう 平均の意味は 非常に誤解しやすい点 合計を個数で割る 誤差がいちばん少ない数 単に計算方法を知っているのは何の意味もない。たとえば、1人の人の身長と体重の平均値は何か意味はあるか? 統計のポイントになるが、常に「意味」「背景」を頭にいれておくことが大切

平均の求め方 身長が167,158,173,159の平均値 ちょっと考えよう もちろん、(167+158+173+159)÷4=164.25 164.25の意味 この4人の中には、164.25という身長のやつはいないぞ 実は「比較」において意味がある数値。比較の方法は検定などとも呼ばれている

平均を求める方法 4000円 3人 6000円 5人 8000円 9人 10000円 4人 こんなデータがあるとする 以下の計算式で平均値を求められる ((4000×3)+(6000×5)+(8000×9) +(10000×4))÷(3+5+9+4)=7333.33… 要はヒストグラム 4000円 3人 6000円 5人 8000円 9人 10000円 4人

分散 データの散らばり具合 その平均値をとって「分散」と呼ぶ 前のプレゼンの図の場合 平均値との差を2乗した値は、はずれ値になるほど大きな数値になる しかも2乗するので、はずれればはずれるほど、その傾向が増幅される その平均値をとって「分散」と呼ぶ 前のプレゼンの図の場合 ((4000-7333)^2*3+(6000-7333)^2*5+(8000-7333)^2*9+(10000-7333)^2*4)/21 = 3555555.5…

標準偏差 分散の単位は、元データの2乗になっているので、 単位も2乗になる 結果的に散らばり具合を示す指標としての標準偏 差が求められる だから、そのルートを取れば単位は揃う 結果的に散らばり具合を示す指標としての標準偏 差が求められる 前のプレゼンの図の場合 3555555のルート=1885.618…

サンプリングと母集団 同じ統計値でも場面で異なる サンプリング結果から、母集団の統計値を推定す る 母集団:クラスの試験の成績 サンプリング:クラスの試験の成績はその学校の学力を示すものだ サンプリング結果から、母集団の統計値を推定す る 平均値の推定値=サンプルの平均値 分散の推定値=ちょっと式が変わる→これを「標本標準偏差」と呼ぶ

標本標準偏差 平均値との差の2乗値を、(個数-1)で割る そのルートが標本標準偏差 つまり、少し大きくなる 数学的には証明などができるのだが、考え方とし て、ばらつきは広がる可能性があると考える 前のプレゼンの図の場合 ((4000-7333)^2*3+(6000-7333)^2*5+(8000-7333)^2*9+(10000-7333)^2*4)/(21-1) の平方根 ≈ 1932

確率分布 4000円 3人 3/21=14% 6000円 5人 5/21=24% 8000円 9人 9/21=43% 10000円 4人 縦軸に確率を取る 数学的には関数で表現される 要はヒストグラム 4000円 3人 3/21=14% 6000円 5人 5/21=24% 8000円 9人 9/21=43% 10000円 4人 4/21=19%

正規分布 確率分布の代表的な形式 偶然が重なることによって、正規分布になるとさ れている 平均値を中心に分布は左右対称になり、平均値から離れるほど頻度が低下する 偶然が重なることによって、正規分布になるとさ れている http://www.weblio.jp/content/正規分布

正規分布であるなら もし、測定値が正規分布であると言えるなら 問題は、本当に正規分布するのかどうか? 計算された平均値と標本標準偏差は、母集団の平均値と標準偏差の最も確かな推定値である 平均値±標本標準偏差の間に、測定値の34.1×2=68.2%のものが含まれるだろう 平均値±2×標本標準偏差の間に、測定値の約96%のものが含まれるだろう 前の例:3469〜11198の範囲に96%のデータが含まれるだろう 問題は、本当に正規分布するのかどうか?

推定と検定 推定 検定 統計量をもとに、ある確率で当たるという前提をおいて、区間などを求める 実験や調査の「結果」に使われることがよくある 統計値(平均値と標準偏差)のペアに対し、仮説として「2つの測定値は等しい」を立てる その仮説は間違いであるという場合において意味がある(帰無仮説) 2つの測定値は「同じではない」ということを「違っている」とみなすのがある意味では検定の核心である

各種の統計解析 分散分析 回帰分析 多変量解析 これらは、データの傾向を語るのに使われる

統計の勉強方法 とにかくなにか1冊は破読すること 必ず、サンプルのデータを自分の手で計算をして みること どんな複雑な解析手法でも、一度は手作業で解く こと。それから、コンピュータを使うように