統計学第2回 「確率と確率分布」 122.534 0 5 10 15 20 受講者の数学ができる程度について の 度数分布図。先週のアンケート結果 を, R を使って x<-read.delim(“L1Q.txt”) barplot(table(x$QA)) で表示させてコピーしたもの。 多少の式変形なども示しながら講義.

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
数理統計学  第9回 西山.
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
経済統計学 第2回 4/24 Business Statistics
数理統計学(第四回) 分散の性質と重要な法則
第6章 数え上げ理論と確率 B4 酒井 隆行.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
第2章 確率と確率分布 統計学 2010年度.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学 10/25(木) 鈴木智也.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
統計学  第7回 西 山.
統計学 11/13(月) 担当:鈴木智也.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
確率の考え方の基礎 二項分布と正規分布 2006年1月25日 作成:本間聡.
11.確率モデル 確率・・・不確実性の経済学や金融やファイナンス で重要 密度関数がある場合に期待値を取る計算を中心に、紹介.
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
第2章補足Ⅱ 2項分布と正規分布についての補足
統計学 11/19(月) 担当:鈴木智也.
数理統計学  第8回 第2章のエクササイズ 西山.
第7回 二項分布(続き)、幾何分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
第2章 確率と確率分布 統計学 2006年度.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
統計学  第6回 西山.
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
橋本 保健統計演習への準備.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
数理統計学 第11回 西 山.
第11回 中心極限定理 と 大数の法則 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
応用数理工学特論 期末発表 西口健太郎 渡邉崇充
数理統計学 第4回 西山.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規分布確率密度関数.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
Basic Tools B4  八田 直樹.
第2日目第1時限の学習目標 順列、組み合わせ、確率の入門的知識を学ぶ。 (1)順列とは? (2)組み合わせとは? (3)確率とは?
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
確率と統計 メディア学部2009年 2009年11月26日(木).
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
物理フラクチュオマティクス論 応用確率過程論 (2006年4月11日)
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
確率と統計 確率編- 平成20年10月29日(木).
確率と統計 確率編- 平成19年10月25日(木) 確率と統計2007.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
確率統計学 (データ解析学) 書き込み式ノート(Ver.1) 担当教員:綴木 馴.
Presentation transcript:

統計学第2回 「確率と確率分布」 受講者の数学ができる程度について の 度数分布図。先週のアンケート結果 を, R を使って x<-read.delim(“L1Q.txt”) barplot(table(x$QA)) で表示させてコピーしたもの。 多少の式変形なども示しながら講義 を 進めても9割の人は大丈夫と思われ る ので,式も示して説明を進める。 統計学=「不確実性を考慮した論理的推論」であった。 不確実性=確率的? 確率とは? あらゆる統計的な考え方の基礎

どういう現象が確率的? サイコロを振ったときの目:振ってみるまでは1か ら6のどれが出るかはわからない。どの目がでる可 能性も等しいから。 天気予報:「明日の天気予報は晴れ」といっても 「必ず晴れる」とは限らない。「曇ったり雨が降っ たりする可能性も少しはあるが,晴れる可能性が高 い」ことを意味する。 喫煙と肺がんの関係:「タバコを吸うと肺がんにな る」というのは,タバコを吸った人と吸わなかった 人を比べて,肺がんになった人の割合が吸った人の 方で高い,という関係を示す。タバコを吸っても肺 がんにならない人もいるし,吸わなくても肺がんに なる人もいる。 実は自然界のほぼすべての現象は確率的。

統計的事象 こういう「不確かさ」に潜む法則 性(長期間繰り返し観察したり, 大集団で観察すると見られる)を 考える学問を確率論と呼ぶ。 この種の法則性をもつ現象を, 「統計的事象」と呼ぶ。 統計的事象の確かさの度合いを示 すのに便利なモノサシが「確率」

標本空間 統計的事象を捉えるには,「どんなことが起こりう るのか」という範囲を定めることが必要。 現象は一般に多面的で様々な観察方法がある。以下 3点によって統計的現象を捉えた,記号化された結 果の集合のことを「標本空間」と呼ぶ。 – 観察を行う面を特定する – 起こりうる結果の範囲を規定する – その範囲内の各結果に記号を対応させる 個々の結果の起こりうる可能性を示す数値(これを 「確率」という)を考える。一般には「どの結果も 同程度に起こる」と考える。各結果に対応付けられ た確率は0から1までの数値であり,各確率の値の 総和は1にならねばならない。 サイコロの目では,標本空間は{1,2,3,4, 5,6}

事象の確率 問題は,個々の結果の可能性よりも,いくつかの結 果が複合された集合(これを「事象」という)の起 こる可能性がどのくらいか,ということ。つまり, 事象とは,「標本空間の部分集合」である。 サイコロの例では,「目が偶数(丁)」とか「目が 5以上」とか「目が1」とかいうことが事象である。 ある事象の確率は,その事象に含まれる各結果の生 起確率の和である。従って,各結果の生起確率が等 しい場合は,その事象に含まれる結果の場合の数を すべての場合の数で割ると,その事象の確率になる。 サイコロの例では,「目が5以上」という事象の確 率は,2/6=0.333・・・である。

余事象・和事象・積事象・排反 事象 起こりうるすべての結果の集合を「全事象」という。 つまり,全事象は標本空間に等しい。 決して起こらない事象を「空事象」といい,空集合 φ で表す。 事象 E に対して, E が起こらないという事象を E の 「余事象」という。サイコロの例では,「目が偶 数」という事象の余事象は「目が奇数」である。 E の余事象を と書く。 事象 E と F の少なくとも一方が起こるという事象を, E と F の「和事象」といい, E ∪ F で表す。 事象 E と F の両方が起こるという事象を, E と F の 「積事象」といい, E∩F で表す。 事象 E が起これば F は決して起こらないとき, E と F は「排反事象」であるという。 E と F が排反事象な ら, E∩F = φ である。

事象の確率を表す記号 事象 E が起こる確率を Pr(E) と書 く。 サイコロで考えると,1回振っ たとき「偶数の目が出る」とい う事象 E が起こる確率 Pr(E) は, {2,4,6} の場合の数3を, {1,2,3,4,5,6} の場合の数6で割っ た値なので Pr(E)=0.5 。

2回振って「少なくとも1回は偶数の目」の確率 は? =1.0 ではないのは自明。 偶数の目が1回目に出る事象 E1 と2回目に出る事象 E2 とは排反ではない 集合で考えれば, Pr(E 1 ∪ E 2 )= Pr(E 1 )+ Pr(E 2 ) - Pr(E 1 ∩E 2 ) は自明。この式を 「加法法則」と呼ぶ。 「2回とも奇数」の余事象なので 1 - 事象 E と事象 F が排反なら, Pr(E ∪ F)=Pr(E)+Pr(F) という「加法定理」が成立。 2回目が偶数1回目が偶数 (2,1) (2,3) (2,5) (4,1) (4,3) (4,5) (6,1) (6,3) (6,5) (2,2) (2,4) (2,6) (4,2) (4,4) (4,6) (6,2) (6,4) (6,6) (1,2) (3,2) (5,2) (1,4) (3,4) (5,4) (1,6) (3,6) (5,6) (1,1) (1,3) (1,5) (3,1) (3,3) (3,5) = 1回目も2回目も奇数 (5,1) (5,3) (5,5)

事象の独立性と乗法定理 事象 E が起こっているときに事象 F が起こる確 率を, E が起こったときの F の「条件付き確 率」といい, Pr(F|E) と書く。 Pr(F|E)=Pr(F∩E)/Pr(E) である。 事象 E と事象 F が互いに無関係(独立)なら, F の条件付き確率 Pr(F|E) は, Pr(F) と一致する。 逆にいえば, Pr(F)=Pr(F|E) のときに事象 E と事 象 F は互いに独立であるという。独立でない とき「従属である」という。 上記2つの式から,事象 E と事象 F が独立なら, Pr(F∩E)=Pr(F)×Pr(E) “ 乗法定理 ” が成立。

確率の4つの定義 操作的接近=統計的定義:数多く試したときの相対度数の 極限。例えば,事象 E が起こる確率 Pr(E) は, N 回試したと きに N 1 回事象 E が起こるとして, N を無限大にしたときに N 1 /N が漸近する値である。 対称的確率:サイコロの場合,6通りの目の出る確率はど れも等しくなければならず,その和は1でなくてはならな いので,例えば1の目が出る確率は 1/6 となる。限定的か つ循環論法。 公理的客観確率:標本空間の各要素を e i として, Pr(e i )>=0 かつ Pr(e 1 )+Pr(e 2 )+ ・・・ +Pr(e N )=1 かつ Pr(E)=ΣPr(e i ) を公理 とする。厳密(正確にはもっと長い説明が必要)。 主観確率:ビッグバンとか超新星の爆発といった,観念的 にも二度と繰り返すことのできない事象についての「見込 み」を扱う。決定理論において重要。

大数の法則(操作的接近の根拠)

確率変数と期待値 例えば,スロットマシンにコインを入れると,ごく たまに,投入金額の何十倍ものコインが出てくる。 マシン利用者全員に返ってくる賞金の合計を利用回 数で割った値が,1回に期待される賞金額である。 これを賭け金で割った値を「賞金還元率」と呼ぶ。 すべての賭け事で胴元が儲かるようになっているの は,賞金還元率が 100 %未満だからである。宝くじ では 40 %,競馬では 75 %と言われる。 一般に,賞金額が x1, x2, x3, ・・・で,その賞金が 得られる確率が p1, p2, p3, ・・・のように設定され たスロットマシンの期待賞金額 M は, M=x1p1+x2p2+x3p3+ ・・・で与えられる。 このスロットマシンのようなものを確率変数といい, 期待賞金を一般に期待値と呼ぶ。

分散 期待賞金が同じでも,値動きの幅が小さいと 一喜一憂の程度が小さく,逆に幅が大きいと 滅多に当たらないが当たったときの喜びは大 きくなる。つまり,ギャンブル性は,値動き の幅と,チャンスの大きさに依存している。 各賞金がどれくらい期待賞金から隔たりがあ り,それを獲得できる可能性がどれくらいあ るのかを見積もれば,ギャンブル性が表せる。 V= (マシンのギャンブル性) =Σ (期待値か らの隔たり) × (可能性)という値が定義で きる。この V を「分散」と呼ぶ。なお,各賞 金額 x と期待値 M の隔たりは,普通,差の平 方値 D=(x  M) 2 で表す。

確率変数と確率分布 一般に,とりうる値の集合 x=(x1,x2,x3, ・・・ ) と,それぞれの値が実現 する確率 p=(p1,p2,p3, ・・・ ) が与えられてい て,事象として x のうちどれか1つの値のみ 実現するとき, (x,p) という1セットを,「確 率変数」と呼んで, X で表す。 期待値は E(X)=μ=Σx i p i 分散は V(X)=σ 2 =Σ(x i -μ) 2 p i 分散の平方根 σ を標準偏差と呼ぶ。 横軸に x の各々の値を示す位置に, p の各々の 可能性を示す高さの棒を立ててみれば,これ が確率変数の「確率分布」ということになる。

ベルヌーイ試行と2項分布 1回の実験で S か F かのどちらかが起こ り,しかもそれらが起こる可能性が, Pr(S)=p , Pr(F)=1  p=q で何回実験しても 変わらないとき,これを「ベルヌーイ 試行」という。 ベルヌーイ試行を n 回行って, S がちょ うど k 回起こる確率は, Pr(X=k)= n C k p k q n- k n C k は2項係数と呼ばれる。このような 確率変数 X は,「2項分布に従う」とい い, B(n,p) と表す。 E(X)=np , V(X)=npq である。

二項分布のシミュレーション ▼ 正二十面体(各面に は1から 20 までの数字 が割り振られている) サイコロを n 回( n=4, 10, 20, 50 )投げたとき の,1から4までの目 が出る回数を1試行と 考えれば,これはベル ヌーイ試行である。1 回投げたときに1から 4までの目が出る確率 は 0.2 であるとして(= 母比率を 0.2 とする), 左図は試行 1000 セット の度数分布

二項分布の理論値 各 n についての理論的な確率分布は, Pr(X=k)= n C k 0.2 k 0.8 n-k より 下図のようになる。

正規分布 n が非常に大きい場合には,2項分布 B(n,p) の確率 Pr(X=np+d) という値が, 1/√(2πnpq) ・ exp(-d 2 /(2npq)) という値で近似できる。 一般にこの極限である, Pr(X=x)= 1/√(2πσ 2 ) ・ exp(-(x-μ) 2 /(2σ 2 )) という形をもつ確率分布を正規分布と呼び, N(μ, σ 2 ) と書く。 z=(x-μ)/σ と置けば, Pr(Z=z)= 1/√(2π) ・ exp(-z 2 /2) となる。これを標準正規分布と呼び, N(0,1) と書 く。 統計学でよく使われる確率分布であるカイ二乗分 布とか t 分布とか F 分布は,正規分布から導かれる。

練習問題 8頭で出走する競馬のレースがあり,「どの 馬が勝つチャンスも等しい」と仮定した場合, ある特定の馬が勝つと予想して当たる確率は 1/8 となるが,2回のレースの少なくともどち らか一方に当たる確率はいくらか?

解答例 1回目に当たる事象と2回目に当たる事象 は排反ではないから, 1/8+1/8  1/64=15/64 「1回目も2回目も当たらない」ことはな い,という確率なので, 1  /8)·(1  1/8)=15/64