ホーエル『初等統計学』 第5章 主要な確率分布

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

ホーエル『初等統計学』 第5章 主要な確率分布 富山大学知能情報工学科 「統計学」第7回 ホーエル『初等統計学』 第5章 主要な確率分布 高 尚策 (コウ ショウサク) 准教授 Email: gaosc@eng.u-toyama.ac.jp

前回の復習 確率変数:標本空間の上で定義された実数値関数 確率分布の性質: 期待値 𝑉 𝑋 =𝐸 𝑋 2 − (𝐸 𝑋 ) 2 離散型 連続型 確率分布の性質: 標本の大きさを十分に大きくすると,標本平均mは母集団平均μに収束する 標本平均:m 標本分散:s2 母集団平均:μ 母集団分散:σ2 無作為抽出 母集団(確率分布) 標本(経験分布) 期待値 第3回の講義で 紹介ずみ 補足 𝑉 𝑋 =𝐸 𝑋 2 − (𝐸 𝑋 ) 2 𝑉 𝑐𝑋 = 𝑐 2 𝑉[𝑋]

この章で学ぶこと 代表的な2つの確率分布の導入 2項分布の正規近似 2項分布(離散型) (実践)エクセルを利用した 2項分布の確率計算 正規分布(連続型) (実践)エクセルで正規分布のグラフの書き方 2項分布の正規近似

1. 2項分布 1回の試行(trial)の結果が,「成功」か「失敗」のいずれかに分類されるとき.これをベルヌーイ試行(Bernoulli trial)と呼ぶ. 例:コインを投げて,表が出たら「成功」 例:さいころを投げて,1の目が出たら「成功」

2項分布(binominal distribution):成功確率 p の,n 回の独立な(independent)ベルヌーイ試行での,成功回数 X の確率分布. B(n, p) と表す. 観測される実際の分布ではなく,理論的な母集団分布であることに注意する. この確率変数X を2項変数と呼ぶことがある.

2項分布の例 さいころを投げて,1の目が出たら「成功」,それ以外は「失敗」とする.これを3回繰り返す. 下の表は,この実験での標本空間(可能な結果すべて)と,標本空間を構成する各点に付与された確率を表している. 成功:S   失敗: F 結果 SSS SSF SFS FSS SFF FSF FFS FFF 確率 1 6 2 ( 5 6 ) 1 6 2 ( 5 6 ) 1 6 2 ( 5 6 ) 5 6 2 ( 1 6 ) 5 6 2 ( 1 6 ) 5 6 2 ( 1 6 ) ( 𝟏 𝟔 ) 𝟑 ( 𝟓 𝟔 ) 𝟑

x 3 2 1 P{X = x} 標本空間の各点から成功回数 への写像X を考える.簡単に,成功回数を確率変数X と考えてよい. 標本空間 FFS FSF FSS SFF SSS SSF SFS FFF 1 2 3 標本空間 成功回数 X もともとの標本点に付与されていた確率を,成功回数ごとに加算すると,x 回成功する確率P{X = x} がわかる. x 3 2 1 P{X = x} ( 𝟏 𝟔 ) 𝟑 3 1 6 2 ( 5 6 ) 3 5 6 2 ( 1 6 ) ( 𝟓 𝟔 ) 𝟑

2項分布を与える関数 確率分布を計算する王道(だが大変) n 試行の2項分布は次の式で与えられる. 標本空間の構成 各標本点への確率付与 確率変数 X の構成 確率変数 X の値ごとに,標本点に付与された確率を加算 n 試行の2項分布は次の式で与えられる.

2項分布の式の導出(n=3) 3回とも成功の確率は, 2回成功する,ある特定の系列(たとえば,FSS)の出現確率は, 1回成功する,ある特定の系列(たとえば,FFS)の出現確率は,

0回成功する確率は, 成功回数が1回および2回となる系列は1通りではない.→ では何通りか? ある成功回数(たとえば,2回)になる,3回の独立なベルヌーイ試行での,成功試行の組み合わせの数を考えればよい.

成功回数2回の場合 3か所のうち,「成功」となる2か所を選ぶ 選び方の総数は,

一般に,n 回の試行で,成功となる x 回の試行を選ぶ 選び方の数は, よって, n 回の試行で,x 回成功する確率は,

2項係数 2項係数(binomial coefficient) 2項定理の展開式において,係数に現れる.

2. 2項分布の性質 分散(中心まわりの変動) 平均(分布の中心)

2項分布の平均と分散 平均(期待値) np ,分散 npq  q は「失敗」の確率,すなわち,1 – p  この性質は覚えておくとよい この性質を証明する方法はいくつかあるが,もっとも簡単なのは,1回のベルヌーイ試行での平均と分散を考えるもの.

1回目のベルヌーイ試行(成功確率 p)での,「成功」回数を表す確率変数 X1 P{X1=1} = p, P{X1=0} = q P(X1) p q 平均(期待値) 分散

n 回のベルヌーイ試行での,「成功」回数を表す確率変数 X 平均 分散(独立試行では加法性が成立)

実践1:エクセルを利用した 2項分布における成功確率の計算 ベルヌーイ試行おいてx回成功する確率P{X=x} は,エクセルのBINOMDIST 関数を用いて求められる.この関数名の由来はBinominal Distribution(2項分布)である. 例題:サイコロを投げる.1の目がでることを「成功」とする.3回投げた時の成功回数の確率分布は,2項分布となる.テキスト表3(p.95),図2(p.96)参照.

エクセルシートの準備 「成功回数」「2項係数」「成功確率P{x}」を記録する列を用意する.サイコロは3回投げるので, 成功回数は0回から3回である.

COMBIN関数 すべて成功あるいはすべて失敗という試行結果の系列は1通りしかない. その他は複数とおりの系列がある.2項係数はいくつの系列があるかを表す. 2項係数を計算するエクセルの関数は COMBIN 関数である.たとえば, COMBIN(3,2)は,3C2を計算して,3を返す. この関数名の由来はCOMBINATION である.

2項係数の計算 n回の試行でx 回成功する系列の数(2項係数)を計算する書式は,=COMBIN(n, x) である.

2項係数を計算する列で,それぞれの成功回数(0回から3回)に対応する2項係数を計算 する.COMBIN(3, 0) からCOMBIN (3, 3) までを順に入力すると,下図のようになる.

成功確率の計算: BINOMDIST関数 =BINOMDIST(x,n,p,FALSE) BINOMDIST 関数を用いて,P{x} を計算する.この関数は,成功数x,試行回数n,成功確率p を指定して, =BINOMDIST(x,n,p,FALSE) BINOMDIST 関数を挿入し,成功確率P{x} を求める. と書く.最後のFALSEはP{x} を求める場合の指定である. これをTRUE とすると,部分和の計算になる.

2項分布 下図のような確率分布(2項分布)が得られる. 最後に,確率分布のグラフを描く.

3. 正規分布 下の図のようなヒストグラムは,よく観察される. 3. 正規分布 下の図のようなヒストグラムは,よく観察される. 釣鐘型(bell curve) 左右対称 このようなヒストグラムの極限形(母集団分布)として,正規分布(normal distribution)と呼ばれる確率分布が仮定される.

確率密度関数 連続型の確率変数のデータで,ヒストグラムを描く.釣鐘型のヒストグラムが得られた. 適当に階級を設定する.柱の面積を,その階級に属する相対度数と等しくする.(全面積は1) 標本を大きくし,階級の幅を0に近づけていくと,柱の上部での段差はなめらかになり,全体として左右対称なグラフが見えてくる. このグラフの式が,正規分布の確率密度関数(probability density function)である.

正規分布の確率密度関数 正規分布の平均をμ(ミュー),分散をσ2(シグマ2乗)として,N(μ, σ2) と表す. 正規分布の確率密度関数 本質的には,

データから描かれるヒストグラムが釣鐘型に見えても,母集団の分布が正規分布であるとは限らない. 統計学では,母集団の分布として正規分布が仮定されることが多い.その仮定に問題があるようなら,そのときに対応を考える. 確率密度関数のグラフでは,縦軸は確率ではない.確率密度である.

確率密度関数の性質 正規分布に限らず,確率密度関数には以下の性質がある.数学的には,こうした性質を持つ関数を確率密度関数と定義する. グラフの値はどこでも0以上. グラフ下の全面積は1.理論的相対度数 のヒストグラムで,柱の面積をすべて足すと 1になることに対応している. X=a から X=b までの,グラフ下の 面積は,その区間の値が出現する確率. 確率=面積

正規分布の性質 区間 μ±σ の,正規曲線下の面積は,曲線下の全面積(=1)のおよそ68% これは,正規分布に従う確率密度関数 X において,この区間の値が出現する確率である. 区間 μ±2σ の,正規曲線下の面積は,曲線下の全面積(=1)のおよそ95% 区間 μ±3σ の,正規曲線下の面積は,曲線下の全面積(=1)のおよそ99.7%

標準正規分布 確率=面積 標準正規分布(standard normal distribution):平均0,分散1の正規分布. 正規分布表:標準正規分布に従う確率変数 Z において,P{0≦Z≦z} (テキストp.295付録表IV)あるいはP{z≦Z}の一覧を示したもの. 標準正規分布の確率密度関数における,この区間での曲線下の面積である. 確率=面積

確率分布の標準化(非常に重要!!) Xの分布:N( μ , σ2 ) Zの分布:N(0, 1) 平均 μ,分散 σ2 の正規分布に従う確率変数Xは,以下の変数変換(X → Z)により,標準正規分布に従うようになる. μ を引くことで分布の位置を変え,平均を 0 にする. σ でわることにより,分散はもとの変数の 1/σ2 ,標準偏差は 1/σ になる

測定値の標準化 標準化の変換は,母集団の確率分布のみならず,実際のデータに対しても行われる. この変換により,素点(raw score)は,平均から見て,標準偏差いくつ分はなれているかを表す標準得点(standardized score)に変換される. 偏差値は,標準得点を10倍し,50 を加えたもの.偏差値の平均と標準偏差は?

実践2:エクセルで正規分布のグラフを描く方法 ステップ1:確率変数 X の値 x を少しずつ変化させて,そのときの確率密度関数の値 f(x) を,エクセルの NORM.DIST 関数を用いて求める. ステップ2:点 (x, f(x) ) の散布図を描き,すべての点をなめらかな線でつなぐと,正規分布の確率密度関数のグラフができる.

ワークシートの準備 確率変数 X の値を入力する列(下図のA列)と,平均0,分散1の標準正規分布 N(0,1) の確率密度関数 f(x) の値を計算する列(下図のB列)を用意する.

Xの値を用意 Xの値は -3.5 から +3.5 まで,0.1 きざみで用意する.X の値を入力する列での一番上のセル(下図のA2セル)を選択し,-3.5 という値を入力する.

連続データの作成 -3.5 という値を入力した セルを選択し,「ホー ム」タブの右端にある 「編集」から,下向き矢 印のアイコンをマウス で左クリックする.表示 されるメニューから「連 続データの作成」を選 択する.

連続データの作成 表示されるウィンドウで,「範囲」を列,「増分値」を 0.1,「停止値」を 3.5 とする. [OK] ボタンを押すと,列方向に, 0.1 きざみで, -3.5 から 3.5 までの 値が入力される.

NORM.DIST 関数 X の値それぞれに対応する f(x) の値を計算する.これにはNORM.DIST関数を用いる. NORM.DIST関数は,確率変数 X の値 x ,平均,標準偏差を指定して,=NORM.DIST(x, 平均, 標準偏差, FALSE) と入力する. 最後の引数としてFALSEを指定すると,x に対応する f(x) の値が返される.ここをTRUEとすると,与えられた正規分布において-∞から x までの値が出現する確率 P{-∞≦X≦x} が返される. NORM.DIST 関数は,Excel 2010 で新たに加えられた関数.Excel 2007 以前で実習を行うときには,NORMDIST 関数を用いる. NORM のあとのコンマなし. 使い方は NORM.DIST 関数と同じ.

確率密度関数の値の計算 標準正規分布での, X = -3.5 に対応する確率密度関数の値 f(-3.5) を求める.-3.5 という数字はセル番地(下図ではA2)で指定することにして,関数 f(x) の値を計算するセル(下図ではB2 )で,以下のように入力する. 標準正規分布の平均は0, 分散と標準偏差は1

確率密度関数の値の計算 確率変数 X の値それぞれに対して,対応する f(x) の値をNORM.DIST関数で計算する.最初に関数を入力したセルをコピーすればよい.

分散を変えて計算 分散の違いによる正規分布の曲線の変化を観察するために,N(0, 0.5 2 ) と N(0, 1.5 2 ) についても,下図のように f(x) の値を計算する. NORM.DIST 関数では,分散でなく標準偏差を与える(たとえば, 1.5 2 でなく 1.5)ことに注意.

グラフを描く データの入力されたセルのいずれかをマウスで選択したあと,「挿入タブ」の「グラフ」から,「散布図(平滑線)」を選択する.

正規分布のグラフ完成 次のようなグラフができる.このように,「散布図(平滑線)」は,関数のグラフを描くのに便利である.

4. 2項分布の正規近似 2項分布を用いる問題は,n が大きくなると2項係数の計算が厄介. このようなときに,近似的な解法があると便利. 4. 2項分布の正規近似 2項分布を用いる問題は,n が大きくなると2項係数の計算が厄介. このようなときに,近似的な解法があると便利. 2項分布の正規近似(normal approximation):問題の2項分布に近い正規分布を利用することができる.

例:ある射撃手が標的に命中させる確率を1/3とするとき,この人が12回発射してそのうち少なくとも6回命中させる確率はいくらか. 答え: p=1/3, n=12 の2項分布: 命中回数x 1 2 3 4 5 6 p{X=x} 0.008 0.046 0.127 0.212 0.238 0.191 0.111 7 8 9 10 11 12 0.048 0.015 0.003 0.000 P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177

p=1/3, n=12 の2項分布: P{X>=6} = P{X=6}+P{X=7}+P{X=8}…+P{X=12} = 0.177 P{X>=6}の値は上の図のヒストグラムで x=5.5から右側にある柱の 面積の和である.

p=1/3, n=12 の2項分布(平均np,分散npq) と同じ平均と分散を持つ正規分布 N(np,npq)=N(4, 1.63^2) 𝑍= 𝑋−𝜇 𝜎 = 5.5−4 1.63 =0.92 正規分布でのP(X>=5.5)は標準化して テキストP.295の表IVからZ=0とZ=0.92の間の面積は0.321である. Z=0.92より右側の面積は0.5-0.321=0.179となる.

正規分布で近似できる2項分布の条件 p = q = 1/2のとき,2項分布の確率分布は左右対称になる. 同じ平均(np)と分散(npq)を持つ正規分布がよくあてはまる p = 1/2でなくても,p および q の値が小さすぎず,n が十分に大きいとき,2項分布は正規分布で近似できる. 目安として,np > 5(p が1/2より大きいときには,nq > 5) 例: n=20, p=0.1の2項分布には正規分布の左すそがうまく適合しない P{0}=(0.9)^20=0.12, 0はxが取りうる最小値であり、この確率はかなり大きいだから. 0.12

2項分布の正規近似 問題に合わせて,使う正規分布を変えるのか? 平均 np 分散 npq の正規分布を使う? 標準正規分布は扱いが簡単で,特定範囲の値が出現する確率を示した正規分布表も用意されている. 成功回数を標準化すれば,平均が0,分散が1となり,常に標準正規分布を利用できる.

図10  p=1/3, n=24 の2項分布 (横軸は成功回数)

図10 p=1/3, n=24 の2項分布で, 成功回数を標準化

2項分布の正規近似を用いた 問題解法(1/2) 成功回数 x を標準化する(確率変数X→Z) z = 0 に対応する x は, x = 0 ではなく,x = np

2項分布の正規近似を用いた 問題解法(2/2) 問題にあわせて必要な計算を行う z > 0 の場合(z < 0 は正規分布の対称性を利用) テキストの正規分布表を用いる場合,z 回以下の成功確率を求めたいのなら,読み取った値(成功回数が 0 から z までとなる確率)に0.5 を加える. z 回以上の成功確率を求めたいのなら,読み取った値(成功回数が 0 から z までとなる確率)を0.5 から引く. どの範囲の確率を求めているのか,図をよく見る

2項分布の正規近似を用いた 問題解法(注意点) 2項分布の正規近似を利用して,「回数」に関する問題を解くときには,離散型分布である2項分布での成功回数を,連続型分布である正規分布での成功回数に読みかえる必要がある. 例:「5回以上の成功」は「4.5回以上の成功」 割合に関する問題では読みかえ不要 読みかえ後の成功回数を標準化する テキストの例1(p.109),例2(p.110)をよく吟味せよ

まとめ 代表的な2つの確率分布の導入 2項分布の正規近似 2項分布(離散型) (実践)エクセルを利用した 2項分布の確率計算 正規分布(連続型) (実践)エクセルで正規分布のグラフの書き方 2項分布の正規近似

演習課題 課題:   正規分布の分散(標準偏差)でなく,平均を変えると,確率密度関数のグラフはどのように変化するだろうか? エクセルで実験してみよう. レポート内容: 1.作成した確率密度関数のグラフを貼り付ける. 2.説明文 名前と学籍番号をご記入のうえ、レポート用紙(A4)を提出する。 提出先:工学部大学院棟7階     NO.7708室のドアのポストに入れてください 締め切り時間: 来週月曜日 午後5時まで