第4章 推測統計の基礎 統計学基礎 2017年度.

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

第4章 推測統計の基礎 統計学基礎 2017年度

目次 Ⅰ 全数調査と標本調査 Ⅱ 確率の基礎 Ⅲ 統計的推論入門 1) 標本調査のメリット 2) 標本抽出法 3) 標本調査における誤差 Ⅰ 全数調査と標本調査 1) 標本調査のメリット 2) 標本抽出法 3) 標本調査における誤差 Ⅱ 確率の基礎 1) 確率の計算 2) 確率分布 3) 確率の定義 ⅰ) 先験的確率 ⅱ) 経験的確率 ⅲ) 主観的確率 Ⅲ 統計的推論入門

Ⅰ 全数調査と標本調査 「社会生活統計指標 -都道府県の指標-2017」のページには、数多くの都道府県別データがある。 Ⅰ 全数調査と標本調査 「社会生活統計指標 -都道府県の指標-2017」のページには、数多くの都道府県別データがある。 基礎データのところを見ると、中には、人口総数(A1101)のように、調査によってすべて数え上げたものがある。一方で、消費支出(勤労者世帯)(L3211)†のように、県内の一部の世帯について調査をおこなって求めた推計値もある。 † 消費支出は県内のすべての世帯について調査し、その平均をとったものではない。一部の世帯の調査結果から推計したものである。

ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。 1) 標本調査のメリット 母集団(個体数N) 標本(個体数n) × × × × × × × × × × ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。

標本調査の例として次のようなものが挙げられる。 労働力調査(完全失業率はこの調査の結果求められる)  ⇒ 全国の15歳以上(約1億1千万人)の母集団から、約10万人を標本として選ぶ調査 内閣支持率調査などの世論調査  ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の母集団から、約1000人(新聞社のおこなう内閣支持率調査の場合)   その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。

費用・時間の削減 得られる情報の増加、精度の向上 全数調査が不可能な場合にも調査可能   標本調査をおこなうメリットとして、次のようなことが挙げられる。 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、全数調査をおこなうことは不可能である。

母集団の中から無作為(ランダム)に標本を抜き出す方法。具体的に次のような方法がある。 2) 標本抽出法   母集団から標本を抜き出す方法を標本抽出法という。英語ではサンプリング(sampling) であり、マーケティングなどに出てくるこの言葉は、標本抽出法を指している。   標本抽出法は、次の2つに大別できる。 有意抽出法 選ばれた標本が母集団の縮図となるように、調査をおこなう人が主観的に選ぶ方法である。街を歩く人(ただし典型的と思われる人)にアンケートをとるなどの方法であり、抜き出された標本の誤差(後述)には、統計理論でコントロールすることができないほどの偏りが生じることがある。 無作為抽出法 母集団の中から無作為(ランダム)に標本を抜き出す方法。具体的に次のような方法がある。 単純無作為抽出法 - 母集団の中からくじ引きの原理によって標本を抜き出す。 系統抽出法 - 始めに1つ選び、そこから等間隔で選んでいく。電話帳などのリストに有効

非標本誤差 - 調査もれ、無回答、記入ミスなど 3) 標本調査における誤差   標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の2つの種類のものが組み合わさったものである。 非標本誤差 - 調査もれ、無回答、記入ミスなど  ⇒ 全数調査でも起こりうる     統計理論によりコントロール不可能 標本誤差 - 標本の偏りによるもの  ⇒ 標本調査に固有のもの     無作為抽出であれば、統計理論によりコントロール可能であるが、有意抽出の場合には、統計理論でコントロールできない標本の偏りが存在する可能性がある。 無作為抽出で得られた標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題

結果は、ルーズベルト候補が60%の得票を得て勝利 ※ 統計理論でコントロールできない標本の偏りの例 1936年のアメリカ大統領選挙  <候補者> F・ルーズベルト(民主党)現職 A・ランドン(共和党) どちらの候補を支持するかの世論調査 リテラリー・ダイジェスト(週刊誌) 過去5回の大統領選挙の予測を的中 200万人以上の回答から、ランドン候補が57%の得票率で勝利と予想 アメリカ世論研究所(ジョージ・ギャラップ率いる研究所)  世論調査を始めたばかり 3000人の回答から、ルーズベルト候補が54%の得票率で勝利と予想 結果は、ルーズベルト候補が60%の得票を得て勝利

なぜ、回答数の多いリテラリー・ダイジェストが外れ、回答数の少ない、ギャラップの方が的中したか? ⇒ 標本抽出の方法の差  ⇒ 標本抽出の方法の差 リテラリー・ダイジェスト 自誌の購読者(大恐慌の最中になお雑誌購読を続けられる裕福な人たち)を対象に、それから自動車保有者と電話利用者の名簿を使って1000万人もの対象者に郵便を送り、返送された200万以上の回答をただ積み上げた。 ジョージ・ギャラップ率いる研究所  「収入中間層・都市居住者・女性」「収入下位層・農村部居住者・男性」のように互いに重ならないグループに分け、それぞれのグループに対して決まった割合で対象を抽出した。 リテラリー・ダイジェスト ギャラップの研究所 母集団(個体数N) 母集団(個体数N) × 標本(個体数n) × 標本(個体数n) × × × × × × × × × × × × × × × × × × ×

※ 無作為抽出の例   袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、袋の中の割合と同じように、赤球と白球が1個ずつとなる確率を考えてみよう。 母集団 標本 2 9 これは、10人の母集団から2人を標本として選ぶことと同じである。ここで、赤球を「内閣支持」白球を「内閣不支持」と考えると、母集団の内閣支持率は50%であるが、標本について計算した内閣支持率は、100%や0%になることもありうる。 赤球2個 5 9 赤球1個、白球1個 2 9 白球2個

2012年12月28日付の朝刊各紙に掲載された第2次安倍内閣支持率を見ると、異なった結果になっている。 <第2次安倍内閣発足直後の支持率の例> 母集団(有権者1億人)   ×  ×    標本1(朝日990人) 59%      ×   ×     ×      ×   ×   ×    ×  ×    ×    標本2(読売1039人) 65%   ×  ×    標本3(毎日856人) 52% 2012年12月28日付の朝刊各紙に掲載された第2次安倍内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。  ×    ×    標本4(日経872人) 62%   ×  ×    標本5(共同1031人) 62%

Ⅱ 確率の基礎  1) 確率の計算 (問題) 袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、袋の中の割合と同じように、赤球と白球が1個ずつとなる確率を考えてみよう。 (解答) 求める確率は次のようになる。 取り出した2個の球が、赤球と白球1個ずつとなる場合の数。すなわち事象Aに該当するものが何通りあるかをこのようにあらわす。 𝑃 𝐴 = 𝑎 𝑛 Aという事象のおこる確率(Probability) をこのようにあらわす。 この場合は、「取り出した球が、赤球と白球が1個ずつとなる」が事象Aである。 10個の球から2個の球を選ぶ場合の数。すなわち全部で何通りあるかをこのようにあらわす。

まず、10個の球から2個の球を選ぶ選び方が何通りあるかを考える。 ①②③④⑤①②③④⑤ 最初に選ぶ球は、この10個のうちの1つであるので、10通りとなる。 たとえば最初に①を選んだとしよう。このとき、次に選ぶ球は、 ②③④⑤①②③④⑤の9個の中の1つであるので、9通りとなる。 選び方は10(通り)×9(通り)=90通りとなるが、この90通りの中には①③と選んだ場合と、③①と選んだ場合の両方が含まれるなど、全部の組み合わせについて、ダブりが1つずつある。 よって求める場合の数は90÷2=45(通り)である。 すなわち10個の中から2個を選ぶ組み合わせは 10個の球から2個の球を選ぶとき、順番も考えて何通りあるか。 10×9 2×1 = 90 2 =45(通り) ①③ と③① のように、同じ組み合わせで何通りの順番ができるか。

n個の中からx個を選ぶ組み合わせの数は次のように計算できる。 この組み合わせの数は、 𝑛 𝐶 𝑥 とあらわすことができる。 𝑛 𝐶 𝑥 の定義は次のようなものである。 ここで、!は階乗を表す記号であり、次のようなものである。 𝑛!=𝑛× 𝑛−1 ×⋯×2×1  よって、 𝑛 𝐶 𝑥 は次のように計算できる。 x個 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 𝑥× 𝑥−1 ×⋯×2×1 x個 𝑛 𝐶 𝑥 = 𝑛! 𝑥! 𝑛−𝑥 ! 𝑛 𝐶 𝑥 = 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 × 𝑛−𝑥 ×⋯×2×1 𝑥× 𝑥−1 ×⋯×2×1× 𝑛−𝑥 ×⋯×2×1 = 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 𝑥× 𝑥−1 ×⋯×2×1 x個 x個

また、この分子はn個の中からx個を順番に選びだした場合の数(これを順列という)は、次のように計算できる。 この順列の数は、 𝑛 𝑃 𝑥 とあらわすことができる。 𝑛 𝑃 𝑥 の定義は次のようなものである。 𝑛 𝑃 𝑥 と 𝑛 𝐶 𝑥 のあいだには、次のような関係がある。 また、 𝑛 𝑃 0 、 𝑛 𝐶 0 はこの定義にもとづいては計算できないので、 𝑛 𝑃 0 =1 , 𝑛 𝐶 0 =1と特別に定義する。 x個 𝑛× 𝑛−1 ×⋯× 𝑛−𝑥+1 𝑛 𝑃 𝑥 = 𝑛! 𝑛−𝑥 ! 𝑛 𝐶 𝑥 = 𝑛 𝑃 𝑥 𝑥!

次に、取り出した2個の球が、赤球と白球1つずつとなる組み合わせが何通りあるかを考える。 ①②③④⑤①②③④⑤ 最初に赤球を選び、次に白球を選ぶ†ことにする。 赤球は①②③④⑤のいずれかから選ぶので、5通りとなる。 白球も同様に①②③④⑤のいずれかから選ぶので、5通りとなる。 よって選び方は5(通り)×5(通り)=25通り‡となる。 よって求める確率は  である。 𝑃 𝐴 = 𝑎 𝑛 = 25 45 = 5 9 † 順番は関係ないので、このように決めても構わない。順番を考慮するなら、最初に赤球の場合と最初に白球の場合の両方を考えなくてはならない。 ‡ 他の場合として、取り出した2個の球がともに赤球の場合と、ともに白球の場合がある。その組み合わせの数はともに 𝑛 𝐶 𝑥 = 5×4 2×1 =10(通り)となるので、45-10×2=25(通り)と求めることもできる。

(例) 袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、2個とも赤球である確率を考えてみよう。 ※ 条件付き確率 (例) 袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2個球を取り出すとき、2個とも赤球である確率を考えてみよう。 5個の赤球から2個の球を選ぶ場合の数 5 𝐶 2 10 𝐶 2 = 5×4 2×1 10×9 2×1 = 10 45 = 2 9 赤球2個 10個の球から2個の球を選ぶ場合の数

この確率は、次のような計算で求めることもできる。 事象Aがおこることを条件として、事象Bがおこることを、(Aを条件とする)Bの条件つき確率といい、𝑃 𝐵|𝐴 であらわす。 この場合、 事象A・・・1個目の球が赤球である。 事象B・・・2個目の球が赤球である。 とすると、 𝑃 𝐴∩𝐵 =𝑃 𝐴 ×𝑃 𝐵|𝐴 = 5 10 × 4 9 = 2 9 となる。 赤球2個 袋から同時に2個球を取り出すことは、球を戻さずに続けて2個球を取り出すことと同じである。そのとき、 5 10 × 4 9 = 2 9 1個目の球が赤球であったという条件のもとで、2個目の球も赤であるという条件付き確率 1個目の球が赤球である確率 AとBが同時に起こる確率であり、AとBの同時確率といわれる。 1個目も2個目も赤球である確率。 1個目の球が赤球である確率 1個目の球が赤球であったという条件のもとで、2個目の球も赤であるという条件付き確率

(例) コインを2枚投げて、2枚とも表になる確率を考えてみよう。 この場合、 次に、下のような例を考えてみる。 (例) コインを2枚投げて、2枚とも表になる確率を考えてみよう。 この場合、 事象A・・・1枚目のコインが表になる。 事象B・・・2 枚目のコインが表になる。 とすると、𝑃 𝐴∩𝐵 =𝑃 𝐴 ×𝑃 𝐵 = 1 2 × 1 2 = 1 4  となる。 袋から2個同時に球を取り出す場合、𝑃 𝐴∩𝐵 =𝑃 𝐴 ×𝑃 𝐵|𝐴 であった。 コインの例では𝑃 𝐵|𝐴 ではなく、𝑃 𝐵 となっているが、良いのであろうか?  ⇒ この場合、1枚目のコインが表になろうが、裏になろうが、2枚目のコインが表になる確率に影響を与えない。 すなわち、この例の場合  𝑃 𝐵|𝐴 =𝑃 𝐵 である。 このとき、「事象Aと事象Bは独立である。」という。 1枚目も2枚目も表になる確率 1枚目のコインが表になる確率 2枚目のコインが表になる確率

とりうる値のそれぞれにある確率が対応している変数を確率変数といい、その対応関係を確率分布という。 2) 確率分布 とりうる値のそれぞれにある確率が対応している変数を確率変数といい、その対応関係を確率分布という。 (例) 大小2つのサイコロを同時に振るとき、出た目の和を𝑥とすると、𝑥の値と確率の対応関係は下のようになる。  この確率分布から、例えば𝑥が3以上6以下になる確率などを求めることができる。  ⇒  2 36 + 3 36 + 4 36 + 5 36 = 14 36 = 7 18 𝑥 2 3 4 5 6 7 8 9 10 11 12 𝑃(𝑥) 1 36 2 36 3 36 4 36 5 36 6 36

確率分布は、いくつかの種類に分類することができる。 離散型確率分布 連続型確率分布 2項分布、ポアソン分布、負の2項分布、超幾何分布、・・・ 連続型確率分布 正規分布、t分布、カイ2乗分布、・・・ 中でも、左右対称のつりがね型(bell curve)をして正規分布は、数学的に望ましい性質を持った分布であり、良く用いられる。 身長や知能指数などがこの分布にしたがうといわれている。 正規分布にしたがう確率変数は、標準化することによって、標準正規分布にしたがうことになる。

テストの点数などは、正規分布にしたがっていると仮定される。 英語が平均80、標準偏差10の正規分布、数学が平均50、標準偏差20の正規分布にそれぞれしたがうとする。 このとき、英語は70点から90点のあいだに全体の68.3%が分布しており、数学は30点から70点のあいだに全体の68.3%が、10点から90点のあいだに全体の95.4%が分布していると考えられる。

ここまで考えてきた確率は、次のように定義されるものである。 3) 確率の定義  ⅰ) 先験的確率(古典的確率、数学的確率などともいう)の定義 ここまで考えてきた確率は、次のように定義されるものである。 ある行動の起こりうる結果が全部でn通りあり、そのうち事象Aにあてはまる結果がa通りあるとする。それらが同様に確からしく、互いに重複しない場合、𝑃 𝐴 = 𝑎 𝑛 を事象Aの確率とする。 (例1) コインを1枚投げたときに表の出る確率 起こりうる結果 - 表、裏の2通り(n=2) 事象A - 表が出る あてはまる結果 - 1通り(a=1)      ⇒  𝑃 𝐴 = 1 2  

(例2) サイコロを1個投げたときに5以上の目の出る確率 (例2) サイコロを1個投げたときに5以上の目の出る確率 起こりうる結果 - 1,2,3,4,5,6の6通り(n=6) 事象A - 5以上の目が出る あてはまる結果 - 5,6の2通り(a=2)      ⇒  𝑃 𝐴 = 2 6 = 1 3   これらの例では、おこりうるすべての結果が分かり、同様に確からしいとみなせるので、実験を実際におこなってみなくても、確率を評価できる。   よって、先験的確率といわれる。

明日、雨が降る確率(降水確率)を先験的確率の定義にしたがって考えると、次のようになる。 起こりうる結果 - 雨が降る、雨が降らない の2通り(n=2) 事象A - 雨が降る あてはまる結果 - 1通り(a=1)      ⇒ 「雨が降る」と「雨が降らない」は同様に確からしいとはいえない。  ⇒ 先験的確率によって確率を定義することの限界 𝑃 𝐴 = 1 2

(例)男児の出産確率(生まれてくる赤ちゃんが男の子である確率) 𝑃 𝐴 = 21 41 ⅱ) 経験的確率 経験的確率 同じ条件のもとで繰り返し十分大きい観察がおこなわれたとき、観察総数nの中で、特定の事象Aとなる場合の数がaであったならば、 𝑃 𝐴 = 𝑎 𝑛 を事象Aの経験的確率という。 (例)男児の出産確率(生まれてくる赤ちゃんが男の子である確率)   𝑃 𝐴 = 21 41 これは、多数の出産例を観察した結果求められたものである。

これらは、主観的確率の定義には合致する。 ⅲ) 主観的確率 経験的確率の考え方を用いることによって、おこりうる結果が同様に確からしいとはいえない場合や、すべての結果がわからない場合でも確率を求めることができる。 しかし、同じ条件のもとで繰り返し十分大きい観察が不可能な事象については、経験的確率の定義を用いることはできない。 今後おこるであろう、不確実なことがらについて、「確率」という言葉を用いることがあるが、これは不適切なのであろうか?  (例) スポーツの戦術において、「確率の高い方を選ぶ」 これらは、主観的確率の定義には合致する。 事象Aに対する個人の確信の度合いを数値で表したものP(A)を事象Aの主観的確率という。

(例)2017年に開催されるWorld Baseball Classicにおいて、日本が優勝する確率は60%である。  ⇒ 野球などのスポーツにおいて、同じ条件のもとで、繰り返し十分な観察をすることは不可能である。(過去の対戦とは、選手、調子、試合間隔、開催場所などの条件が異なっており、同一条件とはいえない。) 主観的確率は個人の確信によって定まるので、同じ事象に対しても確率の評価は異なる。  ⇒ このことから賭けがはじめて成立する。 (例) 日本シリーズで日本ハムと広島のどちらが勝つか。 日本ハムに賭ける人 - 日本ハムが勝つ確率(主観的確率)が高い。 広島に賭ける人 - 広島が勝つ確率(主観的確率)が高い。  この両者が存在することによって、初めて賭けが成立する。 全員が「日本ハムが勝つ確率が高い」と思っていたら賭けは成立しない。 しかし、勝つ確率が低い方に賭けることもある。それは当たった時にもらえる金額が多くなるからである。 ⇒ 期待値の大きさで判断している。

主観的確率 経験的確率 先験的確率

Ⅲ 統計的推論入門 (例) 赤球5個、白球5個の計10個の球が入った袋から、2個球を取り出すことは、10個の母集団から2個の標本を選ぶことと同じことである。 標本(個体数n) 母集団(個体数N) 母集団 標本 赤球2個の標本の個数は全体の × 赤球2個 × × 2 9 × × 赤球2個 × 赤球1個 白球1個 × × × × 5 9 × × 赤球1個、白球1個 × 白球2個 × 2 9 白球2個 × 赤球1個 白球1個 × ・・・ 2 9

この例において、標本に含まれる赤球の個数をxとすると、xの値と確率の対応関係は下のようになる。 このxの分布は、標本の個体数nが大きくなる時、正規分布に近づく。 ⇒ 中心極限定理 𝑥 1 2 𝑃(𝑥) 2 9 5 9

  内閣支持率などの比率の調査において、 標本比率 𝑝 = 𝑥 𝑛 の標本分布を考える。    𝑝 は母比率𝑝を中心とする正規分布になる。   よって、 𝑝 として、 𝑝 からどの程度異なる値が出てくるかがわかる。 母集団(有権者1億人)   有権者のうち、1000人を標本として選ぶ調査で、母集団の内閣支持率が0.6であったとすると、0.57と0.63のあいだに 𝑝 の95%が分布する。   ⇒ この性質を用いて、たとえば 𝑝 =0.62 という結果が得られたなら、この値から、母比率𝑝が含まれるであろう区間を推定できる。    (区間推定)詳しくは「統計学」で 標本(約1000人)      ×   ×     ×      ×   ×   ×    ×   ×  ×    標本比率 𝑝 母比率 p=0.6

0.57 𝑝 の分布 標本から求められた内閣支持率は、標本誤差があり、母比率をピタリと当てることは難しい。 𝑝 の分布   標本から求められた内閣支持率は、標本誤差があり、母比率をピタリと当てることは難しい。   そこで、母比率pが含まれるであろう区間を考え、推定する。 95% 0.57 p=0.6 0.63 × 0.62

日本全国の平均所得を求めるために、8000世帯を標本として抜き出し、標本平均 𝑥 にもとづいて、全国の平均所得を推定する。 ※ その他の例として、次のようなものが考えられる。 日本全国の平均所得を求めるために、8000世帯を標本として抜き出し、標本平均 𝑥 にもとづいて、全国の平均所得を推定する。 ある番組の視聴率が21.3%と出た。これは関東地方600世帯を標本として抜き出した結果である。この番組の関東地方での視聴率は、20%を上回ったといってもよいであろうか。 製造業と金融業の間で、大卒5年目の給与に差があるかどうかを調べるために、それぞれ10人ずつ選んで、給与を調べた。これらの標本から、差があるといえるであろうか。  ⇒ これらは「統計学」(2年配当)で扱います。