第3章 統計的推定 統計学 2016年度.

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

第3章 統計的推定 統計学 2016年度

Ⅰ 標本分布 Ⅱ 点推定 Ⅲ 区間推定 a) 母集団と標本 b) 標本平均の標本分布 c) 標本分散の標本分布 点推定 統計量の特性 Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 標本比率の標本分布 母比率の区間推定 c) 標本の大きさの決定 母平均の区間推定における標本の大きさの決定 母比率の区間推定における標本の大きさの決定

Ⅰ 標本分布 a) 母集団と標本 母集団(個体数N) 標本(個体数n) × × × × × × × × × × ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。

標本調査の例として次のようなものが挙げられる。 労働力調査(完全失業率はこの調査の結果求められる)  ⇒ 全国の15歳以上(約1億1千万人)の母集団から、約10万人を標本として選ぶ調査 内閣支持率調査などの世論調査  ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の母集団から、約1000人(新聞社のおこなう内閣支持率調査の場合)   その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。

費用・時間の削減 得られる情報の増加、精度の向上 全数調査が不可能な場合にも調査可能 1) 標本調査の利点 1) 標本調査の利点   標本調査をおこなうメリットとして、次のようなことが挙げられる。 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、全数調査をおこなうことは不可能である。

非標本誤差 - 調査もれ、無回答、記入ミスなど 2) 標本調査における誤差   標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の2つの種類のものが組み合わさったものである。 非標本誤差 - 調査もれ、無回答、記入ミスなど  ⇒ 全数調査でも起こりうる     統計理論によりコントロール不可能 標本誤差 - 標本の偏りによるもの  ⇒ 標本調査に固有のもの     統計理論によりコントロール可能 標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題

<第2次安倍内閣発足直後の支持率の例> 母集団(有権者1億人)   ×  ×    標本1(朝日990人) 59%      ×   ×     ×      ×   ×   ×    ×  ×    ×    標本2(読売1039人) 65%   ×  ×    標本3(毎日856人) 52% 2012年12月28日付の朝刊各紙に掲載された第2次安倍内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。  ×    ×    標本4(日経872人) 62%   ×  ×    標本5(共同1031人) 62%

b) 標本平均の標本分布 標本調査をおこなう場合、通常は1つの標本についての特性値(標本平均や標本分散など)がわかり、それから母集団の特性値についての推論をおこなう。母集団全体の情報はわからない。 しかし母集団全体の情報が分かり、とりうるすべての標本について考えることができたなら、標本の特性値についての分布を考えることができる。これを標本分布という。

一般にN個の母集団からn個の標本を選ぶ組み合わせの数はNCnとあらわすことができる。 500人受講している科目の採点に、25人だけ採点して全体の平均点を推定しようとするとき、25人の組み合わせ全て(その数は1.04×1042通りという天文学的数字になる!)から標本平均が計算でき、その分布を考えることができる。 一般にN個の母集団からn個の標本を選ぶ組み合わせの数はNCnとあらわすことができる。 𝑁 𝐶 𝑛 = 𝑁! 𝑛! 𝑁−𝑛 ! = 𝑁× 𝑁−1 ×⋯×1 𝑛× 𝑛−1 ×⋯×1× 𝑁−𝑛 × 𝑁−𝑛−1 ×⋯×1 = 𝑁× 𝑁−1 ×⋯× 𝑁−𝑛+1 × 𝑁−𝑛 × 𝑁−𝑛−1 ×⋯×1 𝑛× 𝑛−1 ×⋯×1× 𝑁−𝑛 × 𝑁−𝑛−1 ×⋯×1 = 𝑁× 𝑁−1 ×⋯× 𝑁−𝑛+1 𝑛× 𝑛−1 ×⋯×1 ←分母も分子もn個ずつ

中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車除く)は次のようになっている。(単位: 台) <簡単な例> 中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車除く)は次のようになっている。(単位: 台) これを10万台単位で四捨五入し、各都道府県の頭文字をアルファベットで表すと となる。 母平均、母分散は 鳥取 島根 岡山 広島 山口 184958 216744 651448 863016 474582 出典: 中国運輸局『管内保有車両数』 T S O H Y 2 7 9 5 𝜇= 2+2+7+9+5 5 =5 𝜎 2 = 2−5 2 + 2−5 2 + 7−5 2 + 9−5 2 + 5−5 2 5 = 9+9+4+16+0 5 =7.6

この5県を母集団とし、その中から2県を選んで標本とすると、選び方は5C2=10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。 パターン 𝑥 T,S 2,2 2 T,O 2,7 4.5 T,H 2,9 5.5 T,Y 2,5 3.5 S,O S,H S,Y O,H 7,9 8 O,Y 7,5 6 H,Y 9,5 7

次に標本平均の平均と分散について考えよう。 標本平均の度数分布表から、次のように計算できる。   標本平均の度数分布表から、次のように計算できる。   ※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数の合計で割れば良い 𝑥 𝑓 𝑖 (度数) 𝑓 𝑖 𝑥 𝑖 𝑓 𝑖 𝑥 𝑖 2 2 1 4 3.5 7 24.5 4.5 9 40.5 5.5 11 60.5 6 36 49 8 64 計 10 50 278.5 𝐸 𝑥 = 𝑓 𝑖 𝑥 𝑖 𝑓 𝑖 = 50 10 =5 𝑉 𝑥 = 𝑓 𝑖 𝑥 𝑖 2 𝑓 𝑖 − 𝐸 𝑥 2 = 278.5 10 − 5 2 =2.85

なお、この分散の式は計算式であり、次のようにして求めたものである。   なお、この分散の式は計算式であり、次のようにして求めたものである。 𝑉 𝑥 = 𝑓 𝑖 𝑥 𝑖 −𝐸 𝑥 2 𝑓 𝑖 = 𝑓 𝑖 𝑥 𝑖 2 −2𝐸 𝑥 𝑓 𝑖 𝑥 𝑖 +𝑛(𝐸 𝑥 ) 2 𝑓 𝑖 = 𝑓 𝑖 𝑥 𝑖 2 −2𝑛𝐸 𝑥 +𝑛(𝐸 𝑥 ) 2 𝑓 𝑖 = 𝑓 𝑖 𝑥 𝑖 2 𝑓 𝑖 − (𝐸 𝑥 ) 2 ※ 分散については、{度数×(階級値-平均)2}の総和を度数の合計で割ったものとなる

標本平均の平均、分散と、母平均、母分散の関係として  が成り立つ。分散に関しては  である。この例では、   ※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に大きいので、 𝑁−𝑛 𝑁−1 は1に近くなり、 𝑉 𝑥 = 𝜎 2 𝑛 とみなせる。   視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので 𝐸 𝑥 =𝜇 𝑉 𝑥 ≠ 𝜎 2 𝑉 𝑥 = 𝑁−𝑛 𝑁−1 𝜎 2 𝑛 𝑉 𝑥 = 5−2 5−1 × 7.6 2 = 3 4 × 7.6 2 =2.85 𝑁−𝑛 𝑁−1 = 15800000−600 15800000−1 =0.999962≒1

次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 c) 標本分散の標本分布 次に10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。 パターン 𝑠 2 T,S 2,2 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O S,H S,Y O,H 7,9 1 O,Y 7,5 H,Y 9,5 4 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

標本平均の度数分布表から、次のように計算できる。 標本分散の平均について考えると、   標本平均の度数分布表から、次のように計算できる。 𝐸 𝑠 2 = 𝑓 𝑖 𝑠 2 𝑓 𝑖 = 47.5 10 =4.75   となる。標本分散の平均と母分散の関係は次のようになっている。 𝐸 𝑠 2 = 𝑁 𝑁−1 𝑛−1 𝑛 𝜎 2 𝑠 2 𝑓 𝑖 (度数) 𝑓 𝑖 𝑠 2 1 2 2.25 4.5 4 6.25 12.5 12.25 24.5 計 10 47.5

Ⅱ 点推定 a) 点推定 推論 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 Ⅱ 点推定 a) 点推定 標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 たとえば、標本平均を母平均の推定値と考えることや、標本メディアンを母集団のメディアンの推定値と考えることである。 ただし、一般に t≠θである。 母平均μ 母分散σ2 標本平均x 標本分散s2 推論 母数θ 標本統計量t

点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 b) 統計量の特性  1) 不偏性 点推定をおこなう場合、推定量の持つ望ましい特性をいくつか考えてみよう。 まず、E(t)=θとなることである。 このような性質を不偏性といい、「tはθの不偏推定量である」という。 (例1) 標本平均 𝑥 は 𝐸 𝑥 =𝜇 となるので、母平均μの不偏推定量である。 (例2) 標本メディアンmeは、母集団メディアンMeの不偏推定量とはならない。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

(例3) 標本分散s2は、 𝐸 𝑠 2 ≠ 𝜎 2 となり母分散σ2の不偏推定量とはならない。  しかし、 𝐸 𝑠 2 = 𝑁 𝑁−1 𝑛−1 𝑛 𝜎 2 であった。母集団の個体数が十分大きいとき、 𝑁 𝑁−1 =1 とみなせるので、 𝐸 𝑠 2 = 𝑛−1 𝑛 𝜎 2 = 1− 1 𝑛 𝜎 2 = 𝜎 2 − 𝜎 2 𝑛  と変形できる。 一般にE(t)=θ+偏りと表すことができ、「偏り=0」となる推定量のことを不偏推定量という。 偏り パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

ところで、母分散の不偏推定量は存在しないのであろうか? 𝐸 𝑠 2 = 𝑛−1 𝑛 𝜎 2 の両辺に 𝑛 𝑛−1 をかけると 𝐸 𝑠 2 = 𝑛−1 𝑛 𝜎 2 の両辺に 𝑛 𝑛−1 をかけると 𝐸 𝑛 𝑛−1 𝑠 2 = 𝜎 2  となって、不偏推定量となる。  標本分散s2は  であったので、これに 𝑛 𝑛−1 をかけると、  となる。これを標本不偏分散という。 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑛 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛−1 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑛−1 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 ※ 統計学の書籍によっては、最初の分散の定義から、n-1で割ったものを用いているものもある。

一致性 - 標本の大きさを大きくしたときに、t がθに近づく。(母数θから離れた標本統計量tが出現する可能性は低くなる)  2) その他の統計量特性 一致性 - 標本の大きさを大きくしたときに、t がθに近づく。(母数θから離れた標本統計量tが出現する可能性は低くなる) 効率性 - 不偏推定量がt1, t2 の2つあったとする。このとき、分散の小さい推定量の方が母数θを推定するのにより効率的(母数θの近くの値を取る可能性が高い)である。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4 t2の方が効率的

⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。  ⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。 例: 正規母集団の母平均の推定における標本平均はこれらの基準をすべて満たしている。  また、推定量の性質としては次のようなものも考えられる。 十分性 - tは標本に含まれるすべての情報を含んでいる。  ⇒ 刈り込み平均(上位と下位の一部を除いて平均を求めたもの。体操競技の採点などで、最高点と最低点を除いた平均が得点となるが、これは刈り込み平均の1種である)などは、標本のすべての情報を含んでいないので、十分性を満たさない。   ただし、刈り込み平均の方が算術平均より母平均に近い値を取る可能性はある。 パターン s2 T,S 2,2 0 T,O 2,7 6.25 T,H 2,9 12.25 T,Y 2,5 2.25 S,O 2,7 6.25 S,H 2,9 12.25 S,Y 2,5 2.25 O,H 7,9 1 O,Y 7,5 1 H,Y 9,5 4

Ⅲ 区間推定 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量tの近くの区間を設定し、その区間内に母数θが含まれることを推定する。これを区間推定という。 たとえば、日本全国全世帯の家計の平均年収を知りたいとき、1万世帯を標本として調査し、500万円という標本平均を得たとする。この500万円±10万円という区間をとればよいのか、±30万円という区間を取ればよいのかを考えていく。(区間が広がれば母平均が含まれる可能性は高くなるが、実用性に劣る) 母集団(個体数N) × 標本(個体数n) × × × × × × × × × 標本平均x 母平均μ 区間推定

さらに、母集団の個体数(N)が十分大きいとき、 標本調査をおこなう場合、通常は1つの標本についての標本平均がわかるだけであるが、とりうるすべての標本について標本平均を知ることができたなら、その分布を考えることができる。これを標本分布という。 a) 母平均の区間推定 1) 中心極限定理 𝑥 の標本分布について、    が成り立っていた。    さらに、母集団の個体数(N)が十分大きいとき、    が成り立つ 𝐸 𝑥 =𝜇 𝑉 𝑥 = 𝑁−𝑛 𝑁−1 𝜎 2 𝑛 𝑉 𝑥 = 𝜎 2 𝑛

𝑥 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑛 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 次に、標本平均 𝑥 の分布がどのような形になるのか考えてみよう。   次に、標本平均 𝑥 の分布がどのような形になるのか考えてみよう。  ⅰ) 母集団の分布が正規分布の場合    母集団が平均μ、分散σ2の正規分布にしたがっているとする。    標本平均 𝑥 は    であり、正規分布にしたがう変数の和(をnという定数で割ったもの)となっている。    したがって、正規分布の再生性†より、 𝑥 は正規分布にしたがう。    † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y )にしたがう。これを正規分布の再生性という。 𝑥 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑛 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 𝑛

※ 以上 ⅰ), ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均 𝑥 の分布は正規分布となり、標準化された変数  ⅱ ) 母集団の分布が正規分布ではない場合   母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいとき、次のような定理によって標本平均 𝑥 の分布は正規分布となる。 <中心極限定理>   算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標本の平均 𝑥 の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 𝑁(𝜇, 𝜎 2 𝑛 ) に近づく。  ※ 以上 ⅰ), ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均 𝑥 の分布は正規分布となり、標準化された変数 の分布は、標準正規分布 N(0, 1) に近づく。 𝑧= 𝑥 −𝜇 𝜎 𝑛

2) 信頼区間   標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は95%である。   よって、 𝑧= 𝑥 −𝜇 𝜎 𝑛 はnが大きいときには、中心極限定理により標準正規分布にしたがうので、   となる。この式のカッコ内を変形すると   となり、標本平均 𝑥 は 𝜇±1.96 𝜎 𝑛 の区間内に95%の確率で含まれる。 𝑃(−1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96)=0.95 𝜇−1.96 𝜎 𝑛 ≤ 𝑥 ≤𝜇+1.96 𝜎 𝑛

また 𝑃 −1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96 =0.95 のカッコ内は次のようにも変形できる。 標準化    𝑥 の分布                  zの分布 また 𝑃 −1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96 =0.95 のカッコ内は次のようにも変形できる。 標準化 𝑧= 𝑥 −𝜇 𝜎 𝑛 𝜇−1.96 𝜎 𝑛 μ 𝜇+1.96 𝜎 𝑛 -1.96 1.96 −1.96≤ 𝑥 −𝜇 𝜎 𝑛 ≤1.96⟺−1.96 𝜎 𝑛 ≤ 𝑥 −𝜇≤1.96 𝜎 𝑛 ⟺1.96 𝜎 𝑛 ≥𝜇− 𝑥 ≥−1.96 𝜎 𝑛 ⟺ 𝑥 +1.96 𝜎 𝑛 ≥𝜇≥ 𝑥 −1.96 𝜎 𝑛

𝜇−1. 96 𝜎 𝑛 ≤ 𝑥 ≤𝜇+1. 96 𝜎 𝑛 と 𝑥 −1. 96 𝜎 𝑛 ≤𝜇≤ 𝑥 +1   𝜇−1.96 𝜎 𝑛 ≤ 𝑥 ≤𝜇+1.96 𝜎 𝑛 と 𝑥 −1.96 𝜎 𝑛 ≤𝜇≤ 𝑥 +1.96 𝜎 𝑛 は次のようなことを意味している。 𝜇−1.96 𝜎 𝑛 μ 𝜇+1.96 𝜎 𝑛 × 𝑥 −1.96 𝜎 𝑛 𝑥 +1.96 𝜎 𝑛 𝑥 × ×

このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。    𝑥 を中心に、 𝑥 ±1.96 𝜎 𝑛 という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。 このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。 この場合、 𝑥 −1.96 𝜎 𝑛 , 𝑥 +1.96 𝜎 𝑛 はμの信頼係数95%の信頼区間である。

(例) 20歳男性の身長を調べるために、100人を標本として選んだところ、標本平均 𝑥 =170であった。σ=8であるとき、母平均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は      となる。 𝑥 −1.96 𝜎 𝑛 , 𝑥 +1.96 𝜎 𝑛 170−1.96 8 100 , 170+1.96 8 100 170−1.568, 170+1.568 168.43, 171.57

母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。 4) 母分散が未知の場合の区間推定 信頼区間を求める場合、 𝑧= 𝑥 −𝜇 𝜎 𝑛  が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散σ2が分かっているということは、あまり多くない。 (過去の調査において母分散のおおよその値が分かり、それを用いるなどの例外はあるが) 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。

𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛−1 = 𝑥 𝑖 − 𝑥 2 𝑛−1 ※ t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。 ※ 標本分散s2の代わりに標本不偏分散   を用いれば、 𝑡= 𝑥 −𝜇 𝑠 𝑛 が自由度n-1のt分布にしたがう。 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛−1 = 𝑥 𝑖 − 𝑥 2 𝑛−1

自由度とは、自由に値を取ることのできる個体数のことである。 <自由度について>   自由度とは、自由に値を取ることのできる個体数のことである。   この場合は、t統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由に値を取ることのできる個数である。   なので、x1, …, xn-1 は自由に値をとることができるが、xn は 𝑥 𝑖 𝑛 = 𝑥   を満たすように決められ、自由度はn-1となる。 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛 = 𝑥 𝑖 − 𝑥 2 𝑛

母集団の分散が分からないとき、母平均μの95%信頼区間は、t分布の95%点をt0.95とあらわすと、  となる。 t0.95はt分布表からその値を求める。 ※ より正確には、母集団の分布が正規分布にしたがうとき、𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。   しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、𝑡= 𝑥 −𝜇 𝑠 𝑛−1 は近似的に自由度n-1のt分布にしたがうとみなせる。   また、nが十分大きい場合、t分布は正規分布に近づくので、𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が正規分布にしたがうと考えることもある。 𝑥 − 𝑡 0.95 𝑠 𝑛−1 , 𝑥 + 𝑡 0.95 𝑠 𝑛−1

𝑥 の分布 zの分布 標準化 𝑧= 𝑥 −𝜇 𝜎 𝑛 μ -1.96 1.96 変換 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 𝜇−1.96 𝜎 𝑛 𝑧= 𝑥 −𝜇 𝜎 𝑛 𝜇−1.96 𝜎 𝑛 μ 𝜇+1.96 𝜎 𝑛 -1.96 1.96 tの分布 (自由度n-1のt分布) 母分散が分からない場合、 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 が自由度n-1のt分布にしたがう。 t統計量の95%が含まれる区間の境界値であるt0.95の値を、t分布表から探し出す。 変換 𝑡= 𝑥 −𝜇 𝑠 𝑛−1 -t0.95 t0.95

(解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は (例) 20歳女性の身長を調べるために、10人を標本として選んだところ、標本平均 𝑥 =160であった。s=9であるとき、母平均μの95%信頼区間を求めよ。 (解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は   となる。 𝑥 − 𝑡 0.95 𝑠 𝑛−1 , 𝑥 + 𝑡 0.95 𝑠 𝑛−1 160−2.262 9 10−1 , 160+2.262 9 10−1 160−2.262×3, 160+2.262×3 160−6.786, 160+6.786 153.21, 166.79

よって 𝑝 の標本分布を考えるためには、まずxの標本分布を考えればよい。 まず、標本比率 𝑝 の標本分布を考えよう。 2) 母比率の区間推定   ⅰ) 標本比率の標本分布  よって 𝑝 の標本分布を考えるためには、まずxの標本分布を考えればよい。   まず、標本比率 𝑝 の標本分布を考えよう。   内閣支持率を例にとると、標本比率 𝑝 とは、標本n人のうちのx人が「内閣を支持する」と答えた割合であり、 𝑝 = 𝑥 𝑛 である。

となる。 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。   また選ばれた人が 「内閣を支持する」人である確率は、母比率pに等しい。   よって、n人の標本を選ぶことは、AかBかという2つの結果しか起こらない試行 をn回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは2項分布にしたがう。 2項分布の期待値は E(x) = np、分散は V(x) = npq であるので、これを用いて、 𝑝 の平均、分散を考えてみると、                        となる。 𝐸 𝑝 =𝐸 𝑥 𝑛 = 𝐸 𝑥 𝑛 = 𝑛𝑝 𝑛 =𝑝 𝑉 𝑝 =𝑉 𝑥 𝑛 = 𝑉 𝑥 𝑛 2 = 𝑛𝑝𝑞 𝑛 2 = 𝑝𝑞 𝑛

また、「内閣を支持する」人を1、「内閣を支持しない」人を0と表すことを考える。n人の標本の中に「内閣を支持する」人はをx人含まれるので、このようにあらわした場合、 𝑝 = 𝑥 𝑛 は大きさnの標本の平均とみなすことができ、中心極限定理が適用できる。   よって、 𝑝 の分布は、平均𝑝 、分散 𝑝𝑞 𝑛 の正規分布にしたがう。標準化された変数 𝑧= 𝑝 −𝑝 𝑝𝑞 𝑛 は標準正規分布にしたがう。 

(解) pの代わりに 𝑝 を用いてpの95%信頼区間を計算すると ⅱ) 母比率の区間推定   𝑧= 𝑝 −𝑝 𝑝𝑞 𝑛 が標準正規分布にしたがうことから、母比率pの95%信頼区間は 𝑝 −1.96 𝑝𝑞 𝑛 , 𝑝 +1.96 𝑝𝑞 𝑛 となる。 (例) 2016年1月2日放送の「第92回 東京箱根間往復大学駅伝競走 往路」の視聴率は28.0%であった。この数値は関東地区の約1600万世帯から600世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の95%信頼区間を求めよう。 (解) pの代わりに 𝑝 を用いてpの95%信頼区間を計算すると となる。 𝑝 −1.96 𝑝𝑞 𝑛 , 𝑝 +1.96 𝑝𝑞 𝑛 0.280−1.96 0.280×0.720 600 ,0.280+1.96 0.280×0.720 600 0.280−0.036, 0.280+0.036 0.244, 0.316

c) 標本の大きさの決定   「第92回 東京箱根間往復大学駅伝競走 往路」の視聴率を信頼係数95%で区間推定すると、7%程度の幅ができる。そのため、1%ぐらいの差で、勝った負けたを考えるのはナンセンスである。   では、視聴率調査の精度を高めるには、推定量の一致性から標本の大きさを大きくすることが考えられる。しかし、標本の大きさを大きくすることはコストの増加を意味している。よって、目標となる精度(どの程度のズレまで許容できるか)を設定し、それに必要な標本の大きさを計算する必要がある。

1) 母平均の推定における標本の大きさの決定    𝑥 −𝜇 の許容限度を E とする。   μ の区間推定を信頼係数 95% でおこなうとき、 𝑥 の分布について、 𝑥 −𝜇 𝜎 𝑛 ≤1.96   が成り立つので、 𝑥 −𝜇 ≤1.96 𝜎 𝑛 ≤𝐸   となればよい。よって 1.96 𝜎 𝑛 ≤𝐸 1.96 𝜎 𝐸 ≤ 𝑛 1.96 𝜎 𝐸 2 ≤𝑛

  となり、 𝑛= 1.96 𝜎 𝐸 2   が必要な標本の大きさであることが分かる。   これを求めるために、母標準偏差σが必要となるが、標本の大きさを決定するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などからσ2 の推定値を求め、それを利用する。 (例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は8000円であったと見当がつけられているとする。 (解) 信頼係数を95%とすると、必要な標本の大きさは 𝑛= 1.96× 8000 1000 2 = 1.96×8 2 = 15.68 2 =245.8624   となるので、246人となる。

2) 母比率の推定における標本の大きさの決定    𝑝 −𝑝 の許容限度を E とする。   pの区間推定を信頼係数 95% でおこなうとき、 𝑝 の分布について、 𝑝 −𝑝 𝑝𝑞 𝑛 ≤1.96   が成り立つので、 𝑝 −𝑝 ≤1.96 𝑝𝑞 𝑛 ≤𝐸   となればよい。よって 1.96 𝑝𝑞 𝑛 ≤𝐸 1.96 𝑝𝑞 𝐸 ≤ 𝑛 1.96 𝐸 2 𝑝𝑞≤𝑛

  となり、 𝑛= 1.96 𝐸 2 𝑝𝑞   が必要な標本の大きさであることが分かる。   これを求めるために、母比率pが必要となる。Pについて何らかの見当がつくなら、その数値を用いるが、pについて何の情報もない場合には𝑝= 1 2 を用いる。なぜなら、𝑝=𝑞= 1 2 のときに、pqが最大となるからである。 (例) 視聴率調査において、1%以内の誤差で推定するために必要な標本の大きさを求めよ。 (解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考えられるので、 𝑝= 1 2 とすると、必要な標本の大きさは 𝑛= 1.96 0.01 2 × 1 2 × 1 2 = 196 2 × 1 4 =9604   となるので、9604世帯となる。