統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.

Slides:



Advertisements
Similar presentations
母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 西山. 標本分布と推定 標準誤差 【例題】 ○○ 率の推 定 ある人気ドラマをみたかどうかを、 100 人のサンプルに対して質問したところ、 40 人の人が「みた」と答えた。社会全体 では、何%程度の人がこのドラマを見た だろうか。 信頼係数は95%で答えてください。
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
確率と統計 2007 平成 20 年 1 月 10 日 ( 木 ) 東京工科大学 亀田弘之. 復習.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
経済統計学 第2回 4/24 Business Statistics
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1章 統計学の準備 ー 計量経済学 ー.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
統計学 12/13(木).
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
統計解析 第10回 12章 標本抽出、13章 標本分布.
統計学 11/08(木) 鈴木智也.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
母集団と標本調査の関係 母集団 標本抽出 標本 推定 標本調査   (誤差あり)査 全数調査   (誤差なし)査.
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第3章 統計的推定 (その1) 統計学 2006年度.
統計学 西 山.
中澤 港 統計学第4回 中澤 港
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
数理統計学 西 山.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
母分散の信頼区間 F分布 母分散の比の信頼区間
1.母平均の検定:小標本場合 2.母集団平均の差の検定
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
母集団と標本抽出の関係 母集団 標本 母平均μ サイズn 母分散σ2 平均m 母標準偏差σ 分散s2 母比率p 標準偏差s : 比率p :
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
統計学  第9回 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
確率と統計 年12月16日(木) Version 3.
Presentation transcript:

統計学の基礎 -何を学ぶか。 何ができるようになるか-

データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2

# 1 データの特徴をとらえるには さまざまなグラフを描く 棒グラフ(大小関係)、折れ線グラフ(時間的推 移) ヒストグラム(1つの変数の分布) 散布図(2つの変数の対応関係) 代表値を計算する 中心はどこかを示す:(算術)平均、中央値、最頻 値 ばらつきの大きさを示す:分散、標準偏差 2つの変数の直線的傾向の度合いを示す:相関係数

グラフや数値でデータの特徴を捉える ①分布 (全体の姿をとらえる) ②中心はどこにあるか ③散らばりの大きさはどうか

①ヒストグラム データの分布状況を示すグラフ ヒストグラムは何を表すグラフか (横軸、縦軸は何か。全体として何を表すか) ヒストグラムの描き方 (教科書の説明は経済データならではの部分あり) ヒストグラムの見方 一般形かどうか。 ← 統計分析は、データが一般形である(正規分 布している)ことを想定しているから。 一般形でない場合は、何らかの対処が必要。

②中心の概念 算術平均 mean 中央値 medhian 最頻値 mode それぞれの意味(定義) これらの関係 ( 参考)経済データでよく用いられるその他の中心概念 加重平均 ウェイトを付けて平均を求める 幾何平均 変化率(上昇率、成長率)の平均 移動平均 時系列データの不規則変動を除去

算術平均: 51.5% 卒業生数をウェイトに用いた加重平均: 54.0%

算術平均だと、それぞれ、 8.74 、 7.84 、 9.74%

③ ばらつきの概念 ( 1 ) 最大値、最小値 範囲(レンジ) 四分位範囲 箱ひげ図 偏差 x i - Xbar

③ ばらつきの概念 ( 2 ) 分散 p.46 ~ 65 偏差の 2 乗和を n で割るか、 n-1 で割るか ( 不偏分散 ) p.183 ~ 187 標準偏差 p.66 ~ 69 変動係数

# 2 統計学とは 情報を活用するための学問 数値に表される情報が主。 ただし 意志決定の材料であり、将来の経済活 動の予測情報を与える。 この際、不確 実性の取り扱いが重要となる。 ← 確率 の考え方

「データ」とは何か なぜ、「データ」について調べる のか 「母集団」:私たちの興味の対象である(経済) 現象 そのもの。直接観測すること ができないので その実態(具体的な 内容)はわからない。 「標本」:母集団から、ランダムにサンプリング された もの。実際に観測された結果を 「データ」と呼ぶ。 値や具体的な内容がわ かっている。 私たちは、データについて調べ、その結果から 母集団の性質を統計的に推測することで、現象の 内容を把握したり、予測したりすることができる。

なぜ、データ分析には 確率の考え方が必要か? データは確率変数だから。 いろいろな値をとるので、データは「変数」 常にある固定した値になるのではなく、その時々の 偶然性に左右され値が決まるので、データは「確率 変数」 確率変数の性質は、その確率変数の 分布はどのような形か 平均の値はいくらか 分散 / 標準偏差の値はいくらか が分かれば、見えてくる。

なぜデータの特徴をとらえる必要があるのか 統計的推測とは? データは、それ自身が重要なのではなく、その 背景(母集団)の特徴をとらえるための道具。 推定:データについてわかったこと(統計量) をもとに統計的な考え方により、母集団の特徴 (母数)はこうでないかと推測すること。 検定:データについてわかったこと(統計量) をもとに統計的な考え方により、母集団の特徴 (母数)をこうでないかと考えることが妥当か どうか判断すること。 このような統計的推測を行うには確率の考え方が 必要。

統計学の内容

正規分布 〜もっとも代表的な確率分布 ( 1 ) ランダムサンプリングを行った、それなりの大き さの標本は、多くの場合、正規分布に従う。 くせのある分布の場合、データの変数変換を行ったり、 層別(グループ分け)したり、外れ値に対応したりし てから、 正規分布の想定を行う。 ある確率変数 X の分布が正規分布、平均 μ 、分散 σ 2 である時、「 X は平均 μ 、分散 σ 2 の正規分布に 従う」と表現し、 X 〜 N ( μ 、 σ 2 )と表記する。 左右対称の一山型の分布をしている。

正規分布 〜もっとも代表的な確率分布 ( 2 ) ある確率変数 X の分布が正規分布、平均 μ 、分散 σ 2 である時、「 X は平均 μ 、分散 σ 2 の正規分布に 従う」と表現し、 X 〜 N ( μ 、 σ 2 )と表記する。 左右対称の一山型の分布をしている。 標準正規分布:平均 0 、分散 1 (標準偏差も 1 )の 正規分布、ある値より大きな値が全体の何%を占 めるかを表す表が準備されている。 基準化:すべての正規分布に従う変数は、標準正 規分布に従うように変換することができる。

正規分布 〜もっとも代表的な確率分布 ( 3 ) 平均 μ 、分散 σ 2 の正規分布に従う確率変数 X が あるとする。 X 〜 N ( μ 、 σ 2 ) この時、 Z= ( X− μ ) / σ は、必ず、標準正規分 布 N ( 0,1 )に従う。 もし、あるできごと(から得られたデータ)が 正規分布していること・その平均の値・その分 散の値がわかっているなら、さまざまな状態が 起こる確率(パーセンテージ)を知ることがで きる。

練習1 正規分布表を読み取ろう Z 〜 N ( 0,1 )のとき、次の値を求めよ 1) P ( Z ≧1.57) 2) P ( Z <1. 34 ) 3) P (ー0.37< Z ≦1.6)

練習2 基準化後、正規分布表を読み取ろ う X 〜 N (2, 9)のとき、次の値を求めよ 1) P ( X ≧5.6) 2) P ( X <10) 3) P (ー1.3< X ≦1.19)

これから学ぶこと 母数に関する推定・検定の考え方・しかた いろいろな母数について推定・検定を行うことができ るが、 「標本平均から母平均」を統計的推測する場 面を考える。 そのために必要な準備は? データは確率変数。確率変数は分布する。 4/28 代表的な確率分布:正規分布 5/12 よって、データから計算される標本平均も確率変数。 その性質は?(分布の形は、平均は、分散は) 5/19 推定の考え方 点推定:母数について、ある値で推測 区間推定:母数のありそうな範囲について推測 5/19 、 6/2 検定の考え方 6/9, 6/16

母平均について推定する さまざまな、標本(データ)に基づく情報を活用する 方法が 考えられるが、もっとも自然な方法は 「標 本平均を利用して母平均を統計的に推測する」方法。 推定の考え方 点推定:母数について、ある値で推測 区間推定:母数のありそうな範囲について推測 ところで、データは確率変数。よって、データから計 算される標本平均も確率変数。まず、その性質を知っ ておこう。

標本平均の性質 (その 1 ) 以下、各データは、平均が μ 、分散が σ 2 の母集 団からの、ランダムサンプリングの結果とする。 ※この条件が崩れると、以下の説明は成立しなくな るので、注意。 計算すると (つまり、その他の条件を必要とすることなく) 標本平均の平均は、母平均 μ 標本平均の分散は、母分散 σ 2 /サンプル数 n 標本平均の分布は.....

標本平均の性質 (その 2 ) 標本平均の分布は 母集団が正規分布するなら、正規分布する。 母集団の分布がわからなくても、サンプル数 が大きいなら、近似的に、正規分布する。 [中心極限定理] 注意:母集団の分布が不明でサンプル数が小さい時 に「標本平均が正規分布する」と想定した分析は危 険(誤る可能性が大きい)。また、サンプル数はそ こそこ必要(できれば 100 程度以上)

母平均の点推定 「標本平均の平均は、母平均 μ 」である。 つまり、どのような標本が選ばれるかにより、標本平均 の値はばらつくが、もっとも可能性が高い値は、母平 均の値である。(標本平均には不偏性がある。) よって、 母平均の点推定値 として、 標本平均 がよく 利用される。

母平均の区間推定 標本平均の分布が正規分布のケースでは 標本平均 Xbar ~ N ( μ , σ 2 /n ) となる。 もし σ 2 の値がわかっている(既知)なら μ について、さまざまな信頼率の信頼区 間を求めることができる。 では、 σ 2 の値がわからない(未知)の ケースはどうしたらいいだろうか?

母分散 σ 2 の値がわからない(未知)場 合の、母平均に関する推定 母平均に関する点推定 標本平均の値を利用する。 (母分散に関する知識は必要ないので) 母平均に関する区間推定 母分散 σ 2 の値が分からないので、代わり に 標本分散 s 2 の値を利用する。 ただし、この時、分布の形が変わるので注 意。

S 2 を利用すると・・・ 標本平均 Xbar は平均 μ ,分散 σ 2 /n の正規分布に 従う。標準化すると、 Z= Xbar−μ は標準正規 分布 root ( σ 2 /n ) N ( 0,1 )に従う。 → 正規分布表を利用して、さまざ まな確率計算ができる。 σ 2 が未知で s 2 に置き換えたとき、 t = Xbar−μ は root ( s 2 /n ) 情報が不確かな分、 Z よりばらつきが大きくな る。このため、標準正規分布と平均は同じ ( 0 )でよりばらつきの大きいt分布という分 布に従う。 教科書 p.66

t分布の特徴 左右対称の一山型。平均は 0 。ばらつきは標準正 規分布 N ( 0,1 )より大きい。 データ数が増え、情報が確かになるほど、 N ( 0,1 )に形が近づいていく。そのt分布がどれだ けの情報量に対応しているかを示す数字を「自 由度」と言う。 t 分布の場合、自由度は「データ数 −1 」となる。 t分布表の見方 信頼率 95 %の区間推定をしたい場合、両側に 2.5 %の 領域をとればよい。表の 1 列目で問題に即した自由度の 行をみつけ、表の 1 行目で という列を見つけ数字を 読み取る。 (たとえば、自由度 20 の場合、 。よって、 t の値の 95 %は、 以上 以下にあることがわかる。)