統計学の基礎 -何を学ぶか。 何ができるようになるか-
データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2
# 1 データの特徴をとらえるには さまざまなグラフを描く 棒グラフ(大小関係)、折れ線グラフ(時間的推 移) ヒストグラム(1つの変数の分布) 散布図(2つの変数の対応関係) 代表値を計算する 中心はどこかを示す:(算術)平均、中央値、最頻 値 ばらつきの大きさを示す:分散、標準偏差 2つの変数の直線的傾向の度合いを示す:相関係数
グラフや数値でデータの特徴を捉える ①分布 (全体の姿をとらえる) ②中心はどこにあるか ③散らばりの大きさはどうか
①ヒストグラム データの分布状況を示すグラフ ヒストグラムは何を表すグラフか (横軸、縦軸は何か。全体として何を表すか) ヒストグラムの描き方 (教科書の説明は経済データならではの部分あり) ヒストグラムの見方 一般形かどうか。 ← 統計分析は、データが一般形である(正規分 布している)ことを想定しているから。 一般形でない場合は、何らかの対処が必要。
②中心の概念 算術平均 mean 中央値 medhian 最頻値 mode それぞれの意味(定義) これらの関係 ( 参考)経済データでよく用いられるその他の中心概念 加重平均 ウェイトを付けて平均を求める 幾何平均 変化率(上昇率、成長率)の平均 移動平均 時系列データの不規則変動を除去
算術平均: 51.5% 卒業生数をウェイトに用いた加重平均: 54.0%
算術平均だと、それぞれ、 8.74 、 7.84 、 9.74%
③ ばらつきの概念 ( 1 ) 最大値、最小値 範囲(レンジ) 四分位範囲 箱ひげ図 偏差 x i - Xbar
③ ばらつきの概念 ( 2 ) 分散 p.46 ~ 65 偏差の 2 乗和を n で割るか、 n-1 で割るか ( 不偏分散 ) p.183 ~ 187 標準偏差 p.66 ~ 69 変動係数
# 2 統計学とは 情報を活用するための学問 数値に表される情報が主。 ただし 意志決定の材料であり、将来の経済活 動の予測情報を与える。 この際、不確 実性の取り扱いが重要となる。 ← 確率 の考え方
「データ」とは何か なぜ、「データ」について調べる のか 「母集団」:私たちの興味の対象である(経済) 現象 そのもの。直接観測すること ができないので その実態(具体的な 内容)はわからない。 「標本」:母集団から、ランダムにサンプリング された もの。実際に観測された結果を 「データ」と呼ぶ。 値や具体的な内容がわ かっている。 私たちは、データについて調べ、その結果から 母集団の性質を統計的に推測することで、現象の 内容を把握したり、予測したりすることができる。
なぜ、データ分析には 確率の考え方が必要か? データは確率変数だから。 いろいろな値をとるので、データは「変数」 常にある固定した値になるのではなく、その時々の 偶然性に左右され値が決まるので、データは「確率 変数」 確率変数の性質は、その確率変数の 分布はどのような形か 平均の値はいくらか 分散 / 標準偏差の値はいくらか が分かれば、見えてくる。
なぜデータの特徴をとらえる必要があるのか 統計的推測とは? データは、それ自身が重要なのではなく、その 背景(母集団)の特徴をとらえるための道具。 推定:データについてわかったこと(統計量) をもとに統計的な考え方により、母集団の特徴 (母数)はこうでないかと推測すること。 検定:データについてわかったこと(統計量) をもとに統計的な考え方により、母集団の特徴 (母数)をこうでないかと考えることが妥当か どうか判断すること。 このような統計的推測を行うには確率の考え方が 必要。
統計学の内容
正規分布 〜もっとも代表的な確率分布 ( 1 ) ランダムサンプリングを行った、それなりの大き さの標本は、多くの場合、正規分布に従う。 くせのある分布の場合、データの変数変換を行ったり、 層別(グループ分け)したり、外れ値に対応したりし てから、 正規分布の想定を行う。 ある確率変数 X の分布が正規分布、平均 μ 、分散 σ 2 である時、「 X は平均 μ 、分散 σ 2 の正規分布に 従う」と表現し、 X 〜 N ( μ 、 σ 2 )と表記する。 左右対称の一山型の分布をしている。
正規分布 〜もっとも代表的な確率分布 ( 2 ) ある確率変数 X の分布が正規分布、平均 μ 、分散 σ 2 である時、「 X は平均 μ 、分散 σ 2 の正規分布に 従う」と表現し、 X 〜 N ( μ 、 σ 2 )と表記する。 左右対称の一山型の分布をしている。 標準正規分布:平均 0 、分散 1 (標準偏差も 1 )の 正規分布、ある値より大きな値が全体の何%を占 めるかを表す表が準備されている。 基準化:すべての正規分布に従う変数は、標準正 規分布に従うように変換することができる。
正規分布 〜もっとも代表的な確率分布 ( 3 ) 平均 μ 、分散 σ 2 の正規分布に従う確率変数 X が あるとする。 X 〜 N ( μ 、 σ 2 ) この時、 Z= ( X− μ ) / σ は、必ず、標準正規分 布 N ( 0,1 )に従う。 もし、あるできごと(から得られたデータ)が 正規分布していること・その平均の値・その分 散の値がわかっているなら、さまざまな状態が 起こる確率(パーセンテージ)を知ることがで きる。
練習1 正規分布表を読み取ろう Z 〜 N ( 0,1 )のとき、次の値を求めよ 1) P ( Z ≧1.57) 2) P ( Z <1. 34 ) 3) P (ー0.37< Z ≦1.6)
練習2 基準化後、正規分布表を読み取ろ う X 〜 N (2, 9)のとき、次の値を求めよ 1) P ( X ≧5.6) 2) P ( X <10) 3) P (ー1.3< X ≦1.19)
これから学ぶこと 母数に関する推定・検定の考え方・しかた いろいろな母数について推定・検定を行うことができ るが、 「標本平均から母平均」を統計的推測する場 面を考える。 そのために必要な準備は? データは確率変数。確率変数は分布する。 4/28 代表的な確率分布:正規分布 5/12 よって、データから計算される標本平均も確率変数。 その性質は?(分布の形は、平均は、分散は) 5/19 推定の考え方 点推定:母数について、ある値で推測 区間推定:母数のありそうな範囲について推測 5/19 、 6/2 検定の考え方 6/9, 6/16
母平均について推定する さまざまな、標本(データ)に基づく情報を活用する 方法が 考えられるが、もっとも自然な方法は 「標 本平均を利用して母平均を統計的に推測する」方法。 推定の考え方 点推定:母数について、ある値で推測 区間推定:母数のありそうな範囲について推測 ところで、データは確率変数。よって、データから計 算される標本平均も確率変数。まず、その性質を知っ ておこう。
標本平均の性質 (その 1 ) 以下、各データは、平均が μ 、分散が σ 2 の母集 団からの、ランダムサンプリングの結果とする。 ※この条件が崩れると、以下の説明は成立しなくな るので、注意。 計算すると (つまり、その他の条件を必要とすることなく) 標本平均の平均は、母平均 μ 標本平均の分散は、母分散 σ 2 /サンプル数 n 標本平均の分布は.....
標本平均の性質 (その 2 ) 標本平均の分布は 母集団が正規分布するなら、正規分布する。 母集団の分布がわからなくても、サンプル数 が大きいなら、近似的に、正規分布する。 [中心極限定理] 注意:母集団の分布が不明でサンプル数が小さい時 に「標本平均が正規分布する」と想定した分析は危 険(誤る可能性が大きい)。また、サンプル数はそ こそこ必要(できれば 100 程度以上)
母平均の点推定 「標本平均の平均は、母平均 μ 」である。 つまり、どのような標本が選ばれるかにより、標本平均 の値はばらつくが、もっとも可能性が高い値は、母平 均の値である。(標本平均には不偏性がある。) よって、 母平均の点推定値 として、 標本平均 がよく 利用される。
母平均の区間推定 標本平均の分布が正規分布のケースでは 標本平均 Xbar ~ N ( μ , σ 2 /n ) となる。 もし σ 2 の値がわかっている(既知)なら μ について、さまざまな信頼率の信頼区 間を求めることができる。 では、 σ 2 の値がわからない(未知)の ケースはどうしたらいいだろうか?
母分散 σ 2 の値がわからない(未知)場 合の、母平均に関する推定 母平均に関する点推定 標本平均の値を利用する。 (母分散に関する知識は必要ないので) 母平均に関する区間推定 母分散 σ 2 の値が分からないので、代わり に 標本分散 s 2 の値を利用する。 ただし、この時、分布の形が変わるので注 意。
S 2 を利用すると・・・ 標本平均 Xbar は平均 μ ,分散 σ 2 /n の正規分布に 従う。標準化すると、 Z= Xbar−μ は標準正規 分布 root ( σ 2 /n ) N ( 0,1 )に従う。 → 正規分布表を利用して、さまざ まな確率計算ができる。 σ 2 が未知で s 2 に置き換えたとき、 t = Xbar−μ は root ( s 2 /n ) 情報が不確かな分、 Z よりばらつきが大きくな る。このため、標準正規分布と平均は同じ ( 0 )でよりばらつきの大きいt分布という分 布に従う。 教科書 p.66
t分布の特徴 左右対称の一山型。平均は 0 。ばらつきは標準正 規分布 N ( 0,1 )より大きい。 データ数が増え、情報が確かになるほど、 N ( 0,1 )に形が近づいていく。そのt分布がどれだ けの情報量に対応しているかを示す数字を「自 由度」と言う。 t 分布の場合、自由度は「データ数 −1 」となる。 t分布表の見方 信頼率 95 %の区間推定をしたい場合、両側に 2.5 %の 領域をとればよい。表の 1 列目で問題に即した自由度の 行をみつけ、表の 1 行目で という列を見つけ数字を 読み取る。 (たとえば、自由度 20 の場合、 。よって、 t の値の 95 %は、 以上 以下にあることがわかる。)