統計学 10/19 鈴木智也
今回の講義の位置づけ 第1部:記述統計 第2部:確率論 第3部:推測統計 第1部の構成 一変数の規則性を記述する 第1部の構成 一変数の規則性を記述する 分布を表・グラフに表す ← ここ 二変数の関係を記述する
はじめに 細かい数字がびっしり並んだだけのデータから、意味あることを読み取るのは困難。 ⇒集めたデータを読みやすく整理する。 細かい数字がびっしり並んだだけのデータから、意味あることを読み取るのは困難。 ⇒集めたデータを読みやすく整理する。 ⇒データがどの範囲にどのくらいの頻度で分布しているかを、表やグラフにまとめる。 小学校の算数でやったこと!
基本的な手順 準備:データを大きさ順に並べ替えて、幾つかの「級(Class)」に分ける。 (基本的に級の間隔を等しくする。) ①各級に幾つデータが入っているかを表にする。⇒度数分布表 ②それを柱状グラフで表す。⇒ヒストグラム
例:学生50人の体重の度数分布 体重(kg) 人数 50~54.5 4 55~59.9 6 60~64.9 13 65~69.9 17 体重(kg) 人数 50~54.5 4 55~59.9 6 60~64.9 13 65~69.9 17 70~74.9 75~79.9
例:そのヒストグラム
応用①:相対度数分布(重要) 各級の度数を、全度数に対する割合にしたものを「相対度数分布」という。 たとえば、前の例では、 50~54.5kg:50人中4人⇒4/50⇒8% 55~59.9kg:50人中6人⇒6/50⇒12% ⇒相対度数分布は確率分布へ応用(第2部)
例:学生50人の体重の相対分布 体重(kg) 相対頻度(%) 50~54.9 8 55~59.9 12 60~64.9 26 65~69.9 体重(kg) 相対頻度(%) 50~54.9 8 55~59.9 12 60~64.9 26 65~69.9 34 70~74.9 75~79.9
例:そのヒストグラム
応用②:累積度数分布 全体の度数の中で、ある値以下の値を取る度数、もしくはある値以上の値を取る度数を表示する⇒累積度数 たとえば、前の例では、 50~54.9kg:4人 + 55~59.9kg:6人 ⇒60kg未満:10人 60~64.9kg:13人 ⇒ 65kg未満:23人
例:学生50人の体重の累積度数 体重(kg) 累積度数(人数) 50~54.9 4 55~59.9 10 60~64.9 23 体重(kg) 累積度数(人数) 50~54.9 4 55~59.9 10 60~64.9 23 65~69.9 40 70~74.9 46 75~79.9 50
例:そのヒストグラム
実例:なぜグラフが有用なのか? 総務省「家計調査(2004年)」によれば、日本の勤労者世帯では、 平均貯蓄額:1,273万円!! ⇒ そんなに貯蓄のある人が多いのか? ⇒ No! ⇒ 実は分布に偏りがあり、平均値では偏りが分らない。 ⇒ グラフ化すると分る。
勤労者世帯の貯蓄高の分布
度数分布作成上の注意点 級間隔が小さいと、結果が見づらい。 級間隔が大きいと、結果が大雑把に。 ⇒級の間隔を適切に決めるのは、各自の腕の見せどころ。 *級を決める際の目安として「スタージスの公式」があるが、必ずしも守る必要なし。
進んだ知識(前回のQ6) データの観測値が多ければ、 平均±標準偏差:度数の68%の範囲 平均±標準偏差×2:度数の95%の範囲 ⇒サンプルが大きければ、平均と標準偏差で、データの分布具合を記述可能。
ここまで習ったことは後で応用 確率論を学ぶ際に、理解を助ける。 期待値(後述) ←加重平均の応用 ⇒確率をウェイトにする 期待値(後述) ←加重平均の応用 ⇒確率をウェイトにする 確率分布(後述) ←度数分布の応用 ⇒ある範囲の値を取った「頻度」の代わりに、その値を取りそうな「確率」を調べる。