第1章 記述統計の復習 統計学 2007年度.

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
第2章補足 幹葉表示 統計学基礎 2010年度.
第2章 1変量データの記述 統計学基礎 2011年度.
ローレンツ曲線とジニ係数 度数分布表の応用 ローレンツ曲線の意味 ローレンツ曲線の作成 ジニ係数.
第3章 2変量データの記述 統計学基礎 2011年度.
第1章 統計学の準備 ー 計量経済学 ー.
第3章 2変量データの記述 統計学基礎 2010年度.
第1章 記述統計の復習 統計学 2011年度.
統計学 第3回 「データの尺度・データの図示」
第1回 担当: 西山 統計学.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
第1章 記述統計の復習 統計学 2010年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計学 10/19 鈴木智也.
第5章 回帰分析入門 統計学 2006年度.
第3章補足 ローレンツ曲線とジニ係数 統計学基礎 2010年度.
統計解析 第1章 データの表現.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
月曜3限 1141教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1141教室 担当者: 河田 正樹
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
データの分類 P.128 診断や治療を,長年の経験則に頼らず, 科学的根拠に裏付けされた事実に基づいて判断する。
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
 統計学講義 第11回     相関係数、回帰直線    決定係数.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第3章 統計的推定 (その1) 統計学 2006年度.
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
都市・港湾経済学(総) 国民経済計算論(商)
代表値と散らばり.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
相関分析 2次元データと散布図 共分散 相関係数.
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
第2章 統計データの記述 データについての理解 度数分布表の作成.
プログラミング論 相関
回帰分析入門 経済データ解析 2011年度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

第1章 記述統計の復習 統計学 2007年度

Ⅰ データの種類 Ⅱ 1変量データのまとめ方 Ⅲ 2変量データのまとめ方 a) 特性値による記述 b) 表・グラフによる記述 Ⅰ データの種類 Ⅱ 1変量データのまとめ方 a) 特性値による記述 代表値(中心的傾向) ⅰ) 算術平均 ⅱ) メディアン ⅲ) モード ⅳ) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位偏差 b)  表・グラフによる記述 1) 棒グラフ・円グラフ・帯グラフ・折れ線グラフ 2) 度数分布表 3) ヒストグラム・度数折れ線 Ⅲ 2変量データのまとめ方 相関係数 b) 表・グラフによる記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2) 散布図

Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 学年、性別、出身地、身長、体重、家族の人数、テストの点数という7つの変量(変数)について、10個の観測値を持つデータ。

データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。  この例では出身地(都道府県コード)、性別(男-1、女-2)を数値で表している。

この表にある変量は次のように分類することができる。 <質的変量と量的変量> 数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的変量という。 家族の人数は数値に意味があるが、性別などは数値に意味が無い。また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。 質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。 質的変量(質的変数) 量的変量(量的変数) 性別、学年、出身地など 家族の人数、テストの点数など 身長、体重など 離散変量(離散変数) 連続変量(連続変数)

<離散変量と連続変量> データの種類によって、まとめ方が異なる 量的変量はさらに離散変量と連続変量に分類される。 離散変量は家族の人数やテストの点数など、とびとびの値しかとらない変量である。 一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値になる。(身長171.2865...cm)このような変量は連続変量である。 テストの点数(離散変量) 50 51 52 53 身長(連続変量) 170 171 172 173 データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方 データのまとめ方には 特性値による記述(数値的表現) 表・グラフによる記述(視覚的表現) がある。 Ⅱ 1変量データのまとめ方 データのまとめ方には 特性値による記述(数値的表現) 表・グラフによる記述(視覚的表現)  がある。 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。 表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。

ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 a) 特性値による記述  1) 代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の3種類がある。

ⅰ) 算術平均 算術平均 = データの合計 ÷ データ数 (例) 10人のテストの点数

メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 ⅱ) メディアン(中央値、中位数) メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン

モード - データの中で最も多く出てくる値。10人のテストの点数の例では ⅲ) モード(最頻値) モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

下の表は2006年の中日と東京ヤクルトの打者別本塁打数(上位5人)である。 ⅳ) 各代表値の特徴 下の表は2006年の中日と東京ヤクルトの打者別本塁打数(上位5人)である。 データ出典:日本野球機構オフィシャルサイト(www.npb.or.jp) 東京ヤクルトは算術平均とメディアンの差が0.4本と小さいのに対し、中日は7.8本もある。これは中日で本塁打を打つのは、ウッズと福留という中心選手に限られるからである。

出典:総務省統計局『家計簿から見たファミリーライフ』 下の図は貯蓄現在高階級別の世帯分布である。 貯蓄現在高が算術平均より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである1052万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。 しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か) しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。    算術平均をうのみにしないようにしよう!

教員A 教員B 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。  1) 散布度(散らばりの傾向) 教員A チャイムの5分後に必ず教室にくる。 教員B チャイムと同時に教室にくることもあれば、15分以上遅れることもある。 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。    →散らばりの尺度の必要性 散らばりの傾向をあらわす尺度として 分散、標準偏差 レンジ(範囲)、四分位偏差 などがある。

偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 ⅰ) 分散 分散=偏差2乗和÷データ数   偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 10人のテストの点数の例では

算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数(10)で割る 640 分散

ⅱ) 標準偏差 標準偏差 ⇒ 分散の平方根 10人のテストの点数の例では

ⅲ) レンジ(範囲) レンジ ⇒ データの取りうる範囲     レンジ = 最大値 ー 最小値 10人のテストの点数の例では    90 - 10=80

データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 ⅳ) 四分位偏差 データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 q1 q2 q3 最大値 最小値

(例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値

集団の特徴をあらわすためには、代表値や散布度などの数値とともに、さまざまな表やグラフが用いられる。 b) 表・グラフによる記述  1) 棒グラフ・円グラフ・帯グラフ・折れ線グラフ 集団の特徴をあらわすためには、代表値や散布度などの数値とともに、さまざまな表やグラフが用いられる。 棒グラフは、家族の人数や学年などの各変量がとる値の度数をあらわすのに用いられる。 円グラフは、その度数の全体に占める割合をあらわすのに用いられる。

帯グラフは、度数の割合が時間とともにどのように変化するかなどを見るために利用される。 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)の変化を表すために利用される。 出典:総務省統計局『国勢調査』 出典:総務省統計局『労働力調査』

質的変量および量的変量のうち離散変量は、棒グラフや円グラフとして表すことができる。  2) 度数分布表 質的変量および量的変量のうち離散変量は、棒グラフや円グラフとして表すことができる。 では、連続変量を棒グラフで表したい場合どのようにすればよいであろうか?そのままあらわすと下図のようになる。 このような棒グラフでは、集団の特徴がよくわからない。

† その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。 そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。 サッカー日本代表  対ペルー戦(2007.3.24)ベンチ入りメンバー † その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。

度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。 † 質的変量や離散変量の場合は、とりうる値1つ1つが階級となる。 ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。

算術平均=(度数×階級値)の総和÷度数の総和 <度数分布表からの算術平均、分散の導出> 度数分布表にまとめられたデータについて、算術平均と分散を求めることができる。(下のデータが入手できず、度数分布表のみ入手できた場合に、この方法を使う。) 上のような度数分布表があったとする。   このとき、 算術平均=(度数×階級値)の総和÷度数の総和   として求められる。

分散={(階級値-算術平均)2×度数}の総和÷度数の総和   として求められる。  計算のためには、  これらの算術平均と分散は原データから求めた算術平均と分散の近似値となる。

 サッカー日本代表の度数分布表について考えてみると  算術平均(原データで計算すると177.44)  分散(原データで計算すると32.49)

度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 3) ヒストグラム・度数折れ線 度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。

度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。

Ⅲ 2変量データのまとめ方 2変量データ → 2つの対になったデータ 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 Ⅲ 2変量データのまとめ方 2変量データ → 2つの対になったデータ (例)サッカー日本代表の身長と体重 ※ 日本代表の身長と韓国代表の体重は2つのデータであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 川口の身長と闘莉王の体重を組み合わせても、意味がない。 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述

相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 a) 特性値による記述  1) 相関係数 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。  r>0 正の相関 1に近いほど関連度が強い  r<0 負の相関 -1に近いほど関連度が強い  r=0 無相関  後で説明する散布図と密接な関係がある。

2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 b) 表・グラフによる記述  1) 分割表(クロス集計表)・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 分割表は下のような2次元ヒストグラムであらわすことができる。

横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわしたもの。 2) 散布図 横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわしたもの。 相関係数と密接な関係があり、相関係数が±1に近いほど、散布図は直線に近くなる。 正の相関(r>0) Xが大きな値をとるほど、Yも大きな値をとる。 負の相関(r<0) Xが大きな値をとるほど、Yは小さな値をとる。  無相関(r=0) Xの値とYの値に一定の傾向がみられない。

サッカー日本代表の身長と体重の散布図は下の図のようになる。 サッカー日本代表の身長と体重の間には正の相関が見られる。 (r=0.807)