第1章記述統計の復習統計学　2007年度.

Slides:

Advertisements

Similar presentations

5 章標本と統計量の分布湯浅直弘. 5-1 母集団と標本 ■ 母集合今までは確率的なことこれからは，確率や割合がわかっていないときに，推定することが目標．個体：実験や観測を行う 1 つの対象母集団：個体全部の集合  ・有限な場合：有限母集合 → １つの箱に入っているねじ．  ・無限な場合：無限母集合.

Advertisements

1 章データの整理 1.1 データの代表値. ■ 母集団と標本観測個数 n ( または標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本または全数調査 (census) 母集団 (population) 知りたい全体標本 (sample) 入手した情報.

1 変量データの記述（度数分布表とヒストグラム）経済データ解析 2009 年度後期. あるクラスのテストの点数が次のようになっていたとする。このように出席番号と点数が並んでいるものだけでは、このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.

確率・統計学の基礎データの特性を表すパラメータとは？ 2 つのデータの関係性を表す式の導出方法.

Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

社会福祉調査論第 8 講統計の基本的整理 12 月７日. 【目標】量的調査の集計方法、結果の示し方について、基礎的な手法を習得する。統計値を捉えるための諸指標を理解する。

生物統計学・第 4 回比べる準備をする平均、分散、標準偏差、標準誤差、標準化 2015 年 10 月 20 日生命環境科学域応用生命科学類尾形善之.

ヒストグラム５品種松江城出雲大社石見銀山三瓶山アクアスしかしグラフで比較するのはめんどうなところがある端的に１つの数字（代表値）で品種の特徴を表したい.

中学校段階での相関関係の指導宮崎大学教育文化学部藤井良宜. 概要現在の学習指導要領における統計の扱いこれまでの相関関係の指導相関関係の指導のポイント相関関係.

2016 年度計量経済学講義内容担当者：河田正樹

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

データ解析基礎 2. 度数分布と特性値 keyword データの要約度数分布表，ヒストグラム分布の中心を表す基本統計量

統計解析第3章散布度.

第2章補足　幹葉表示統計学基礎　2010年度.

第2章　1変量データの記述統計学基礎　2011年度.

ローレンツ曲線とジニ係数度数分布表の応用ローレンツ曲線の意味ローレンツ曲線の作成ジニ係数.

第3章　2変量データの記述統計学基礎　2011年度.

第1章統計学の準備ｰ計量経済学ｰ.

第3章　2変量データの記述統計学基礎　2010年度.

第1章記述統計の復習統計学　2011年度.

統計学第3回「データの尺度・データの図示」

第１回担当：　西山統計学.

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈データ入力データ分析報告書の作成.

代表値と散らばり.

標本の記述統計専修大学　経済学部経済統計学（作間逸雄）.

月曜3限 1132教室担当者：河田正樹年度経済データ解析講義内容月曜3限　1132教室担当者：　河田　正樹

第1章記述統計の復習統計学　2010年度.

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

第４回 (10/16) 授業の学習目標先輩の卒論の調査に協力する。２つの定量的変数間の関係を調べる最も簡単な方法は？

流れ（3時間分）１ちらばりは必要か？２分散・標準偏差の意味３計算演習（例題と問題）４実験１（きれいな山型の性質を知ろう）

第3章　二つの変数の記述統計二つの変数を対象として変数同士の関係を捉える量的変数どうしの関係質的変数どうしの関係.

相関と回帰：相関分析２つの変量それぞれが正規分布にしたがってばらつく量であるとき，両変数の直線的な関係を相関分析する．例：兄弟の身長

第3章重回帰分析ｰ計量経済学ｰ.

第3章重回帰分析ｰ計量経済学ｰ.

統計学 10/19 鈴木智也.

第5章回帰分析入門統計学　2006年度.

第3章補足ローレンツ曲線とジニ係数統計学基礎　2010年度.

統計解析第１章データの表現.

メディア学部 2011年9月29日(木) 担当教員：亀田弘之

月曜3限 1141教室担当者：河田正樹年度経済データ解析講義内容月曜3限　1141教室担当者：　河田　正樹

1変量データの記述経済データ解析　2006年度.

データのバラツキの測度レンジと四分位偏差分散と標準偏差変動係数.

データの分類Ｐ．１２８診断や治療を，長年の経験則に頼らず，科学的根拠に裏付けされた事実に基づいて判断する。

看護研究における統計の活用法 Part ３京都府立医科大学　浅野　弘明 2012年11月10日 1.

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈データ入力データ分析報告書の作成.

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

　統計学講義　第11回　　　　相関係数、回帰直線　　　決定係数.

代表値とは散布度とは分布のパラメータ母集団とサンプル

第3章統計的推定（その1）統計学　2006年度.

中澤港統計学第４回中澤　港

他の平均値幾何平均調和平均メデイアンとモード平均値・メデイアン・モードの関係.

確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）.

多変量解析～主成分分析～１．主成分解析とは２．適用例と解析の目的３．解析の流れ４．変数が２個の場合の主成分分析

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

都市・港湾経済学（総）国民経済計算論（商）

代表値と散らばり.

度数分布表における平均・分散（第1章記述統計の復習補足）

疫学概論頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.

メディア学部 2010年9月30日(木) 担当教員：亀田弘之

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

情報の集約記述統計記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。

相関分析 2次元データと散布図共分散相関係数.

1変量データの記述（度数分布表とヒストグラム）

臨床統計入門（１）箕面市立病院小児科　　山本威久平成２３年１０月１１日.

第2章統計データの記述データについての理解度数分布表の作成.

プログラミング論相関

回帰分析入門経済データ解析　2011年度.

第3章統計的推定（その2）統計学　2006年度＜修正・補足版＞.

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

Presentation transcript:

第1章記述統計の復習統計学　2007年度

Ⅰ データの種類 Ⅱ 1変量データのまとめ方 Ⅲ 2変量データのまとめ方 a) 特性値による記述 b) 表・グラフによる記述 Ⅰ　データの種類 Ⅱ　1変量データのまとめ方 a)　特性値による記述代表値（中心的傾向） ⅰ)　算術平均　ⅱ)　メディアン　ⅲ)　モード　ⅳ)　各代表値の特徴 2)　散布度（散らばりの傾向） ⅰ)　分散　ⅱ)　標準偏差　ⅲ)　レンジ　ⅳ)　四分位偏差 b)　表・グラフによる記述 1)　棒グラフ・円グラフ・帯グラフ・折れ線グラフ 2)　度数分布表 3)　ヒストグラム・度数折れ線 Ⅲ　2変量データのまとめ方相関係数 b)　表・グラフによる記述 1)　分割表（クロス集計表）・2次元ヒストグラム 2)　散布図

Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 Ⅰ　データの種類 10人の学生について下の表のような情報がえられた。学年、性別、出身地、身長、体重、家族の人数、テストの点数という7つの変量（変数）について、10個の観測値を持つデータ。

データを分析する場合、性別や出身地などの情報はなんらかの数値によって表されることが多い。　この例では出身地（都道府県コード）、性別（男－１、女－２）を数値で表している。

この表にある変量は次のように分類することができる。＜質的変量と量的変量＞数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的変量という。家族の人数は数値に意味があるが、性別などは数値に意味が無い。また、学年は実際に大学に在学している年数とは異なり、分類のための数値である。質的変量か量的変量を見分けるには、「算術平均をとって意味があるか」を考えてみる方法がある。質的変量（質的変数）量的変量（量的変数）性別、学年、出身地など家族の人数、テストの点数など身長、体重など離散変量（離散変数）連続変量（連続変数）

＜離散変量と連続変量＞データの種類によって、まとめ方が異なる量的変量はさらに離散変量と連続変量に分類される。離散変量は家族の人数やテストの点数など、とびとびの値しかとらない変量である。一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値になる。(身長171.2865...cm)このような変量は連続変量である。テストの点数（離散変量） 50 51 52 53 身長（連続変量） 170 171 172 173 データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方データのまとめ方には特性値による記述（数値的表現）表・グラフによる記述（視覚的表現）がある。 Ⅱ　1変量データのまとめ方データのまとめ方には特性値による記述（数値的表現）表・グラフによる記述（視覚的表現）　がある。特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。

ある集団についてのデータ（例えば50人のクラスの身長など）があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 a)　特性値による記述　1)　代表値（中心的傾向）ある集団についてのデータ（例えば50人のクラスの身長など）があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。中心的傾向をあらわす数値として、算術平均メディアン（中央値）モード（最頻値）の3種類がある。

ⅰ)　算術平均算術平均＝データの合計 ÷ データ数（例）　10人のテストの点数

メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 ⅱ)　メディアン（中央値、中位数）メディアン　→　データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。点数の低い順に並べ替え真ん中この2つを足して2で割った（60＋70）÷2=65がメディアン

モード－データの中で最も多く出てくる値。10人のテストの点数の例では ⅲ)　モード（最頻値）モード　－　データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

下の表は2006年の中日と東京ヤクルトの打者別本塁打数（上位5人）である。 ⅳ)　各代表値の特徴下の表は2006年の中日と東京ヤクルトの打者別本塁打数（上位5人）である。データ出典：日本野球機構オフィシャルサイト(www.npb.or.jp) 東京ヤクルトは算術平均とメディアンの差が0.4本と小さいのに対し、中日は7.8本もある。これは中日で本塁打を打つのは、ウッズと福留という中心選手に限られるからである。

出典：総務省統計局『家計簿から見たファミリーライフ』下の図は貯蓄現在高階級別の世帯分布である。貯蓄現在高が算術平均より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである1052万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。少数の大金持ちと多数の庶民がいるため、このようなことがおこる。出典：総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。（この場合はモードが適切か）しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。　　　算術平均をうのみにしないようにしよう！

教員A 教員B ２人の教員はともに平均してチャイムの５分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。　1)　散布度（散らばりの傾向）教員A チャイムの５分後に必ず教室にくる。教員B チャイムと同時に教室にくることもあれば、１５分以上遅れることもある。２人の教員はともに平均してチャイムの５分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。　　　→散らばりの尺度の必要性散らばりの傾向をあらわす尺度として分散、標準偏差レンジ（範囲）、四分位偏差などがある。

偏差2乗和－個々のデータから算術平均を引いたもの（偏差）を2乗して、すべて加えたもの。 ⅰ）　分散分散＝偏差2乗和÷データ数　偏差2乗和－個々のデータから算術平均を引いたもの（偏差）を2乗して、すべて加えたもの。 10人のテストの点数の例では

算術平均60を引く偏差 2乗を求める合計を求める６４００データ数(10)で割る 640 分散

ⅱ）　標準偏差標準偏差　⇒　分散の平方根 10人のテストの点数の例では

ⅲ）　レンジ（範囲）レンジ　⇒　データの取りうる範囲　　　　レンジ＝最大値ー最小値 10人のテストの点数の例では　　 90 - 10＝８０

データを大きさの順（小さい順）に並べて、4分割する点をq1,q2,q3とする。このとき、次式で定義されるQを四分位偏差という。 ⅳ）　四分位偏差データを大きさの順（小さい順）に並べて、4分割する点をq1,q2,q3とする。このとき、次式で定義されるQを四分位偏差という。 q1 q2 q3 最大値最小値

（例）9人のテストの点数が次のようになっていたとする。点数の低い順に並べ替え q1 q2 （メディアン） q3 最小値最大値 q1⇒最小値とq2（メディアン）の真ん中の値 q3⇒q2（メディアン）と最大値の真ん中の値

集団の特徴をあらわすためには、代表値や散布度などの数値とともに、さまざまな表やグラフが用いられる。 b)　表・グラフによる記述　1)　棒グラフ・円グラフ・帯グラフ・折れ線グラフ集団の特徴をあらわすためには、代表値や散布度などの数値とともに、さまざまな表やグラフが用いられる。棒グラフは、家族の人数や学年などの各変量がとる値の度数をあらわすのに用いられる。円グラフは、その度数の全体に占める割合をあらわすのに用いられる。

帯グラフは、度数の割合が時間とともにどのように変化するかなどを見るために利用される。折れ線グラフは、主に時系列データ（時間の順序によって並べたデータ）の変化を表すために利用される。出典：総務省統計局『国勢調査』出典：総務省統計局『労働力調査』

質的変量および量的変量のうち離散変量は、棒グラフや円グラフとして表すことができる。　2)　度数分布表質的変量および量的変量のうち離散変量は、棒グラフや円グラフとして表すことができる。では、連続変量を棒グラフで表したい場合どのようにすればよいであろうか？そのままあらわすと下図のようになる。このような棒グラフでは、集団の特徴がよくわからない。

† その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。サッカー日本代表　対ペルー戦(2007.3.24)ベンチ入りメンバー †　その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。

度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。 †　質的変量や離散変量の場合は、とりうる値1つ1つが階級となる。ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。

算術平均＝（度数×階級値）の総和÷度数の総和＜度数分布表からの算術平均、分散の導出＞度数分布表にまとめられたデータについて、算術平均と分散を求めることができる。（下のデータが入手できず、度数分布表のみ入手できた場合に、この方法を使う。）上のような度数分布表があったとする。　　このとき、算術平均＝（度数×階級値）の総和÷度数の総和　　として求められる。

分散＝｛（階級値－算術平均）2×度数｝の総和÷度数の総和　　として求められる。　計算のためには、　これらの算術平均と分散は原データから求めた算術平均と分散の近似値となる。

　サッカー日本代表の度数分布表について考えてみると　算術平均（原データで計算すると177.44）　分散（原データで計算すると32.49）

度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。３）　ヒストグラム・度数折れ線度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。

度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。

Ⅲ 2変量データのまとめ方 2変量データ → 2つの対になったデータ 2変量データの記述 → それぞれ1変量の記述＋ 2変量の関係の記述 Ⅲ　2変量データのまとめ方 2変量データ　→　2つの対になったデータ（例）サッカー日本代表の身長と体重 ※　日本代表の身長と韓国代表の体重は2つのデータであるが、対になっていない。 ※　2変量データはその組合せを変えることはできない　→　川口の身長と闘莉王の体重を組み合わせても、意味がない。 2変量データの記述 →　それぞれ1変量の記述＋ 2変量の関係の記述

相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 a)　特性値による記述　1)　相関係数相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。　r＞０　正の相関　1に近いほど関連度が強い　r＜０　負の相関　-1に近いほど関連度が強い　r＝０　無相関　後で説明する散布図と密接な関係がある。

2変量についてクロス集計した度数分布表のことを、分割表（またはクロス集計表）という。 b)　表・グラフによる記述　1)　分割表（クロス集計表）・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表（またはクロス集計表）という。分割表は下のような2次元ヒストグラムであらわすことができる。

横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわしたもの。２）　散布図横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわしたもの。相関係数と密接な関係があり、相関係数が±１に近いほど、散布図は直線に近くなる。正の相関（r＞0) Xが大きな値をとるほど、Yも大きな値をとる。負の相関（r＜0) Xが大きな値をとるほど、Yは小さな値をとる。　無相関（r=0) Xの値とYの値に一定の傾向がみられない。

サッカー日本代表の身長と体重の散布図は下の図のようになる。サッカー日本代表の身長と体重の間には正の相関が見られる。 (ｒ＝0.807)