第2章　1変量データの記述統計学基礎　2011年度.

Slides:

Advertisements

Similar presentations

橋本. 階級値が棒の中央！階級値図での値階級下限階級上限

Advertisements

5 章標本と統計量の分布湯浅直弘. 5-1 母集団と標本 ■ 母集合今までは確率的なことこれからは，確率や割合がわかっていないときに，推定することが目標．個体：実験や観測を行う 1 つの対象母集団：個体全部の集合  ・有限な場合：有限母集合 → １つの箱に入っているねじ．  ・無限な場合：無限母集合.

1 章データの整理 1.1 データの代表値. ■ 母集団と標本観測個数 n ( または標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本または全数調査 (census) 母集団 (population) 知りたい全体標本 (sample) 入手した情報.

1 変量データの記述（度数分布表とヒストグラム）経済データ解析 2009 年度後期. あるクラスのテストの点数が次のようになっていたとする。このように出席番号と点数が並んでいるものだけでは、このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.

Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

社会福祉調査論第 8 講統計の基本的整理 12 月７日. 【目標】量的調査の集計方法、結果の示し方について、基礎的な手法を習得する。統計値を捉えるための諸指標を理解する。

生物統計学・第 4 回比べる準備をする平均、分散、標準偏差、標準誤差、標準化 2015 年 10 月 20 日生命環境科学域応用生命科学類尾形善之.

ヒストグラム５品種松江城出雲大社石見銀山三瓶山アクアスしかしグラフで比較するのはめんどうなところがある端的に１つの数字（代表値）で品種の特徴を表したい.

中学校段階での相関関係の指導宮崎大学教育文化学部藤井良宜. 概要現在の学習指導要領における統計の扱いこれまでの相関関係の指導相関関係の指導のポイント相関関係.

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

データ解析基礎 2. 度数分布と特性値 keyword データの要約度数分布表，ヒストグラム分布の中心を表す基本統計量

統計解析第3章散布度.

第2章補足　幹葉表示統計学基礎　2010年度.

ローレンツ曲線とジニ係数度数分布表の応用ローレンツ曲線の意味ローレンツ曲線の作成ジニ係数.

第1章記述統計の復習統計学　2007年度.

第1章統計学の準備ｰ計量経済学ｰ.

QC 7つ道具【①グラフ：可視化】データを集め、可視化することによって、状況が把握しやすくなる。

QC 7つ道具【①グラフ：可視化】データを集め、可視化することによって、状況が把握しやすくなる。

第3章　2変量データの記述統計学基礎　2010年度.

第1章記述統計の復習統計学　2011年度.

時系列データの季節調整経済データ解析　2009年度.

時系列データの季節調整経済データ解析　2011年度.

実証分析の手順経済データ解析　2011年度.

統計学第3回「データの尺度・データの図示」

第１回担当：　西山統計学.

代表値と散らばり.

標本の記述統計専修大学　経済学部経済統計学（作間逸雄）.

月曜3限 1132教室担当者：河田正樹年度経済データ解析講義内容月曜3限　1132教室担当者：　河田　正樹

第1章記述統計の復習統計学　2010年度.

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

流れ（3時間分）１ちらばりは必要か？２分散・標準偏差の意味３計算演習（例題と問題）４実験１（きれいな山型の性質を知ろう）

第2章補足Ⅱ 2項分布と正規分布についての補足

第3章　二つの変数の記述統計二つの変数を対象として変数同士の関係を捉える量的変数どうしの関係質的変数どうしの関係.

統計学第３回　10/11 担当：鈴木智也.

統計学 10/19 鈴木智也.

応用統計学の内容推測統計学(inferential statistics) 　　連続型の確率分布　　標本分布　　統計推定　　統計的検定.

第3章補足ローレンツ曲線とジニ係数統計学基礎　2010年度.

統計解析第１章データの表現.

メディア学部 2011年9月29日(木) 担当教員：亀田弘之

月曜3限 1141教室担当者：河田正樹年度経済データ解析講義内容月曜3限　1141教室担当者：　河田　正樹

1変量データの記述経済データ解析　2006年度.

データのバラツキの測度レンジと四分位偏差分散と標準偏差変動係数.

看護研究における統計の活用法 Part ３京都府立医科大学　浅野　弘明 2012年11月10日 1.

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

第13回 QC7つ道具（データの可視化・活用）経営情報論A

応用統計学の内容推測統計学(inferential statistics) 　　連続型の確率分布　　標本分布　　統計推定　　統計的検定.

代表値とは散布度とは分布のパラメータ母集団とサンプル

第3章統計的推定（その1）統計学　2006年度.

中澤港統計学第４回中澤　港

他の平均値幾何平均調和平均メデイアンとモード平均値・メデイアン・モードの関係.

確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）.

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

都市・港湾経済学（総）国民経済計算論（商）

代表値と散らばり.

度数分布表における平均・分散（第1章記述統計の復習補足）

メディア学部 2010年9月30日(木) 担当教員：亀田弘之

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

情報の集約記述統計記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

1変量データの記述（度数分布表とヒストグラム）

臨床統計入門（１）箕面市立病院小児科　　山本威久平成２３年１０月１１日.

散らばり本時の目標資料の傾向をみるときは、代表値だけでなく散らばりを考える必要があることを理解する。

第2章統計データの記述データについての理解度数分布表の作成.

プログラミング論相関

データ分布の特徴基準化変量歪度尖度.

回帰分析入門経済データ解析　2011年度.

第3章統計的推定（その2）統計学　2006年度＜修正・補足版＞.

時系列データの季節調整経済データ解析　2008年度.

時系列データの季節調整経済データ解析　2009年度.

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

Presentation transcript:

第2章　1変量データの記述統計学基礎　2011年度

目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 Ⅰ　表・グラフによる記述 1)　折れ線グラフと棒グラフ 2)　度数分布表とヒストグラム、度数折れ線 ⅰ)　度数分布表 ⅱ)　ヒストグラムと度数折れ線 ⅲ)　幹葉表示 3)　円グラフ、帯グラフ Ⅱ　特性値による記述 1)　代表値（中心的傾向） ⅰ)　算術平均 ⅱ)　メディアン（中央値） ⅲ)　モード（最頻値） ⅳ)　各代表値の特徴 2)　散布度（散らばりの傾向） ⅰ)　分散 ⅱ)　標準偏差 ⅲ)　レンジ ⅳ)　四分位偏差

表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。データのまとめ方には１．表・グラフによる記述（視覚的表現）２．特性値による記述（数値的表現）　がある。表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。

Ⅰ 表・グラフによる記述ともにさまざまなデータの表現に利用される。 Ⅰ　表・グラフによる記述 1)　折れ線グラフと棒グラフともにさまざまなデータの表現に利用される。折れ線グラフは、主に時系列データ（時間の順序によって並べたデータ）に利用される。棒グラフは時系列データにもクロスセクションデータ（1時点におけるデータを何らかの項目でまとめたもの）にも利用される。出典：総務省統計局『労働力調査』出典：日本野球機構オフィシャルサイト

（例）交通事故死亡者数の推移(中国地方5県) (データ出典：警察庁「交通事故死者数について」) ＜時系列データとクロスセクションデータ＞（例）交通事故死亡者数の推移(中国地方5県) (データ出典：警察庁「交通事故死者数について」) （単位：人）鳥取県の交通事故死亡者数の年次推移　 → 時系列データ 2010年の県別交通事故死亡者数　 → クロスセクションデータ

？？？クロスセクションデータには、通常棒グラフを用いる。出典：文部科学省『学校基本調査』右の図は上の図を折れ線グラフで描きなおしたものであるが、隣り合う県†どうしを線で結んでも、そこに意味はない。？？？ †都道府県コードの順なので、必ずしも隣接してはいない。

＜折れ線グラフについての諸注意＞１．折れ線グラフを描く際に用いる時系列データは、原則として等間隔である。時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさまざまなものがある。たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2か月間隔や3か月間隔になったりしない。（例外）　株や為替の動きの日次データは、営業日の関係上、土日（株は祝日も）を除く毎日のデータとなる。

２．折れ線グラフは、縦軸の目盛のとり方によって、印象が大きく変わる。出典：Yahoo!ファイナンス

出典：内閣府経済社会総合研究所『国民経済計算』＜変化率＞という式で定義されるものが、変化率である。前年の値を基準にしたり、前期（月次データにおける前月など）の値を基準にしたりし、そこからの変化の割合をあらわすものである。実質GDPの年次データにおいて、前年を基準とした変化率は、成長率といわれる。出典：内閣府経済社会総合研究所『国民経済計算』 2009年 519兆円 2010年 540兆円なので、2010年の成長率は約4.0%となる。

棒グラフは前述のように、クロスセクションデータ対して用いるが、時系列データに用いられることも少なくない。単位の異なる2つの時系列データを1つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。

質的変量であれば、それぞれに対応する観測値の数（これを度数という）を数え、棒グラフにあらわすことができる。　2)　度数分布表とヒストグラム、度数折れ線　　　ⅰ)　度数分布表質的変量であれば、それぞれに対応する観測値の数（これを度数という）を数え、棒グラフにあらわすことができる。元のデータにおいてチーム名は質的変量である。チームごとに数を数える。度数

では、連続変量もこのようにできるであろうか？　⇒　連続変量の場合、とりうる値が多く、それぞれに対応する観測値の数は非常に小さい。（離散変量でもとりうる値が多ければ、このようなことが起こる）質的変量の時と同じようにおこなうと、度数が１のものばかりになってしまう。このような棒グラフでは、集団の特徴がよくわからない。

そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。なでしこジャパンロンドン五輪予選ベンチ入りメンバー †　その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。

度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 ⅱ）　ヒストグラム・度数折れ線度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。

度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。 †　質的変量や離散変量の場合は、とりうる値1つ1つが階級となる。ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。

度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。

ⅲ) 幹葉表示幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡易的なヒストグラムといえる。例えば、テストの点数のような2ケタの数値であれば、十の位の数を幹、一の位の数を葉として次ページのように表示する。この表示によって、集団の分布がわかる。度数分布表を作成するための予備的作業として用いることも可能である。

右のデータはあるクラス38人分のテストの点数のデータである。このデータを幹葉表示してみる。 3 9 2 2 6 7 6 43 20 46 47 20 30 63 69 78 88 73 20 58 87 47 75 44 69 34 20 17 63 36 7 27 21 44 66 33 54 34 69 60 23 01 2 3 4 5 6 7 8 9 7 01 2 3 4 5 6 7 8 9 7 7 7 0 0 0 0 1 2 3 7 0 0 0 0 7 1 3 0 3 4 4 6 9 0 4 6 3 4 3 4 4 6 7 7 3 6 7 7 4 4 4 8 8 4 0 0 3 3 6 7 9 9 9 3 9 9 3 6 9 0 3 5 8 8 3 5 7 8 8 7 最終的な幹葉表示予備的な幹葉表示

＜特徴と注意点＞このような表示を用いることができるのは、とりうる値が2ケタの数値が中心であり、せいぜい200までであろう。たとえば136という数値の場合、13を幹、6を葉にすればよい。小数点以下をとる場合は、1ケタまでとなり、整数部分はせいぜい20までであろう。たとえば、7.2という数値の場合、7を幹、2を葉として表示する。 1 2 3 ： 9 10 11 12 13 1 2 ： 6 7 8 9 10 2 6

例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。幹葉表示は、度数分布表・ヒストグラムと異なり、階級の幅を2cmとか5cmとかにすることは難しい。10の倍数の階級幅のとき(1番得意なのは1のとき)、便利である。例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。以上　　　　　未満　　　　　　165 　　　　　　170 170　　　　　　175 175　　　　　　180

円グラフは相対的な割合を表現するときに用いられる。　3)　円グラフ、帯グラフ円グラフは相対的な割合を表現するときに用いられる。帯グラフは相対的な割合が、時間とともにどのように変化していくかなどを表現するときに用いられる。 10人の学生の例から作成出典：総務省統計局『国勢調査』

Ⅱ　特性値による記述 1)　代表値（中心的傾向）ある集団についてのデータ（例えば50人のクラスの身長など）があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。中心的傾向をあらわす数値として、算術平均メディアン（中央値）モード（最頻値）の3種類がある。

ⅰ)　算術平均算術平均＝データの合計 ÷ データ数（例）　10人のテストの点数

メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 ⅱ)　メディアン（中央値、中位数）メディアン　→　データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。点数の低い順に並べ替え真ん中この2つを足して2で割った（60＋70）÷2=65がメディアン

モード－データの中で最も多く出てくる値。10人のテストの点数の例では ⅲ)　モード（最頻値）モード　－　データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

下の表はA,B,C,D,E５人のある月の収入（単位：万円）である。 ⅳ)　各代表値の特徴下の表はA,B,C,D,E５人のある月の収入（単位：万円）である。仮想データこの５人の収入の算術平均はメディアンは、この場合、小さい順に並んでるのでモードは、よって、算術平均は24、メディアンは22、モードは20となる。

次に、裕福なFさんがこの５人に加わったとする。仮想データこの６人の収入の算術平均はメディアンは、真ん中の２人を足して２で割るので、(22+28)÷2=25 モードは、よって、算術平均は30、メディアンは25、モードは20となる。

次に、より裕福なGさんがこの6人に加わったとする。仮想データこの7人の収入の算術平均はメディアンは、真ん中である。モードは、よって、算術平均は200、メディアンは28、モードは20となる。

下の図は貯蓄現在高階級別の世帯分布である。別の例もみてみよう。下の図は貯蓄現在高階級別の世帯分布である。貯蓄現在高が算術平均(1657万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである995万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。少数の大金持ちと多数の庶民がいるため、このようなことがおこる。出典：総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

ゆがんだ分布であれば、算術平均とメディアンは一致しない。（モードも一致しない）左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が1つであれば、モードもこれに一致する。

算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。＜正規分布＞算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。この分布は、数学的に非常に取り扱いやすい性質を持っており、身長や知能指数などがこの分布にしたがうといわれている。テストの点数もこのような分布になることが理想といわれている。 †　「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形ではなく、教会にあるベルの形をしている。

算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。（この場合はモードが適切か）しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。　　算術平均をうのみにしないようにしよう！

教員A 教員B ２人の教員はともに平均してチャイムの５分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。 2)　散布度（散らばりの傾向）教員A チャイムの５分後に必ず教室にくる。教員B チャイムと同時に教室にくることもあれば、１０分以上遅れることもある。２人の教員はともに平均してチャイムの５分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。　　　→散らばりの尺度の必要性散らばりの傾向をあらわす尺度として分散、標準偏差レンジ（範囲）、四分位偏差などがある。

偏差2乗和－個々のデータから算術平均を引いたもの（偏差）を2乗して、すべて加えたもの。 ⅰ）　分散分散＝偏差2乗和÷データ数　偏差2乗和－個々のデータから算術平均を引いたもの（偏差）を2乗して、すべて加えたもの。 10人のテストの点数の例では

算術平均60を引く偏差 2乗を求める合計を求める６４００データ数(10)で割る 640 分散

ⅱ）　標準偏差標準偏差　⇒　分散の平方根 10人のテストの点数の例では

※　2人の教員が教室に来る時間の例 (単位:分) 教員A

教員B となり、教員Bの分散の方が大きいことがわかる。標準偏差も　　　　　　である。

＜標準化と標準正規分布＞ A君は、あるテストで英語が90点、数学が65点であった。　⇒　英語の方が数学より成績が良かった？？英語の平均点が80点、数学の平均点が50点だった。　⇒　英語は平均点より10点高い、数学は平均点より15点高い。数学の方が良い？？英語と数学のどちらが成績が良かったのだろうか？　⇒　標準化の必要性（これを応用したものが偏差値）

平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。標準化は次のような変換である。このようにして求められた変量を標準化変量（zスコア）英語が平均80点、標準偏差10であり、数学が平均50点、標準偏差20であったとする。この例で、　　　　　　英語は　　　　　　数学はとなり英語の方が成績が良いことになる。

zスコアの大小で、平均や分散の異なるものを比較することができる。zスコアは算術平均0、標準偏差1の変量であるが、これを算術平均50、標準偏差10の変量に変換したものが偏差値(Tスコア)である。(算術平均50、標準偏差10は100点満点のテストの点数のように見える) 偏差値はzスコアを次のように変換する。先ほどの例では、　　　　　　英語は　　　　　　数学はとなる。

データを大きさの順（小さい順）に並べて、4分割する点をq1,q2,q3とする。このとき、次式で定義されるQを四分位偏差という。 ⅲ）　レンジ（範囲）　レンジ　⇒　データの取りうる範囲　　　　レンジ＝最大値－最小値　10人のテストの点数の例では　　 90 - 10＝８０ ⅳ）　四分位偏差データを大きさの順（小さい順）に並べて、4分割する点をq1,q2,q3とする。このとき、次式で定義されるQを四分位偏差という。 q1 q2 q3 最大値最小値

（例）9人のテストの点数が次のようになっていたとする。点数の低い順に並べ替え q1 q2 （メディアン） q3 最小値最大値 q1⇒最小値とq2（メディアン）の真ん中の値 q3⇒q2（メディアン）と最大値の真ん中の値

＜箱ひげ図＞最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、9人のテストの点数を箱ひげ図に表した1例である。最大値 q3（第3四分位点）中央値 × q1（第1四分位点）最小値