第2章 1変量データの記述 統計学基礎 2011年度.

Slides:



Advertisements
Similar presentations
橋本. 階級値が棒の中央! 階級値 図での値 階級下限階級上限
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
第2章補足 幹葉表示 統計学基礎 2010年度.
ローレンツ曲線とジニ係数 度数分布表の応用 ローレンツ曲線の意味 ローレンツ曲線の作成 ジニ係数.
第1章 記述統計の復習 統計学 2007年度.
第1章 統計学の準備 ー 計量経済学 ー.
QC 7つ道具 【①グラフ:可視化】 データを集め、可視化することによって、状況が把握しやすくなる。
QC 7つ道具 【①グラフ:可視化】 データを集め、可視化することによって、状況が把握しやすくなる。
第3章 2変量データの記述 統計学基礎 2010年度.
第1章 記述統計の復習 統計学 2011年度.
時系列データの季節調整 経済データ解析 2009年度.
時系列データの季節調整 経済データ解析 2011年度.
実証分析の手順 経済データ解析 2011年度.
統計学 第3回 「データの尺度・データの図示」
第1回 担当: 西山 統計学.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
第1章 記述統計の復習 統計学 2010年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
第2章補足Ⅱ 2項分布と正規分布についての補足
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
統計学 第3回 10/11 担当:鈴木智也.
統計学 10/19 鈴木智也.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第3章補足 ローレンツ曲線とジニ係数 統計学基礎 2010年度.
統計解析 第1章 データの表現.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
月曜3限 1141教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1141教室 担当者: 河田 正樹
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
第13回 QC7つ道具(データの可視化・活用) 経営情報論A
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第3章 統計的推定 (その1) 統計学 2006年度.
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
都市・港湾経済学(総) 国民経済計算論(商)
代表値と散らばり.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
散らばり 本時の目標 資料の傾向をみるときは、代表値だけでなく散らばりを考える必要があることを理解する。
第2章 統計データの記述 データについての理解 度数分布表の作成.
プログラミング論 相関
データ分布の特徴 基準化変量 歪度 尖度.
回帰分析入門 経済データ解析 2011年度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
時系列データの季節調整 経済データ解析 2008年度.
時系列データの季節調整 経済データ解析 2009年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

第2章 1変量データの記述 統計学基礎 2011年度

目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 ⅱ) ヒストグラムと度数折れ線 ⅲ) 幹葉表示 3) 円グラフ、帯グラフ Ⅱ 特性値による記述 1) 代表値(中心的傾向) ⅰ) 算術平均 ⅱ) メディアン(中央値) ⅲ) モード(最頻値) ⅳ) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位偏差

表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 データのまとめ方には 1.表・グラフによる記述(視覚的表現) 2.特性値による記述(数値的表現)  がある。 表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。

Ⅰ 表・グラフによる記述 ともにさまざまなデータの表現に利用される。 Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ ともにさまざまなデータの表現に利用される。 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)に利用される。棒グラフは時系列データにもクロスセクションデータ(1時点におけるデータを何らかの項目でまとめたもの)にも利用される。 出典:総務省統計局『労働力調査』 出典:日本野球機構オフィシャルサイト

(例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) <時系列データとクロスセクションデータ> (例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) (単位:人) 鳥取県の交通事故死亡者数の年次推移   → 時系列データ 2010年の県別交通事故死亡者数   → クロスセクションデータ

??? クロスセクションデータには、通常棒グラフを用いる。 出典:文部科学省『学校基本調査』 右の図は上の図を折れ線グラフで描きなおしたものであるが、隣り合う県†どうしを線で結んでも、そこに意味はない。 ??? †都道府県コードの順なので、必ずしも隣接してはいない。

<折れ線グラフについての諸注意> 1.折れ線グラフを描く際に用いる時系列データは、原則として等間隔である。 時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさまざまなものがある。 たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2か月間隔や3か月間隔になったりしない。 (例外) 株や為替の動きの日次データは、営業日の関係上、土日(株は祝日も)を除く毎日のデータとなる。

2.折れ線グラフは、縦軸の目盛のとり方によって、印象が大きく変わる。 出典:Yahoo!ファイナンス

出典:内閣府経済社会総合研究所『国民経済計算』 <変化率> という式で定義されるものが、変化率である。 前年の値を基準にしたり、前期(月次データにおける前月など)の値を基準にしたりし、そこからの変化の割合をあらわすものである。 実質GDPの年次データにおいて、前年を基準とした変化率は、成長率といわれる。 出典:内閣府経済社会総合研究所『国民経済計算』 2009年 519兆円 2010年 540兆円 なので、2010年の成長率は 約4.0%となる。

棒グラフは前述のように、クロスセクションデータ対して用いるが、時系列データに用いられることも少なくない。 単位の異なる2つの時系列データを1つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。

質的変量であれば、それぞれに対応する観測値の数(これを度数という)を数え、棒グラフにあらわすことができる。  2) 度数分布表とヒストグラム、度数折れ線    ⅰ) 度数分布表 質的変量であれば、それぞれに対応する観測値の数(これを度数という)を数え、棒グラフにあらわすことができる。 元のデータにおいてチーム名は質的変量である。 チームごとに数を数える。 度数

では、連続変量もこのようにできるであろうか?  ⇒ 連続変量の場合、とりうる値が多く、それぞれに対応する観測値の数は非常に小さい。(離散変量でもとりうる値が多ければ、このようなことが起こる) 質的変量の時と同じようにおこなうと、度数が1のものばかりになってしまう。 このような棒グラフでは、集団の特徴がよくわからない。

そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー † その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。

度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 ⅱ) ヒストグラム・度数折れ線 度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。

度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。 † 質的変量や離散変量の場合は、とりうる値1つ1つが階級となる。 ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。

度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。

ⅲ) 幹葉表示 幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡易的なヒストグラムといえる。 例えば、テストの点数のような2ケタの数値であれば、十の位の数を幹、一の位の数を葉として次ページのように表示する。 この表示によって、集団の分布がわかる。 度数分布表を作成するための予備的作業として用いることも可能である。

右のデータはあるクラス38人分のテストの点数のデータである。 このデータを幹葉表示してみる。 3 9 2 2 6 7 6 43 20 46 47 20 30 63 69 78 88 73 20 58 87 47 75 44 69 34 20 17 63 36 7 27 21 44 66 33 54 34 69 60 23 01 2 3 4 5 6 7 8 9 7 01 2 3 4 5 6 7 8 9 7 7 7 0 0 0 0 1 2 3 7 0 0 0 0 7 1 3 0 3 4 4 6 9 0 4 6 3 4 3 4 4 6 7 7 3 6 7 7 4 4 4 8 8 4 0 0 3 3 6 7 9 9 9 3 9 9 3 6 9 0 3 5 8 8 3 5 7 8 8 7 最終的な幹葉表示 予備的な幹葉表示

<特徴と注意点> このような表示を用いることができるのは、とりうる値が2ケタの数値が中心であり、せいぜい200までであろう。たとえば136という数値の場合、13を幹、6を葉にすればよい。 小数点以下をとる場合は、1ケタまでとなり、整数部分はせいぜい20までであろう。たとえば、7.2という数値の場合、7を幹、2を葉として表示する。 1 2 3 : 9 10 11 12 13 1 2 : 6 7 8 9 10 2 6

例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。 幹葉表示は、度数分布表・ヒストグラムと異なり、階級の幅を2cmとか5cmとかにすることは難しい。10の倍数の階級幅のとき(1番得意なのは1のとき)、便利である。 例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。 以上     未満       165       170 170      175 175      180

円グラフは相対的な割合を表現するときに用いられる。  3) 円グラフ、帯グラフ 円グラフは相対的な割合を表現するときに用いられる。 帯グラフは相対的な割合が、時間とともにどのように変化していくかなどを表現するときに用いられる。 10人の学生の例から作成 出典:総務省統計局『国勢調査』

Ⅱ 特性値による記述 1) 代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の3種類がある。

ⅰ) 算術平均 算術平均 = データの合計 ÷ データ数 (例) 10人のテストの点数

メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 ⅱ) メディアン(中央値、中位数) メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン

モード - データの中で最も多く出てくる値。10人のテストの点数の例では ⅲ) モード(最頻値) モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 ⅳ) 各代表値の特徴 下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 仮想データ この5人の収入の算術平均は メディアンは、この場合、小さい順に並んでるので モードは、 よって、算術平均は24、メディアンは22、モードは20となる。

次に、裕福なFさんがこの5人に加わったとする。 仮想データ この6人の収入の算術平均は メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25 モードは、 よって、算術平均は30、メディアンは25、モードは20となる。

次に、より裕福なGさんがこの6人に加わったとする。 仮想データ この7人の収入の算術平均は メディアンは、真ん中である。 モードは、 よって、算術平均は200、メディアンは28、モードは20となる。

下の図は貯蓄現在高階級別の世帯分布である。 別の例もみてみよう。 下の図は貯蓄現在高階級別の世帯分布である。 貯蓄現在高が算術平均(1657万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである995万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

ゆがんだ分布であれば、算術平均とメディアンは一致しない。(モードも一致しない) 左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が1つであれば、モードもこれに一致する。

算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。 <正規分布> 算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。 この分布は、数学的に非常に取り扱いやすい性質を持っており、身長や知能指数などがこの分布にしたがうといわれている。テストの点数もこのような分布になることが理想といわれている。 † 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形ではなく、教会にあるベルの形をしている。

算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。 しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か) しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。   算術平均をうのみにしないようにしよう!

教員A 教員B 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。 2) 散布度(散らばりの傾向) 教員A チャイムの5分後に必ず教室にくる。 教員B チャイムと同時に教室にくることもあれば、10分以上遅れることもある。 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。    →散らばりの尺度の必要性 散らばりの傾向をあらわす尺度として 分散、標準偏差 レンジ(範囲)、四分位偏差 などがある。

偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 ⅰ) 分散 分散=偏差2乗和÷データ数   偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 10人のテストの点数の例では

算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数(10)で割る 640 分散

ⅱ) 標準偏差 標準偏差 ⇒ 分散の平方根 10人のテストの点数の例では

※ 2人の教員が教室に来る時間の例 (単位:分) 教員A

教員B となり、教員Bの分散の方が大きいことがわかる。 標準偏差も      である。

<標準化と標準正規分布> A君は、あるテストで英語が90点、数学が65点であった。  ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が80点、数学の平均点が50点だった。  ⇒ 英語は平均点より10点高い、数学は平均点より15点高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか?  ⇒ 標準化の必要性(これを応用したものが偏差値)

平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。 標準化は次のような変換である。このようにして求められた変量を標準化変量(zスコア) 英語が平均80点、標準偏差10であり、数学が平均50点、標準偏差20であったとする。 この例で、       英語は       数学は となり英語の方が成績が良いことになる。

zスコアの大小で、平均や分散の異なるものを比較することができる。zスコアは算術平均0、標準偏差1の変量であるが、これを算術平均50、標準偏差10の変量に変換したものが偏差値(Tスコア)である。(算術平均50、標準偏差10は100点満点のテストの点数のように見える) 偏差値はzスコアを次のように変換する。 先ほどの例では、       英語は       数学は となる。

データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 ⅲ) レンジ(範囲)  レンジ ⇒ データの取りうる範囲     レンジ = 最大値 - 最小値  10人のテストの点数の例では    90 - 10=80 ⅳ) 四分位偏差 データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 q1 q2 q3 最大値 最小値

(例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値

<箱ひげ図> 最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、9人のテストの点数を箱ひげ図に表した1例である。 最大値 q3(第3四分位点) 中央値 × q1(第1四分位点) 最小値