第2章 1変量データの記述 統計学基礎 2011年度
目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 ⅱ) ヒストグラムと度数折れ線 ⅲ) 幹葉表示 3) 円グラフ、帯グラフ Ⅱ 特性値による記述 1) 代表値(中心的傾向) ⅰ) 算術平均 ⅱ) メディアン(中央値) ⅲ) モード(最頻値) ⅳ) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位偏差
表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 データのまとめ方には 1.表・グラフによる記述(視覚的表現) 2.特性値による記述(数値的表現) がある。 表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。
Ⅰ 表・グラフによる記述 ともにさまざまなデータの表現に利用される。 Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ ともにさまざまなデータの表現に利用される。 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)に利用される。棒グラフは時系列データにもクロスセクションデータ(1時点におけるデータを何らかの項目でまとめたもの)にも利用される。 出典:総務省統計局『労働力調査』 出典:日本野球機構オフィシャルサイト
(例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) <時系列データとクロスセクションデータ> (例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) (単位:人) 鳥取県の交通事故死亡者数の年次推移 → 時系列データ 2010年の県別交通事故死亡者数 → クロスセクションデータ
??? クロスセクションデータには、通常棒グラフを用いる。 出典:文部科学省『学校基本調査』 右の図は上の図を折れ線グラフで描きなおしたものであるが、隣り合う県†どうしを線で結んでも、そこに意味はない。 ??? †都道府県コードの順なので、必ずしも隣接してはいない。
<折れ線グラフについての諸注意> 1.折れ線グラフを描く際に用いる時系列データは、原則として等間隔である。 時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさまざまなものがある。 たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2か月間隔や3か月間隔になったりしない。 (例外) 株や為替の動きの日次データは、営業日の関係上、土日(株は祝日も)を除く毎日のデータとなる。
2.折れ線グラフは、縦軸の目盛のとり方によって、印象が大きく変わる。 出典:Yahoo!ファイナンス
出典:内閣府経済社会総合研究所『国民経済計算』 <変化率> という式で定義されるものが、変化率である。 前年の値を基準にしたり、前期(月次データにおける前月など)の値を基準にしたりし、そこからの変化の割合をあらわすものである。 実質GDPの年次データにおいて、前年を基準とした変化率は、成長率といわれる。 出典:内閣府経済社会総合研究所『国民経済計算』 2009年 519兆円 2010年 540兆円 なので、2010年の成長率は 約4.0%となる。
棒グラフは前述のように、クロスセクションデータ対して用いるが、時系列データに用いられることも少なくない。 単位の異なる2つの時系列データを1つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。
質的変量であれば、それぞれに対応する観測値の数(これを度数という)を数え、棒グラフにあらわすことができる。 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 質的変量であれば、それぞれに対応する観測値の数(これを度数という)を数え、棒グラフにあらわすことができる。 元のデータにおいてチーム名は質的変量である。 チームごとに数を数える。 度数
では、連続変量もこのようにできるであろうか? ⇒ 連続変量の場合、とりうる値が多く、それぞれに対応する観測値の数は非常に小さい。(離散変量でもとりうる値が多ければ、このようなことが起こる) 質的変量の時と同じようにおこなうと、度数が1のものばかりになってしまう。 このような棒グラフでは、集団の特徴がよくわからない。
そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー † その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。
度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 ⅱ) ヒストグラム・度数折れ線 度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。
度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。 † 質的変量や離散変量の場合は、とりうる値1つ1つが階級となる。 ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。
度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。
ⅲ) 幹葉表示 幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡易的なヒストグラムといえる。 例えば、テストの点数のような2ケタの数値であれば、十の位の数を幹、一の位の数を葉として次ページのように表示する。 この表示によって、集団の分布がわかる。 度数分布表を作成するための予備的作業として用いることも可能である。
右のデータはあるクラス38人分のテストの点数のデータである。 このデータを幹葉表示してみる。 3 9 2 2 6 7 6 43 20 46 47 20 30 63 69 78 88 73 20 58 87 47 75 44 69 34 20 17 63 36 7 27 21 44 66 33 54 34 69 60 23 01 2 3 4 5 6 7 8 9 7 01 2 3 4 5 6 7 8 9 7 7 7 0 0 0 0 1 2 3 7 0 0 0 0 7 1 3 0 3 4 4 6 9 0 4 6 3 4 3 4 4 6 7 7 3 6 7 7 4 4 4 8 8 4 0 0 3 3 6 7 9 9 9 3 9 9 3 6 9 0 3 5 8 8 3 5 7 8 8 7 最終的な幹葉表示 予備的な幹葉表示
<特徴と注意点> このような表示を用いることができるのは、とりうる値が2ケタの数値が中心であり、せいぜい200までであろう。たとえば136という数値の場合、13を幹、6を葉にすればよい。 小数点以下をとる場合は、1ケタまでとなり、整数部分はせいぜい20までであろう。たとえば、7.2という数値の場合、7を幹、2を葉として表示する。 1 2 3 : 9 10 11 12 13 1 2 : 6 7 8 9 10 2 6
例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。 幹葉表示は、度数分布表・ヒストグラムと異なり、階級の幅を2cmとか5cmとかにすることは難しい。10の倍数の階級幅のとき(1番得意なのは1のとき)、便利である。 例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。 以上 未満 165 170 170 175 175 180
円グラフは相対的な割合を表現するときに用いられる。 3) 円グラフ、帯グラフ 円グラフは相対的な割合を表現するときに用いられる。 帯グラフは相対的な割合が、時間とともにどのように変化していくかなどを表現するときに用いられる。 10人の学生の例から作成 出典:総務省統計局『国勢調査』
Ⅱ 特性値による記述 1) 代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の3種類がある。
ⅰ) 算術平均 算術平均 = データの合計 ÷ データ数 (例) 10人のテストの点数
メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 ⅱ) メディアン(中央値、中位数) メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン
モード - データの中で最も多く出てくる値。10人のテストの点数の例では ⅲ) モード(最頻値) モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。
下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 ⅳ) 各代表値の特徴 下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 仮想データ この5人の収入の算術平均は メディアンは、この場合、小さい順に並んでるので モードは、 よって、算術平均は24、メディアンは22、モードは20となる。
次に、裕福なFさんがこの5人に加わったとする。 仮想データ この6人の収入の算術平均は メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25 モードは、 よって、算術平均は30、メディアンは25、モードは20となる。
次に、より裕福なGさんがこの6人に加わったとする。 仮想データ この7人の収入の算術平均は メディアンは、真ん中である。 モードは、 よって、算術平均は200、メディアンは28、モードは20となる。
下の図は貯蓄現在高階級別の世帯分布である。 別の例もみてみよう。 下の図は貯蓄現在高階級別の世帯分布である。 貯蓄現在高が算術平均(1657万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである995万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)
ゆがんだ分布であれば、算術平均とメディアンは一致しない。(モードも一致しない) 左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が1つであれば、モードもこれに一致する。
算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。 <正規分布> 算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。 この分布は、数学的に非常に取り扱いやすい性質を持っており、身長や知能指数などがこの分布にしたがうといわれている。テストの点数もこのような分布になることが理想といわれている。 † 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形ではなく、教会にあるベルの形をしている。
算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。 しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か) しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。 算術平均をうのみにしないようにしよう!
教員A 教員B 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。 2) 散布度(散らばりの傾向) 教員A チャイムの5分後に必ず教室にくる。 教員B チャイムと同時に教室にくることもあれば、10分以上遅れることもある。 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。 →散らばりの尺度の必要性 散らばりの傾向をあらわす尺度として 分散、標準偏差 レンジ(範囲)、四分位偏差 などがある。
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 ⅰ) 分散 分散=偏差2乗和÷データ数 偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 10人のテストの点数の例では
算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数(10)で割る 640 分散
ⅱ) 標準偏差 標準偏差 ⇒ 分散の平方根 10人のテストの点数の例では
※ 2人の教員が教室に来る時間の例 (単位:分) 教員A
教員B となり、教員Bの分散の方が大きいことがわかる。 標準偏差も である。
<標準化と標準正規分布> A君は、あるテストで英語が90点、数学が65点であった。 ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が80点、数学の平均点が50点だった。 ⇒ 英語は平均点より10点高い、数学は平均点より15点高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか? ⇒ 標準化の必要性(これを応用したものが偏差値)
平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。 標準化は次のような変換である。このようにして求められた変量を標準化変量(zスコア) 英語が平均80点、標準偏差10であり、数学が平均50点、標準偏差20であったとする。 この例で、 英語は 数学は となり英語の方が成績が良いことになる。
zスコアの大小で、平均や分散の異なるものを比較することができる。zスコアは算術平均0、標準偏差1の変量であるが、これを算術平均50、標準偏差10の変量に変換したものが偏差値(Tスコア)である。(算術平均50、標準偏差10は100点満点のテストの点数のように見える) 偏差値はzスコアを次のように変換する。 先ほどの例では、 英語は 数学は となる。
データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 ⅲ) レンジ(範囲) レンジ ⇒ データの取りうる範囲 レンジ = 最大値 - 最小値 10人のテストの点数の例では 90 - 10=80 ⅳ) 四分位偏差 データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、次式で定義されるQを四分位偏差という。 q1 q2 q3 最大値 最小値
(例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 q3⇒q2(メディアン)と最大値の真ん中の値
<箱ひげ図> 最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、9人のテストの点数を箱ひげ図に表した1例である。 最大値 q3(第3四分位点) 中央値 × q1(第1四分位点) 最小値