第3章 2変量データの記述 統計学基礎 2011年度
目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 Ⅲ 2変量データの分析 Ⅳ 多変量データ分析の初歩 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)と2次元ヒストグラム 2) 散布図 Ⅱ 特性値による記述 1) 相関係数 Ⅲ 2変量データの分析 1) 不平等度の分析 ⅰ) ローレンツ曲線 ⅱ) ジニ係数 2) 回帰分析 ⅰ) 相関関係と因果関係 ⅱ) 最小2乗法 ⅲ) 予測値と残差 ⅳ) 決定係数 Ⅳ 多変量データ分析の初歩 1) 重回帰分析入門 2) レーダーチャート
2変量データ → 2つの対になったデータ 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述 2変量データ → 2つの対になったデータ (例)なでしこJAPANの身長と体重 ※ なでしこJAPANの身長と男子日本代表の体重は2つのデータであるが、対になっていない。 ※ 2変量データはその組合せを変えることはできない → 澤の身長と川澄の体重を組み合わせても、意味がない。 2変量データの記述 → それぞれ1変量の記述 + 2変量の関係の記述
Ⅰ 表・グラフによる記述 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 Ⅰ 表・グラフによる記述 1) 分割表(クロス集計表)・2次元ヒストグラム 2変量についてクロス集計した度数分布表のことを、分割表(またはクロス集計表)という。 質的変量、または離散変量で取りうる値の少ないものは、それぞれに対応する度数を数えればよい。 例) 血液型と性別でクロス集計したもの
一方、連続データや離散データでとりうる値の多いものは、2次元の度数分布表となる。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー 2次元の度数分布表は、右のように2次元ヒストグラム(グラフは3D)であらわすことができる。
2) 散布図 連続データや離散データでとりうる値の多いものは、横軸にX、縦軸にYをとった座標軸上に、個々のデータをあらわした散布図であらわされることも多い。 なでしこジャパン ロンドン五輪予選ベンチ入りメンバー
Ⅱ 特性値による記述 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 Ⅱ 特性値による記述 1) 相関係数 xとyの共分散 Xの標準偏差 yの標準偏差 相関係数 r は2変量間の関連の強さを表す尺度であり、-1と1の間の値をとる。 r>0 正の相関 1に近いほど関連度が強い r<0 負の相関 -1に近いほど関連度が強い r=0 無相関
Ⅰ 各点のx座標と平均との差 と、y座標と平均との差 を考える。 Ⅱ Ⅳ Ⅲ 点が、Ⅰの部分にあるとき は、+×+=+となる。 点が、Ⅱの部分にあるとき は、-×+=-となる。 点が、Ⅲの部分にあるとき は、-×-=+となる。 点が、Ⅳの部分にあるとき は、+×-=-となる。
相関係数と散布図は密接な関係があり、右上がりの散布図は相関係数が+であり、右下がりの散布図は相関係数が-である。 また、相関係数が±1に近いほど、散布図は直線に近くなる。 正の相関(r>0) Xが大きな値をとるほど、Yも大きな値をとる。 負の相関(r<0) Xが大きな値をとるほど、Yは小さな値をとる。 無相関(r=0) Xの値とYの値に一定の傾向がみられない。
Ⅲ 2変量データの分析 この分布は、少数の大金持ちと多数の庶民がいる状態を示している。 このような状態は不平等であると考える。 Ⅲ 2変量データの分析 1) 不平等度の分析 第2章で示した、貯蓄現在高階級別の世帯分布は、下のようになっていた。 この分布は、少数の大金持ちと多数の庶民がいる状態を示している。 このような状態は不平等であると考える。 すべての人の資産†が等しい状態を平等‡とし、そこからどの程度離れているかを知りたい。 † 所得面から平等をみることもある。 ‡ 平等を定義することは容易ではないが、ここではこのように定義する。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/4-5.htm#1)
5人兄弟が遺産を相続するとき、 † 5人兄弟の遺産相続の例 † 5人兄弟の遺産相続の例 5人兄弟が遺産を相続するとき、 (a) は、5人兄弟がそれぞれ5分の1ずつ相続するという例。 (b) は、5人兄弟がそれぞれ異なった取り分を相続する例。 (c) は、長男がすべての遺産を相続するという例。 (a) は、5人が平等に相続しているのに対して、(b)や(c) は、不平等である。
(b)のパターンを例に取り上げる。このパターンを、取り分の小さい順に並べかえ、人数の比率と金額(遺産の取り分)の比率の累積を計算してみる。 累積-それ以前のものをすべて加えるということ。 (例) (b)の三男の累積金額比率 「五男の取り分」+「四男の取り分」+「三男の取り分」となるので、1/15 + 2/15 + 3/15 = 6/15 となる。
横軸に累積人数比率を、縦軸に累積金額比率をとり、線でつないだものが下の図である。 ⅰ) ローレンツ曲線 横軸に累積人数比率を、縦軸に累積金額比率をとり、線でつないだものが下の図である。 この曲線は、ローレンツ曲線とよばれ、不平等の度合いを表す 曲線である。
遺産相続の3つのパターンについて、取り分の小さい順に並べかえ、人数の比率と金額(遺産の取り分)の比率の累積を計算してみた。 45度線が完全平等線といわれる。 (この例では(a)のグラフが該当す る。) 不平等度が大きいほど、グラフが 完全平等線から右下方に離れる。 → (b)より(c)の方が不 平等
ローレンツ曲線の完全平等線からの離れぐあいを数値で表したもの 完全平等線とローレンツ曲線で囲まれる部分の面積を2倍したもの ⅱ) ジニ係数 ローレンツ曲線の完全平等線からの離れぐあいを数値で表したもの 完全平等線とローレンツ曲線で囲まれる部分の面積を2倍したもの この面積の2倍 灰色の四角の面積が1なので、0と1の間の値をとり、1に近いほど不平等度が大きい
残りの部分を台形に分割し、正方形から引く ジニ係数の計算方法 残りの部分を台形に分割し、正方形から引く 台形の面積の公式 (上底+下底)×高さ÷2 を使う。 下底 上底 高さ
このような台形(1番左は直角三角形)の面積を全部加え、その2倍を正方形から引く 遺産相続の例 (b) 0.267 遺産相続の(b)で、次のような台形がある。 上底 - 三男までの累積金額比率(6/15) 下底 - 次男までの累積金額比率(10/15) 高さ - 三男と次男の累積人数比率の差(1/5) この台形の面積は (6/15 + 10/15)×1/5÷2 = 8/75 このような台形(1番左は直角三角形)の面積を全部加え、その2倍を正方形から引く 1-(1/150 + 2/75 + 3/50 + 8/75 + 1/6) × 2 = 1-11/30×2 = 4/15 = 0.2666…
年間収入の例 (平成22年 家計調査 2人以上世帯) (例) (0.00725+0.02361)×(0.07189-0.02788)÷2 = 0.00068 ジニ係数 1-0.35231×2 = 0.2954
2) 回帰分析 ⅰ) 相関関係と因果関係 左の表は日本の実質家計可処分所得(所得(X)と記述)と、実質家計最終消費支出 (消費(Y)と記述)の、1981年から1998年までのデータである。 このデータを横軸に所得、縦軸に消費をとった散布図であらわすと、下の図のようになる。 (単位: 兆円) データ出典: 内閣府経済社会研究所『国民経済計算』
所得と消費の散布図を見ると、「所得と消費の間には正の相関がある」といえる。 所得が多くなれば、消費も多くなる。 所得が少なくなれば、消費も少なくなる。 さらに、所得と消費の関係は相関関係だけではなく、所得を原因、消費を結果とする因果関係が成り立っている。 因果関係 一方が原因となって、もう一方が結果となる関係。原因と結果を反対にすることはできない。 (例)所得が高い(原因)⇒消費が多い(結果) 相関関係 因果関係
風が吹く(原因)⇒ 桶屋が儲かる(結果) ※ 風が吹くと桶屋が儲かる 最終的には 風が吹くと砂ぼこりが立つ ※ 風が吹くと桶屋が儲かる 風が吹くと砂ぼこりが立つ → 砂ぼこりで目を痛めて失明する人が増える → 失明した人はよく三味線を弾くのでその需要が増える → 三味線には猫の皮を張るので猫が捕獲されて数が減る → するとねずみが増えるので桶がたくさんかじられる → だから桶屋が儲かる いくつもの因果関係が連鎖したもの。 最終的には 風が吹く(原因)⇒ 桶屋が儲かる(結果) となる。
このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 経済理論はこのような因果関係の積み重ねである。 (例) 「ある商品の価格を下げると、販売数量は増加する」 このような論理の積み重ねによって、経済の現状把握・予測をおこなうことを定性的分析という。 これから一歩踏み込んで、 「ある商品の価格を○%下げると、販売数量が○%増加する」 というように、数量的な把握をするものが定量的分析である。 このような定量的分析をおこなうために、統計データが用いられる。 (例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略) 桶屋が○○円儲かる。
統計データを用いた定量的分析のことを、計量分析という。経済分析における計量分析が計量経済分析である。 計量経済分析をおこなうことによって、経済理論が現実経済に合致しているかどうかのチェックをおこなうことができる。 因果関係の定量的分析には回帰分析という統計手法がよく用いられる。
ⅱ) 最小2乗法 回帰分析は、XとYとの関係を、数式をあてはめることによって分析するものである。 回帰分析は、イギリスの遺伝学者ゴルトンが、父親の身長とその息子の身長の関係に注目したところ、直線であらわすことができることを発見したことが始まりである。 なお、「回帰」の語源は、父親と息子の身長を比較すると、息子の身長の方がより親より平均に近くなること。すなわち非常に高身長な父親の息子は、父親より低くなり、非常に低身長な父親の息子は、父親より高くなることを見出したことによる。(平均への「回帰」が語源である。)
Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 回帰分析では、最初に、最も適当と考えられる数式の形(回帰モデルという)を選ぶことからおこなわれる。 回帰モデルの例 (どのような式が最適かは、散布図や経済理論などから総合的に判断される) Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。 Y=a+bX Y=a+bX2 Y=a/(X+b)
回帰係数の推定値は最小2乗法という方法で求めることができる。 最小2乗法はデータの各点と直線との距離(これを残差という)の2乗和が最小となるように直線を引く方法である。 推定値は次のような式で求められる。 こうして、YとXの関係をもっともよくあらわす、 という式を求める。 Xが1増加したとき、Yはおおよそ 増加する。
残差はYから を引いたものである。 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 ⅲ) 予測値と残差 あるXに対応する直線上の点を予測値(または理論値)といい、 であらわす。 予測値は、すべてのデータが推定された回帰直線上にあるとした場合に、あるXに対応したYの値であり、データとして現有していないXに対するYの値の予測となる。 残差はYから を引いたものである。
所得と消費の例ではY=a+bXという線形のモデルを考える。このモデルはケインズ型消費関数といわれるモデルである。 この例において、回帰係数の推定値を求めると、 となる。 1981年のXは212なので、 -23.21+0.945×212=177.13 が予測値となる。 残差は 173 - 177.13 = -4.13 である。 Y=-23.21+0.945X
この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。 ⅳ) 決定係数 右の表のような数値例を考えてみよう。 この2つの例に回帰分析を適用すると、ともにY=3+0.5X という回帰直線が導出される。 Y=3+0.5X Y=3+0.5X
この2つの図を比べると、データに対する回帰直線のあてはまりが異なること(データが直線の近くに位置しているか、直線から離れて位置しているか)がわかる。そのあてはまり具合を数値で表したものが決定係数R2である。 この2つの例の、左はR2=0.998、右はR2=0.685となる(導出方法は後述)。 決定係数は、 と解釈することができ、0と1の間の値をとる。決定係数が1に近いほど回帰直線のあてはまりはよく、決定係数の値が小さい場合(0.5とか0.6以下の場合)には、分析の妥当性を検討する必要がある。
具体的には、すべての点のYの平均の線を引き、各点と平均の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗和の比をとったものである。 回帰直線上の点(予測値)と平均の差、この2乗和が回帰によって説明される変動となる。 この2つの比が決定係数R2となる。 決定係数の式は次のようになる。
消費額の大小は、所得の大小が原因となっている。 Ⅳ 多変量データ分析の初歩 1) 重回帰分析入門 所得と消費との間に、 Y(消費) = a + b X(所得) ↑ ↑ 結果 原因 という因果関係が存在することを、ケインズが提唱した。 これは、 消費額の大小は、所得の大小が原因となっている。 ということである。 (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。
しかし、消費額の大小を決定する原因は所得だけでよいであろうか? (例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万円の人のほうが多く使うことができる。 ここで、毎月のバイト代が5万円の人が2人いたとしよう。その2人のうち1人は貯蓄が0円、もう1人は100万円の貯蓄があったとする。 この2人の所得は等しい。なので、消費額は同じぐらいになるはずであるが、100万円の貯蓄がある人は、その貯蓄を崩して消費することも可能である。 すなわち、消費額の大小は、所得だけでなく、資産(預貯金以外に、株式などを含めたもの)の大小によって決定されるのではないであろうか? Y(消費) = a + b X(所得) + c W(資産) ↑ ↑ ↑ 結果 原因1 原因2 † このようなモデルはトービンによって提唱された
説明変数が複数ある回帰モデルのことを重回帰モデルといい、重回帰モデルを用いた分析のことを重回帰分析という。 (説明変数が1つのモデルは単回帰モデル(または単純回帰モデル)といい、単回帰モデルを用いた分析のことを単回帰分析(または単純回帰分析)という) 重回帰モデルは次のような式で表される。 Y = a + bX + cW + dZ + ・・・ Y = a + b1X1 + b2X2 + b3X3 + ・・・ (説明変数とその係数を添え字つきの変数で表したもの) Y = b0 + b1X1 + b2X2 + b3X3 + ・・・ (上の式の定数の部分も添え字つきの表現をしたもの) 重回帰モデルの中には説明変数が多数のモデルもあるので、別々のアルファベットで表現するには不十分となり、添え字つきの変数で表現されることがある。
※ 3変数(説明変数が2つ)の場合の重回帰モデル ※ 3変数(説明変数が2つ)の場合の重回帰モデル Y 3変数の場合には回帰直線ではなく、回帰平面になる。 この場合、最小2乗法は各点と回帰平面との垂直方向の距離(これが残差)の2乗和が最小になるように平面を描くことである。 最小2乗法で求めた回帰平面の係数推定値は次のようになる。 W × × × × 回帰平面 Y=a+bX+cW X
2) レーダーチャート スポーツテストでは、多種目についてテストをおこなう。 2) レーダーチャート スポーツテストでは、多種目についてテストをおこなう。 そのテストの結果(個人、クラス平均など)をあらわすのに最適なものがレーダーチャートである。 レーダーチャートによって、その個人やクラスの長所と弱点を一目でとらえることが可能になる。 他には、5教科のテストの成績や、自治体の充実度などを表現するときに用いられる。