林俊克&廣野元久「多変量データの活用術」:海文堂 多変量データ分析B 第3回 第2章:モニタリング 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.4.28. SFC5限 第2章 モニタリングⅡ
第2章 モニタリング 目次 2.3 二変量の関係(1) -共に量的変量の場合- 2.3.1 二次元データ 2.3.2 相関関係と散布図 第2章 モニタリング 目次 2.3 二変量の関係(1) -共に量的変量の場合- 2.3.1 二次元データ 2.3.2 相関関係と散布図 2.3.3 相関係数 2.3.4 単回帰モデル 2.3.5 単回帰モデルの残差と診断 2.3.6 単回帰モデルの外れ値と正規性のチェック 2.3.7 単回帰モデルのテコ比と予測残差 第2章 モニタリングⅡ
2.1 モニタリングの手順 1/2 1変量の分析:基本統計量 頻度の確認:ヒストグラム,度数表 ・代表値 :平均値 2.1 モニタリングの手順 1/2 1変量の分析:基本統計量 頻度の確認:ヒストグラム,度数表 ・代表値 :平均値 ・ちらばり :平方和→分散(標準偏差) 範囲 ・かたよりなど:歪み,尖り 2変量の関係:変量間の結びつき 変数1 変数2 関連性の指標 量的 (ピアソン)相関係数 質的 相関比(分散分析→寄与率) クラメールの連関係数 第2章 モニタリングⅡ
2.1 モニタリングの手順 2/2 モニタリングの着眼点と活用する主なグラフ 調べる目的 ポイント グラフ 1 変量 ・分布の形の確認 2.1 モニタリングの手順 2/2 モニタリングの着眼点と活用する主なグラフ 調べる目的 ポイント グラフ 1 変量 ・分布の形の確認 ・欠測値,ゼロ値 ・外れ値 ・正規分布か ・層別の必要はあるか ・外れ値はあるか ・ヒストグラム ・正規分位点プロット ・箱ひげ図 2 変 量 ・2次元分布の確認 ・独立性の検討 ・相関関係や関連性はあるか ・散布図 ・モザイク図 ・層別ヒストグラム 多変量 ・多次元分布の確認 ・特異な変量はあるか ・相関関係はあるか ・外れ値はないか ・散布図行列 ・層別散布図 ・外れ値分析 第2章 モニタリングⅡ
2.3 二変量の関係(1)-共に量的変量の場合- 二変量の関係での分析手法 2.3 二変量の関係(1)-共に量的変量の場合- 二変量の関係での分析手法 一変量の分布によりデータのばらつき方をグラフや統計指標で表すことができた. 今度は二変量の関係の強さを調べる. 統計指標は,全体的な傾向を表現するには便利であるが, 個々のばらつきの様子までは分からない. グラフによる表現は,個々のばらつきの様子が手に取るように分かる. 両者を組合せることで,「木も見て森も見られる」である. JMPでは,変量のタイプにより,分析ツールが表2.2のようにセットされる. 第2章 モニタリングⅡ
標準化変量(z得点) 【操作2.7:標準化と標準化後のヒストグラム】 ①JMPを起動し,「ビッグクラス」を読み込む. ②身長(インチ)と体重(ポンド)のヒストグラムを描画する. ③一変量の分布のウインドウのタイトルの変量名 ―例えば,身長(インチ)― の左の赤い▼をクリックし,メニューの保存から標準化をクリックする. ④データテーブルに標準化された変量が追加される. ⑤標準化後身長(インチ)と標準化後体重(ポンド)のヒストグラムを描画する. ・今度は2つの変量を使って,全体的な様子や個体の特徴を調べる. ・例えば,「ビッグクラス」の身長と体重の情報が得られたとき, 両者を単純に比較することはできない. ・それは,物理的な測定単位 ―長さと重さ― が異なるからである. ・標準化変量(z得点)は,測定単位の影響を取り除くために,各データが 平均からどのくらい離れているかを標準偏差で割った値を指標としたものである. ・標準化変量は今後MDAの随所で顔を出すことになる. 第2章 モニタリングⅡ
二次元データ 1/3 図2.17は,標準化後の身長と体重のヒストグラムである. 両者の分布を比較しても意味がない. 二次元データ 1/3 図2.17 標準化後の身長と体重のヒストグラム 図2.17は,標準化後の身長と体重のヒストグラムである. 両者の分布を比較しても意味がない. JMP機能を使えば,ある生徒は,身長は高いのに体重は少ないとか身長は高く体重も重いなどの特徴を見出せるが,身長が高くなれば体重も重くなるといった,全体的な傾向を読み取ることはできない. 第2章 モニタリングⅡ
二次元データ 2/3 2つの変量の関係を調べるには,2つの変量を個体で結び付けて表示する必要がある. その方法として散布図がある. 二次元データ 2/3 図2.18 標準化された身長と体重の散布図と周辺ヒストグラム 2つの変量の関係を調べるには,2つの変量を個体で結び付けて表示する必要がある. その方法として散布図がある. 散布図は,二次元について個体の在処をプロットしたものである. 図2.18左は,標準化された身長と体重の観測値を,それぞれ別々にヒストグラムにしている. これらは,周辺ヒストグラムとよばれ,元々の観測値から得られるか,散布図の点をそれぞれの座標軸上に射影して得られる. 第2章 モニタリングⅡ
二次元データ 3/3 散布図とヒストグラムは,異なった種類の情報を含んでいる. 二次元データ 3/3 散布図とヒストグラムは,異なった種類の情報を含んでいる. 散布図からは,2つの周辺ヒストグラムを作成することができるが, 2つの周辺ヒストグラムからは,散布図を復元することができない. 図2.18の右は,体重だけ,昇順に並べ替えたものを散布図と周辺ヒストグラムで表したグラフである. 左右の周辺ヒストグラムは同じ形であるが,散布図の様子は明らかに異なる. 左の散布図は右上がりの傾向があるのだが,右では右下がりの傾向を示している. つまり,散布図では,周辺ヒストグラムからでは分からない情報 ―共に変動する傾向― を持っている. 2つの変量の直線的な結びつきが大きければ,変量1つずつ調べるだけでは,大事な情報を取り逃がしてしまうのである. 第2章 モニタリングⅡ
2.3.2 相関関係と散布図 2つの変量が共に連続尺度である場合には,散布図によりその傾向を調べることができる. 2.3.2 相関関係と散布図 2つの変量が共に連続尺度である場合には,散布図によりその傾向を調べることができる. 散布図は調べようとする2変量間の関係の様子を図示するものである. 図2.19 相関の大きさの違う散布図 第2章 モニタリングⅡ
因果関係の散布図のルール 因果関係のある散布図は, 目的変量yを縦軸に, yを説明する説明変量,あるいは要因xを横軸に取る. 例えば, ・ 授業の出席率xと期末試験の成績y ・ 車のセールスマンの好感度xと車の満足度y ・ 企業のブランドイメージxと学生の企業人気度y などである.散布図の読み方は, ・ 打点が直線関係にあるかどうか ・ 打点の傾向が右上がりなのか,右下がりなのか ・ 傾向線との離れ具合の大きさはどうなのか などに着目する. 第2章 モニタリングⅡ
相関関係 6つの散布図には,プロットの95%が収まるような確率楕円が追加されている. この楕円の形により相関の強さを視覚的に理解できる. 上4つの散布図のように,プロットが直線的に右上がりであれば,正の相関があるという. 逆に右下の散布図のように,プロットが右下がりであれば負の相関があるという. また,左下は傾向がないもので無相関と呼ばれる. 散布図を作成する目的として,2変量間に直線的関係があるかどうかや相関関係の強さを視覚的に見たいなど変量に関するもの データに外れ値があるかを調べたり層別の必要があるかどうか調べたりと,個体に関するものとがある. 第2章 モニタリングⅡ
二次元での外れ値 図2.20 確率楕円と外れ値 第2章 モニタリングⅡ
活用術2.6 記述の散布図 第2章 モニタリングⅡ
操作2.8 二変量の関係 ①“分析(A)”メニューの“二変量の関係”をクリックする. 操作2.8 二変量の関係 ①“分析(A)”メニューの“二変量の関係”をクリックする. ②表示されたウインドウの“列の選択リスト”から“体重(ポンド)”をクリックして,“Y,目的変数”ボタンをクリックする. ③ウインドウの“列の選択リスト”から“身長(インチ)”をクリックして,“X,説明変数”ボタンをクリックし,“OK”ボタンをクリックする. 第2章 モニタリングⅡ
2.3.3 相関係数 1/4 相関の強さを定量的に測る指標が必要である.それが相関係数である.相関係数rの範囲は,|r|≦1で,±1のときもっとも強い.また,0のとき無相関になる.相関係数が負のときは,負の相関があるという.相関係数は次式で定義される. 第2章 モニタリングⅡ
2.3.3 相関係数 2/4 2つの量的変数データ 1)偏差積和 2)共分散 3)相関係数 ばらつく部分がどんな関係にあるか x y 2.3.3 相関係数 2/4 2つの量的変数データ 1)偏差積和 サンプル x y xとyの関連 1 x1 y1 2 x2 y2 3 x3 y3 ・ i xi yi n xn yn 平均 平方和 分散 標準偏差 2)共分散 3)相関係数 ばらつく部分がどんな関係にあるか 第2章 モニタリングⅡ
2.3.3 相関係数 3/4 相関係数の意味 人口データ アイデア:平均値で4分割する ・xとyが互いに独立(無関係)であれば, 2.3.3 相関係数 3/4 相関係数の意味 人口データ アイデア:平均値で4分割する ・xとyが互いに独立(無関係)であれば, 4つの領域でのプロット数はほぼ等しくなるであろう ・かたより(共に大きくなる傾向など)があれば, 領域にある個数にもかたよりが生じる ・データ1つ1つの平均値からの距離も考慮したい(遠いほど影響力がある) 図の右上の領域にあるデータは 右下の領域で考えると 第2章 モニタリングⅡ
2.3.3 相関係数 4/4 相関係数の意味-2 アイデア:測定単位の影響を除く→標準化する アイデア:データ1個当りのに直してみると 2.3.3 相関係数 4/4 相関係数の意味-2 アイデア:測定単位の影響を除く→標準化する アイデア:データ1個当りのに直してみると アイデア:変形してみると これを相関係数と呼ぼう(ピアソンの相関係数) 第2章 モニタリングⅡ
活用術2.7 二変量の分析で必要な統計指標 相関関係には各分布の平均位置の情報はない 第2章 モニタリングⅡ
散布図と相関係数の注意 図2.22 同じ相関係数でも散布状況が異なるもの 図2.22に示すように,左の直線に沿って均等に散らばっている場合と,右の偏って散らばっている場合とでは,明らかに散布状況が異なるが,相関係数は一致している.右の場合のように,点線で囲った部分が測定を誤った(測定単位を読み間違えた)値であったり,測定が偏った結果であったりした場合には,見かけの相関係数が1に近いことがある.点線で囲った部分を除いて,相関係数を計算すると,始めの場合よりもずっと小さな値になるかも知れない.相関関係は,相関係数と散布図の両方を出力して,総合的に考察する必要がある. 第2章 モニタリングⅡ
擬似相関 いくら散布図を作成して相関を発見しても,それらが論理的に結びついていないと意味がない. このような関係を擬似相関と呼ぶ. 例えば,小学生全体では,身長と学力とに正の相関がある. これは,学年を無視したためで,学年別に,身長と学力の関係を調べれば相関は消える. これは,学習過程と学力とに相関があり,学習過程と身体の発育とに相関があり,その結果,身長と学力との間に擬似相関が現れたのである. 擬似相関は,層別などにより見破ることができる. 第2章 モニタリングⅡ
操作2.9 相関係数の表示 ①散布図が表示されているウインドウの上側にある“身長(インチ)と体重(ポンド)の二変量の関係”の左の赤い▼をクリックする. ②メニューの“確率楕円”をクリックし,“.95”をクリックすると信頼率95%の確率楕円が追加される. ③ウインドウの下にできた“相関”の左にある青い三角をクリックすると相関係数が表示され,r=0.709 である. 第2章 モニタリングⅡ
2.3.4 単回帰モデル x y x y 回 帰 関 係 阪神電鉄の株価 星野阪神の成績 相 関 係 料理の美味しさ イタリアンレストランの 2.3.4 単回帰モデル 回 帰 関 係 • 変数の役割(回帰関係) y – 予測の対象となる変数:目的変数 x – 予測に使う変数 :説明変数 阪神電鉄の株価 x y 星野阪神の成績 e 残差 相 関 係 • 変数の役割(相関関係) y – 解析の対象となる変数:説明変数 x – 解析の対象となる変数:説明変数 y 料理の美味しさ x イタリアンレストランの 従業員の雰囲気 第2章 モニタリングⅡ
身長と体重の散布図 身長と体重には正相関がある 身長 体重 真の原因 考え方 身長 体重 誤差 身長と体重とは相関関係がある 図2.23 身長と体重の散布図 身長と体重とは相関関係がある 考え方として,身長よりも体重をコントロールすることが容易である 同じ身長だとしたら,平均的な体重がいくらかを検討することは,エステ業界だけでなく意味がある 第2章 モニタリングⅡ
単回帰式 身長で体重を予測することが何故妥当であるか 我々が生活する上での意味的に考えよ。 (2.16) 傾きがb1 (2.17) x,yのデータから平均が引かれている ことに注目 身長で体重を予測することが何故妥当であるか 我々が生活する上での意味的に考えよ。 第2章 モニタリングⅡ
確率楕円と回帰直線 確率楕円は、平均的に95%の観測点が存在している領域(共に正規分布を仮定) 単回帰モデルは、y方向の誤差eを最小とする 図2.23 身長と体重の散布図 図2.24 確率楕円と回帰直線の関係 確率楕円は、平均的に95%の観測点が存在している領域(共に正規分布を仮定) 単回帰モデルは、y方向の誤差eを最小とする 第2章 モニタリングⅡ
身長と体重の散布図 回帰直線は,以下の3つの点を必ずとおる 回帰直線の意味は, 同じ身長の個体を集めたとき(条件) 同じ身長の個体を集めたとき(条件) その平均的な体重が幾らかを 直線的関係によりモデル化したもの 実測値と平均的体重からの差が残差 でどの身長の値(場所)でも同じばらつ きσを持つとする 図2.24 確率楕円と回帰直線の関係 回帰直線は,以下の3つの点を必ずとおる 確率楕円と身長に対する垂線との2つの接線の点 平均位置 第2章 モニタリングⅡ
確率楕円と3つの直線 ・yを予測するxの Y 回帰直線y=b0+b1x e e ・xを予測するyの 回帰直線x=a0+a1y 主成分 X 第2章 モニタリングⅡ
仮説検定 帰無仮説:母集団の傾きはβ1は0である 対立仮説:傾きb1に統計的意味がある 標本 傾きがb1 母集団 傾きが 図2.25 単回帰分析の結果 標本 傾きがb1 母集団 傾きが 帰無仮説:母集団の傾きはβ1は0である 対立仮説:傾きb1に統計的意味がある yの平均線が回帰の95%信頼区間上下限から 外れていればOK 第2章 モニタリングⅡ
回帰診断 誤差(モデルで標本から計算した実際の値ではないことに注意) 第2章 モニタリングⅡ
残差の性質 第2章 モニタリングⅡ
回帰であてはまっていない、残差eについて グラフで、モデルの仮定を確認する 2.3.6 単回帰モデルの外れ値と正規性チェック 回帰であてはまっていない、残差eについて グラフで、モデルの仮定を確認する 図2.26 残差の正規分位点プロット 正規性と外れ値をチェック してみよう 残差に外れ値があるときは,その原因を究明する. 外れ値から思いがけない問題解決のヒントが得られる場合がある. 解析から除外した旨を必ず報告書に記入し, 除外した観測値の素性を忘れずに記述する. 第2章 モニタリングⅡ
2.3.7 単回帰モデルのテコ比と予測残差 重心(平均)から遠い観測値の変動は、回帰直線の傾きに影響を与えやすい 2.3.7 単回帰モデルのテコ比と予測残差 Y 図2.27 テコ比の影響 X 重心(平均)から遠い観測値の変動は、回帰直線の傾きに影響を与えやすい 回帰ではx側は変動しないことを前提としている 確率的に変動しているのはy方向である 第2章 モニタリングⅡ
演習問題2.1を考えよ 十種競技の例 各競技と総合得点との単回帰分析を行い結果と考察を述べよ 第2章 モニタリングⅡ
2.4(補) データ解析の手順-① Ⅰ.1変数ごとの解析手順 1)分布の様子を見る 手法:ヒストグラム,箱ひげ図,確率プロット 2.4(補) データ解析の手順-① Ⅰ.1変数ごとの解析手順 1)分布の様子を見る 手法:ヒストグラム,箱ひげ図,確率プロット 要点:中心・ばらつき・歪み・尖り・はずれ,データ再現性 2)欠測値やゼロ値を確認する 手法:欠測処理可能ソフト,回帰分析で予測 など 要点:ゼロのものと欠測値としてゼロになったものと混同しない 解析にゼロを含めるか含めないかを明確にしておく 3)分布の要約値を算出する 手法:基本統計量 要点:nを明示する.対称性,正規性のチェック 4)はずれ値を検出する 手法:箱ひげ図(はずれ:1.5*4分位,飛びはずれ:3.0*4分位) 要点:外れ値がすべてエラーデータではない,はずれ値検討で思考を豊かに 5)層別して分布を比較する 手法:箱ひげ図,層別ヒストグラム 要点:分布位置,ばらつきの比較,層別は知見と別に機械的に,両者を比較 6)データの再現性を検討する 手法:べき変換,変数変換 7)分布モデルを検討する 手法:確率プロット,適合性検討 第2章 モニタリングⅡ
2.4(補) データ解析の手順-③ Ⅱ.2変数の対ごとの解析手順 8)2次元の分布の様子を見る 手法:散布図,層別ヒストグラム&箱ひげ図 2.4(補) データ解析の手順-③ Ⅱ.2変数の対ごとの解析手順 8)2次元の分布の様子を見る 手法:散布図,層別ヒストグラム&箱ひげ図 要点:中心・範囲・形を見る ケース数が多いときはランダムサンプリング 9)欠測値やゼロ値を確認する 要点:ゼロのものと欠測値としてゼロになったものと混同しない 解析にゼロを含めるか含めないかを明確にしておく 10)はずれ値を摘出する 手法:散布図の視察,マハラノビス距離 要点:散布図から見て,楕円形にデータが分布していれば,平均を中心に距離で 測ることができる 11)相関の強さを見る 手法:相関係数,順位相関係数 要点:外れ値の影響を見る.はずれ値を取り除くと係数はどのくらい動くか 12)従属関係を検討する(原因-結果) 手法:パス図,回帰分析 要点:変数の役割に注意,疑似相関にも注意 13)層別を検討する 手法:色やプロットの変更 14)データの再現性を検討する 手法:変数変換,直線化,等分散化 第2章 モニタリングⅡ
2.4(補) データ解析の手順-⑤ Ⅲ.多変量データ解析手順 15)相関係数行列を点検する 手法:散布図行列,相関係数行列 2.4(補) データ解析の手順-⑤ Ⅲ.多変量データ解析手順 15)相関係数行列を点検する 手法:散布図行列,相関係数行列 要点:相関係数の絶対値の大きい幾つかでシナリオを作る,相関の誤差 16)主成分分析によりデータを要約する 手法:主成分分析 要点:はずれ値の影響に注意 17)回帰モデルの探索と回帰診断 手法:回帰分析 要点:探索的診断的に(本講座対象外) 18)各種解析と結果の検証 手法:ブートストラップ法,ジャックナイフ法,データ2分法 要点:検証のないデータの結果は話し半分に聞く. データを2つに分け同じ解析を行って安定性を見る 第2章 モニタリングⅡ
第1回宿題 1.以下のデータについて,散布図を描き相関係数を求めてみよう. (計算手順をきちんと示すこと) x -1 -1 0 0 0 1 1 y -1 0 –1 0 1 0 1 z 2.xとyの和をzとしたとき,zの平均,平方和,x,yとの偏差積和と 相関係数を求めなさい. 3.rx,yとrx,z, ry,zとはどのような関係があるか 4.注意:宿題には氏名,学籍番号,メールアドレスを記入して ください. 第2章 モニタリングⅡ