Download presentation
Presentation is loading. Please wait.
1
林俊克&廣野元久「多変量データの活用術」:海文堂
多変量データ分析B 第2回 第2章:モニタリング 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 SFC5限 第2章 モニタリングⅠ
2
第2章 モニタリング 1/2 データの可視化によるデータの性質の評価
第2章 モニタリング 1/2 データの可視化によるデータの性質の評価 MDAの出力だけで判断をすると,うっかりデータに騙されてしまうかも知れない. MDAは多変量空間の縮約であり,多変量空間を別の方向から眺める. 我々が生活しているより高次の次元を処理する方法である. 影響力の強い少数個のデータの癖により結論が変ってしまうことがある. 第2章 モニタリングⅠ
3
第2章 モニタリング 2/2 目次 2.1 モニタリングの手順 2.2 一変量の分布 2.2.1 ヒストグラム
第2章 モニタリング 2/2 目次 2.1 モニタリングの手順 2.2 一変量の分布 2.2.1 ヒストグラム 2.2.2 ヒストグラムの注意点 2.2.3 正規分位点プロット 2.2.4 箱ひげ図 2.2.5 基本統計量 2.2.6 変数変換 第2章 モニタリングⅠ
4
2.1 モニタリングの手順 1/2 1変量の分析:基本統計量 頻度の確認:ヒストグラム,度数表 ・代表値 :平均値
2.1 モニタリングの手順 1/2 1変量の分析:基本統計量 頻度の確認:ヒストグラム,度数表 ・代表値 :平均値 ・ちらばり :平方和→分散(標準偏差) 範囲 ・かたよりなど:歪み,尖り 2変量の関係:変量間の結びつき 変量1 変量2 関連性の指標 量的 (ピアソン)相関係数 質的 相関比(分散分析→寄与率) クラメールの連関係数 第2章 モニタリングⅠ
5
2.1 モニタリングの手順 2/2 モニタリングの着眼点と活用する主なグラフ 調べる目的 ポイント グラフ 1 変量 ・分布の形の確認
2.1 モニタリングの手順 2/2 モニタリングの着眼点と活用する主なグラフ 調べる目的 ポイント グラフ 1 変量 ・分布の形の確認 ・欠測値,ゼロ値 ・外れ値 ・正規分布か ・層別の必要はあるか ・外れ値はあるか ・ヒストグラム ・正規分位点プロット ・箱ひげ図 2 変 量 ・2次元分布の確認 ・独立性の検討 ・相関関係や関連性はあるか ・散布図 ・モザイク図 ・層別ヒストグラム 多変量 ・多次元分布の確認 ・特異な変量はあるか ・相関関係はあるか ・散布図行列 ・層別散布図 ・外れ値分析 第2章 モニタリングⅠ
6
2.2 一変量の分布 目的 データの分布を調べる 連続尺度 順序尺度&名義尺度 サンプルデータのビッグクラス.JMPを使う
2.2 一変量の分布 目的 データの分布を調べる 連続尺度 中心位置,左右対称性,歪み,尖り,外れ値の探索 グラフ(ヒストグラムなど)や統計量により検討 順序尺度&名義尺度 カテゴリ比率 サンプルデータのビッグクラス.JMPを使う 第2章 モニタリングⅠ
7
2.2.1 ヒストグラム JMPの起動 スクリプトが保存 ・分析手順一覧 列:変量情報 ・データの尺度に 注意 行:個体情報
2.2.1 ヒストグラム JMPの起動 図2.1 ビッグクラスのデータウインドウ スクリプトが保存 ・分析手順一覧 列:変量情報 ・データの尺度に 注意 行:個体情報 ・分析からの除外や 外れ値検討に使う 第2章 モニタリングⅠ
8
操作2.1:ヒストグラムの作成 ①メニューの“分析(A)”から“一変量の分布”をクリックすると,図2.2のウインドウが表示される.
図2.2 変量選択ウインドウ ①メニューの“分析(A)”から“一変量の分布”をクリックすると,図2.2のウインドウが表示される. ②図2.2の“列の選択”から性別,身長(インチ),体重(ポンド)をクリックし,その状態で“Y,列”ボタンをクリックする. ③“OK”ボタンをクリックするとヒストグラムが表示される. 第2章 モニタリングⅠ
9
活用術2.1:リンク機能 ヒストグラムの活用(図2.3参照)
図2.3 ヒストグラムの表示 ヒストグラムの活用(図2.3参照) 例えば,棒グラフの性別で“M”をカーソルでクリックすると,データテーブルは連動して男子生徒が選択状態になり背景が反転する.また,身長,体重のヒストグラムも同様に男子生徒に該当する領域の色がリンクして濃くなる. 第2章 モニタリングⅠ
10
棒グラフ 標本誤差 の大きさから計算している 質的データ(名義尺度&順序尺度)ではカテゴリ比率に着目 図2.4 性別の棒グラフと度数
割合の標準誤差や累積割合は,度数のブロックにカーソルを移動し,右クリックでメニューを表示させて,“列”の“割合の標準誤差”などをクリックする 図2.4 性別の棒グラフと度数 標本誤差 の大きさから計算している 質的データ(名義尺度&順序尺度)ではカテゴリ比率に着目 第2章 モニタリングⅠ
11
操作2.2:ヒストグラムオプション ①タイトルの“性別”の左の赤い▼を クリックして,メニューを表示させる.
①タイトルの“性別”の左の赤い▼を クリックして,メニューを表示させる. ②メニューの“モザイク図”をクリック すると図2.4のモザイク図が描画される. ③再び,赤い▼をクリックして,メニュー の“ヒストグラムオプション”をクリックし, 下位メニューの“標準誤差バー”をクリッ クする. 標準誤差バーが棒グラフに追加される. 度数軸,割合軸…を同様な操作で追加する. 図2.5 棒グラフオプション 第2章 モニタリングⅠ
12
2.2.2 ヒストグラムの注意点 1/2 ヒストグラムの読み方 ヒストグラムは分布を調べるためのグラフ
2.2.2 ヒストグラムの注意点 1/2 ヒストグラムの読み方 ヒストグラムは分布を調べるためのグラフ 適当なデータ区間に区切ったときに,そこに入る頻度を柱状に表現にしたものである. ヒストグラムでは,分布の中心位置,分布の対称性,分布からの外れ値に着目する. ヒストグラムは,データ区間の取り方により形が変ることがある 第2章 モニタリングⅠ
13
図2.6 VTRの録画時間の差(秒)のヒストグラム
2.2.2 ヒストグラムの注意点 2/2 図2.6 VTRの録画時間の差(秒)のヒストグラム 第2章 モニタリングⅠ
14
操作2.3 ヒストグラムのデータ区間変更 ダブルクリック ①メニューの“ツール(O)”をクリックし,“手のひらツール”をクリックする.
操作2.3 ヒストグラムのデータ区間変更 ダブルクリック 図2.7 ヒストグラムのデータ区間の変更 ①メニューの“ツール(O)”をクリックし,“手のひらツール”をクリックする. ②ヒストグラムが描画されている領域に,カーソルを異動させると,ポインタは,図2.7の左にある手のひらに変る. ③手のひらを上下左右に動かすとヒストグラムの柱の太さや目盛りが変る. ④Y軸の領域をダブルクリックすると,図2.7の右のウインドウが表示され,そこで目盛りの間隔や最大値,最小値などを変えることができる. 第2章 モニタリングⅠ
15
2.2.3 正規分位点プロット 正規分布に従うデータ であれば, プロットは直線的傾向を 示す 歪みのある分布 尖りのある分布 双山分布
2.2.3 正規分位点プロット 歪みのある分布 正規分布に従うデータ であれば, プロットは直線的傾向を 示す 直線的傾向 尖りのある分布 双山分布 順序尺度 外れ値 図2.8 色々な分布の正規分位点プロット 第2章 モニタリングⅠ
16
2.2.4 箱ひげ図 中央値 4分位値 4分位値 外れ値 候補 平均 描画された長方形を箱といい,
2.2.4 箱ひげ図 4分位値 中央値 4分位値 外れ値 候補 平均 描画された長方形を箱といい, 長方形の真ん中の線が中央値(データを小さい方から順に並べたときの全体に対する50%点), 上下の辺が4分位値(25%点,75%点)を表している. 4分位範囲とは,2つの4分位値の差である. ひし形の左右の頂点を結ぶ線が標本の平均である. 長方形から上下に伸びる線はひげといい, ひげは箱の両端から,次のように計算された範囲内にある最も遠いデータ点までをつないでいる. 上側4分位点+1.5×(4分位範囲) 下側4分位点-1.5×(4分位範囲) 第2章 モニタリングⅠ
17
操作2.4 ヒストグラムオプション ①“身長(インチ)”の左の赤い▼をクリックして,メニューを表示させる.
操作2.4 ヒストグラムオプション ①“身長(インチ)”の左の赤い▼をクリックして,メニューを表示させる. ②メニューの“正規分位点プロット”をクリックすると図2.9の正規分位点プロットが描画される. ③再び,赤い▼をクリックして,メニューの“ヒストグラムオプション”をクリックし,下位メニューの“標準誤差バー”をクリックする.標準誤差バーが棒グラフに追加される.度数軸,割合軸…を同様な操作で追加する. 正規分布曲線 図2.9 身長のヒストグラムと 正規分位点プロットなど 第2章 モニタリングⅠ
18
活用術2.2 外れ値のラベル表示と処理 図2.9の身長のヒストグラムには,身長の低い側で外れ値の候補が2点ある.
活用術2.2 外れ値のラベル表示と処理 図2.11 ラベル表示(左)と除外されたヒストグラム(右) 図2.9の身長のヒストグラムには,身長の低い側で外れ値の候補が2点ある. 個体の特徴や性質を調べるにはプロットの横にラベルを表示する. 外れ値を一時的に分析から除外して影響をみたいならば,“行(R)”メニューのコマンドの“除外する/除外しない”を活用する. 第2章 モニタリングⅠ
19
操作2.5 ラベル表示と分析からの除外 ①”ツール(O)”メニューの“なげなわ”をクリックし,身長のヒストグラムの位置までカーソルを移動させる.このとき,カーソルがなげなわになっていることを確認する. ②箱ひげ図の下側にある2つのプロットをクリックしながら,なげなわで囲むと,2つのプロットが選択されて,プロットが大きな点に変る.同時にデータテーブルの対応する行が選択されて,表示色が反転する. ③この状態で,“行(R)”メニューの“ラベルあり/ラベルなし”をクリックするとプロットの近くに生徒の名前が表示される(図2.11左参照). ④“行(R)”メニューの“除外する/除外しない”をクリックする. ⑤ヒストグラムの上側にある“一変量の分布”の左の赤い▼をクリックし,“スクリプト”から“分析のやり直し”をクリックする(図2.10参照). ⑥2つの外れ値を除外して,再分析が行われる. 図2.10 スクリプトの下位コマンド一覧 第2章 モニタリングⅠ
20
基本統計量 1/2 JMPの基本統計量:モーメント&分位点 オプションで統計量を増やす 図2.12ビッグクラスの身長の統計量
基本統計量 1/2 図2.12ビッグクラスの身長の統計量 オプションで統計量を増やす 図2.13 高次のモーメントを表示 JMPの基本統計量:モーメント&分位点 第2章 モニタリングⅠ
21
基本統計量 2/2 第2章 モニタリングⅠ
22
平均の意味 1/3 平均値の意味 SFCの学生であるA,B,C,D,Eは友人である.
平均の意味 1/3 平均値の意味 SFCの学生であるA,B,C,D,Eは友人である. 今度,5人の家で多変量回解析Bの単位取得のための作戦会議を開くことにした.誰の家で開催するのが距離的に合理的か? 海老名 湘南台 いずみ野 二俣川 星川 横浜 A B C D E 海老名 湘南台 いずみ野 二俣川 星川 横浜 東京 浦和 A E C D B 第2章 モニタリングⅠ
23
平均の意味 2/3 データを代表させること 考え方として,代表値とデータとの 差(残差)をできるだけ小さくしたい データ:1,2,3,4,5
平均の意味 2/3 データを代表させること 考え方として,代表値とデータとの 差(残差)をできるだけ小さくしたい データ:1,2,3,4,5 それには,データをならしてやればよい 1+2+3+4+5=15/5=3 数学記号で一般的に示すと 第2章 モニタリングⅠ
24
平均の意味 3/3 平均値の意味-2 データを小さいほうから並べてシーソーする 1 2 3 4 5
平均の意味 3/3 平均値の意味-2 データを小さいほうから並べてシーソーする 1 2 3 4 5 シーソーの位置が平行(バランス)した点が平均 平均値は3 一般的: 恒等的に0である 第2章 モニタリングⅠ
25
平方和の意味 1/4 データの平均からずれ(偏差)を考える そのまま差をとると差の和は0で意味がない
平方和の意味 1/4 データの平均からずれ(偏差)を考える そのまま差をとると差の和は0で意味がない そこで,差の2乗を考える,それを最小にする値は何か考えよう 第2章 モニタリングⅠ
26
平方和の意味 2/4 これは,aの値をいろいろ動かして aからの偏差2乗和を計算する 平均のときが一番小さい 平方和Sは偏差2乗和の値が
平方和の意味 2/4 これは,aの値をいろいろ動かして aからの偏差2乗和を計算する 平均のときが一番小さい 平方和Sは偏差2乗和の値が 最小となるもの この意味で平均は代表値として 偏差が一番小さくなるからよい指標 図:偏差平方和 第2章 モニタリングⅠ
27
平方和の意味 3/4 偏差が最小となる証明 =0 偏差平方和が最小となるのは 第2章 モニタリングⅠ
28
平方和の意味 4/4 データから代表値(平均)までの偏差の和が最小となる値:
平方和の意味 4/4 データから代表値(平均)までの偏差の和が最小となる値: 意味のあるよい指標である 欠点:データ数に依存して,データ数が増えれば,平方和も大きくなる そこで,データ1単位当りの平方和を考えよう 第2章 モニタリングⅠ
29
分散の意味 分散には2とおりある データ数が多いときには左を使う データ数が少ないときは右を使う 不偏標本分散という
データ数が多いときには左を使う データ数が少ないときは右を使う 不偏標本分散という 小標本のときには,左の分散は 小さい方に偏りを持つので,それを補正する意味で n-1を分母にする:理由は自由度という概念 第2章 モニタリングⅠ
30
標準偏差の意味 分散はよい指標であるが,測定単位が異なるので困る.
例えば,長さをはかったのに,その変動の大きさの単位が面積になると直感的にわからない そこで,元の測定単位に戻すために平方根(√)をとる 第2章 モニタリングⅠ
31
標準化 標準化 データのばらつきについて平均0,標準偏差1に標準化する この操作は非常に重要となる
データのばらつきについて平均0,標準偏差1に標準化する この操作は非常に重要となる 意味:測定されたデータは,平均から標準偏差の何倍離れた 距離にあるかということ. 利点:測定単位に影響されないこと 他の項目との比較ができる -英語の成績と数学の成績の比較 使い道:推定や検定に使われる 主成分分析やグラフィカルモデルなどの多変量解析 第2章 モニタリングⅠ
32
統計モデル 統計的モデル ・データには,ばらつかない部分とばらつく部分がある ・ばらつかない部分の推定値は平均値
・ばらつく部分のばらつきの大きさは分散(標準偏差) ・ばらつく部分の大きさを1に標準化したら 第2章 モニタリングⅠ
33
歪度 歪度は,分布の平均周辺の両側の非対称度を表す指標である. 正の歪度は,対象となる分布が正の方向へ伸びる非対称な側を持つ事を示す.
負の歪度は,逆に負の方向に伸びる側を持つ事を示す. 歪度が0のときが左右対称の分布になる. 標本から歪度を計算する場合,その値が-1.5~1.5の間にあれば,ほぼ左右対称であるという表現をする. なお,歪度は標本数が3未満,あるいは標準偏差が0のときは計算できない. 第2章 モニタリングⅠ
34
尖度 尖度は正規分布と比較して,分布の相対的な鋭角度あるいは平坦度を表す指標である. 尖度が正の値をとると尖った分布であり,
尖度が負の値ならば平坦な分布である. 尖度の場合も-1.5~1.5の間にあれば,ほぼ標準的な分布と考えて良い. なお,尖度は標本数4未満,あるいは標準偏差が0のときは計算できない. 第2章 モニタリングⅠ
35
分布の形状と歪度,尖度 第2章 モニタリングⅠ
36
標準誤差 標準誤差は平均値が持つ標準偏差である. その値は標準偏差を標本数の平方根で割ったものとして求められる.
これは分散の加法性により導かれる結果である. 第2章 モニタリングⅠ
37
分散の加法性 第2章 モニタリングⅠ
38
2.2.6 変数変換 JMPでは Box-Cox 変換を使う 分布に歪みや尖りがある場合には適当な変数変換を行うとよい.
2.2.6 変数変換 JMPでは Box-Cox 変換を使う 分布に歪みや尖りがある場合には適当な変数変換を行うとよい. 例えば,所得や寿命,抵抗値といった変量には,対数変換を行うと歪みや尖りが消えて左右対称の分布になるかも知れない. このようにヒストグラムや箱ひげ図から分布に無視できない歪みや尖りがある場合には,べき変換を行うとよい. 対数変換は,べき変換の特別な場合である. ベキ変換とは,変量xをp乗することである. ベキ変換は非負であるから,変量の変域に負があれば任意の数を加え,原点移動してからベキ変換する. 第2章 モニタリングⅠ
39
活用術2.4 変数変換の指針 サンプルデータから,会社情報を使いBox-Cox変換のご利益を体験してみよう 第2章 モニタリングⅠ
40
操作2.6 Box-Cox変換 1/3 ①JMP起動後,“サンプルデータ”フォルダ内にある「会社情報」を読み込む.
図2.15 因子プロファィルメニュー ①JMP起動後,“サンプルデータ”フォルダ内にある「会社情報」を読み込む. ②“分析(A) ”メニューの“モデルのあてはめ”をクリックする. ③表示されたウインドウで,“列の選択”リストから“従業員数”をクリックして“Y”ボタンをクリックする. ④“モデルの実行”ボタンをクリックする. ⑤モデルのあてはめウインドウの上側にある,“応答 従業員数”の左の赤い▼をクリックして,メニューの“因子プロファイル”の“Box-Cox Y変換”をクリックする. ⑥ウインドウの縦スライダを下げて,一番下にあるタイトルの“Box-Cox変換”の左にある赤い▼をクリックして,“最良の変換を保存”をクリックすると,Box-Cox変換後の値がデータテーブルに保存される. 第2章 モニタリングⅠ
41
操作2.6 Box-Cox変換 2/3 ヒストグラムで確認 図2.14 Box-Cox変換の効果(左が変換前,右が変換後)
第2章 モニタリングⅠ
42
操作2.6 Box-Cox変換 3/3 λ係数について -0.2 図2.16 Box-Cox変換のラムダの推定 第2章 モニタリングⅠ
43
べき変換の効果 もとのデータ 範囲へ戻す 第2章 モニタリングⅠ
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.