Presentation is loading. Please wait.

Presentation is loading. Please wait.

林俊克&廣野元久「多変量データの活用術」:海文堂

Similar presentations


Presentation on theme: "林俊克&廣野元久「多変量データの活用術」:海文堂"— Presentation transcript:

1 林俊克&廣野元久「多変量データの活用術」:海文堂
多変量データ分析B 第9回 第5章:クラスター分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 SFC5限 第5章 クラスター分析

2 第5章 クラスター分析 クラスター分析 目標 クラスター分析とは何ができる道具かを理解しよう
第5章 クラスター分析  クラスター分析 目標 クラスター分析とは何ができる道具かを理解しよう クラスター分析のコンピュータ出力を読み取れる力を身につけよう クラスター分析のからくりと前提を理解しよう  課題を通じて対応分析の使い手になろう 注)距離概念を理解すること, JMPではクラスター分析結果のデンドログラム の表示に特徴がある. 第5章 クラスター分析

3 適用例と解析ストーリー データ 試験の成績データ 1)項目間(生徒)の距離を定義 2)データから距離を測定 3)集落(クラスター)の
国語 x1 英語 x2 数学 x3 理科 x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 33 45 50 7 53 64 72 8 66 52 47 9 51 76 10 89 92 93 91 1)項目間(生徒)の距離を定義 2)データから距離を測定 3)集落(クラスター)の   作成と解釈 第5章 クラスター分析

4 適用例と解析の目的 スライド27のデータセットは,主成分分析で使ったデータである. 主成分分析では,主成分得点から主観的にサンプルの分類を
行った.これは,散布図の布置から視覚的に選び出したもの.  ここでは,サンプル間の多次元空間上の距離のみに基づいて 分類(クラスター化)する方法について紹介する.  クラスター分析は,元々,分類学などで用いられた統計的仮定の まったくない方法であったが,統計学者がその有効性に着目して  研究し大きな発展があったといわれる.この意味において,クラス ター分析は異端の方法とも言える.  クラスター分析は分類,集落化,層別化などを行う方法論の総称で, クラスター分析の方法を分類するためにクラスター分析が必要である と悪口を叩かれるくらい多くの方法が提唱されている.  第5章 クラスター分析

5 解析ストーリー 1)個々の対象間の近さを測るための距離,クラスターを併合する 際の距離を事前に決める.
 際の距離を事前に決める.   個々の対象間の距離を全て計算し,距離が最小となる対象を  統合して最初のクラスターを作る.   新しいクラスターと対象間の距離を全て計算して,対象間の距離  を含めて最小のものを統合する.   これを全てのクラスターが統合されるまで繰り返す. 2)クラスターの統合過程をデンドログラム(樹形図)で表し,  適当な距離で切断することでグループ化する.  各グループに含まれる対象を調べて,グループの特徴を求める. 第5章 クラスター分析

6 変数が2個の場合のクラスター分析 最短距離法による分類 1)クラスターの生成方法 ユーグリッド空間を考え,その距離の小さいものから結合する.
 ユーグリッド空間を考え,その距離の小さいものから結合する. 2)デンドログラム  結合過程を樹形図で表し,適当な距離で切断し,クラスターを構成  後,そのクラスターの解釈を行う 上の4つの散布図について主観でクラスターを作成してみよ. 第5章 クラスター分析

7 5.1 一次元のクラスター分析 上の散布図での確率楕円はクラスター分析により分類した結果の表示である
5.1 一次元のクラスター分析 図5.1 身長と体重でのクラスター B 上の散布図での確率楕円はクラスター分析により分類した結果の表示である クラスター分析は分類整理のためのツールである クラスター化の方法について一次元のデータで考える 第5章 クラスター分析

8 5.1.1 階層的方法と非階層的方法 1/3 日常の分類整理方法の光景を思い浮かべる 第5章 クラスター分析

9 5.1.1 階層的方法と非階層的方法 2/3 階層的分類 第5章 クラスター分析

10 5.1.1 階層的方法と非階層的方法 3/3 非階層的方法 第5章 クラスター分析

11 難しい距離(類似度)の定義 第5章 クラスター分析

12 5.1.2 階層的クラスター データ 最も近い点で連結 重心で連結 最も遠い点で連結 表5.1 カップアイスの評価得点
5.1.2 階層的クラスター データ 表5.1 カップアイスの評価得点 図5.2 クラスター間の距離の定義 最も近い点で連結 重心で連結 最も遠い点で連結 第5章 クラスター分析

13 5.1.3 最短距離法 表5.1 カップアイスの評価得点 表5.2 最短距離法の計算 第5章 クラスター分析

14 5.1.4 最長距離法 表5.1 カップアイスの評価得点 表5.3 最長距離法の計算 第5章 クラスター分析

15 5.1.5 重心法 表5.1 カップアイスの評価得点 表5.4 重心法の計算 第5章 クラスター分析

16 5.1.7 Ward法 表5.1 カップアイスの評価得点 表5.5 Ward法の計算 第5章 クラスター分析

17 デンドログラムで比較 図5.3 5つの方法によるデンドログラム 使う方法により,デンドログラムの形が変わることに注目 第5章 クラスター分析

18 距離を考える 図5.4 平方根変換後のデンドログラム 第5章 クラスター分析

19 5.1.8 非階層的クラスター分析 1/7 1.階層的分類法 2.非階層的分類法 2.1分割最適化型分類法 2.1.1 k-means法
5.1.8 非階層的クラスター分析 1/7 1.階層的分類法 2.非階層的分類法  2.1分割最適化型分類法    2.1.1 k-means法 分類方法の本質的考え方 クラスタ-のまとまりの良さmあるいはクラスター間の離れ具合を, 何かの基準で測り,これを最大化(最小化)するという方針で分類 を行う 1)クラスターの約束   クラスター化のための評価基準,クラスター内の等質性 2)分類方法   分類のための算法(アルゴリズム) 3)分け方の数   n個の個体をg群に分けることの容易さ 第5章 クラスター分析

20 5.1.8 非階層的クラスター分析 2/7 数値例で確認 1変数35個体のデータを2分類することを考える データ 5,11,12,9,11
5.1.8 非階層的クラスター分析 2/7 数値例で確認   1変数35個体のデータを2分類することを考える データ  5,11,12,9,11 4, 14,16,13,5 1, 6, 3, 4,11 12, 4, 8, 1, 6 15, 9,13, 7,12 3,10, 5,10, 3 5, 4, 2, 4,15 平均7.8 平方和 665.6 分散   19.58 直感的な考え方   ヒストグラムを作り2山になっているところで区切ればよいだろう  問題点:客観性&アルゴリズム(一般性)がない.  第5章 クラスター分析

21 5.1.8 非階層的クラスター分析 3/7 では,35個のデータを2群に分けるとして,その方法は全部で 幾つあるか...
5.1.8 非階層的クラスター分析 3/7 では,35個のデータを2群に分けるとして,その方法は全部で 幾つあるか...     答え:171億7986万9183とおりある ・大規模データで2群に分けるとしても全ての方法を試すことは  現実的に不可能である. ・クラスターの評価基準が決まっても,それを最適にする分類の  組み合わせを網羅的に調べることができない それに代わる方法を見つける必要があろう    ・相関比η2を使う  群間変動と群内変動の比較 第5章 クラスター分析

22 5.1.8 非階層的クラスター分析 4/7 2つの分類方法を選び出した 171億数千万とおり 方法1が方法2よりも優れているようにみえる
5.1.8 非階層的クラスター分析 4/7 2つの分類方法を選び出した 171億数千万とおり (14) 8.000(17) (18) 4.7143(21) 方法1が方法2よりも優れているようにみえる   全体の平方和を群間と群内に分解して評価すればよい 第5章 クラスター分析

23 5.1.8 非階層的クラスター分析 5/7 クラスター内 (群内)平方和 クラスター間 (群間)平方和
5.1.8 非階層的クラスター分析 5/7 クラスター内 (群内)平方和 クラスター間 (群間)平方和 クラスター内平方和が小さくて,クラスター間平方和が大きいほうが うまく分類されたと考えればよいだろう.     つまりSB最大 あるいはSW最小を判断基準にすればよい p変数空間でg個のクラスターに 分割するイメージ ・ある個体は複数のクラスター  にまたがって所属しない ・どの個体もいずれかのクラス  ターに所属している 第5章 クラスター分析

24 5.1.8 非階層的クラスター分析 6/7 分割の総数の計算 第2種のスターリング数によって表される
5.1.8 非階層的クラスター分析 6/7 分割の総数の計算   第2種のスターリング数によって表される n,gの与え方によって,あっという間に天文学的数字になる 全分割方法を調べるのは実質的に不可能なので    簡便法(一部実施方法によるアルゴリズムが必要) 第5章 クラスター分析

25 5.1.8 非階層的クラスター分析 7/7 分割方法のアルゴリズム概要 1)初期配置または初期分割 -クラスター数の決定
5.1.8 非階層的クラスター分析 7/7 分割方法のアルゴリズム概要 1)初期配置または初期分割   -クラスター数の決定   -全個体をクラスターに仮決めする     ・クラスターの識別,初期の各クラスターの重心の設定 2)各クラスターの縮約値の計算   -平均ベクトル   -平方和,分散 3)最適化基準の改良,反復   -個体のクラスター間移動と再配置   -クラスターの最適化基準の比較 4)収束判定   -クラスター別の縮約値の算出   -クラスタリングの履歴の整理 第5章 クラスター分析

26 k個の分割(クラスター)について,平均値(ベクトル)と平方和
k-means法 1/4 k-means法  k個の分割(クラスター)について,平均値(ベクトル)と平方和 を用いて改良を進める方法 クラスター評価基準  ・クラスター内平方和Sw(g) 方法  ・平方和の分解公式を利用して,   個体1つずつ,クラスターを移動させて評価基準の変化の様子   を調べるものである. 第5章 クラスター分析

27 k-means法 2/4 1個減る 移動させる 1個増える クラスター内平方和の変化量 群t 変化なし 群k 群l ここに着目
           クラスター内平方和の変化量  群t 変化なし 群k 群l ここに着目 第5章 クラスター分析

28 k-means法 3/4 個体rのクラスター間移動に伴なう平方和の変化量は 従って,ΔS<0ならば個体rの移動により平方和が改善
それ以外は改善されなかったと判断 k-means法のアルゴリズム  手順1.n個の個体をg個のクラスターに初期分割する  手順2.移動させる候補の個体rを選び,順次クラスター移動        (クラスターサイズが1の場合は手順5へ:シングルトン)  手順3.ΔS<0となるクラスターが見つかれば移動  手順4.移動のあった2つのクラスターの平均ベクトル,平方和の      計算  手順5.ΔSの様子に変化が見られなかったら終了,聡でなければ      手順2へ 第5章 クラスター分析

29 k-means法 4/4 留意点 ・初期配置の方式 クラスター数の決定,初期代表値の選定 ・移動&再配置の方式 ・最適化基準の選択
 ・初期配置の方式      クラスター数の決定,初期代表値の選定  ・移動&再配置の方式  ・最適化基準の選択      局所最適であること:分割の全てのとおり数の検索は困難  ・アルゴリズム  ・シングルトンの影響(外れ値)  ・クラスターサイズへの配慮 第5章 クラスター分析

30 k-means法の手順 表5.6 K-means法の計算 図5.5 平方和の分解 第5章 クラスター分析

31 2次元でのクラスターの形成方法 1/5 簡単なデータセットによる理解 距離の定義 我々の世界の代表的な距離:ユーグリッド距離
2次元でのクラスターの形成方法 1/5 簡単なデータセットによる理解 #3 #5 #4 #2 グラフより直感的に {(#4,#5),(#1,#2)},#3 であることが分かる #1 距離の定義  我々の世界の代表的な距離:ユーグリッド距離  相関関係の確率による距離:マハラノビス距離  より一般的な包含的距離  :ミンコフスキー距離         ここでは,分かりやすいユーグリッド距離を使う 第5章 クラスター分析

32 2次元でのクラスターの形成方法 2/5 平面におけるユーグリッド距離 三平方の定理を利用して 5つの点のユーグリッド距離を計算すると
2次元でのクラスターの形成方法 2/5 平面におけるユーグリッド距離 三平方の定理を利用して 5つの点のユーグリッド距離を計算すると 最短距離法は,5つの クラスターの中で距離が 最短なクラスターを結合する 距離最短は#4-#5の距離1であるから,これらを 同じクラスターC1(4,5)とする. 第5章 クラスター分析

33 2次元でのクラスターの形成方法 3/5 今度は, #1,#2,#3,C1 の距離を測る
2次元でのクラスターの形成方法 3/5 #3 #5 C1 #4 #2 今度は, #1,#2,#3,C1 の距離を測る #1 C1から#1,#2,#3への距離は,#4と#5からの距離の短い方を採用 する. 最短は#1-#2の 距離d12=1.41 C1 第5章 クラスター分析

34 2次元でのクラスターの形成方法 4/5 今度は, C2,#3,C1 の距離を測る
2次元でのクラスターの形成方法 4/5 #3 #5 C1 #4 #2 今度は, C2,#3,C1 の距離を測る C2 #1 C1から#3,C2への距離は,#4と#5からの距離の短い方を採用する. C2から#3,C1への距離は,#1と#2からの距離の短い方を採用する. C2 最短はC1-C2の 距離dc1c2=2.24 C1 第5章 クラスター分析

35 2次元でのクラスターの形成方法 5/5 今度は, C3,#3 の距離を測る
2次元でのクラスターの形成方法 5/5 #3 #5 C1 #4 C3 #2 今度は, C3,#3 の距離を測る C2 #1 C3から#3への距離は,#1,#2,#4と#5からの距離の最短を採用する.. C2 最短はC3-#3の 距離d3C3=4.00 C3 C1 第5章 クラスター分析

36 デンドログラム 主観的に距離2で切断する ・3つのクラスターが得られた #3 #5 #4 #2 #1 距離に着目してデンドログラムで
ⅱ) ⅰ) ⅲ) ⅳ) 距離に着目してデンドログラムで 表すと分かりやすい 英が得意 主観的に距離2で切断する ・3つのクラスターが得られた 国が得意 英・国共に得意 距離は客観的 クラスター数,解釈には分析者の 意図が入る #3  #5  #4  #2  #1 第5章 クラスター分析

37 変数がp個の場合のクラスター分析 1/2 変数がp個になっても同様の考え方で距離を測る P次元のユーグリッド距離は
変数がp個の場合のクラスター分析 1/2 変数がp個になっても同様の考え方で距離を測る P次元のユーグリッド距離は 特定の問題以外は,ユーグリッド距離で測定すればよいので, 他の距離については,ここでは省略する. JMPによる分析  ・スライド3のデータを入力する  ・メニューの分析の多変量から   クラスター分析をクリックする 2.クリックして  読み込む 1.変数を  全て指定 3.オプションで階層型,手法-最短距離法を  設定してOKボタンをクリックする. 第5章 クラスター分析

38 変数がp個の場合のクラスター分析 2/2 JMPでの出力 クラスターの解釈 クラスター分析 デンドログラム どの科目も 比較的に優秀
変数がp個の場合のクラスター分析 2/2 JMPでの出力 デンドログラム どの科目も   比較的に優秀 クラスターの解釈  クラスター分析   +主成分分析で 解釈すると理解しやすい どの科目も   点数が高くはない サンプルの結合過程 距離の結合過程 第5章 クラスター分析

39 クラスター間の距離 A.最短距離法 B.最長距離法 最短距離法 最長距離法 ・最初に全てのサンプルの距離を計算する.
 ・最初に全てのサンプルの距離を計算する.  ・クラスターを結合する場合に,最も近い距離をクラスター間の距離にするか,  最も遠い距離にするかの違いがある.  ・最短距離法は,特定の場合,例えば地震や火山帯のクラスターに利用され  るが一般に用いると,鎖効果が出て好ましくない. ⅰ) ⅳ) ⅲ) ⅱ) 最短距離法 最長距離法 第5章 クラスター分析

40 Ward法 1)ウォード法の特徴 実用的であること.すなわちよいクラスターが作れる. 鎖効果がおきにくい.
 実用的であること.すなわちよいクラスターが作れる.  鎖効果がおきにくい.    ある1つのクラスターに対象が順次1つづつ追加されていく    現象  鎖効果が起きると対象の群分けが達成できなくなる.            鎖効果       よいクラスター 2)変数が2個の場合のウォード法 3)変数がp個の場合のウォード法 第5章 クラスター分析

41 変数が2個の場合のウォード法 1/5 #2 #1 生徒#1と#2を1つのクラスタにまとめたときの平方和を計算
変数が2個の場合のウォード法 1/5 #2 重心 #1 生徒#1と#2を1つのクラスタにまとめたときの平方和を計算 平方和とは重心からの距離の二乗和であった 平面における2点の平均からの距離の二乗和を計算する 第5章 クラスター分析

42 変数が2個の場合のウォード法 2/5 平面における2点の平均からの距離の二乗和を計算する
変数が2個の場合のウォード法 2/5 平面における2点の平均からの距離の二乗和を計算する 平面における平方和最小なのは(#4-#5)であるから これをC1とする 第5章 クラスター分析

43 変数が2個の場合のウォード法 3/5 平面における各クラスターの二乗和の増分で判断する
変数が2個の場合のウォード法 3/5 平面における各クラスターの二乗和の増分で判断する C1では#4,5と他のサンプルの平方和を計算し,その増分で評価する C2は#1,2とする 第5章 クラスター分析

44 変数が2個の場合のウォード法 4/5 平面における各クラスターの二乗和の増分で判断する C1,C2の平方和の増分の計算
変数が2個の場合のウォード法 4/5 平面における各クラスターの二乗和の増分で判断する C1,C2の平方和の増分の計算 C3をC1,C2とする 第5章 クラスター分析

45 変数が2個の場合のウォード法 5/5 平面における各クラスターの二乗和の増分で判断する C3,#3の平方和の増分の計算 これで完了
変数が2個の場合のウォード法 5/5 平面における各クラスターの二乗和の増分で判断する C3,#3の平方和の増分の計算 これで完了 第5章 クラスター分析

46 変数がp個の場合のウォード法 JMPを使いウォード法でスライドのデータを分析してみよう 第5章 クラスター分析

47 5.2 クラスター分析の活用指針 用いる方法によって,結果が大きく異なる可能性がある.
5.2 クラスター分析の活用指針 用いる方法によって,結果が大きく異なる可能性がある. 構成されたクラスターが意味があるものなのかを知見に基づいて判断する必要がある. 主成分と組み合わせると分りやすい 第5章 クラスター分析

48 5.2.1 クラスター分析の目的と到達レベル 第5章 クラスター分析

49 5.2.2 クラスター分析の手順 1/4 分析前のチェック!!! 本当にCLUSTの問題かどうか検討しておく. 事前検討に時間を使う.
5.2.2 クラスター分析の手順 1/4 分析前のチェック!!! 本当にCLUSTの問題かどうか検討しておく. 分析にあたっては,クラスター自体検討する必要のない場合 予め分類情報をもった変量がある場合など 事前検討に時間を使う. 事前に知見から,どの程度のクラスターが得られるか仮説を立てる 直接CLUSTには使わないがクラスターの性格を決めるような項目の準備など 第5章 クラスター分析

50 5.2.2 クラスター分析の手順 2/4 ①分析に必要な変量を選定する ②個体の数は目的に応じて集める
5.2.2 クラスター分析の手順 2/4  ①分析に必要な変量を選定する 分析目的に対して無意味な変量を含んでいると分析結果の解釈が困難になる 変量選定には十分な吟味が必要である ②個体の数は目的に応じて集める CLUSTは,記述の意味合いが強い手法であるので,無作為に集まられた個体でも,意図的に集められた個体でもよい ③データは分析しやすいようにデータ行列にまとめる DBの活用や実際にアンケート等によりデータを収集する 必要であれば,対数変換や単位当りの比率に加工しておく 第5章 クラスター分析

51 5.2.2 クラスター分析の手順 3/4 ④外れ値チェック ⑤距離の定義を決める ⑥目的や個体数から階層的方法か非階層的方法かを選ぶ
5.2.2 クラスター分析の手順 3/4  ④外れ値チェック データのモニタリングによって,外れ値 ―たった1個でクラスターが形成されそうな個体― には色を変えたり,マーカを変えたりしておく ⑤距離の定義を決める JMPの階層的方法では,標準化ユーグリッド距離が初期設定になっている ⑥目的や個体数から階層的方法か非階層的方法かを選ぶ マイニング分野では,必然的に非階層的方法を選択せざるを得ない 第5章 クラスター分析

52 5.2.2 クラスター分析の手順 4/4 ⑦方法の選択 ⑧クラスターの性格を決める ⑨最後の確認
5.2.2 クラスター分析の手順 4/4  ⑦方法の選択 Ward法を実行し他の方法と比較する.クラスター数は,デンドログラムの結合の形や知見などから決定する(階層的方法) クラスター数を決める(非階層的方法) ⑧クラスターの性格を決める 事前情報や分析に使わなかった項目も活用し,クラスターとのクロス集計表分析などを行う(階層的方法) 何度か初期値を変えてCLUSTを実行する(非階層的方法) 知見とバイプロットやパラレルプロットからクラスターの性格を決める ⑨最後の確認 解釈が困難な場合には⑦に戻り再検討する 場合によっては,変量や個体の見直しCLUSTを再実行する 第5章 クラスター分析

53 JMPによる k-means法の分析 1/4 スライド3のデータを分析する 1.メニューの分析から
   分類→大規模ファイルのクラスタ をクリックする 2.ダイアログが現れるので4つの変数を分析する変数に指定する ここをクリックして K Means法に変える クラスター数を指定する    ここでは,クラスタ数を3とするが,探索的にクラスタ数を    決める必要がある 第5章 クラスター分析

54 JMPによる k-means法の分析 2/4 クラスター数の基準 Calinski-Harabaszの分散比基準
gクラスター時での分散比で判断するもの 平方和基準で測れるようなクラスターが存在するときは そのクラスター数付近で分散比は大きくなる この基準はお手軽なものであるが, データの空間配置のパターンにより 必ずしも最良の保証が得られるとは 限らない 第5章 クラスター分析

55 JMPによる k-means法の分析 3/4 赤▼をクリックしてバイプロット を選択 第5章 クラスター分析

56 JMPによる k-means法の分析 4/4 分類されたけ-スに色分けして 第1&第2主成分平面に布置 楕円で囲ったものが
 ウォード法によるクラスタ プロットの色がk-means法の クラスタ 構成されるクラスタの要素が 異なることに注意 このデータでは,ウォード法の結果と第1&2主成分平面とよく 合っているが,K-means法の結果と第1&2主成分平面との布置の 一致はよろしくない.このような結果は,データ構造に依存する 第5章 クラスター分析

57 5.3.1 理想の恋人(1) 1/2 理想の恋人データを使う 非常に小さい標本であることに注意 n=20 第5章 クラスター分析 19 18
5.3.1 理想の恋人(1) 1/2 理想の恋人データを使う 非常に小さい標本であることに注意 n=20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 クラスターの数 距離 結合先 20 結合者 クラスター分析の履歴 手法 = Ward法 経済力 容姿 性格 年齢 趣味 相性 樹形図 階層型クラスター分析 クラスター1 クラスター3 クラスター2 第5章 クラスター分析

58 図5.7 パラレルプロットによる3つのクラスターの特徴
5.3.1 理想の恋人(1) 2/2 図5.7 パラレルプロットによる3つのクラスターの特徴 個体クラスターの特徴や意味について検討 方法 各変量について,クラスターごとの平均を計算し,パラレルプロットにより相対的な検討を行う クラスター1&3とクラスター2の違いは,クラスター2は,経済力,容姿,正確,距離といった外観的な項目を相対的に重要視していない クラスター1とクラスター2&3の違いは,クラスター1は,相性や趣味といった項目を相対的に重要視していない. 第5章 クラスター分析

59 5.3.2 理想の恋人(2) 1/2 今度はマハラノビス距離を使う 主成分得点の利用 図5.8 主成分得点へのCLUST
5.3.2 理想の恋人(2) 1/2 今度はマハラノビス距離を使う 主成分得点の利用 図5.8 主成分得点へのCLUST 第5章 クラスター分析

60 5.3.2 理想の恋人(2) 2/2 ユーグリッド距離とマハラノビス距離では結果がことなる マハラノビス距離の注意点 第5章 クラスター分析

61 5.3.3 選挙データへの k-means法の適用 1/3 2000&2001年度の比例区の選挙データについてk-means法で
分析してみよう. データについて,  手順1.各政党の得票数は総得票数で割って県別の       政党別得票率を求める 手順2.政党別得票率に対して対数変換する  手順4.変数として用いる政党は        自民,民主,公明,共産,自由,社民 の6政党  手順5.データセットは以下のように準備する 2000年 北海道   ~沖縄 変数:政党別得票率     の対数 2001年 北海道   ~沖縄 第5章 クラスター分析

62 5.3.3 選挙データへの k-means法の適用 2/3 JMPを使い k-means法を適用する ・求めるクラスター数は2とする
    ・求めるクラスター数は2とする        (ここでは,年度の違い(小泉効果)により群が構成          されるという仮説にたつ)     ・得られたクラスターを保存する     ・主成分分析で,第2主成分まで求める     ・主成分平面とクラスターを視覚的に比較する テキストでは群を3つに指定している 違いをも読み取ろう 第5章 クラスター分析

63 5.3.3 選挙データへの k-means法の適用 3/3 K-means法による クラスターで色分け 保守(与党)軸 革新(野党)軸
橋本氏 羽田氏 青木氏 武藤氏 クラスターは  確かに選挙年による  構成比率(の対数)の  構造変化を捉えてくれる  どの県についても小泉効果  (矢印方向と長さ)が認められる 森氏 K-means法による クラスターで色分け 小沢氏 保守(与党)軸 革新(野党)軸 2001年 2000年 第5章 クラスター分析


Download ppt "林俊克&廣野元久「多変量データの活用術」:海文堂"

Similar presentations


Ads by Google