多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.

Slides:



Advertisements
Similar presentations
果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
Advertisements

ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
0章 数学基礎.
Building text features for object image classification
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
クラスタ分析手法を用いた新しい 侵入検知システムの構築
林俊克&廣野元久「多変量データの活用術」:海文堂
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
Excelによる統計分析のための ワークシート開発
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
マーケティング戦略の決定.
第1回 担当: 西山 統計学.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
主成分分析                     結城  隆   .
マーケティング戦略.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
回帰分析/多変量分析 1月18日.
マーケティング戦略の決定.
クラスタリング 距離と分類の考え方.
果物識別 マハラノビス距離を求める.
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
データ解析 静岡大学工学部 安藤和敏
応用社会システム計画 (第10回) ここで、学習すること 学籍番号: 氏名: ■これまでの講義内容の整理 ■計画問題の設定と手法
Fuzzy c-Means法による クラスター分析に関する研究
IIR輪講復習 #17 Hierarchical clustering
データ解析 静岡大学工学部 安藤和敏
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
マイクロソフト Access での SQL 演習 第4回 並べ替え(ソート)
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
アルゴリズムとプログラミング (Algorithms and Programming)
Data Clustering: A Review
クラスター分析入門 高崎経済大学 宮田 庸一.
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
移動図書館問題 移動施設のサービス停留点を最適配置する問題
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
部分的最小二乗回帰 Partial Least Squares Regression PLS
第2回課題 配布した通り.氏名・学生番号を忘れないこと.
マイクロソフト Access での SQL 演習 第2回 集計,集約
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
ex-8. 平均と標準偏差 (Excel 実習シリーズ)
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
先進的データ分析法 Advanced Data Analysis
第3章 線形回帰モデル 修士1年 山田 孝太郎.
データ解析 静岡大学工学部 安藤和敏
データ解析 静岡大学工学部 安藤和敏
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
Data Clustering: A Review
データ解析 静岡大学工学部 安藤和敏
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
高次元データにおける2次形式の近似について
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
データ解析 静岡大学工学部 安藤和敏
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
ex-8. 平均と標準偏差 (Excel を演習で学ぶシリーズ)
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
回帰分析入門 経済データ解析 2011年度.
Data Clustering: A Review
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
各種荷重を受ける 中空押出形成材の構造最適化
Presentation transcript:

多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀

クラスター分析 クラスター分析とは 大量のデータの中に存在するクラスター(集落)をデータ同士の距離によって分類していく、 分析方法 大量のデータの中に存在するクラスター(集落)をデータ同士の距離によって分類していく、 分析方法 扱う対象は分析目的により、サンプルの場合、変数の場合と場合によって変わるが分析は可能 分析で用いられる方法は大別すると「階層的方法」と「非階層的方法」がある

分析の流れ 大雑把な分析の流れ 個々の対象間の距離を測る 「近い」と判断できる対象間の距離、及び「クラスター」と判断する距離を決め、測った対象間の距離との比較、併合を行う 適当な距離でグループ分けできたクラスターに含まれる対象を調べ、グループの特徴を把握する

デンドログラム デンドログラム(樹形図)とは クラスター分析において対象間の距離を樹形図においてグラフ化された物 計算手法によって対象間の距離、配置は変わる (よってデンドログラムの形が変わる)

デンドログラムの例 図1 デンドログラム図例(左図はデンドログラム例に用いたデータプロット図)

最短距離法 最短距離法とは 階層的手法の一つ 最も近い対象間の距離を、 クラスター間の距離として 比較、併合を行う方法 最も近い対象間の距離を、 クラスター間の距離として 比較、併合を行う方法 欠点:鎖効果が起こりやすい 鎖効果とは、ある一つのクラスターに対象が1つずつ順に吸収されてクラスター形成がされる状態 図2 鎖効果が起こってしまっているデンドログラム 1つでも近い対象があればクラスターに統合されるため、鎖効果が起こりやすい

様々な距離計算方法 クラスター分析では 本解説では、最短距離法の距離計算に ユークリッド距離を用いることとする 分析する際、対象間の距離を計算する必要がある クラスター分析で用いる「距離」は以下の物がある ユークリッド距離(Euclidean distance) 重み付きユークリッド距離(Standardized Euclidean distance) マハラノビス距離(Mahalanobis distance) ミンコフスキー距離(Minkowsky distance) 本解説では、最短距離法の距離計算に ユークリッド距離を用いることとする

ユークリッド距離 ユークリッド距離の計算方法 変数が2個の場合(要素i番から要素j番までの時) ・・・(1) 変数がp個の場合の一般式 ・・・(2)

最短距離法による分析(1) 変数2個の場合の分析 例題:国語と英語の成績 実際の分析の流れを示すため、以下の例題を用意 表1 5段階評価の国語、英語成績表 生徒No. 国語x1 英語x2 1 5 2 4 3 図3 表1データのプロット図 (Rを用いて描画)

最短距離法による分析(2) 対象間の距離を計算 ユークリッド距離で計算 表2 対象間のユークリッド距離(1) 生徒No. 1 2 3 4 表2 対象間のユークリッド距離(1) 生徒No. 1 2 3 4 1.41 5.66 4.24 3.00 2.24 4.12 5 4.00 3.16 1.00

最短距離法による分析(3) クラスター形成 一番値の小さい要素を探し、初期クラスタとする 表2よりNo.4とNo.5が一番小さい→クラスターC1(4,5)とする この時クラスターと各対象の距離も一番短い方を選ぶ 表3 対象間のユークリッド距離(2) 生徒No. 1 2 3 1.41 5.66 4.24 C1(4,5) 3.00 2.24 4.00

最短距離法による分析(4) クラスター形成 遂次一番小さい値を選択してクラスター形成 2番目にNo.1,No.2の距離が短いためクラスターC2(1,2)形成 3番目にC1,C2の距離が短いためクラスターC3(1,2,4,5)形成 表4 対象間のユークリッド距離(3) 表5 対象間のユークリッド距離(4) 生徒No. C2 3 C2(1,2) 4.24 C1(4,5) 2.24 4.00 生徒No. C3 C3(1,2,4,5) 3 4.24

最短距離法による分析(5) デンドログラムを作成 クラスター評価 先程のクラスター形成時に選択した最短距離値を元にデンドログラムを作成する 任意の距離で区切ることによりデンドログラムからクラスタの分類が出来る ただし解析者の意図により任意で区切る距離、グループの意味が変わる 図4 例題のデンドログラム (Rを用いて作成)

最短距離法による分析(6) 変数がp個の場合の分析 ほとんど変数が2個の場合と変わらない ユークリッド距離変数p個の場合の距離計算を行う 表2と同様に対象間距離表を作成 最短距離値を遂次抜き取りクラスター形成 デンドログラムの作成 デンドログラムからデータの評価

最短距離法による分析(7) 解析例題:試験成績 表6 試験成績データ 生徒No. 国語x1 英語x2 数学x3 理科x4 1 86 79 表6 試験成績データ 生徒No. 国語x1 英語x2 数学x3 理科x4 1 86 79 67 68 2 71 75 78 84 3 42 43 39 44 4 62 58 98 95 5 96 97 61 63 6 33 45 50 7 53 64 72 8 66 52 47 9 51 76 10 89 92 93 91

最短距離法による分析(7) 表7 表1のデータの対象間ユークリッド距離 生徒No. 1 2 3 4 5 6 7 8 9 24.86 表7 表1のデータの対象間ユークリッド距離 生徒No. 1 2 3 4 5 6 7 8 9 24.86 67.76 70.61 52.03 29.85 81.90 22.02 42.88 81.71 71.20 71.64 70.94 13.45 77.38 88.15 44.69 35.57 39.66 43.06 64.36 36.96 29.98 46.64 44.75 68.85 40.27 51.65 41.50 50.47 38.85 47.28 36.47 71.69 41.35 15.03 49.13 10 37.19 29.78 98.67 43.89 43.38 99.83 65.15 66.44 66.32

最短距離法による分析(8) 図5 表7から得られるデンドログラム(Rを用いて描画)

他の階層的手法 階層的手法として用いられる代表的な手法 最短距離法(nearest neighbor method) 最も近い対象間の距離をクラスター間の距離とする 最長距離法(furthest neighbor method) 最も遠い対象間の距離をクラスター間の距離とする 群平均法(group average method) すべての対象間距離の平均をクラスター間の距離とする 重心法(centroid method) 各クラスターの代表点を重心とし、重心間の距離をクラスター間の距離とする

ウォード法(1) ウォード法(ward’s method)とは 階層的手法の1つ 他の階層的手法よりクラスター内の集まりが良く、鎖効果が起こりにくく、そのため良いクラスター分析結果が得られやすい クラスター形成は、クラスター内の平方和を最も小さくするという基準によって形成 図6 良いクラスター分析の結果を示すデンドログラム例

ウォード法(2) 変数が2個の場合のウォード法 ウォード法で用いる距離は平方和距離 ・・・(3) ウォード法で用いる距離は平方和距離 ・・・(3) 上記式で求めた距離表を元にクラスターを結合 クラスター内平方和の増加分が最小のものを統合していく

ウォード法(3) 表1の例題を元に計算 No.1とNo.2の生徒のクラスター内平方和 上記のようにして計算していく 平均値は計算する同変数の対象要素同士の平均値

ウォード法(4) 右図はウォード法による計算により作成できた距離表 クラスター形成 平方和の増加が最小である、No.4,No.5をクラスターとして統合する この際クラスターと対象間の距離が変化するため計算をしなおす必要がある 表8 対象間のウォード法による距離(1) 生徒No. 1 2 3 4 1.00 16.00 9.00 4.50 2.50 8.50 5 8.00 5.00 0.50

ウォード法(5) クラスター統合後の距離算出 統合したクラスターと元のクラスターの平方和を算出 例としてクラスターC1(4,5)と要素1の距離算出 結合後の平方和S145は 平方和増加分ΔS145は

ウォード法(6) 同様にして計算して距離の計算を算出する 下表はクラスターC1と各対象間の距離値に直した表 表9 対象間のウォード法による距離(2) 生徒No. 1 2 3 1.00 16.00 9.00 C1 8.17 4.83 10.83

ウォード法(7) 他のクラスターについて 同様にして平方和の増加分が最小の物を選ぶ 下表は最終段階までの計算結果 表10 対象間のウォード法による距離(3) 表11 対象間のウォード法による距離(4) 生徒No. C2 3 16.33 C1 9.25 10.83 生徒No. C3 3 14.45

ウォード法(7) 以上の結果から得られるデンドログラム 図7 表1例題のウォード法から得られたデンドログラム(Rを用いて作成)

ウォード法(8) 変数がp個の場合のウォード法 考え方は変数が2個の時と変わらない 一般式は以下の通り ・・・(4) ・・・(5) ・・・(6)

ウォード法(9) 式(4)~(6)をまとめると 以下の式が成り立つ ・・・(7) これらの式を用いて例題の表6を解析する

ウォード法(10) 表12 表6のウォード法における距離 生徒No. 1 2 3 4 5 6 7 8 9 309 3365 2493 表12 表6のウォード法における距離 生徒No. 1 2 3 4 5 6 7 8 9 309 3365 2493 4229.5 4786.5 3353.5 2253.5 2011.5 7153.5 2535 2405.5 1971.5 689.5 1986 3885 1812.5 2007.5 540.5 2924 2661 683 513.5 619.5 2001.5 1387 1072 2112 861 2158.5 2303.5 730.5 2969 3186 762 1026 1207 10 462.5 705.5 3706.5 1774 515 4038 1918 1324 1623

ウォード法(11) 表12からクラスター統合をして得られるデンドログラム 図8 例題表6のデンドログラム(ウォード法)

最後に 本発表に関し、以下の解析ソフトを利用した R Lucent Technology R Microsoft Excel 統計計算、グラフィックスのための言語・環境 GNUプロジェクトの一つ オープンソースのため、無料で提供されている Official Site URL http://www.r-project.org/