自己組織化マップ Self-Organizing Map SOM

Slides:



Advertisements
Similar presentations
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
Advertisements

BRIEF: Binary Robust Independent Elementary Features
平成14年2月8日 卒業研究報告 相関行列に基づく非計量多次元尺度法 に関する研究
「わかりやすいパターン認識」 第1章:パターン認識とは
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
Scalable Collaborative Filtering Using Cluster-based Smoothing
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
EMアルゴリズム クラスタリングへの応用と最近の発展
高校数学の知識から、 人工知能・機械学習・データ解析へ つなげる、 必要最低限の教科書
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
変数選択手法っていろいろあるけど 何を使えばいいの?
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
Fuzzy c-Means法による クラスター分析に関する研究
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
ニューラルコンピューティングを理解する 第一版:2006/12/12 第二版:2007/11/12
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
主成分分析 Principal Component Analysis PCA
分子生物情報学(2) 配列のマルチプルアライメント法
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
プログラミング 4 整列アルゴリズム.
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
部分的最小二乗回帰 Partial Least Squares Regression PLS
ニューラルコンピューティングを理解する 2006/12/12 Graduate School of Media and Governance
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
線形判別分析 Linear Discriminant Analysis LDA
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
サポートベクターマシン Support Vector Machine SVM
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
Data Clustering: A Review
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
データ解析 静岡大学工学部 安藤和敏
原子核物理学 第7講 殻模型.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
blossom取り扱い説明書 <基本説明> <各種設定> 初期画面→ノードの初期化 入力データの選択 学習開始 学習終了 マップの見方
Data Clustering: A Review
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
プログラミング入門2 第5回 配列 変数宣言、初期化について
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

自己組織化マップ Self-Organizing Map SOM 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

自己組織化マップ (SOM) とは? ニューラルネットワークの1つ データを可視化・見える化するための非線形手法 主成分分析などとは異なり、はじめに二次元平面の座標を作ってしまい、 それを実際の多次元空間のサンプルに合わせ込むというスタンス オーバーフィッティングを起こしやすいので注意が必要 SOMのいろいろな問題点を解決した、上位互換の手法に Generative Topographic Mapping (GTM) がある GTMに対するSOMのメリットは、手法の説明が簡単、コーディングが しやすい、くらい

SOMを作る おおまかな流れ 2次元マップのサイズを決める 10×10 とか、4×6 とか 2次元の各グリッドにニューロンを配置する 10×10なら、100個のニューロン 各ニューロンは、データセットの変数の数と同じ要素数をもつベクトル 要素の値はランダム 以下を繰り返す データセットのサンプルごとに最もユークリッド距離の近いニューロン (勝者ニューロン) を見つける 勝者ニューロンをそのサンプルに少し近づける 勝者ニューロンに近いニューロンも、そのサンプルに少し近づける

こんなデータセットがあるとする 変数 1 2 ・・・ i ・・・ m-1 m 1 2 ・・・ サンプル j xi(j) ・・・ n-1 n

2次元マップのサイズを決める ここでは簡単のため、4×6にします 4 3 2 1 1 2 3 4 5 6

2次元の各グリッドにニューロンを配置する 各ニューロン wi,j は変数の数 n の長さをもつベクトル wi,j = [ wi,j,1 wi,j,2 ・・・ wi,j,k ・・・ wi,j,m-1 wi,j,m ] 最初は wi,j,k を乱数とする (ニューロンの初期化) 4 w4,1 w4,2 w4,3 w4,4 w4,5 w4,6 3 w3,1 w3,2 w3,3 w3,4 w3,5 w3,6 2 w2,1 w2,2 w2,3 w2,4 w2,5 w2,6 1 w1,1 w1,2 w1,3 w1,4 w1,5 w1,6 1 2 3 4 5 6

サンプルとニューロンとの距離を計算する 各サンプルを x(j) = [ x1(j) x2(j) ・・・ xi(j) ・・・ xm-1(j) xm(j) ] とする 1つのサンプルと、すべてのニューロンとの間でユークリッド距離を計算する 例) x(1) と w4,3 との間のユークリッド距離 d

最も距離の近いニューロンを見つける 勝者ニューロン:あるサンプルとの距離が最も小さいニューロン 例) x(1) について、勝者ニューロンは w2,5 4 w4,1 w4,2 w4,3 w4,4 w4,5 w4,6 3 w3,1 w3,2 w3,3 w3,4 w3,5 w3,6 勝者ニューロン 2 w2,1 w2,2 w2,3 w2,4 w2,5 w2,6 1 w1,1 w1,2 w1,3 w1,4 w1,5 w1,6 1 2 3 4 5 6

勝者ニューロンをサンプルに少し近づける 勝者ニューロンを w2,5 とすると、修正後のニューロン wnew2,5 は、 トーラスマッピングにすると端のニューロンの不公平感をなくせる トーラスマッピング:二次元マップの一番右の右は左、 一番上の上は下、とすること、マップはドーナツ状 α:学習率 ( 0 < α < 1 )

勝者ニューロンに近いのもサンプルに近づける 勝者ニューロンを w2,5 とすると、その近くに存在するニューロンも、 wnew2,5 ほどではないがサンプル x(1) に近づける 4 w4,1 w4,2 w4,3 w4,4 w4,5 w4,6 3 w3,1 w3,2 w3,3 w3,4 w3,5 w3,6 勝者ニューロン 2 w2,1 w2,2 w2,3 w2,4 w2,5 w2,6 1 w1,1 w1,2 w1,3 w1,4 w1,5 w1,6 1 2 3 4 5 6

勝者ニューロンに近いのもサンプルに近づける 勝者ニューロンを w2,5 とすると、たとえば、その近くのニューロン w2,4 の 修正後のニューロン wnew2,4 は、 g(e):近傍関数 e:二次元マップ上での勝者ニューロンとの距離 近傍関数の例 g(e) 1 e

二次元マップの学習を繰り返す 学習:勝者ニューロン・その近くのニューロンをサンプルに近づけること サンプルを順番に学習させる すべてのサンプルを学習させ終わったら、もう一巡 何順させるか:学習回数 事前に決めておく 一巡するごとに、サンプルの順番をシャッフルさせることで、 均等に学習させることができる

SOMの特徴 学習が終わった後、サンプルごとの勝者ニューロンを見ることで、 二次元マップ上での可視化が達成される 学習が終わった後、サンプルごとの勝者ニューロンを見ることで、 二次元マップ上での可視化が達成される ニューロン間の距離を見ることで、クラスタリングも検討できる ニューロン間の距離が大きいところは、クラスターの境目 ただ、狙ってクラスタリングしたわけではなく、たまたまクラスターの 境目になることもあるため、別途クラスタリングをしたほうが無難

SOMの問題点 事前に学習回数・学習率を決めなければならない 学習回数を多くしたからといって、二次元マップが収束するとは限らない 二次元マップのサイズ・学習回数・学習率・近傍関数をすべて適切に 決めないと、 二次元マップが各サンプルにオーバーフィットしてしまう 二次元マップが実際の多次元空間において滑らかにならない

SOMの問題点の解決策 Generative Topographic Mapping (GTM) を用いる 先にあげた問題点を解決できる