自己組織化マップ Self-Organizing Map SOM

Slides:

Advertisements

Similar presentations

白井ゼミ豊田秀樹(2008)『データマイニング入門』 (東京図書)。４章

Advertisements

BRIEF: Binary Robust Independent Elementary Features

平成１４年２月８日卒業研究報告相関行列に基づく非計量多次元尺度法に関する研究

「わかりやすいパターン認識」第１章：パターン認識とは

先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地方の識別)

Scalable Collaborative Filtering Using Cluster-based Smoothing

「Self-Organizing Map 自己組織化マップ」を説明するスライド

スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

EMアルゴリズムクラスタリングへの応用と最近の発展

高校数学の知識から、人工知能・機械学習・データ解析へつなげる、必要最低限の教科書

データの可視化～高次元データを見る～三枝亮 (早稲田大学).

シミュレーション演習 G. 総合演習（Mathematica演習）システム創成情報工学科

変数選択手法っていろいろあるけど何を使えばいいの？

Generative Topographic Mapping (GTM) でデータの可視化・回帰分析・モデルの逆解析を一緒にやってみた

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 Model validation

スペクトル・時系列データの前処理方法～平滑化 (スムージング) と微分～

ガウス過程による回帰 Gaussian Process Regression GPR

Fuzzy c-Means法によるクラスター分析に関する研究

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

モデルの適用範囲モデルの適用領域 Applicability Domain (AD)

ニューラルコンピューティングを理解する第一版：2006/12/12 第二版：2007/11/12

グラフアルゴリズムの可視化数理科学コース　福永研究室高橋　優子 2018/12/29.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

人工知能特論９．パーセプトロン北陸先端科学技術大学院大学　鶴岡慶雅.

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

人工知能を動かしてみる（Keras を用いたニューラルネットワークの定義，コンパイル，学習，評価，予測）

T2統計量・Q統計量明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

第14章　モデルの結合修士２年山川佳洋.

生物統計学・第3回全体を眺める（1） R、クラスタリング、ヒートマップ、各種手法

多変量解析ゼミ　第１０回第１２章クラスター分析発表者直江　宗紀.

主成分分析 Principal Component Analysis PCA

分子生物情報学(2) 配列のマルチプルアライメント法

決定木 Decision Tree DT 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Data Clustering: A Review

プログラミング 4 整列アルゴリズム.

15K1117 下窪聖人 15K1013 坂本倖輝 15K1112 黒川晶太 15K1015 関根修斗

階層的境界ボリュームを用いた陰関数曲面の高速なレイトレーシング法

部分的最小二乗回帰 Partial Least Squares Regression PLS

ニューラルコンピューティングを理解する 2006/12/12 Graduate School of Media and Governance

Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

生物統計学・第3回全体を眺める（2）クラスタリング、ヒートマップ

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

線形判別分析 Linear Discriminant Analysis LDA

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

ベイズ最適化 Bayesian Optimization BO

Stepwise (ステップワイズ) 法による説明変数 (入力変数・記述子・特徴量) の選択

サポートベクターマシン Support Vector Machine SVM

データ構造とアルゴリズム (第5回) 静岡大学工学部安藤和敏

Data Clustering: A Review

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

遺伝的アルゴリズム (GA) を活用したスペクトルの波長選択および時系列データにおけるプロセス変数かつその時間遅れ (ダイナミクス) の選択明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

データ解析静岡大学工学部安藤和敏

原子核物理学第７講　殻模型.

最小二乗法による線形重回帰分析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

誤差逆伝播法によるニューラルネットワーク (BackPropagation Neural Network, BPNN)

実験計画法 Design of Experiments (DoE)

Locally-Weighted Partial Least Squares LWPLS 局所PLS

モデルの微分による非線形モデルの解釈明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

blossom取り扱い説明書＜基本説明＞＜各種設定＞初期画面→ノードの初期化入力データの選択学習開始学習終了マップの見方

Data Clustering: A Review

Boruta 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

プログラミング入門２第５回配列変数宣言、初期化について

転移学習 Transfer learning

混合ガウスモデル Gaussian Mixture Model GMM

外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection

Presentation transcript:

自己組織化マップ Self-Organizing Map SOM 明治大学理工学部応用化学科データ化学工学研究室金子弘昌

自己組織化マップ (SOM) とは？ニューラルネットワークの１つデータを可視化・見える化するための非線形手法主成分分析などとは異なり、はじめに二次元平面の座標を作ってしまい、それを実際の多次元空間のサンプルに合わせ込むというスタンスオーバーフィッティングを起こしやすいので注意が必要 SOMのいろいろな問題点を解決した、上位互換の手法に Generative Topographic Mapping (GTM) がある GTMに対するSOMのメリットは、手法の説明が簡単、コーディングがしやすい、くらい

SOMを作るおおまかな流れ２次元マップのサイズを決める 10×10 とか、4×6 とか２次元の各グリッドにニューロンを配置する 10×10なら、100個のニューロン各ニューロンは、データセットの変数の数と同じ要素数をもつベクトル要素の値はランダム以下を繰り返すデータセットのサンプルごとに最もユークリッド距離の近いニューロン (勝者ニューロン) を見つける勝者ニューロンをそのサンプルに少し近づける勝者ニューロンに近いニューロンも、そのサンプルに少し近づける

こんなデータセットがあるとする変数 1 2 ・・・ i ・・・ m-1 m 1 2 ・・・サンプル j xi(j) ・・・ n-1 n

２次元マップのサイズを決めるここでは簡単のため、4×６にします 4 3 2 1 1 2 3 4 5 6

２次元の各グリッドにニューロンを配置する各ニューロン wi,j は変数の数 n の長さをもつベクトル wi,j = [ wi,j,1 wi,j,2 ・・・ wi,j,k ・・・ wi,j,m-1 wi,j,m ] 最初は wi,j,k を乱数とする (ニューロンの初期化) 4 w4,1 w4,2 w4,3 w4,4 w4,5 w4,6 3 w3,1 w3,2 w3,3 w3,4 w3,5 w3,6 2 w2,1 w2,2 w2,3 w2,4 w2,5 w2,6 1 w1,1 w1,2 w1,3 w1,4 w1,5 w1,6 1 2 3 4 5 6

サンプルとニューロンとの距離を計算する各サンプルを x(j) = [ x1(j) x2(j) ・・・ xi(j) ・・・ xm-1(j) xm(j) ] とする１つのサンプルと、すべてのニューロンとの間でユークリッド距離を計算する例) x(1) と w4,3 との間のユークリッド距離 d

最も距離の近いニューロンを見つける勝者ニューロン：あるサンプルとの距離が最も小さいニューロン例) x(1) について、勝者ニューロンは w2,5 4 w4,1 w4,2 w4,3 w4,4 w4,5 w4,6 3 w3,1 w3,2 w3,3 w3,4 w3,5 w3,6 勝者ニューロン 2 w2,1 w2,2 w2,3 w2,4 w2,5 w2,6 1 w1,1 w1,2 w1,3 w1,4 w1,5 w1,6 1 2 3 4 5 6

勝者ニューロンをサンプルに少し近づける勝者ニューロンを w2,5 とすると、修正後のニューロン wnew2,5 は、トーラスマッピングにすると端のニューロンの不公平感をなくせるトーラスマッピング：二次元マップの一番右の右は左、一番上の上は下、とすること、マップはドーナツ状 α：学習率 ( 0 < α < 1 )

勝者ニューロンに近いのもサンプルに近づける勝者ニューロンを w2,5 とすると、その近くに存在するニューロンも、 wnew2,5 ほどではないがサンプル x(1) に近づける 4 w4,1 w4,2 w4,3 w4,4 w4,5 w4,6 3 w3,1 w3,2 w3,3 w3,4 w3,5 w3,6 勝者ニューロン 2 w2,1 w2,2 w2,3 w2,4 w2,5 w2,6 1 w1,1 w1,2 w1,3 w1,4 w1,5 w1,6 1 2 3 4 5 6

勝者ニューロンに近いのもサンプルに近づける勝者ニューロンを w2,5 とすると、たとえば、その近くのニューロン w2,4 の修正後のニューロン wnew2,4 は、 g(e)：近傍関数 e：二次元マップ上での勝者ニューロンとの距離近傍関数の例 g(e) 1 e

二次元マップの学習を繰り返す学習：勝者ニューロン・その近くのニューロンをサンプルに近づけることサンプルを順番に学習させるすべてのサンプルを学習させ終わったら、もう一巡何順させるか：学習回数事前に決めておく一巡するごとに、サンプルの順番をシャッフルさせることで、均等に学習させることができる

SOMの特徴学習が終わった後、サンプルごとの勝者ニューロンを見ることで、二次元マップ上での可視化が達成される学習が終わった後、サンプルごとの勝者ニューロンを見ることで、二次元マップ上での可視化が達成されるニューロン間の距離を見ることで、クラスタリングも検討できるニューロン間の距離が大きいところは、クラスターの境目ただ、狙ってクラスタリングしたわけではなく、たまたまクラスターの境目になることもあるため、別途クラスタリングをしたほうが無難

SOMの問題点事前に学習回数・学習率を決めなければならない学習回数を多くしたからといって、二次元マップが収束するとは限らない二次元マップのサイズ・学習回数・学習率・近傍関数をすべて適切に決めないと、二次元マップが各サンプルにオーバーフィットしてしまう二次元マップが実際の多次元空間において滑らかにならない

SOMの問題点の解決策 Generative Topographic Mapping (GTM) を用いる先にあげた問題点を解決できる