白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章 白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章 情報知能学科 白井 英俊
4章 自己組織化マップ コホーネンネット:複雑な多次元情報から、観測対象の「ポジショニング」(位置決め)マップを描くためのツール 自己組織化マップ(SOM, Self-Organizing Map) 教師なし学習を用いるニューラルネットモデル コホーネンネット = SOM Kohonen, T. (1984)「自己組織化と連想記憶」
多次元データの可視化 データが2次元なら、平面(XY座標) データが3次元なら、空間(XYZ座標) しかし、それ以上だと、可視化するのは困難 そこで、多次元データの情報を圧縮して、低次元(特に2次元)上に表示することが重要 ⇒ SOMの出番(他にも主成分分析、因子分析、多次元尺度法などの方法があるが….)
ニューラルネットとしてのSOM SOMは2層のニューラルネット 第1層は入力層 第2層は出力層(座標に対応) 隠れ層・隠れユニットはない 第2層は出力層(座標に対応) 隠れ層・隠れユニットはない 教師なしの学習ー競合学習 入力情報と接続重みがどれだけ似ているかを第2層のユニット間で競争
例:動物地図
例:動物地図
数理モデル 入力層---観測変数ベクトル(I次元、t:時間) x(t) = (x1(t), x2(t), …, xi(t), …, xI(t)) 出力層---J個のユニット(m1,…,mj,…,mJ) mj(t) = (m1j(t), m2j(t), …, mij(t), …, mIj(t)) mij : 入力層i番目のユニットと出力層j番目のユニットの重み x(t)とmj(t) の差: || x(t) - mj(t) || これが最小となるものがあるはず。それがmc(t)
数理モデル(続き) 学習(時刻tの状態から時刻t+1の状態へ) mj(t+1) = mj(t) + α(t)*hcj(t)*(x(t) - mj(t)) α(t), hcj(t) : 0 以上 1以下の重み、 mj(t+1)に対するx(t)の影響の強さを表す α(t)=hcj(t)=1 なら mj(t+1) = x(t) になる⇒影響大 hcj(t) : 出力層ユニットcと出力層ユニットjの近さを表す関数 hcj(t) = exp( - ||rc – rj||2 / 2σ2(t) ) σ2(t) : 時間とともに減少する関数 (σ2(t) → ∞ならhcj(t) →1, σ2(t) → 0ならhcj(t) →0) α(t) の例(Tは変化持続時間) : Max((T-t)/T, 0)
次元圧縮のための他の方法との比較 主成分分析、因子分析、判別分析:多次元データの情報の線形写像を行って、ユークリッド距離空間を構成→距離が「類似度の程度」を表す SOMはそうではない: 隣り合ったユニット同士の類似性は高いが、距離が類似度を表すわけではない、xy軸の解釈も不可能 主成分分析との比較 p.121-122 を参照
小売データ
マップの解釈 生データだけを眺めていては見出し得ない特徴が自己組織化マップを作ることで見えてくる 生データと見比べて解釈を進めると効果的 類似度の高いものが集まる ただし、「距離」が類似度の度合を表すわけではない(尺度n個分離れたからといって類似度が1/nになるわけではない) 方向(「軸」)も意味をもたない
決定木との連動 決定木と連動させると効果的 言葉で特徴づけたい 分類基準がない状態で、観測対象を明確に分類したい
分析結果の不定性 データマイニングの多くの手法(決定木、ニューラルネットなど)では、同一のデータから同一の分析結果・解釈が得られるとは限らない=不定性 SOMの場合:乱数の種(seed)が異なると、競合学習される重みも異なる ⇒ 観測対象のマップが変化する SOMは探索的に示唆を与えるツール 検証・確認させる手段としては問題がある
追加課題:5章の温泉データから