白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

世帯マイクロデータの適合度評価における 重みの決定手法
グラフィカル多変量解析 ----目で見る共分散構造分析----
平成14年2月8日 卒業研究報告 相関行列に基づく非計量多次元尺度法 に関する研究
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)。2章と3章
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
情253 「ディジタルシステム設計 」 (3)Constellation3
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
重回帰分析入門 経済データ解析 2009年度.
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
Introduction to Soft Computing (第12回~第13回)
マーケティング戦略の決定 ポジショニング戦略
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
重回帰分析入門 経済データ解析 2011年度.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)第7章
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
人工知能概論 第10回 学習と認識(1) クラスタリング
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
回帰分析.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
システム開発実験No.7        解 説       “論理式の簡略化方法”.
マーケティング戦略.
ポジショニング戦略.
12月4日 伊藤 早紀 重回帰分析.
回帰分析/多変量分析 1月18日.
データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学).
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
Lorenz modelにおける 挙動とそのカオス性
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ニューラルコンピューティングを理解する 第一版:2006/12/12 第二版:2007/11/12
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
Introduction to Soft Computing (第11回目)
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
ポジショニング戦略.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
再討論 狩野裕 (大阪大学人間科学部).
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
部分的最小二乗回帰 Partial Least Squares Regression PLS
Data Clustering: A Review
ニューラルコンピューティングを理解する 2006/12/12 Graduate School of Media and Governance
アルゴリズムとデータ構造 2011年7月8日課題の復習
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
重回帰分析入門 経済データ解析 2008年度.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章 白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章 情報知能学科 白井 英俊

4章 自己組織化マップ コホーネンネット:複雑な多次元情報から、観測対象の「ポジショニング」(位置決め)マップを描くためのツール 自己組織化マップ(SOM, Self-Organizing Map) 教師なし学習を用いるニューラルネットモデル コホーネンネット = SOM Kohonen, T. (1984)「自己組織化と連想記憶」

多次元データの可視化 データが2次元なら、平面(XY座標) データが3次元なら、空間(XYZ座標) しかし、それ以上だと、可視化するのは困難 そこで、多次元データの情報を圧縮して、低次元(特に2次元)上に表示することが重要 ⇒ SOMの出番(他にも主成分分析、因子分析、多次元尺度法などの方法があるが….)

ニューラルネットとしてのSOM SOMは2層のニューラルネット 第1層は入力層 第2層は出力層(座標に対応) 隠れ層・隠れユニットはない   第2層は出力層(座標に対応) 隠れ層・隠れユニットはない 教師なしの学習ー競合学習 入力情報と接続重みがどれだけ似ているかを第2層のユニット間で競争

例:動物地図

例:動物地図

数理モデル 入力層---観測変数ベクトル(I次元、t:時間) x(t) = (x1(t), x2(t), …, xi(t), …, xI(t)) 出力層---J個のユニット(m1,…,mj,…,mJ) mj(t) = (m1j(t), m2j(t), …, mij(t), …, mIj(t)) mij : 入力層i番目のユニットと出力層j番目のユニットの重み x(t)とmj(t) の差: || x(t) - mj(t) || これが最小となるものがあるはず。それがmc(t)

数理モデル(続き) 学習(時刻tの状態から時刻t+1の状態へ) mj(t+1) = mj(t) + α(t)*hcj(t)*(x(t) - mj(t)) α(t), hcj(t) : 0 以上 1以下の重み、 mj(t+1)に対するx(t)の影響の強さを表す    α(t)=hcj(t)=1 なら mj(t+1) = x(t) になる⇒影響大 hcj(t) : 出力層ユニットcと出力層ユニットjの近さを表す関数 hcj(t) = exp( - ||rc – rj||2 / 2σ2(t) ) σ2(t) : 時間とともに減少する関数 (σ2(t) → ∞ならhcj(t) →1, σ2(t) → 0ならhcj(t) →0) α(t) の例(Tは変化持続時間) : Max((T-t)/T, 0)

次元圧縮のための他の方法との比較 主成分分析、因子分析、判別分析:多次元データの情報の線形写像を行って、ユークリッド距離空間を構成→距離が「類似度の程度」を表す  SOMはそうではない: 隣り合ったユニット同士の類似性は高いが、距離が類似度を表すわけではない、xy軸の解釈も不可能 主成分分析との比較   p.121-122 を参照

小売データ

マップの解釈 生データだけを眺めていては見出し得ない特徴が自己組織化マップを作ることで見えてくる 生データと見比べて解釈を進めると効果的 類似度の高いものが集まる ただし、「距離」が類似度の度合を表すわけではない(尺度n個分離れたからといって類似度が1/nになるわけではない) 方向(「軸」)も意味をもたない

決定木との連動 決定木と連動させると効果的 言葉で特徴づけたい  分類基準がない状態で、観測対象を明確に分類したい

分析結果の不定性 データマイニングの多くの手法(決定木、ニューラルネットなど)では、同一のデータから同一の分析結果・解釈が得られるとは限らない=不定性 SOMの場合:乱数の種(seed)が異なると、競合学習される重みも異なる ⇒ 観測対象のマップが変化する SOMは探索的に示唆を与えるツール  検証・確認させる手段としては問題がある

追加課題:5章の温泉データから