データの可視化 ~高次元データを見る~ 三枝 亮 (早稲田大学)
高次元データを見よう !! 次元数:1,2,3,4,5,…,N ?? 見える 見えない 低次元化
可視化のための低次元化手法 主成分分析(PCA) 自己組織化マップ(SOM) 多次元尺度構成法(MDS)
主成分分析(PCA) 分布が偏っている空間のみで記述. 分布に偏りがあるほど,効率的に低次元化できる. 線形変換なので性質が良い.
自己組織化マップ(SOM) 近傍を近傍に写すように低次元化. 近傍:保持,遠方:歪む 地球儀から地図を作るようにデータを低次元化できる. ラーメン店 スープの濃さ 麺の直径 トッピングの数 店主の人柄 A 6 5 6 7 B 7 8 4 8 C 10 4 2 1 近傍:保持,遠方:歪む 地球儀から地図を作るようにデータを低次元化できる. A B C
多次元尺度構成法(MDS) 関係(距離)から配置(座標)を求める. 何次元のデータかわからない &そもそも量的なデータでない 10 7 10 3 3 7 何次元のデータかわからない &そもそも量的なデータでない ⇒2次元的な配置が得られる
まとめ 高次元データを見るには? データを低次元化手法 2次元・3次元データを gnuplot などへ 高次元データを2次元・3次元に落とす! データを低次元化手法 主成分分析,自己組織化マップ,多次元尺度構成法など. 2次元・3次元データを gnuplot などへ データの分布を観察しましょう.