わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数 平成15年6月6日(金) 発表者 藤井 丈明
表現のための次元削減と判別のための次元削減 〔1〕 KL展開と線形判別法 KL展開の軸 線形判別法の軸 表現のための次元削減と判別のための次元削減
KL展開と線形判別法の違い KL展開ー表現、圧縮のための次元削減 線形判別法ー判別のための次元削減 線形判別法はクラスの分布の分離度を考慮している
KL展開の有用性 ・KL展開の有用性 1)高次元の特徴ベクトルを必要とする高度な認識(文字認識、音声認識etc)の、次元の呪いを防ぐために次元削減が必要 2)相関の高い特徴がある時、次元削減により冗長な情報を減らす。また計算誤差が大きくなるのを防ぐことができる
KL展開の問題点 KL展開の問題点 ・KL展開によって特徴空間の次元数を減らすことは識別に必要な情報を落としてしまう危険性を常にはらんでいる
〔2〕 KL展開と学習パターン数 学習パターンから共分散行列を求め、その固有値と固有ベクトルを求める 〔2〕 KL展開と学習パターン数 学習パターンから共分散行列を求め、その固有値と固有ベクトルを求める KL展開の計算に学習パターン数がどのような影響を及ぼすか次の2つの実験で調べる
実験 実験1-16次元の特徴空間上に多次元正規分布をするパターンを人工的に発生させ、KL展開によって定まる主軸と正しい主軸とのずれが、パターン数の増加とともにどのように変化するか調べ、二つの軸のなす角を とし、ずれを で評価する 実験2-人口的な特徴ベクトルではなく、実際の文字パターンから得られた特徴を用いて上と同様の実験を行う。文字として手書き数字の「5」を400パターン収集、Glucksmanの特徴を加工して得られる16次元特徴を用いた
実験1 グラフ (a) 多次元正規分布パターン パターン数 パターン数と主軸方向の精度
実験1、結果 パターン数が次元数に等しい時 求められた主軸は63.7のずれがある パターン数が次元数の4倍の時 求められた主軸は50.5のずれがある 次元数に比して十分なパターン数を用意する必要がある
実験2 グラフ 多次元正規分布パターン 実文字パターン パターン数 パターン数と主軸方向の精度
実験2、結果 パターン数が比較的少なくても、ほぼ正しい主軸が得られた 実際、互いに独立な特徴を用意する 事は困難であり、必ず相関を持ってしまう この例も、Glucksmanの特徴上、特徴間で相関を持つものがかなりの部分を占めていると考えられる
累積寄与率 (cumulative proportion) 固有値を大きい順にある個数まで加算した値が、固有値の総和に対して占める割合。ある限られた主成分だけで元の分布をどの程度忠実に記述できるかという目安になる
累積寄与率 グラフ 累積寄与率 多次元正規分布パターン 実文字パターン 特徴数 特徴数と累積寄与率
累積寄与率、結果 (実文字パターン) 最初の8個でほぼ99%に達した 実際には8次元程度の部分空間にパターンが分布している 見かけ上の次元数は大きくても、実際はより小さな次元の空間にパターンが分布しているとき、この実際上の次元数を固有次元数(intrinsic dimensionality)と呼ぶ
累積寄与率、結果 (多次元正規分布パターン) 累積寄与率が途中で急激に増大し、飽和する事はない ・用いたものは人工的なパターン ・16個の特徴間の独立性が高いため 固有次元数も16に近いと考えられる よって必要とされるパターン数ははるかに多くなる
まとめ 結果的にパターンが少数次元の部分空間にしか分布していないとしても、その事実を確認するには次元数に比べて大量のパターンが必要であることに注意する必要がある