第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一 わかりやすいパターン認識 第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
〔1〕識別部を決定するパラメータ 線形識別関数、ニューラルネットワーク、k-NN法(ノンパラメトリックな手法) ハイパーパラメータを設定しなければならない (識別機の“本来のパラメータのためのパラメータ”) ※ハイパーパラメータの設定は実用上極めて重要!! (識別性能に大きな影響を与える)
各手法におけるハイパーパラメータ 識別手法 ハイパーパラメータ 線形識別関数 関数の次数 ニューラルネットワーク 中間ユニット数 k-NN法
ハイパーパラメータの設定方法(1) クラスラベルつきパターン集合 ハイパーパラメータは未知パターンに対する識別性能を評価することで 決定される 誤識別率の低いハイパーパラメータが望ましい ハイパーパラメータをλとする 全ての可能な未知パターンに対する識別機の誤識別率の 平均値として を求める を最小にする を決定する (Λ:λ全体の集合)
ハイパーパラメータの設定方法(2) 実際は、分布が未知なので単純に を計算できない 与えられたクラスラベル付パターン集合 から を推定する
〔2〕分割学習法 分割学習法(H法) の推定精度が良くない :与えられたパターン集合の一部をテストパターン集合と みなす方法 手順 :与えられたパターン集合の一部をテストパターン集合と みなす方法 手順 X→X1(学習パターン集合)、X2(テストパターン集合)に分割 X1を用いて の各値で識別機を設計 X2で識別性能を評価 問題点 学習パターン数が減少し、識別性能が劣化 学習パターン数を多くすると、テストパターン数が少なくなり、 性能評価の信頼性が低下 の推定精度が良くない
〔3〕交差確認法 交差確認法(CV法) 手順 Xをm個のグループ に分割 Xiを除いた(m-1)個のグループパターンで学習した後 Xiの要素数=1となるように分割する方法(一つ抜き法[L法]) がよく用いられている 全てのパターンが学習とテストに用いられているため H法より の推定精度が向上
〔4〕ブートストラップ法[1] ブートストラップ法(BS法) (推定値がXの変動に対し安定) :CV法に比べ推定値の分散が小さくなる (推定値がXの変動に対し安定) Xを学習とテストの両方に利用してそのときの推定値を とする は真値 よりも小さくなる (学習パターン数がテストにも利用されたから) ずれを とする Rをなんらかの方法で推定できれば として 真値 を推定できる ●Xからn回の復元抽出により疑似パターン集合 を生成し、この を用いて Rの推定値を求める
ブートストラップ法[2] 手順 L法、BS法は、かなりの学習回数を要し、膨大な 計算時間を要するが、精度が良いことでこの欠点を カバーできる ( のサンプリング影響をなくすため) B個の疑似パターンについて を求めて それらの平均値を とする( ) : を学習とテストの両方に用いたもの : を学習に、Xをテストに用いたもの 求めるべき推定値は となる L法、BS法は、かなりの学習回数を要し、膨大な 計算時間を要するが、精度が良いことでこの欠点を カバーできる