パターン認識とニューラルネットワーク栗田多喜夫 2018/9/16 早稲田大学大学院理工学研究科講義.

Slides:

Advertisements

Similar presentations

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

Advertisements

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

Building text features for object image classification

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

静止背景における動物体の検出と追跡陳　謙 2004年10月19日.

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第四回　演習課題画像中からの物体抽出処理（背景情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/15.

Pattern Recognition and Machine Learning 1.5 決定理論

多数の疑似システムを用いたシステム同定の統計力学三好誠司岡田真人神戸高専東大，理研

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.

ガウス過程による回帰 Gaussian Process Regression GPR

線形フィルタと畳み込み積分マスクによる画像のフィルタリング１．入力画像中の関心の画素のまわりの画素値

パターン認識とニューラルネットワーク栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.

サポートベクターマシンによるパターン認識

高次元データの解析－平均ベクトルに関する検定統計量の漸近分布に対する共分散構造の影響－

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

決定木とランダムフォレスト和田　俊和.

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University)

T2統計量・Q統計量明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

第14章　モデルの結合修士２年山川佳洋.

確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

第６章特徴空間の変換６．１特徴選択と特徴空間の変換６．２特徴量の正規化平成１５年５月２３日（金）発表者藤井丈明

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

訓練データとテストデータが異なる分布に従う場合の学習

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

第7章　疎な解を持つカーネルマシン修士２年山川佳洋.

独立成分分析 (ＩＣＡ：Independent Component Analysis )

予測に用いる数学 2004/05/07 ide.

主成分分析 Principal Component Analysis PCA

Data Clustering: A Review

パターン認識とニューラルネットワーク栗田多喜夫 2019/4/16 早稲田大学大学院理工学研究科講義.

パターン認識特論担当：和田俊和部屋 A513 主成分分析

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

部分的最小二乗回帰 Partial Least Squares Regression PLS

Nightmare at Test Time: Robust Learning by Feature Deletion

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

パターン認識とニューラルネットワーク栗田多喜夫 2019/4/26 早稲田大学大学院理工学研究科講義.

Number of random matrices

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

第3章　線形回帰モデル修士1年山田　孝太郎.

サポートベクターマシン Support Vector Machine SVM

「ＩＣＡによる顔画像特徴量抽出とＳＶＭを用いた表情認識」

東北大情報科学田中和之,吉池紀子山口大工庄野逸理化学研究所岡田真人

第9章学習アルゴリズムとベイズ決定側〔3〕最小2乗法とベイズ決定側発表：2003年7月4日時田陽一

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで渡辺一帆（東大・新領域）

ポッツスピン型隠れ変数による画像領域分割

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

パターン認識特論 ADA Boosting.

わかりやすいパターン認識第３章　誤差評価に基づく学習３．３　誤差逆伝播法.

制約付き非負行列因子分解を用いた音声特徴抽出の検討

パターン認識特論 ADA Boosting.

パターン認識特論ｶｰﾈﾙ主成分分析和田俊和.

わかりやすいパターン認識第６章特徴空間の変換６．５ KL展開の適用法〔１〕 KL展開と線形判別法〔２〕 KL展開と学習パターン数

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

自己縮小画像と混合ガウス分布モデルを用いた超解像

ＡＡＭと回帰分析による視線、顔方向同時推定

市松模様を使用したカメラキャリブレーション

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

パターン認識とニューラルネットワーク栗田多喜夫 2018/9/16 早稲田大学大学院理工学研究科講義

講義内容 1時限目 2時限目統計的決定理論学習の理論とニューラルネット統計的特徴抽出の理論パターン認識とはベイズ決定理論確率密度分布の推定パラメトリックモデルを用いる方法ノンパラメトリックな方法セミパラメトリックモデルを用いる方法学習の理論とニューラルネット単純パーセプトロン ADALINE ロジスティック回帰 2時限目統計的特徴抽出の理論特徴抽出の枠組み線形多変量データ解析手法非線形判別特徴の抽出線形手法と非線形手法との関係

講義内容 3時限目 4時限目カーネル法顔検出・顔認識への応用識別のための線形手法と汎化性サポートベクターマシンリッジ回帰ロジスティック回帰+Weight Decay カーネル法カーネルサポートベクターマシンカーネル判別分析 4時限目顔検出・顔認識への応用

視覚情報処理 From David H. Hubel, “EYE, BRAIN, AND VISION,” Scientific American Library

脳科学の進展脳の視覚情報処理に関する知見網膜レベルからすでに情報が分化視覚情報処理のための多くの専門分化された領野が存在コラム構造空間的な位置関係や動きに関する知覚---大脳皮質の視覚野から上に向かい頭頂連合野に至る経路視野内の物体が何かのパターン認識---視覚野から下の側頭連合野に至る経路視覚情報処理のための多くの専門分化された領野が存在コラム構造眼優位性コラム（第1次視覚野V1）---左右どちらの芽からの情報を受け取るかでコラム構造を形成方位選択性コラム（第1次視覚野V1） --- 線分の方向に選択的に反応する細胞がコラム構造を形成三次元物体回転（TE野）---似た図形特徴に反応する細胞が三次元物体回転に対する見えの変化と整合性を持つような順序でコラム構造を形成運動方向性コラム（MT野）---視野内の刺激の方向に選択的に反応する細胞がコラム構造を形成近年、脳活動の計測技術が飛躍的に進歩しており、また、細胞レベルで染色し、可視化する技術なども急速に発展しており、現在、急速に脳に関する知見が深まりつつあるといえると思います。脳での視覚情報処理についても、多くの知見が得られています。例えば、視覚情報処理では、網膜レベルからすでに情報が分化され、空間的な位置関係や動きに関する知覚は、大脳皮質の視覚野から上に向かい頭頂連合野に至る経路で行われ、視野内の物体が何であるかのパターン認識は、視覚野から下の側頭連合野に至る経路で行われていると考えられています。また、視覚情報処理のための多くの専門分化された領野が存在し、それらが相互に情報をやり取りすることで、多種多様な機能を実現していると考えられています。さらに、様々な領野で、似たような機能を持つ細胞が集まってコラム構造が形成されています。例えば、第1次視覚野では、場所によって左右どちらの眼からの情報を受け取るかが決まっており、それらがコラム構造を形成しています。これは、眼優位性コラムと呼ばれています。また、眼優位性コラムの中には、線分の方向に選択的に反応する細胞がコラム構造を形成しています。これは、方位選択性コラムとよばれています。また、側頭連合野のTE野と呼ばれる領野では、似た図形特徴に反応する細胞が三次元物体回転に対する見えの変化と整合性を保った順序でコラム構造が形成されています。その他、MT野と呼ばれる領野では、視野内の刺激の方向に選択的に反応する細胞が集まってコラム構造を形成しています。

初期視覚情報処理外側膝状体第1次視覚野（Ｖ１）網膜上丘・情報の中継・信号整形・外界の視覚情報の受容・形の特徴抽出・眼球運動・形の特徴抽出・動きの特徴抽出・眼優位性・色の情報処理・外界の視覚情報の受容

福島、大串、斎藤、共著、視覚情報処理,森北出版、2001 視覚中枢の階層構造と情報の流れ福島、大串、斎藤、共著、視覚情報処理,森北出版、2001

網膜および第一次視覚野の情報処理何をやっているのか？網膜視覚第一次野（V1) 入ってきた視覚情報からなるべく多くの情報を取り込み、しかも取り込んだ情報に含まれる冗長性をなるべく取り除くような情報処理を実現網膜眼底に貼り付いている透明な神経組織外界の視覚情報を受け取り、局所的な情報処理をの結果を神経パルス列に符号化して、視覚中枢に送り込む視細胞(photoreceptor)、水平細胞(horizontal cell)、アマクリン細胞(amacrine cell)、神経節細胞(ganglion cell)が整然と並んだ層構造視覚第一次野（V1) 6層構造をした後頭部にある大脳皮質の一部で、外側膝状体（LGN)からの入力は４C層に入る各ニューロンは受容野により規定される方向を持った直線状のコントラストに対して強い反応を示す（単純型細胞）光刺激の位置が方位に垂直方向に多少ずれても反応の強さが変化しないニューロンも存在する（複雑型細胞）

網膜の構造 From David H. Hubel, “EYE, BRAIN, AND VISION,” Scientific American Library

網膜での情報処理自然画の局所的な自己相関神経節細胞の出力のパワースペクトルコントラストフィルタ風景や顔などの人工物を含まない自然画像の局所的な自己相関のパワースペクトルは空間周波数の2乗に反比例する(Field 1987) 神経節細胞の出力のパワースペクトル低周波では、平坦（コンスタント）(Atick等 1992) 自己相関を空間的に無相関化していることに対応入力情報から空間的な冗長性を取り除く処理(whitening) 高周波では、高周波成分を抑制 Whiteningによりノイズが増幅されることを防ぐ働きコントラストフィルタ

入ってきた視覚情報からなるべく多くの情報を取り込み、しかも取り込んだ情報に含まれる冗長性をなるべく取り除くような情報処理を実現第一次視覚野での情報処理情報抽出とスパース符号化いくつかの基底ベクトルの線形結合により入力をなるべく近似し、しかも、その結合係数がなるべくスパースになるような基準で基底ベクトルを求めると、第一次視覚野の単純型細胞の特性と似た特徴が得られる(Olshausen & Field, 1996) 独立成分の抽出独立成分分析(ICA)を用いて、Olshausen & Fieldの結果と同様な結果が得られる(Bell & Sejnowski, 1997) これは、入力情報と取り込む機能の実現するための最も自然な動作原理入ってきた視覚情報からなるべく多くの情報を取り込み、しかも取り込んだ情報に含まれる冗長性をなるべく取り除くような情報処理を実現

私の顔遍歴顔識別顔検出探索 1992 – 顔画像認識の試み（高次局所自己相関特徴＋線形判別分析 [ ICPR’92]） 1996 – 回転・大きさ（Log Polar +高次局所自己相関特徴＋線形判別分析 [ACCV98,信学論97]） 2000 – 向きの変化（Mixture of Classifiers [MVA2000]） 2001 – 部分的な隠れ（順逆モデルによる自己想起 [PRMU研究会2003]）顔検出 1997 – 回転・大きさ（Log Polar + 高次局所自己相関特徴＋線形判別分析 [FG98]） 1998 – 顔検出・顔識別：大きさ(Log Polar + スペクトル特徴＋線形判別分析 [SPIE99,IEICE Trans. 2001]） 1999 – 環境の変化（コントラストGabor特徴＋情報量重み [FG2000]） 2000 – 汎化性・注視（特徴点選択 [MVA2000,信学論2001]） 2001 – 汎化性（局所識別結果の統合 [PRMU研究会2002]) 2001 – 汎化性・識別器（カーネル判別分析 [FG2002]）探索 1997 – 顔検出：探索の効率化（Ising Modelを用いた探索 [SPIE98,ICPR98]） 1999 – 顔検出：探索の効率化（位置に関する事前確率＋Ising Search [ICPR2000]）

コントラスト + Gaborフィルタコントラストフィルタ Saliency Map （Gabor特徴の情報量）（一次視覚野での特徴抽出）コントラストフィルタ（網膜の処理） Saliency Map （Gabor特徴の情報量）入力画像 Saliency value ：マッチングの際の重み高い Saliency 値を持つ注目点　　　マッチングの結果に大きな影響を与える（目、鼻、口：　高いSaliency 値を持つ）

コントラストフィルタ Contrast Filter 入力画像コントラスト画像網膜のガングリオン細胞の受容野に類似 [Atick92,Olshausen97] Contrast Filter 入力画像　コントラスト画像

コントラストフィルタの明るさの変化に対する頑健性

Gaborフィルタ V1野の単純型細胞の受容野特性に類似 [Jones87] 顔（対象）認識への有効性が報告されている [Malsburg93] Sparse coding ：鋭い選択性を持つ細胞集団の発火により情報を表現 [Olshausen96] 自然画像のICA [Bell96]　→ Gabor-likeフィルタ　　　　　各方位のGaborフィルタ：　確率的独立性が高い実験：　８方向のGaborフィルタ（９ｘ９画素）を利用コントラスト画像　Gaborフィルタの出力ヒストグラム

識別器・・・・・・・・・・・・ Contrast Contrast 入力モデル Gabor特徴 Gabor特徴 Face 識別器：モデルとのマッチング各特徴点： 8次元のContrast Gabor特徴（場所毎に正規化）・・・・・・・・・・・・ Contrast Contrast 入力　　　モデル Gabor特徴 Gabor特徴 Face Non-Face

画像中の顔の検出 Face ? or Non-face ? Face detection is one of the essential step of automatic face recognition. In this talk, we set the recognition task to face detection. To detect faces from the image, the system have to classify faces and non-faces at each point on the image. Previously, we proposed a face detection method. That method simulates the information processing in biological vision system. Contrast filter is used to simulate the information processing at retina. Gabor filter is used to simulate the information processing at V1 area. Information of Gabor features is computed and used as the weight for matching.

大きさの変化への対応 Scaling Matching Input Image ×0.5 Template ×1.0 ×1.5

Examples of Face Detection 1 The kernel size of Gabor filter : 9x9 pixels The size of model face : 31x26 pixels Model face : mean face of 20 persons Model face Saliency Map Robust to the changes of illumination and scale of a face

Face Detection on the Web 日刊スポーツのページ中の顔画像を検索した例（４４５枚の画像中１４５枚を顔画像として検出）

ニュース画像列における顔の位置の事前確率ニュース画像と顔検出結果

特定の人の顔をテンプレートとした顔検出約200枚の顔画像に対して正しく検出できたテンプレート 1996年に撮影平均顔（検出された約200枚の顔画像から作成した） 1997年に撮影 1998年に撮影平均顔（相関マッチングで検出した顔画像で作成。顔の検出率31.7%） 1999年に撮影（暗い） 1999年に撮影（隠れあり）

162枚の顔画像に対して、 99.4%の検出＋個人識別率顔検出＋個人識別顔検出（多数の人の平均顔） 162枚の顔画像に対して、 99.4%の検出＋個人識別率個人識別（個人の平均顔） 1996年に撮影かなり暗いめがねをかけた

解剖学的知見の利用情報量マップコントラストフィルタ解剖学的知見の利用（網膜の処理） Gaborフィルタ（一次視覚野での特徴抽出） Log-Polar変換（大きさの変化に強い認識が可能）

Log-Polar Sampling in Visual Cortex From David H.l Huberl, “EYE, BRAIN, AND VISION,” Scientific American Library

大きさの変化に影響を受けにくい顔認識 Cartesian Log-Polar 網膜の視細胞の密度は不均質中心が解像度が高く、周辺は低い Log-Polar画像 Input Image Cartesian Log-Polar Log-Polar Image

大きさ不変特徴 Rotation : Feature Vector Scale axis： Log-Polar画像の横軸方向の位置不変特徴（スペクトル特徴）を抽出 Autocorrelation, Fourier power spectrum, and PARCOR features

スペクトル特徴 Autocorrelation features The correlation between and Fourier power spectrum features PARCOR features The correlation between the prediction errors obtained by forward and backward AR model

顔(face)と顔以外(not face)の識別顔検出 : “face” and “not face” classification 識別空間の構成 : the covariance of “face” class Min the covariance between “face” class and each “not face” samples Max Max

The distance from the mean of “face” class 顔検出の閾値の設定 The sum of two probabilities 　　 Minimum P1: “face” samples are miss-classified as “not face” class P2: “not face” samples are miss-classified as “face” class P1 Error Probability P2 The distance from the mean of “face” class

顔検出実験学習データ：７０名以上の人の3000枚以上の顔画像と1000枚以上の顔以外の画像テストデータ：学習に含まれていない200枚の顔を含んだ画像評価：顔の中心から５画素以内に顔があると検出できたものを正解とする顔画像認識率(%) 自己相関９５．０パワースペクトル９７．５ PARCOR ８４．０ HLAC ４２．０顔以外の画像

Log-Polar画像のサイズを変化させた場合の認識率顔識別学習データ：400枚（5人 x 20枚 x 2 scales x 2背景）テストデータ：1200枚（5人 x 20枚 x 7 slcales x 2 背景）評価：顔の中心から５画素以内に顔があると検出できたものを正解とする Log-Polar画像のサイズを変化させた場合の認識率画像サイズ 30x30 60x30 90x30 120x30 自己相関 97.64 97.79 97.29 96.64 パワースペクトル 98.93 99.50 99.14 98.29 PARCOR 91.79 93.93 89.07 95.93 HLAC 82.21 77.36 82.79 85.93

応用例（事情通ロボット）目的：オフィス等で自律的に情報を収集し、人間に自然なインタフェースで情報サービスを行う移動ロボットエージェント。実現するタスク：新しい環境での道案内、人捜し、配達、会議などのスケジュール調整、人や物の所在の管理

対象の向きに対する選択的反応情報量マップコントラストフィルタ解剖学的知見の利用向きに依存しない認識：（網膜の処理）　対象の向きに選択的に反応するニューロン　（IT野） Gaborフィルタ（一次視覚野での特徴抽出）解剖学的知見の利用 Log-Polar変換（大きさの変化に強い認識が可能）

顔の向きに依存しない顔認識向きにより入力画像が大きく変化生体の視覚系工学的模倣提案手法正面からの顔画像は、その人の横顔よりも他の人の正面顔に近い我々人間の視覚では異なる向きの対象を容易に認識可能生体の視覚系 3次元の対象を識別するように学習したサルのIT野では、対象の向きに選択的に反応するニューロンがあり、その選択性は系統的[Pauls96] 顔認識タスクでも、IT野で顔の向きに選択的に反応するニューロンがある[Perrett89,Hasselmo89] 工学的模倣 RBFネットワークを用いて、少数の代表的な見えの補間で任意の向きからの見えが表現可能[Poggio90] 複数の非線形のautoencodersを統合して任意の見えの顔画像が表現できる[Ando99] 提案手法向きに選択的に反応する複数の識別器(Classifiers)を gating ネットワークにより入力画像の向きに応じて適切に選択

実験データ５°間隔、２５方向各顔データの向き顔データ（10人）主成分空間上での分布 -60° -50° -40° -30° -20° -10° 各顔データの向き５°間隔、２５方向 0° +10° +20° +30° +40° +50° +60° 顔データ（10人）主成分空間上での分布

SoftMax競合の砂時計型ニューラルネット代表的な見えの自己組織化中間層: SoftMax 入力画像の例（360度を1度刻みで撮影）学習曲線 Gating Network （6個の中間層で3個のみactive) 自己組織化で得られた代表的な見え

顔画像に対する代表的な見えの自己組織化入力画像の例自己組織化で得られた代表的な見え Gating Network 学習曲線 4個の中間層で3個のみActive 学習曲線

Mixture of Experts Mixture of Experts Jordan等が提案した、全学習データの部分集合のみを扱うようにした複数の部分ネットワーク(Experts)を結合したネットワークアーキテクチャ（1991）

Multinomial Logit model Expert （classifier） Multinomial Logit model 尤度・対数尤度学習アルゴリズム

Multinomial Logit model Gating network Gating Network 入力に対して適切な識別器を選択 Softmax関数で実現 Multinomial Logit model

Mixture of Classifiers の学習尤度・対数尤度学習アルゴリズム入力ｘに対するn番目の識別器の事後確率

顔の向きの表現の自己組織化中間層にSoftmax型素子（競合学習）を持つニューラルネットワークを用いた恒等写像学習

向きに選択的に反応するネットワーク

向きに依存しない顔認識

私の顔遍歴顔識別顔検出探索 1992 – 顔画像認識の試み（高次局所自己相関特徴＋線形判別分析 [ ICPR’92]） 1996 – 回転・大きさ（Log Polar +高次局所自己相関特徴＋線形判別分析 [ACCV98,信学論97]） 2000 – 向きの変化（Mixture of Classifiers [MVA2000]） 2001 – 部分的な隠れ（順逆モデルによる自己想起 [PRMU研究会2003]）顔検出 1997 – 回転・大きさ（Log Polar + 高次局所自己相関特徴＋線形判別分析 [FG98]） 1998 – 顔検出・顔識別：大きさ(Log Polar + スペクトル特徴＋線形判別分析 [SPIE99,IEICE Trans. 2001]） 1999 – 環境の変化（コントラストGabor特徴＋情報量重み [FG2000]） 2000 – 汎化性・注視（特徴点選択 [MVA2000,信学論2001]） 2001 – 汎化性（局所識別結果の統合 [PRMU研究会2002]) 2001 – 汎化性・識別器（カーネル判別分析 [FG2002]）探索 1997 – 顔検出：探索の効率化（Ising Modelを用いた探索 [SPIE98,ICPR98]） 1999 – 顔検出：探索の効率化（位置に関する事前確率＋Ising Search [ICPR2000]）

部分的に隠れた画像の想起と認識隠れや認識対象以外の部分を自動的に除去する機構を持つ認識器は、どのように作ればよいか？（ヒントは？）脳での視覚情報処理では、網膜から脳の高次中枢へのボトムアップな情報の流れだけでなく、トップダウンの情報の流れが第1次視覚野にも存在している。＝＞　順逆モデルロバストテンプレートマッチング（栗田1997）＝＞　例外地除去自己連想メモリ（Kohonen1989) 主成分分析や恒等写像を学習する階層型ニューラルネット（順逆モデル）を用いて、自己連想メモリを実現可能

部分的に隠れた画像の想起と認識 …… + 自己連想メモリ識別器順逆モデル(Autoencoder) として実現入力画素値と想起された画素の値との差により確からしさを求め、入力情報を修正することで元の画像を推定する識別器 Multinomial Logit Model 順逆モデルとの情報の共有 …… 順逆モデル + 予測値確からしさ

恒等写像学習教師信号多層パーセプトロン評価基準（2乗誤差最小）学習則

隠れを取り除く自己連想モデル入力画像推定画像確からしさ

想起実験（画素毎のランダムノイズ）元画像、入力画像、連想メモリ、提案法

想起実験（画素毎のランダムノイズ）学習データと出力との誤差の絶対値例外値の占める割合

想起実験（矩形の隠れ）元画像、入力画像、連想メモリ、提案法

想起実験（矩形の隠れ）学習データと出力との誤差の絶対値例外値の占める割合

Recall from the occluded images (rectangular occlusions) 20% of occlusions Original Occluded This shows the recall results fro rectangular occlusions. 確信度

Recall from the occluded images (occlusions by sunglasses) 非線形への拡張 Original Linear net: Linear MLP + Classifier Kernel PCA: Kernel PCA + Classifier Classifier: Multinomial Logit Model Test data: sunglass #iteration: 100(Linear) and 20(Kernel) Occluded Recognition Rate [%] initial aft. iteration Linear Base 77.4 87.1 Kernel Base 96.8 確信度 This is the recall results for sunglasses. You can see the certainties of the pixels in the sunglasses regions have low values. t=0 t=10 t=100 λ=0 Recognition Rates [%] 77.4 87.1 64.5

カメラ回転に伴うフローの推定 image original flow reconstructed difference

私の顔遍歴顔識別顔検出探索 1992 – 顔画像認識の試み（高次局所自己相関特徴＋線形判別分析 [ ICPR’92]） 1996 – 回転・大きさ（Log Polar +高次局所自己相関特徴＋線形判別分析 [ACCV98,信学論97]） 2000 – 向きの変化（Mixture of Classifiers [MVA2000]） 2001 – 部分的な隠れ（順逆モデルによる自己想起 [PRMU研究会2003]）顔検出 1997 – 回転・大きさ（Log Polar + 高次局所自己相関特徴＋線形判別分析 [FG98]） 1998 – 顔検出・顔識別：大きさ(Log Polar + スペクトル特徴＋線形判別分析 [SPIE99,IEICE Trans. 2001]） 1999 – 環境の変化（コントラストGabor特徴＋情報量重み [FG2000]） 2000 – 汎化性・注視（特徴点選択 [MVA2000,信学論2001]） 2001 – 汎化性（局所識別結果の統合 [PRMU研究会2002]) 2001 – 汎化性・識別器（カーネル判別分析 [FG2002]）探索 1997 – 顔検出：探索の効率化（Ising Modelを用いた探索 [SPIE98,ICPR98]） 1999 – 顔検出：探索の効率化（位置に関する事前確率＋Ising Search [ICPR2000]）

選択的注意の機構の利用コントラストフィルタ解剖学的知見の利用向きに依存しない認識：対象の向きに選択的に反応するニューロン（IT野）（網膜の処理）向きに依存しない認識：　対象の向きに選択的に反応するニューロン　（IT野） Gaborフィルタ（一次視覚野での特徴抽出）解剖学的知見の利用 Log-Polar変換（大きさの変化に強い認識が可能）

特徴点選択：特徴点の中からある基準に適した特徴の組を選択特徴点，選択基準，特徴点の選択方法を決定認識に最適な特徴点の選択特徴点選択：特徴点の中からある基準に適した特徴の組を選択全ての組み合わせを調べるのは難しい　　　　準最適な探索法を利用 SFS：　0点からスタートし，1点づつ特徴点を選択，追加　 Plus-L, take away-R Selection(L-R)：　L点追加，R点削減１２特徴点，選択基準，特徴点の選択方法を決定特徴点：画像中の各点に貼りついた特徴ベクトル選択基準：未学習の顔と顔以外の画像に対する識別率選択の方法： SFS, L-R

特徴点の選択実験に用いた画像セット実験に用いた画像（３０ｘ２８画素）顔画像：大きさと位置を正規化した顔画像（Web, MIT）実験に用いた画像　（３０ｘ２８画素）顔画像：　大きさと位置を正規化した顔画像（Web, MIT）顔以外の画像：　顔検出に失敗した画像のクラスタリング顔と顔以外の画像を３つのセットに分割学習用セット：　顔（100枚）　→　平均特徴をモデルとした変数選択用セット：　顔（300枚）, 顔以外（1,000枚）評価用セット：　顔（325枚）, 顔以外（1,000枚）平均顔

顔検出に有効な特徴点の選択特徴点選択 200個の特徴点の分布特徴点の数ランダムな選択未学習データに対する識別率を評価し、特徴点を選択誤識別率特徴点選択 These images represent the first 10 features points selected by using data set 1. These points indicate eyes, nose, mouth and so on. These feature points are effective to discriminate faces with non-faces. This is the movie of the selected feature points. (Show Movie) In recognition process, matching is performed in the order of feature points. Threshold values to classify faces and non-faces are selected at each order. 200個の特徴点の分布特徴点の数

認識の高速化選択した初めの200点までを認識に利用選択された特徴点の順番に従ってマッチングを行う 200/840 = 0.238 認識の高速化選択された特徴点の順番に従ってマッチングを行う 200点まで見なくても識別可能　　　　更なる高速化

探索の打ち切りによる高速化一般に顔よりも顔以外の方が面積が広い高速化モデルからの距離：少ない特徴点で顔以外を識別可能モデルからの距離：　少ない特徴点で顔以外を識別可能 Non-Face Face Non-Face 一般に顔よりも顔以外の方が面積が広い　　　高速化ランダムに選択した1,000枚の顔以外の画像に打ち切りを適用　　　　　平均95.5個の特徴点だけで顔以外であると識別できた

0.45 sec./frame（Pentium III 800MHz Dual）（探索打ち切り，並列計算，使用する方向を半分）顔検出結果の例選択した初めの２００個の特徴点を用いた場合 160x120画素, 大きさを5段階変化（0.1倍づつ） 0.45 sec./frame（Pentium III 800MHz Dual）（探索打ち切り，並列計算，使用する方向を半分）

顔検出実験選択された200個の特徴点集合と全特徴点を用いた場合の比較特徴点を選択することにより汎化能力が向上すると期待 Webから得た780枚の画像から顔検出顔の検出率と誤検出率を評価１枚に必ず１人の顔が含まれている選択された200個の特徴点集合と全特徴点を用いた場合の比較　　　　特徴点を選択することにより汎化能力が向上すると期待

顔検出結果 Detection Rate False Negative False Positive All points 81.0% 148 /780 13 /260,682,715 Stepwise Feature Selection 93.2% 53 /780 35 /260,682,715 Plus-L, take away-R Selection (L10-R9) 94.2% 45 /780 53 /260,682,715 特徴点を選択することにより，汎化能力が飛躍的に向上　　　　　顔の本質的特徴を抽出できた

特徴点選択による汎化能力の向上例

顔検出結果の例

ニュース映像からの顔検出への応用

人検出への応用 ROC Curve False Positive Rate (12,120,002 windows)

顔探索の高速化手法平均探索時間の短縮のための手法ランダム探索 Ising Modelを用いた探索 [SPIE98,ICPR98] 位置に関する事前確率＋Ising Search [ICPR2000]

Ising Model Ising Model Ising dynamics ： Only two states : “up” spin and “down” spin State of a spin : state of neighboring spins and an external magnetic field Ising dynamics ： Works to minimize the energy

Dynamic Attention Map Ising model is adopted to face detection Face state ： “down” spin (-1) , Not face state : “up” spin (+1) State of a spin : state of the region centered the spin (face or not face) External magnetic field : measured likelihood of face Direction and value of external magnetic field : not static (depends on likelihood of face) Initial state of all spins : face The state of spins : updated according to the probability which is proportional to Dynamic Attention Map

Algorithm for Ising Search Set all spins to -1 (“face”) Face list Select one spin randomly from face list Measure likelihood of face of the spin Update the face list Apply spin flip dynamics for suitable times Remove the spin flipped from “face” to “not face” from the face list Add the spin flipped from “not face” to “face” to the face list

Ising探索の例 Dynamic Attention Map 　　探索点Map

How face candidates decrease

Search map of Ising search method Face candidates are narrowed down through spin flip dynamics

ニュース画像列における顔の位置の事前確率ニュース画像と顔検出結果　　　　推定した事前確率

Estimated Priori Probabilities After 10 images After 100 images After 500 images After 1000 images After 1500 images After 1849 images Number of search points needed to detect face: Whole region search : 28420 Normal Ising search : 663(median) Ising search using priori probability : 60

Ising Search による顔検出

レポート課題自分の身の回りで、パターン認識手法が使えそうな課題を探し、その課題を解決するために必要な特徴を認識対象から自動的に計測するための方法についてまとめてください。提出方法 A4で1ページ～数ページでまとめてください。フォーマットは自由としますが、ファイルはPDFファイルにしてください。最初のページに名前と学籍番号を記入してください。提出先メイル添付で takio-kurita@aist.go.jp 宛に送ってください。提出期限 2003年1月10日

パターン認識過程特徴抽出識別認識対象から何らかの特徴量を計測（抽出）する必要がある認識に有効な情報（特徴）を抽出し、次元を縮小した効率の良い空間を構成する過程文字認識：　スキャナ等で取り込んだ画像から文字の識別に必要な本質的な特徴のみを抽出（例、文字線の傾き、曲率、面積など）識別与えられた未知の対象を、特徴とクラスの関係に関する知識に基づいて、どのクラスに属するかを決定（判定）する過程特徴抽出識別概念空間特徴空間パターン空間

４時限目終了

主成分分析（K－L展開）主成分分析線形写像最適解情報圧縮（次元の縮小）や類別のための教師なしの特徴抽出の代表的な手法 K-L展開(Karhunen-Loeve expansion)、あるいは、主成分分析(Principal Component Analysis (PCA))と呼ばれる特徴空間Xの情報（分散）を最も良く保存するようなYを求める線形写像最適解共分分散行列の固有ベクトル分散最大主成分空間特徴空間

主成分分析と最小２乗近似最小2乗近似主成分空間特徴空間

恒等写像学習教師信号多層パーセプトロン評価基準（2乗誤差最小）学習則

カメラ回転に伴うオプティカルフローの推定カメラ回転と移動物体＋ image background flow independent motion 恒等写像学習によりカメラ回転に伴うオプティカルフローをモデル化

カメラ回転に伴うオプティカルフロー head-mounted camera flow component at position (x,y) angular velocities 2x2 unknown

apply dimensionality reduction フローの生成過程のモデル化 … flow vector linear model rotation param. 2P-dim. vector : generated from 2-dim. parameter and are unknown apply dimensionality reduction

恒等写像学習による順逆モデルの同時推定 output input … forward model intrinsic parameters inverse output input intrinsic parameters

評価実験 optical flow #components: 11x8 #units: 176-2-176 MLP カメラ SightLine Tech. EyeView & SONY EVI-D30 入力画像 30 [frame/sec], 80x60 [pixel] optical flow #components: 11x8 MLP #units: 176-2-176 推定されたカメラの動きに伴うオプティカルフロー入力オプティカルフロー

獲得された内部表現

Moving Objects Detection image original flow reconstructed difference

Hebb学習則 Hebb学習則心理学者D.O.Hebbにより提案された学習アルゴリズムニューロンが発火したときに、そのニューロンに刺激を入力したニューロンからのシナプス結合を強化線形ニューロンの出力結合ベクトルは入力の相関行列の正の固有値に対応する固有ベクトルの方向に向かうしかし、一度ある結合係数が強化されるとその結合係数との線形結合で表される出力の値が大きくなり、結果として同じ結合係数が強化されつづけ、発散してしまう

Ojaの学習アルゴリズム Ojaの学習アルゴリズム Hebb学習則に良く成功を加えたもの性質結合係数のノルムは１に収束する結合係数は入力の相関行列の最大固有値に対応する固有ベクトルに収束する結合係数は出力ｙの分散を最大化させる

学習型主成分分析アルゴリズム Ojaの学習アルゴリズム Subspace Network Algorithm (Oja 1992) K個の固有ベクトルそのものには収束しないで、K個の固有ベクトルが張る部分空間の基底ベクトルに収束 Generalized Hebbian Algorithm (GHA) (Sanger 1989) 学習が進むと入力の相関行列の最大固有値から順に取られたK個の固有ベクトルに収束

生体の視覚情報処理の流れ外側膝状体第1次視覚野（Ｖ１）網膜上丘・情報の中継・信号整形・外界の視覚情報の受容・形の特徴抽出・動きの特徴抽出・眼優位性・色の情報処理上丘・眼球運動

単純型細胞受容野の特性受容野の３特性 a b c d e 方位選択性（ｂ、ｃ）、局所性（ｄ）、幅選択性（ｅ）出力－＋－－＋－受容野：細胞の入力領域 ON反応の受容野明スリット光 OFF反応の受容野 b c d e 受容野の３特性方位選択性（ｂ、ｃ）、局所性（ｄ）、幅選択性（ｅ）

主成分分析（ＧＨＡ）を用いて求めた受容野 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 １２３４５６７８ 8x8の受容野（64個） 16x16の受容野（256個）

主成分分析とＧＨＡによるエッジ抽出原画像（主成分分析）第2主成分第3主成分第4主成分第5主成分（ＧＨＡ）

ＧＨＡによる結果（出力１４４個中）受容野の３特性を持つものがいくつか存在種類は少ない主成分分析型アルゴリズムは不適切自然画像網膜での処理を施した自然画像受容野の３特性を持つものがいくつか存在種類は少ない　　　　　　主成分分析型アルゴリズムは不適切

ＭａｘｉｍｕｍＳｐａｒｓｅｎｅｓｓＡｌｇｏｒｉｔｈｍ（Olshausen & Field 1996）評価関数　　　　　最大化ニューロンの出力結合係数ｕの更新式

ＭａｘｉｍｕｍＳｐａｒｓｅｎｅｓｓＡｌｇｏｒｉｔｈｍによる結果（出力６４個中）網膜での処理を施した自然画像入力画像の特性によく反応している単純型細胞の受容野特性を持ったものが多数存在する得られた結合係数の種類が多い　　　　　　　　　スパース型アルゴリズムは生体に近い

RBFネットワーク RBF(Radial Basis Function)ネットワーク中間層の基底関数の出力を線形結合することによってネットワークの出力を計算するようなネットワーク基底関数中間層の基底関数は入力がその中心に近い場合にのみ大きな出力を出す出力

RBFネットワーク（性質） RBFネットワークの能力特徴中間層のユニット数が多ければ、任意の連続関数を近似できる多層パーセプトロン中間層の入出力関数がシグモイド関数の場合、中間層の出力が入力空間の無限に大きな領域で大きな値を持つ RBFネットワーク入力空間の局所的な領域でのみ大きな値を持つ核関数に基づく確率密度の推定方法と密接に関連する

RBFネットワーク（学習）アプローチステップ１：初期値の推定ステップ２：パラメータの微調整中間層での学習と出力層での学習を別々に行い、その結果を初期値としてパラメータを最急降下法等を用いて微調整するステップ１：　初期値の推定学習データをクラスタリングするクラスタリング手法としては、K-means法を用いるクラスタリングの結果から、各クラスターにひとつのユニットを割り当て、各クラスターの中心をそのユニットの中心とする。基底関数の正規化パラメータσはクラスターの広がり具合から推定最小2情報によって、中間層から出力への結合荷重を推定ステップ２：　パラメータの微調整最急降下法により2乗誤差を最小にするようにパラメータを微調整

RBFネットワーク（応用例） 3次元データの向きによらない表現の獲得（1990　Possigo）

Mixture of Experts Mixture of Experts Jordan等が提案した、全学習データの部分集合のみを扱うようにした複数の部分ネットワーク(Experts)を結合したネットワークアーキテクチャ（1991）

Multinomial Logit model Expert （classifier） Multinomial Logit model 尤度・対数尤度学習アルゴリズム

Multinomial Logit model Gating network Gating Network 入力に対して適切な識別器を選択 Softmax関数で実現 Multinomial Logit model

Mixture of Classifiers の学習尤度・対数尤度学習アルゴリズム入力ｘに対するn番目の識別器の事後確率

サポートベクターマシン（SVM）サポートベクターマシン（Support Vector Machine, SVM) パターン認識の能力に関して、現在知られている中で最も優れた学習モデルのひとつ基本的な構造は、ニューロンモデルとして最も単純な線形しきい素子（McCulloch & Pittsモデル） Vapnik等が、単純パーセプトロンのよい性質を保ちつつ、数理計画法や関数解析に関わるいくつかの工夫を加えてSVMを実現正則化やBayes推定、スパース表現とも関連 2クラスの識別問題に対して有効「マージン最大化」という基準で「線形しきい値素子」を用いたモデルを学習「カーネルトリック」という工夫で性能をあげる

問題設定識別関数学習外界からd次元の入力パターンｘが与えられたとき、これを2つのクラスのどちらかに識別。クラスのラベルを１と-1に数値化識別関数：入力パターンからクラスラベルへの関数学習 N個のサンプルパターンとそれぞれに対する正解のクラスラベルを訓練サンプルとして、それらが正しく識別されるような識別関数を求める訓練サンプルに含まれない入力パターンに対しても出力の誤りをできるだけ小さくしたい

線形しきい素子線形しきい素子他のニューロンからの入力ｘがシナプス果汁ｗに比例して内部ポテンシャルに加算され、しきい値ｈを超えたところで出力１を出力する幾何学的には、入力空間をしきい値ｈで決まる超平面で二つにわけ、一方に１を、もう一方に－１を割り当てる線形分離可能すべてのサンプルに対して正しい出力を出すようにパラメータを調節可能

マージン最大化よりよい超平面学習用のサンプル集合を線形分離可能でも、それを実現する超平面は一意でない訓練サンプルすれすれを通る超平面よりも、多少余裕をもった超平面の方が良い　＝＞　余裕をどうやってはかる？マージン超平面と訓練サンプルとの距離の最小値

評価関数の導出マージンの大きさ制約条件付最適化問題線形分離可能目的関数：制約条件： H1 すべてのサンプルが制約条件を満たすようにできるつまり、２枚の超平面H1とH2をはさんでラベル１のサンプルとラベル－１のサンプルが分離されており、２枚の超平面の間には１つもサンプルがない超平面H1と超平面H2上に少なくとも1つ以上の訓練サンプルが存在すると仮定制約条件付最適化問題目的関数：制約条件： H1 H2

制約条件付き最適化問題の解法 Lagrange乗数を用いて変形双対問題停留点での条件目的関数：制約条件：これをもとの式に代入　＝＞　双対問題双対問題目的関数：制約条件：この解で、αが正となるデータ点を「サポートベクター」と呼ぶ。これは、超平面H1あるいはH2の上にのる

識別関数識別関数ここで、Snはサポートベクターに対応するデータの添え字の集合＝＞　サポートベクターのみで識別関数が構成される

ソフトマージンソフトマージン制約条件の変更線形分離可能でない場合に対応するため、多少の識別誤りは許すように制約を緩める方法目的関数：制約条件： Cは制約を破ったサンプルに対するペナルティ

高次元化高次元化線形分離可能でない場合に対応するため、ｘを非線形変換により高次元の空間に写像して、その空間で線形の識別をする線形分離可能性は、訓練サンプル数が大きくなるほど難しく、次元が大きいほどやさしくなる。次元がサンプル数＋１以上であり、パターンが一般の位置にあれば、どんなラベル付けに対しても線形分離可能高次元化の課題次元の呪い：次元の増加とともに汎化能力が落ちてしまう計算量：難しい問題を線形分離可能にするためには、訓練サンプル数と同程度の次元に射影する必要がある

カーネルトリック非線形写像内積識別関数カーネルの例もとの入力パターンｘをHilbert空間（完備内積空間）の元に写像のように、ｚを経由しないで、ｘ１とｘ２だけから簡単に計算できるなら、SVMの最適化問題や識別関数における内積をKで置き換え、線形分離可能な識別関数を得ることができる識別関数カーネルの例

SVMの例

提案手法 …… + 自己連想メモリ識別器順逆モデル(Autoencoder) として実現入力画素値と想起された画素の値との差により確からしさを求め、隠れや認識対象以外の部分を自動的に例外として取り除き、取り除いた部分に想起した情報を埋めることで元の画像を推定する識別器 Multinomial Logit Model 順逆モデルとの情報の共有

想起実験（サングラスによる隠れ）元画像、入力画像、連想メモリ、提案法

認識性能（矩形の隠れ）認識率例外値の占める割合