第10回  パターン認識.

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
Building text features for object image classification
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
画像処理工学 2012年2月2日 担当教員 北川 輝彦.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
Pattern Recognition and Machine Learning 1.5 決定理論
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
雑音重み推定と音声 GMMを用いた雑音除去
DARTs: Efficient scale-space extraction of DAISY keypoints
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
ニューラルネットは、いつ、なぜ、どのようにして役立つか?
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
第11回   ディジタル画像(2) ディジタル画像処理(2)
画像処理工学 2013年1月23日 担当教員 北川 輝彦.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
音高による音色変化に着目した音源同定に関する研究
第14章 モデルの結合 修士2年 山川佳洋.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
独立成分分析 (ICA:Independent Component Analysis )
第12回   ディジタル画像(3) ディジタル画像処理(3)
醜いアヒルの子の定理 平成15年6月6日(金) 発表者 藤井 丈明.
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
複数特徴量の重み付け統合による一般物体認識
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
Data Clustering: A Review
Fourier 変換 Mellin変換 演習課題
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
データ解析 静岡大学工学部 安藤和敏
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
距離空間ピラミッドを用いた LLCによる3次元物体認識
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ポッツスピン型隠れ変数による画像領域分割
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
音響特徴量を用いた自閉症児と定型発達児の識別
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
AAMと回帰分析による視線、顔方向同時推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Fourier 変換 Mellin変換 演習課題
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

第10回  パターン認識

画像認識の概念 物体認識(object recognition): 画像中に映っている認識対象の種別、位置、姿勢を同定すること  画像認識の概念 物体認識(object recognition): 画像中に映っている認識対象の種別、位置、姿勢を同定すること 分類(classification):パターン認識 予め与えられたカテゴリーのどれに該当するかを同定すること    ~ 文字認識、音声認識

パターン認識 v.s. 3D物体認識 パターン認識 3D物体認識 ・人工物,自然物が対象 ・記号(文字,音声,・)が対象 ・個人性が変形要因 ・検出と認識は独立化可能 3D物体認識 ・人工物,自然物が対象 ・視点変化による形状変化が変形要因 ・検出と認識は不可分

パターン認識における特徴抽出 ←幾何学的 ←統計的

パターンのベクトル表現 f1 f2 fR = = f1 f2 ・ fR =  f

メジャー:距離か、角度か? 距離で測ると濃度の違いは大きい 角度で測ると濃度の違いは小さい 角度で測る(Ss = cos2θ :単純類似度) d θ

同じパターンとは? 濃度が違うパターンは違うと見るのか? 濃度が違っても同じと見たい(濃度=ノルム)

白黒の反転は同じか? 濃度の変化を無視するなら、 白黒の反転も同じとみるべき

パターンの分布 超楕円錐形 反対側もある(白黒反転)

同じパターンとは? 背景が違うパターンは違うと見るのか? 背景が違っても同じと見たい(背景=DC成分)

正準化とその意義 オール灰色パターンの直交補空間に射影 オール灰色は意味がない=0であって欲しい オール灰色 ボケ ボケ 0に 近づく 不変 ボケ ボケ

部分空間法 分布を部分空間で近似 部分空間の中を同じと見なす

部分空間法.vs. 単純類似度 分布を部分空間で近似 vs 代表元(単純類似度) φ1 φ2:正規直交基底ベクトル 分布を部分空間で近似 vs 代表元(単純類似度) cos2θ = { ( f, φ1 )2+( f, φ2 )2 } / || f ||2 φ1 φ2:正規直交基底ベクトル  θ f φ1 φ2 ← 各クラスに属する パターンの 自己相関行列R の固有ベクトル CLAFIC法(渡辺慧,1969):KL展開により部分空間を作成

部分空間法 未知入力パターン・ベクトルpと辞書パターン・部分空間Qの成す角度θ1を類似度として識別を行う N  :  N次元の辞書部分空間Qを 張る基底ベクトルの数 (p,qi) : 入力ベクトルpと辞書部分空間 Qの第i基底ベクトルqiとの内績

Karhunen-Loeveの展開(KL)法: 共分散行列を対角化する行列で変換することにより無相関化 Principal Component Analysis (主成分分析)と同値 K. Karhunen (1946) M. Loeve (1948) H. Hotelling (1933) パターン認識での再発見 飯島 泰蔵 (1963)  「視覚パターンの基礎方程式」 渡辺 慧 (1965) 「醜いアヒルの子の定理」 E.Oja(1983) Subspace Method(部分空間法)

複合類似度法 複合類似度法の導出: 部分空間法の変形 ~類似度計算過程において, 固有値による重み付加 fα 複合類似度法の導出: 部分空間法の変形  ~類似度計算過程において,   固有値による重み付加  { ( f, φ1 )2+λ2/λ1( f, φ2 )2 } / || f ||2 カテゴリ l に属するパターン集合を {fα} とする パターン f のカテゴリ l に対する平均類似度 Sm(l) [f] =Σαwα(l) (f, fα)2 / {|| f ||2 ||fα||2} =Σm=1M λm(l) (f, φm(l))2 / {λ1(l)|| f ||2} λm(l)、 φm(l) は行列 K(l) の固有値と固有ベクトル K(l) = Σαwα(l) <fα, fα> / ||fα||2 = Σm=1M λm(l) < φm(l), φm(l) > 上記 Sm(l) [f] の変分を 0 とする極値として求まる fα

醜いアヒルの子の定理(渡辺慧,1969) 「醜いアヒルの子と普通のアヒルの子とは、 似通った2羽のアヒルの子が似ているのと 同じ程度に似ている」  ~ 2つのものの類似性をある基準(例えば、 共に真である記述の個数)で測ると、 どの2つの類似性も等しい  ~ 特徴選択を行っただけでは、  対象を複数のクラスに分類することはできない.   特徴に重要性(重み)を付加することが、 パターン認識における特徴選択の本質

大 犬 太 部分空間法のバリエーション 複合類似度法 混合類似度法(大、犬、太を区別したい) Sm(l)[f] =Σm=1M am(l)( f, φm(l) )2 / || f ||2 混合類似度法(大、犬、太を区別したい) Sc(l)[f] =Σm=1M am(l)( f, φm (l) )2 / || f ||2 - Σn=1N bm(l)( f, ψn (l) )2 / || f ||2 大 犬 太

部分空間法のバリエーション:軌跡 単純類似度、複合類似度、混合類似度 ( f, φ1 )2 、 ( f, φ1 )2 + ( f, φ2 )2 、 ( f, φ1 )2 - ( f, φ2 )2  が 一定の軌跡 と ノルム || f || f φ2 φ2 φ1 φ2 φ1 f f φ1

部分空間法の拡張 相互部分空間法 日立の特許 辞書・入力 両方とも部分空間 辞書を部分空間にしないで入力を部分空間 辞書・入力 両方とも部分空間 文字認識手法として提案,顔認識手法として普及

相互部分空間法 Ss(l)[f] = λmax λmax は行列 X の最大固有値 X = (xij), xij = Σm=1M ( ψi ,φm(l)) ( φm(l) ,ψj ) φm(l) は辞書の部分空間の基底、 ψi は f から作られる部分空間の基底 λmax = 1 λnext = cos2θ θ

相互部分空間法 入力側がベクトルである部分空間法と比べ、 パターン変動に対する吸収能力を更に高めた手法 未知入力パターン・部分空間Pと辞書パターン・部分空間Qの成す最小角度θ1に基づいて識別を行う θ1  : 第1正準角(最小正準角) 2つの部分空間の成す角度は統計学に   おいて正準角と呼ばれ、M次元部分空間PとN次元部分空間Q(M≧N)の間にはN個の 正準角が定義できる 入力側がベクトルである部分空間法と比べ、     パターン変動に対する吸収能力を更に高めた手法

制約相互部分空間法 相互部分空間法では識別に貢献しない成分(照明等による影響)まで含めて識別を行う 福井和広,山口修“一般化差分部分空間に基づく制約相互部分空間法”,信学論D‐Ⅱ,Vol.87-D-2,No.8,pp1622-1631(2004-8) 相互部分空間法では識別に貢献しない成分(照明等による影響)まで含めて識別を行う 識別に有効な成分から構成される制約部分空間への射影を相互部分空間法に付加した方法

本当に部分空間法で良いのか? バナナ分布 入江文平氏が発見

ノーフリーランチ定理 「あらゆる問題で性能の良い汎用最適化戦略は 理論上不可能であり,ある戦略が他の戦略より性能がよいのは、現に解こうとしている特定の問題に対して特殊化(専門化)されている場合のみである. 」  ~ 問題領域の知識を可能な限り使用して   最適化すべき.

顔画像処理による 対話型コミュニケーションの研究 知能情報工学講座 西 奈津子

目的 障害者・高齢者(寝たきり・聾唖者)の 社会参加の機会が増大 日常会話が困難な障害者・高齢者との コミュニケーションシステムの開発 顔画像処理(口部パターン認識)による 対話型コミュニケーションシステムの プロトタイプ開発 基盤研究(C)(2)「分散視覚エージェントの統合に基づく 親和的情報空間の展開」の一環として実施

従来のアプローチ 筋萎縮性側索硬化症(ALS)を対象 (1) 身体装着センサ方式によるメニュー選択 伝の心(日立ケーイーシステムズ社)・はなしっ子(センサ社) (2) 脳血液量変化検出方式 による選択 重度ALS患者用Yes/No検出装置(日立製作所) (3) 表情の変化を使用したスイッチ代行方式 伝の心(日立ケーイーシステムズ社) 視線を用いた文字入力装置 国立身体障害者リハビリテーションセンター研究所・ 福祉機器開発部

相互部分空間法を用いた口部パターンの認識 口部パターン認識の提案手法 相互部分空間法を用いた口部パターンの認識 4種類の口部パターンの各々の辞書パターンと  未知入力パターンを部分空間で表現し、2つの   部分空間のなす最小角度を尺度として識別を行う

日常会話の階層化 あいさつ 飲食関係 訴え 他の要望 各階層を4つのグループに分割 おはよう こんにちは こんばんは ありがとう 飲み物が欲しい お腹が 空いた お菓子が 欲しい 何も 食べたく ない あいさつ 飲食関係 訴え 他の要望 トイレに 行きたい あつい さむい いたい 外へ 行きたい テレビが 見たい 音楽が 聴きたい 眠りたい

口部形状パターンの割り当てと 明度ヒストグラムの対応 “口を開ける” “歯を見せる” あいさつ 飲食関係 訴え 他の要望 “舌を出す” “口をつぼめる”

明度分布の特徴部分を用いた口部パターン認識(B4・M1) 2つの領域の 面積のみを使用 相互部分空間法を用いた口部パターン認識(M2) 0~255間の全ての明度値を使用して 部分空間を作成 画像明度分布全体を使用して部分空間を作成する ことにより、個人差による画像明度分布の違いに 対するロバスト性が期待できる

結果確認のための口部処理 1.口部分の形状を維持 2.口部分の形状を変化 t t t+1 t+1 ヒストグラム変化量 (Ht) < TH1 255   明度 ヒストグラム変化量 (Ht) < TH1 ヒストグラム変化量(Ht) >= TH1 一定時間継続 選択結果は正しい 選択結果が間違っている

実験結果

共通の辞書部分空間を作成した場合の認識率 認識結果の比較 共通の辞書部分空間を作成した場合の認識率 口部     パターン 口を   開ける 歯を   見せる 口を   つぼめる 舌を   出す 平均 相互部分  空間法 78.0% 74.5% 82.0% 73.7% 部分空間法 63.2%  53.3%  52.6%  49.2% 54.6%  特徴部分のみを用いた手法 57.2% 65.1% 63.1% 66.4% 手法 77.1% 80.2%

個別の辞書部分空間を作成した場合の認識率 被験者A 口を 開ける 歯を 見せる 口をつぼめる 舌を 出す 平均 相互部分空間法 89.7% 86.2% 93.5% 97.7% 91.8% 被験者B 口を 開ける 歯を 見せる 口をつぼめる 舌を 出す 平均 相互部分空間法 100% 90% 97.5%

個別の辞書部分空間を作成した場合の認識率 被験者A 被験者B 口部     パターン 口を   開ける 歯を   見せる 口を   つぼめる 舌を   出す 平均 共通辞書 78.0% 74.5% 82.0% 73.7% 77.1% 個別辞書(被験者A) 89.7%  86.2%  93.5%  97.7% 個別辞書(被験者B) 100% 90.0% 辞書   部分空間 91.8% 97.5% 個別辞書作成時間 : 1つの口部形状につき,約1sec

障害者による認識実験 被験者 7名(男性4名,女性3名 年齢38歳~64歳) ・鹿児島市 身体障害者施設・誠光園 入居者 被験者 7名(男性4名,女性3名 年齢38歳~64歳) ・鹿児島市 身体障害者施設・誠光園 入居者 ・障害等級 1級~2級 ・障害名   脳卒中による身体の部分的な機能全廃・機能障害   脳性小児麻痺   頚椎先天奇形による機能障害

障害者による実験結果

障害を持つ被験者に対し 個別の辞書部分空間を作成した場合の認識率 口を  開ける 歯を  見せる 口を つぼめる 舌を  出す 平均 相互部分空間法 81.0% 86.3% 79.1% 78.8% 81.3%