顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
ユーザの表情に基づく 映像コンテンツへのタギング
顔表情からの関心度推定に基づく 映像コンテンツへのタギング
Building text features for object image classification
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
「わかりやすいパターン認識」 第1章:パターン認識とは
Deep learningによる 読唇システム
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
遺伝的アルゴリズム  新川 大貴.
芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
雑音重み推定と音声 GMMを用いた雑音除去
感情推測システム構築のための顔表情認識の実践
顔表情認識のための顔特徴点抽出 徳島大学 大学院 工学研究科 長野 信男.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
非負値行列因子分解による 構音障害者の声質変換
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
受講日:   月  日 暗黙知の見える化ワーク 第3回 コミュニケーションと表情.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
決定木とランダムフォレスト 和田 俊和.
視点移動カメラにおけるカメラキャリブレーション
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音高による音色変化に着目した音源同定に関する研究
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
Introduction to Soft Computing (第11回目)
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
人物の顔情報に基づくコンテンツの解析 岡田朋子 滝口哲也 有木康雄 神戸大学 …という題目で神戸大学の岡田が発表致します。
Data Clustering: A Review
FACS(Facial Action Coding System)
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
マルチ識別器を用いた 花画像検索システムの構築
適応的近傍を持つ シミュレーテッドアニーリングの性能
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
距離空間ピラミッドを用いた LLCによる3次元物体認識
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響特徴量を用いた自閉症児と定型発達児の識別
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識 神戸大学工学部  宮原正典・滝口哲也・有木康雄

研究の背景 人とシステムのコミュニケーション→表情認識の必要性 Ekmanらは,基本6表情が,人間にとって普遍的な表情であることを示した 基本6表情を基底とし,複雑な表情を表現する試みもある 怒り 嫌悪 恐怖 喜び 悲しみ 驚き 基本6表情認識とその精度向上は重要な課題

従来の研究とその問題点 顔の特徴的な点の動きを特徴量とするもの 特徴点が抽出できれば、比較的良好な認識精度 Gabor+EBGM等の手法で特徴点の自動抽出は可能 顔のどの点のどのような動きに着目すればよいかは,主観的に決められているものが多い 認識に重要な特徴を自動的に発見することができれば表情認識性能の向上が期待できる 問題点

提案手法(特徴ベクトルの定義) 特徴点移動量 全特徴量ベクトル (629次元) ベクトル (68次元) 特徴点間距離変化量 ベクトル  (68次元) 全特徴量ベクトル (629次元) 特徴点間距離変化量 ベクトル (561次元)

提案手法(組み合わせ最適化) 局所探索法(Local Search) 全特徴ベクトルv R(a1)=0.71 R(a2)=0.68 R(a3)=0.75 R(a4)=0.74 R(a5)=0.70 R(a6)=0.73 R(a7)=0.72 R(a8)=0.69 R(a9)=0.74 R(a)=0.73 R(a1)=0.71 R(a2)=0.68 R(a3)=0.70 R(a4)=0.65 R(a5)=0.72 R(a6)=0.71 R(a7)=0.73 R(a8)=0.72 R(a9)=0.70 R(a)=0.70 初期解a 評価が最大の近傍 aの近傍 a1 a4 a7 a2 a5 a8 a3 a6 a9

提案手法(解の評価) NN SVM 7×10 5×10 評価基準・・・その特徴を用いたときのCV法による6表情認識率 従来の6表情認識に使われている認識器 ニューラルネットワーク(NN) サポートベクターマシーン(SVM) 近傍数は,20次元固定の場合でも12180個 NNやSVMだと探索1周に約3ヶ月かかる ⇒一般回帰ニューラルネットワーク(Specht,1991)を採用 NN SVM 近傍1個あたりの評価時間(秒) 7×10 5×10 2 2

一般回帰ニューラルネット(GRNN) 教師ラベルt1 0 or 1 1番目の学習データx1 x z x1 出力関数z(x) 入力データ / 怒り 嫌悪 恐怖 喜び 悲しみ 驚き t1 / x2 / t2 / / x xP / tP 総和ニューロン ∑ 入力層 第1隠れ層 第2隠れ層 出力層

提案手法(認識器の使い分け) GRNNの特徴 学習は必要なく,テストには学習データ数に比例した時間がかかるが,トータルでみるとNNやSVMよりも 高速(本研究の条件では100倍程度) 認識性能自体はNNやSVMよりも若干劣る GRNNを評価関数とする局所探索法で,最適な特徴を発見し, その特徴を用いて,GRNN,NN,SVMのいずれかで 最終的な6表情認識を行う

実験内容 JAFFE(10人183枚)とCMU(93人328枚)データベースを使用 半分はCVに,残り半分は終了判定にのみ用いる 初期解として,従来手法で用いられている20次元の特徴ベクトルを使用し,局所探索の解は20次元で固定 GRNNを評価関数に用いた局所探索法で最適(近似)解を発見した後,GRNN,NN,SVMで6表情(怒り,嫌悪,恐怖,喜び,悲しみ,驚き)の認識 怒り 嫌悪 恐怖 喜び 悲しみ 驚き

実験結果 初期解 最適解

まとめ 考察 人間が主観で選んだ特徴よりも,局所探索法による最適な特徴を用いた方が認識性能が向上 高速なGRNNを用いて特徴量の探索を行い,認識性能の高いSVMで認識を行うことで,性能向上 今後の方針 顔特徴点の自動抽出の実装 最適解の探索方法の改良 より複雑な感情・関心度などの認識

提案手法の流れ 組み合わせ 最適化  特徴抽出   全特徴ベクトル   最適な特徴ベクトル 6表情認識

ニューラルネットワーク(NN) 怒り 嫌悪 恐怖 喜び 悲しみ 驚き 入力層 隠れ層 出力層 x y z

一般回帰ニューラルネット(GRNN) / x2 x1 xP ∑ x z t1 t2 tP 入力層 第1隠れ層 出力層 第2隠れ層 怒り 嫌悪 恐怖 喜び 悲しみ 驚き

サポートベクターマシーン(SVM) Margin Support Vector H2 H1 Class1 Class-1

実験結果 初期解 全特徴 最適解 初期解 最適解

感情別認識結果

Confusion Matrix(初期解+SVM) 怒 り 嫌 悪 恐 怖 幸 せ 悲 し み 驚 き 正 解 数 画 像 認 識 率 怒り 10 8 1 27 0.37 嫌悪 6 12 5 24 0.50 恐怖 22 4 11 2 41 0.54 幸せ 55 62 0.89 悲しみ 39 46 0.85 驚き 47 49 0.96 合計 185 249 0.743

Confusion Matrix(最適解+SVM) 怒 り 嫌 悪 恐 怖 幸 せ 悲 し み 驚 き 正 解 数 画 像 認 識 率 怒り 14 8 1 4 27 0.52 嫌悪 12 3 24 0.50 恐怖 26 2 41 0.63 幸せ 59 62 0.95 悲しみ 40 46 0.87 驚き 47 49 0.96 合計 198 249 0.795

使用したデータベースの詳細 人 数 画 像 怒 り 嫌 悪 恐 怖 喜 び 悲 し み 驚 き JAFFE 10 183 30 29 32 31 CMU 93 328 28 47 90 57 74 JAFFE 日本人女性のみ,無表情+6表情の静止画 CMU 各国男女,無表情→6表情の動画から切り出し