人物の顔情報に基づくコンテンツの解析 岡田朋子 滝口哲也 有木康雄 神戸大学 …という題目で神戸大学の岡田が発表致します。

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
ユーザの表情に基づく 映像コンテンツへのタギング
顔表情からの関心度推定に基づく 映像コンテンツへのタギング
画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts
Building text features for object image classification
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
リアルタイム単語認識技術を利用した カメラベース情報取得システム
Pose Tracking from Natural Features on Mobile Phones
Deep learningによる 読唇システム
Intelligent Computing Systems Laboratory
ライフログデータとしての笑顔の蓄積システムの提案
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
雑音重み推定と音声 GMMを用いた雑音除去
感情推測システム構築のための顔表情認識の実践
顔表情認識のための顔特徴点抽出 徳島大学 大学院 工学研究科 長野 信男.
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ストリーム処理エンジンを用いた 顔映像に対する 補助情報提供システム
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
Buried Markov Modelを用いた 構音障害者の音声認識の検討
サポートベクターマシン によるパターン認識
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
内視鏡画像からの奥行き情報提示による 視覚支援システムの開発
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
中京大学 情報理工学部 機械情報学科 H 野口裕司
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
距離空間ピラミッドを用いた LLCによる3次元物体認識
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
時間連続性を考慮した 動画からの人物の姿勢推定
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性を用いたシングルチャネル音源方向推定
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ロボットから人に話しかける 判断モデルの構築
Homogeneous model 相同モデル
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
パターン認識特論 カーネル主成分分析 和田俊和.
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
市松模様を使用した カメラキャリブレーション
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

人物の顔情報に基づくコンテンツの解析 岡田朋子 滝口哲也 有木康雄 神戸大学 …という題目で神戸大学の岡田が発表致します。

再視聴の際に、見たい場面を効率よく探し出すニーズ 研究背景 デジタル映像機器の普及→家庭におけるメディア情報が莫大 ビデオ、DVD、ブルーレイディスク TV番組、映画、個人撮影 映像コンテンツの解析による検索技術の研究が注目されている コンテンツを分類して整理 大量のコンテンツから視聴者に番組を推薦 コンテンツの場面検索 現在,ビデオ,DVD,ブルーレイディスクなどのデジタル映像機器の普及により、家庭においてTV番組や映画,個人撮影などといったメディア情報が莫大となっています. そこで,コンテンツの分類や番組の推薦,検索といった研究が注目されていますが, 本研究ではその中でも場面検索に着目し、再試聴の際に見たい場面を効率よく探しだすニーズにこたえていきたいと考えています 再視聴の際に、見たい場面を効率よく探し出すニーズ

ユーザの意図を汲み取ったスムーズな映像検索システム 研究背景 映画やドラマ等のDVDにおけるユーザの映像検索 チャプター … あらかじめ作成者によって定められた区切り ユーザが希望するシーンを 検索することが困難 映画やドラマなどのDVDを視聴する際,ユーザはチャプターといったあらかじめ作成者によって定められた区切りによって映像を検索します このチャプターはあらかじめ決められているので,ユーザが希望するシーンを検索することが困難になっています. そのため,よりユーザの意図を汲み取ったスムーズな映像検索システムが必要だと考えられます. ユーザの意図を汲み取ったスムーズな映像検索システム

研究の目的 あの人の、あの表情の、シーンから見たい! 顔照合、顔表情認識に基づいてコンテンツの解析を行う そこで本研究では,あの人の,あの表情のシーンから見たい!というユーザの希望にこたえるために, 顔照合,顔表情認識に基づいてコンテンツの解析を行うことを目的としています. この技術はDVDの映像検索だけでなく…  DVDの映像検索だけでなく、ホームビデオや、TV収録の編集時間の削減にも応用が可能

提案システムに用いる手法 多くの顔照合、顔表情認識 → 安定した環境 TVドラマでの俳優の顔画像 システムに用いる手法 多くの顔照合、顔表情認識 → 安定した環境 単一カメラでの撮影 人物の顔の方位が正面、顔表情が無表情(顔認識において) TVドラマでの俳優の顔画像 正面顔、斜め顔、笑顔、泣き顔、怒り顔 など様々 システムに用いる手法 顔画像照合  … 相互部分空間法(MSM)[1] 顔特徴点追跡 … AAM(Active Appearance Model)[2] 正面顔生成  … VAAM(View-based AAM)[3]  顔の方位、表情に頑健な手法を選択 TVドラマでの俳優は正面顔,斜め顔,笑顔,泣き顔,怒り顔といったように顔の方位,表情が様々です. そこで顔の方位,表情に頑健な手法を選択する必要があるため,本研究ではMSM、AAMを用い、斜めの顔から正面顔を生成するVAAMを用います. 参考文献[1]: K. Maeda and S.Watanabe, “A pattern matching method with local structure,” IEICE Trans. Inf. & Syst. (Japanese Edition), vol. J68-D, no.3, pp. 345-352, March, 1985. 参考文献[2]:F.Cootes, G. Edwards and C.J.Taylor, “Active appearance models”, Proc. ECCV, Vol. 2, pp. 484–498, 1998 参考文献[3]: T.F. Cootes, G.J. Edwards, and C.J. Taylor, “View-based active appearance models,” Image and Vision Computing 20, pp. 227-232, 2002. 5

提案システムの流れ 喜び AAMによる SVMによる 顔特徴点追跡 正面顔生成 顔表情認識 AdaBoost による顔検出 相互部分空間法 顔データベース AdaBoost による顔検出 相互部分空間法 による顔照合

相互部分空間法(MSM) 複数の画像から部分空間を作成し,部分空間同士を比較することによって類似度(正準角 )を得る 正準角 次元部分空間 複数の画像から部分空間を作成し,部分空間同士を比較することによって類似度(正準角  )を得る 正準角 次元部分空間 次元部分空間 複数の顔画像を主成分分析することで個人のベクトルU、Vを求め、 その間の角度を下の式によって得ます。 この類似度を閾値よってきります.

提案システムの流れ 喜び AAMによる SVMによる 顔特徴点追跡 正面顔生成 顔表情認識 AdaBoost による顔検出 相互部分空間法 顔データベース AdaBoost による顔検出 相互部分空間法 による顔照合

AAM (ActiveAppearanceModel) Shape(特徴点)とTexture(表面画像)をパラメタとしてもつ⇒顔特徴点追跡や表情はそのままで顔の方位だけを変化させることができる PCA(主成分分析) PCA AAMとは図のように顔特徴点のベクトルを主成分分析します。 その後顔特徴点によってきりだされる顔画像のテクスチャベクトルを主成分分析します。 そのベクトルを合わせ主成分分析を行うことでCのパラメータを得、 Cを変化させることで顔特徴点の追跡を行うことができます PCA C:Combinedパラメータ

顔方位の推定 パラメタCの特徴 Cの低次元に顔方位を表わす軸が現れる Cの低次元の値と顔方位の角度は比例する の低次元ベクトル 1.最小自乗法によって係数の   、   を求めておく 2.取得した   から、顔方位角度   を推定する 顔方位を正面に戻すには パラメタCの特徴を用います。 パラメタCはCの低次元に…比例する…ので次式のように得ます

正面顔を生成 1.残差ベクトル を求める 2.顔方位を正面に戻すため、式に を代入し、パラメータベクトル を求める の低次元ベクトル 1.残差ベクトル   を求める 2.顔方位を正面に戻すため、式に      を代入し、パラメータベクトル    を求める 3.    を用いて顔方位を正面に戻す

提案システムの流れ 喜び AAMによる SVMによる 顔特徴点追跡 正面顔生成 顔表情認識 AdaBoost による顔検出 相互部分空間法 顔データベース AdaBoost による顔検出 相互部分空間法 による顔照合

SVM SVMの特徴量 顔特徴点の差分(AAMの平均顔画像) 64点なので128次元 入力顔画像 AAMモデルの平均顔画像 入力画像の特徴点とAAMモデルの平均顔画像の特徴点との差分をSVMの特徴量とする 顔特徴点:64点 特徴量:128次元

実験条件 TVドラマ1話分(20分、38120flame)をテストデータとし、顔照合の実験として、主役の俳優(1人)が映っているフレームにタグ付け(正解データ)を行った 顔表情認識の実験として、主役の俳優が笑顔のフレームにタグ付け(正解データ)を行った AAMの作成や相互部分空間法に用いる学習データは、テストデータとは異なるTVドラマ2話分(40分)から顔画像を収集した 学習枚数 35枚 顔方位  左右30°程度,上下15°程度 顔表情  笑顔,怒り,無表情,驚き など 顔照合 顔表情認識 フレーム数 7254 837

実験結果(顔照合)

実験結果(顔表情認識) α:全フレームが対象で,顔照合かつ顔表情認識が成功した結果 β:全フレームが対象で,顔表情認識が成功した結果 γ:顔照合が成功した   フレームが対象で,  顔表情認識が成功した結果

考察 実際のTVドラマを研究資料とし、俳優が複数のカメラの前で、自由に演技をしている状況においての実験 顔照合は、約80%で実現 顔表情認識は、顔照合ができているフレームにおいて約85%で実現

誤認識結果の考察(顔照合) 顔照合の実験の誤認識画像(2975枚) ERR 22.3% (他人受入率=本人拒否率 となるエラー値) 原因 動きによるぶれ 照明変化(薄暗い場所、顔の一部分に強い照明など) 顔検出(AdaBoostによる顔の誤検出)、まばたき、顔の方位 その他(オクルージョン、取得した顔画像が小さい、表情、不明) 原因 ぶれ 照明変化 顔検出 まばたき 方位 その他 エラー枚数 896 693 322 266 238 18410 エラー率 30.1 23.3 10.8 8.9 8.0 18.8

誤認識結果の考察(顔表情認識) 顔表情認識の実験の誤認識画像(407枚) 原因 AAMの特徴点の精度低下(動きによるぶれ、照明変化、まばたき) 微小な笑い その他(オクルージョン、取得した顔画像が小さい、不明) 原因 ぶれ 照明変化 まばたき 微小さ その他 エラー枚数 106 66 36 30 87 エラー率 26.5 16.2 8.9 7.4 41.0

今後の課題 顔照合の認識結果や処理速度の向上 顔表情認識の結果を向上 提案システムの改良 動きによるぶれの対応 … 前後の情報を用いる 動きによるぶれの対応 … 前後の情報を用いる 照明変化への対応  … 制約相互部分空間法への拡張  顔表情認識の結果を向上 顔特徴点の追跡精度向上  … 特徴量の検討 提案システムの改良 被験者、テストデータを増やす 表情の種類を増やす … 笑顔、怒り、驚き など 音声との統合 … 情報量を増やす

AAM、MSMの学習データ 画像サイズ 720×480 AAMモデルの顔画像 相互部分空間法 枚数:35枚 方位:左右30°、上下15°程度 画像サイズ 720×480 AAMモデルの顔画像 枚数:35枚 方位:左右30°、上下15°程度 表情:笑顔,怒り,驚き,無表情 相互部分空間法 学習データ:35枚(AAMと同様) テストデータは連続した5flameの画像 類似度を閾値で切って判定

処理速度 CPU : Pentium(Intel社) D 2.80GHz メモリ : 3.0GHz 顔検出 顔照合 顔特徴点追跡 顔表情認識 処理速度(ms) 143.2 14.4 2469.5 15.3

SVM Multiclass SVM One versus rest 1対多