人物の顔情報に基づくコンテンツの解析 岡田朋子 滝口哲也 有木康雄 神戸大学 …という題目で神戸大学の岡田が発表致します。
再視聴の際に、見たい場面を効率よく探し出すニーズ 研究背景 デジタル映像機器の普及→家庭におけるメディア情報が莫大 ビデオ、DVD、ブルーレイディスク TV番組、映画、個人撮影 映像コンテンツの解析による検索技術の研究が注目されている コンテンツを分類して整理 大量のコンテンツから視聴者に番組を推薦 コンテンツの場面検索 現在,ビデオ,DVD,ブルーレイディスクなどのデジタル映像機器の普及により、家庭においてTV番組や映画,個人撮影などといったメディア情報が莫大となっています. そこで,コンテンツの分類や番組の推薦,検索といった研究が注目されていますが, 本研究ではその中でも場面検索に着目し、再試聴の際に見たい場面を効率よく探しだすニーズにこたえていきたいと考えています 再視聴の際に、見たい場面を効率よく探し出すニーズ
ユーザの意図を汲み取ったスムーズな映像検索システム 研究背景 映画やドラマ等のDVDにおけるユーザの映像検索 チャプター … あらかじめ作成者によって定められた区切り ユーザが希望するシーンを 検索することが困難 映画やドラマなどのDVDを視聴する際,ユーザはチャプターといったあらかじめ作成者によって定められた区切りによって映像を検索します このチャプターはあらかじめ決められているので,ユーザが希望するシーンを検索することが困難になっています. そのため,よりユーザの意図を汲み取ったスムーズな映像検索システムが必要だと考えられます. ユーザの意図を汲み取ったスムーズな映像検索システム
研究の目的 あの人の、あの表情の、シーンから見たい! 顔照合、顔表情認識に基づいてコンテンツの解析を行う そこで本研究では,あの人の,あの表情のシーンから見たい!というユーザの希望にこたえるために, 顔照合,顔表情認識に基づいてコンテンツの解析を行うことを目的としています. この技術はDVDの映像検索だけでなく… DVDの映像検索だけでなく、ホームビデオや、TV収録の編集時間の削減にも応用が可能
提案システムに用いる手法 多くの顔照合、顔表情認識 → 安定した環境 TVドラマでの俳優の顔画像 システムに用いる手法 多くの顔照合、顔表情認識 → 安定した環境 単一カメラでの撮影 人物の顔の方位が正面、顔表情が無表情(顔認識において) TVドラマでの俳優の顔画像 正面顔、斜め顔、笑顔、泣き顔、怒り顔 など様々 システムに用いる手法 顔画像照合 … 相互部分空間法(MSM)[1] 顔特徴点追跡 … AAM(Active Appearance Model)[2] 正面顔生成 … VAAM(View-based AAM)[3] 顔の方位、表情に頑健な手法を選択 TVドラマでの俳優は正面顔,斜め顔,笑顔,泣き顔,怒り顔といったように顔の方位,表情が様々です. そこで顔の方位,表情に頑健な手法を選択する必要があるため,本研究ではMSM、AAMを用い、斜めの顔から正面顔を生成するVAAMを用います. 参考文献[1]: K. Maeda and S.Watanabe, “A pattern matching method with local structure,” IEICE Trans. Inf. & Syst. (Japanese Edition), vol. J68-D, no.3, pp. 345-352, March, 1985. 参考文献[2]:F.Cootes, G. Edwards and C.J.Taylor, “Active appearance models”, Proc. ECCV, Vol. 2, pp. 484–498, 1998 参考文献[3]: T.F. Cootes, G.J. Edwards, and C.J. Taylor, “View-based active appearance models,” Image and Vision Computing 20, pp. 227-232, 2002. 5
提案システムの流れ 喜び AAMによる SVMによる 顔特徴点追跡 正面顔生成 顔表情認識 AdaBoost による顔検出 相互部分空間法 顔データベース AdaBoost による顔検出 相互部分空間法 による顔照合
相互部分空間法(MSM) 複数の画像から部分空間を作成し,部分空間同士を比較することによって類似度(正準角 )を得る 正準角 次元部分空間 複数の画像から部分空間を作成し,部分空間同士を比較することによって類似度(正準角 )を得る 正準角 次元部分空間 次元部分空間 複数の顔画像を主成分分析することで個人のベクトルU、Vを求め、 その間の角度を下の式によって得ます。 この類似度を閾値よってきります.
提案システムの流れ 喜び AAMによる SVMによる 顔特徴点追跡 正面顔生成 顔表情認識 AdaBoost による顔検出 相互部分空間法 顔データベース AdaBoost による顔検出 相互部分空間法 による顔照合
AAM (ActiveAppearanceModel) Shape(特徴点)とTexture(表面画像)をパラメタとしてもつ⇒顔特徴点追跡や表情はそのままで顔の方位だけを変化させることができる PCA(主成分分析) PCA AAMとは図のように顔特徴点のベクトルを主成分分析します。 その後顔特徴点によってきりだされる顔画像のテクスチャベクトルを主成分分析します。 そのベクトルを合わせ主成分分析を行うことでCのパラメータを得、 Cを変化させることで顔特徴点の追跡を行うことができます PCA C:Combinedパラメータ
顔方位の推定 パラメタCの特徴 Cの低次元に顔方位を表わす軸が現れる Cの低次元の値と顔方位の角度は比例する の低次元ベクトル 1.最小自乗法によって係数の 、 を求めておく 2.取得した から、顔方位角度 を推定する 顔方位を正面に戻すには パラメタCの特徴を用います。 パラメタCはCの低次元に…比例する…ので次式のように得ます
正面顔を生成 1.残差ベクトル を求める 2.顔方位を正面に戻すため、式に を代入し、パラメータベクトル を求める の低次元ベクトル 1.残差ベクトル を求める 2.顔方位を正面に戻すため、式に を代入し、パラメータベクトル を求める 3. を用いて顔方位を正面に戻す
提案システムの流れ 喜び AAMによる SVMによる 顔特徴点追跡 正面顔生成 顔表情認識 AdaBoost による顔検出 相互部分空間法 顔データベース AdaBoost による顔検出 相互部分空間法 による顔照合
SVM SVMの特徴量 顔特徴点の差分(AAMの平均顔画像) 64点なので128次元 入力顔画像 AAMモデルの平均顔画像 入力画像の特徴点とAAMモデルの平均顔画像の特徴点との差分をSVMの特徴量とする 顔特徴点:64点 特徴量:128次元
実験条件 TVドラマ1話分(20分、38120flame)をテストデータとし、顔照合の実験として、主役の俳優(1人)が映っているフレームにタグ付け(正解データ)を行った 顔表情認識の実験として、主役の俳優が笑顔のフレームにタグ付け(正解データ)を行った AAMの作成や相互部分空間法に用いる学習データは、テストデータとは異なるTVドラマ2話分(40分)から顔画像を収集した 学習枚数 35枚 顔方位 左右30°程度,上下15°程度 顔表情 笑顔,怒り,無表情,驚き など 顔照合 顔表情認識 フレーム数 7254 837
実験結果(顔照合)
実験結果(顔表情認識) α:全フレームが対象で,顔照合かつ顔表情認識が成功した結果 β:全フレームが対象で,顔表情認識が成功した結果 γ:顔照合が成功した フレームが対象で, 顔表情認識が成功した結果
考察 実際のTVドラマを研究資料とし、俳優が複数のカメラの前で、自由に演技をしている状況においての実験 顔照合は、約80%で実現 顔表情認識は、顔照合ができているフレームにおいて約85%で実現
誤認識結果の考察(顔照合) 顔照合の実験の誤認識画像(2975枚) ERR 22.3% (他人受入率=本人拒否率 となるエラー値) 原因 動きによるぶれ 照明変化(薄暗い場所、顔の一部分に強い照明など) 顔検出(AdaBoostによる顔の誤検出)、まばたき、顔の方位 その他(オクルージョン、取得した顔画像が小さい、表情、不明) 原因 ぶれ 照明変化 顔検出 まばたき 方位 その他 エラー枚数 896 693 322 266 238 18410 エラー率 30.1 23.3 10.8 8.9 8.0 18.8
誤認識結果の考察(顔表情認識) 顔表情認識の実験の誤認識画像(407枚) 原因 AAMの特徴点の精度低下(動きによるぶれ、照明変化、まばたき) 微小な笑い その他(オクルージョン、取得した顔画像が小さい、不明) 原因 ぶれ 照明変化 まばたき 微小さ その他 エラー枚数 106 66 36 30 87 エラー率 26.5 16.2 8.9 7.4 41.0
今後の課題 顔照合の認識結果や処理速度の向上 顔表情認識の結果を向上 提案システムの改良 動きによるぶれの対応 … 前後の情報を用いる 動きによるぶれの対応 … 前後の情報を用いる 照明変化への対応 … 制約相互部分空間法への拡張 顔表情認識の結果を向上 顔特徴点の追跡精度向上 … 特徴量の検討 提案システムの改良 被験者、テストデータを増やす 表情の種類を増やす … 笑顔、怒り、驚き など 音声との統合 … 情報量を増やす
AAM、MSMの学習データ 画像サイズ 720×480 AAMモデルの顔画像 相互部分空間法 枚数:35枚 方位:左右30°、上下15°程度 画像サイズ 720×480 AAMモデルの顔画像 枚数:35枚 方位:左右30°、上下15°程度 表情:笑顔,怒り,驚き,無表情 相互部分空間法 学習データ:35枚(AAMと同様) テストデータは連続した5flameの画像 類似度を閾値で切って判定
処理速度 CPU : Pentium(Intel社) D 2.80GHz メモリ : 3.0GHz 顔検出 顔照合 顔特徴点追跡 顔表情認識 処理速度(ms) 143.2 14.4 2469.5 15.3
SVM Multiclass SVM One versus rest 1対多