顔表情クラスタリングによる 映像コンテンツへのタギング 神戸大学大学院 工学研究科 情報知能学専攻 CS17 メディア工学講座 有木研究室 宮原 正典,青木政樹,滝口哲也,有木康雄
研究の背景 テレビのディジタル放送開始→多チャンネル化 YouTubeなど動画共有サイトの発達 ユーザが視聴可能な映像コンテンツが増大 見たい番組を簡単に探すのが困難に 番組自動推薦システムの必要性 ⇒ ユーザの好みを自動的に把握する必要 平成20年度 情報処理学会 関西支部大会
従来システム[Miyahara, MMM2008] ディスプレイにカメラを取り付ける 映像を視聴するユーザーの顔を撮影し続ける 顔表情の認識を行い,映像コンテンツと同期させることで,どのシーンに関心があるかを把握できる User Webcam Display PC 想定環境上面図 平成20年度 情報処理学会 関西支部大会
従来システム[Miyahara, MMM2008]の概要 顔領域抽出 特徴抽出 顔表情認識 ・Neutral ・Positive ・Negative ・Rejective Tag AdaBoost EBGM SVM 個人認識 User’s profile 無表情画像 個人ごとの顔表情識別器 平成20年度 情報処理学会 関西支部大会
顔表情のクラス分類(タグ)定義 クラス名 内容 Neutral (Neu) 無表情 Positive (Pos) 喜び,笑い,快,など Negative (Neg) 怒り,嫌悪,不快,など Rejective (Rej) 画面に顔を向けていない, 顔の一部が隠れている, 顔が傾いている,など 平成20年度 情報処理学会 関西支部大会
デモ映像 平成20年度 情報処理学会 関西支部大会
システムの問題点 システムを初めて利用するユーザは… 予め30分程度映像を視聴し,それに顔表情分類のタグをフレームごとに手動でつける必要がある ※個人ごとに大きく異なる感情表出を学習するため ⇒しかしこの作業はユーザにとって負担が大きい 平成20年度 情報処理学会 関西支部大会
提案手法: クラスタリングによる手動タギングの負荷低減 Clustering (automatically) Cluster A Cluster B Cluster C Cluster D = Neutral = Positive = Neutral = Negative Tagging (manually) ユーザはフレームではなく,クラスタにタグをつければよくなる 平成20年度 情報処理学会 関西支部大会
pLSAによるクラスタリング pLSA pLSA [Hofmann, 1999] をクラスタリングに用いる もともとは言語の分野で用いられていたが,近年,動画像中の行動分類などにも用いられる[Niebles, 2006] 顔動画の各フレームを文書d ,量子化された特徴量を単語w として,dとwの同時確率を、隠れトピック(顔表情)z を用いて表現する 共起テーブルから確率分布をEMアルゴリズムで求める P(zk|d)が最大となるkをそのフレームの属するクラスタとする 平成20年度 情報処理学会 関西支部大会
実験条件 手動タギング クラスタリング 17分*4本の動画(15fps)を視聴し手動タギングを行う(正解用) まず,顔動画から各フレームでの特徴量を求める クラスタリングには,隠れトピック数K=10としてpLSAを用いる ユーザは各クラスタに属する顔画像を見て,タギング ⇒クラスタリングによる分類タグと,手動でつけられたタグ(正解ラベル)がどれだけ一致するかを評価する Neu Pos Neg Rej 合計 フレーム数 49865 7665 3719 1466 62715 平成20年度 情報処理学会 関西支部大会
実験結果 Neu Pos Neg Rej 平均適合率78.44% 平均再現率79.86% 平成20年度 情報処理学会 関西支部大会
まとめと今後の予定 まとめ 今後 教師なしのクラスタリングを用いることで,ユーザのわずかな負担でシステムを利用することが可能となった クラスタの数が動的に決まるようにする より詳細な,多数の表情分類 隠れトピックの混合比率を利用して,複合的な表情の表現 教師データを有効に活用する 平成20年度 情報処理学会 関西支部大会