顔表情クラスタリングによる 映像コンテンツへのタギング

Slides:



Advertisements
Similar presentations
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
ユーザーイメージ収集 インターフェイスの開発
ユーザの表情に基づく 映像コンテンツへのタギング
顔表情からの関心度推定に基づく 映像コンテンツへのタギング
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
Deep learningによる 読唇システム
ライフログデータとしての笑顔の蓄積システムの提案
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
感情推測システム構築のための顔表情認識の実践
顔表情認識のための顔特徴点抽出 徳島大学 大学院 工学研究科 長野 信男.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
ランダムプロジェクションを用いた 音声特徴量変換
ストリーム処理エンジンを用いた 顔映像に対する 補助情報提供システム
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
果物識別 マハラノビス距離を求める.
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
顔部品の検出システムの構築 指導教員 廉田浩 教授 1DS04188W  田中 甲太郎.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
Specmurtを利用した調波構造行列による 混合楽音解析の検討
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
人物の顔情報に基づくコンテンツの解析 岡田朋子 滝口哲也 有木康雄 神戸大学 …という題目で神戸大学の岡田が発表致します。
複数特徴量の重み付け統合による一般物体認識
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Number of random matrices
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
設計情報の再利用を目的とした UML図の自動推薦ツール
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
モデル作成にクラスタリングを用いた視線認識
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響特徴量を用いた自閉症児と定型発達児の識別
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

顔表情クラスタリングによる 映像コンテンツへのタギング 神戸大学大学院 工学研究科 情報知能学専攻 CS17 メディア工学講座 有木研究室 宮原 正典,青木政樹,滝口哲也,有木康雄

研究の背景 テレビのディジタル放送開始→多チャンネル化 YouTubeなど動画共有サイトの発達 ユーザが視聴可能な映像コンテンツが増大 見たい番組を簡単に探すのが困難に 番組自動推薦システムの必要性   ⇒ ユーザの好みを自動的に把握する必要 平成20年度 情報処理学会 関西支部大会

従来システム[Miyahara, MMM2008] ディスプレイにカメラを取り付ける 映像を視聴するユーザーの顔を撮影し続ける 顔表情の認識を行い,映像コンテンツと同期させることで,どのシーンに関心があるかを把握できる User Webcam Display PC 想定環境上面図 平成20年度 情報処理学会 関西支部大会

従来システム[Miyahara, MMM2008]の概要 顔領域抽出 特徴抽出 顔表情認識 ・Neutral ・Positive ・Negative ・Rejective Tag AdaBoost EBGM SVM 個人認識 User’s profile 無表情画像 個人ごとの顔表情識別器 平成20年度 情報処理学会 関西支部大会

顔表情のクラス分類(タグ)定義 クラス名 内容 Neutral (Neu) 無表情 Positive (Pos) 喜び,笑い,快,など Negative (Neg) 怒り,嫌悪,不快,など Rejective (Rej) 画面に顔を向けていない, 顔の一部が隠れている, 顔が傾いている,など 平成20年度 情報処理学会 関西支部大会

デモ映像 平成20年度 情報処理学会 関西支部大会

システムの問題点 システムを初めて利用するユーザは… 予め30分程度映像を視聴し,それに顔表情分類のタグをフレームごとに手動でつける必要がある   ※個人ごとに大きく異なる感情表出を学習するため ⇒しかしこの作業はユーザにとって負担が大きい 平成20年度 情報処理学会 関西支部大会

提案手法: クラスタリングによる手動タギングの負荷低減 Clustering (automatically) Cluster A Cluster B Cluster C Cluster D = Neutral = Positive = Neutral = Negative Tagging (manually) ユーザはフレームではなく,クラスタにタグをつければよくなる 平成20年度 情報処理学会 関西支部大会

pLSAによるクラスタリング pLSA pLSA [Hofmann, 1999] をクラスタリングに用いる もともとは言語の分野で用いられていたが,近年,動画像中の行動分類などにも用いられる[Niebles, 2006] 顔動画の各フレームを文書d ,量子化された特徴量を単語w として,dとwの同時確率を、隠れトピック(顔表情)z を用いて表現する 共起テーブルから確率分布をEMアルゴリズムで求める P(zk|d)が最大となるkをそのフレームの属するクラスタとする 平成20年度 情報処理学会 関西支部大会

実験条件 手動タギング クラスタリング 17分*4本の動画(15fps)を視聴し手動タギングを行う(正解用) まず,顔動画から各フレームでの特徴量を求める クラスタリングには,隠れトピック数K=10としてpLSAを用いる ユーザは各クラスタに属する顔画像を見て,タギング ⇒クラスタリングによる分類タグと,手動でつけられたタグ(正解ラベル)がどれだけ一致するかを評価する Neu Pos Neg Rej 合計 フレーム数 49865 7665 3719 1466 62715 平成20年度 情報処理学会 関西支部大会

実験結果 Neu Pos Neg Rej 平均適合率78.44% 平均再現率79.86% 平成20年度 情報処理学会 関西支部大会

まとめと今後の予定 まとめ 今後 教師なしのクラスタリングを用いることで,ユーザのわずかな負担でシステムを利用することが可能となった クラスタの数が動的に決まるようにする より詳細な,多数の表情分類 隠れトピックの混合比率を利用して,複合的な表情の表現 教師データを有効に活用する 平成20年度 情報処理学会 関西支部大会