各会話シーン毎に、発話(音源)方向を推定 IS-2-08 固定カメラからの音声・画像情報を用いた 映像コンテンツの生成 足立順 滝口哲也 有木康雄 (神戸大学) 研究背景 処理の流れ 一般家庭におけるカメラ撮影での問題点 撮影者の肉体的・体力的負担 撮影者が画面に映らない 顔画像検出 カメラワーク ダイジェスト 元映像 音声データ 発話区間検出 映像との同期 発話方向推定 固定カメラによる自動撮影 固定カメラ撮影での問題点 単調な映像(ズーム・パン等、カメラワークの欠如) 不必要なシーンを含む(撮りっぱなしの為) 視聴の際の編集や検索の手間 映像の自動編集の必要性 映像内での会話部分 ストーリーを理解するうえでの必要性 カメラワークへの指標 :音声系処理 :画像系処理 会話シーンを中心とした映像編集 発話方向推定 発話区間検出 CSP法(Cross-power Spectrum Phase Analysis:白色化相互相関法)に基づく音源方向推定法 2chマイク間の音波到来時間差を利用して音源方向を推定 Real AdaBoostによる音声/非音声の識別 逐次的に学習機械を構成 重み付きリサンプリング 弱学習機の重み付き結合 Sound Wave CSP係数:CSP(k) 到来時間差:τ 発話方向:θ サンプリング周波数:f 音声区間検出 隣接するフレーム間でスムージング 一定時間以下の区間を削除 発話区間毎に映像と同期させ、 会話シーンを抜き出す カメラワーク 各会話シーンでのカメラワークルール 1話者発話シーン:発話者(顔)にズームイン 複数話者発話シーン:全員が映るよう、ズームアウト 話者数の判定ルール CSP係数を利用して判定 適当な閾値βを定める 1話者発話の場合、OpenCVにより、推定されている発話方向を中心に顔検出 顔検出:顔画像の中心座標を中心にズームイン 顔不検出:発話方向軸を中心にズームイン 発話方向軸 各会話シーン毎に、発話(音源)方向を推定 実験結果と考察・課題 CSP係数≧β:1話者発話 CSP係数<β:複数話者発話 使用データ:男性2話者(A,B)、 303.029[sec] 発話区間検出 : 303.029[sec]→ 149範囲、192.252[sec] 誤検出:8区間 5.760[sec] 検出率:97% 発話方向推定 : 対象データ:141区間,186.492[sec] 発話方向を推定し、閾値βを利用してカメラワークを決定 カメラワークルール CSP係数<β CSP係数≧β 区間正答率 時間正答率 閾値β 0.1 0.08 正解区間数 /全区間数 101[区間]/ 141[区間] 103[区間]/ 正答率 71.631% 73.05% 閾値β 0.1 0.08 正解時間 /全時間 133.85[sec] /186.49[sec] 120.28[sec] 正答率 71.77% 65.50% 不検出 検出 2話者の場合、カメラワークは3通り 被験者Aへズームイン 被験者Bへズームイン ズームアウト ズームイン 考察 イスの音など発話ではない音に対しての誤検出 カメラワーク決定について正解タグを設け、正答率を求めた ズームイン区間でズームアウトになる不正解が多数(発話者は映像内) 発話者が映像内に映るために閾値βの設定が重要 顔画像検出 CSP 係数 閾値β 発話方向軸 角度 生成された映像の評価 会話内容の理解度 映像時間感度 映像の単調さ ズームサイズの大きさ ショット区間の長さ カメラワークの見易さ ズームアウト 顔画像検出 今後の課題 CSP 係数 閾値β 感情認識(音声・画像) → 会話内容も含めた編集 行動認識(画像) → 会話以外での重要シーンのピックアップ 人物認識(音声・画像) → パーソナライズされた映像編集 角度