各会話シーン毎に、発話（音源）方向を推定

各会話シーン毎に、発話（音源）方向を推定
IS-2-08 固定カメラからの音声・画像情報を用いた映像コンテンツの生成足立順　　滝口哲也　　有木康雄　（神戸大学）研究背景処理の流れ一般家庭におけるカメラ撮影での問題点撮影者の肉体的・体力的負担撮影者が画面に映らない顔画像検出カメラワークダイジェスト元映像音声データ発話区間検出映像との同期発話方向推定固定カメラによる自動撮影固定カメラ撮影での問題点単調な映像(ズーム・パン等、カメラワークの欠如) 不必要なシーンを含む（撮りっぱなしの為）視聴の際の編集や検索の手間映像の自動編集の必要性映像内での会話部分ストーリーを理解するうえでの必要性カメラワークへの指標：音声系処理：画像系処理会話シーンを中心とした映像編集発話方向推定発話区間検出ＣＳＰ法（Cross-power Spectrum Phase Analysis:白色化相互相関法）に基づく音源方向推定法 2chマイク間の音波到来時間差を利用して音源方向を推定 Real AdaBoostによる音声/非音声の識別逐次的に学習機械を構成重み付きリサンプリング弱学習機の重み付き結合 Sound Wave CSP係数：CSP（ｋ）到来時間差：τ 発話方向：θ サンプリング周波数：ｆ音声区間検出隣接するフレーム間でスムージング一定時間以下の区間を削除発話区間毎に映像と同期させ、会話シーンを抜き出すカメラワーク各会話シーンでのカメラワークルール１話者発話シーン：発話者（顔）にズームイン複数話者発話シーン：全員が映るよう、ズームアウト話者数の判定ルール CSP係数を利用して判定適当な閾値βを定める１話者発話の場合、OpenCVにより、推定されている発話方向を中心に顔検出顔検出：顔画像の中心座標を中心にズームイン顔不検出：発話方向軸を中心にズームイン発話方向軸各会話シーン毎に、発話（音源）方向を推定実験結果と考察・課題 CSP係数≧β：１話者発話 CSP係数＜β：複数話者発話使用データ：男性２話者(A,B)、 [sec] 発話区間検出： [sec]→ 149範囲、 [sec] 誤検出：8区間　5.760[sec] 検出率：97% 発話方向推定：対象データ:141区間, [sec] 発話方向を推定し、閾値βを利用してカメラワークを決定カメラワークルール CSP係数＜β CSP係数≧β 区間正答率時間正答率閾値β 0.1 0.08 正解区間数 /全区間数 101[区間]/ 141[区間] 103[区間]/ 正答率 71.631% 73.05% 閾値β 0.1 0.08 正解時間 /全時間 133.85[sec] /186.49[sec] 120.28[sec] 正答率 71.77% 65.50% 不検出検出 2話者の場合、カメラワークは3通り被験者Aへズームイン被験者Bへズームインズームアウトズームイン考察イスの音など発話ではない音に対しての誤検出カメラワーク決定について正解タグを設け、正答率を求めたズームイン区間でズームアウトになる不正解が多数（発話者は映像内）発話者が映像内に映るために閾値βの設定が重要顔画像検出 CSP 係数閾値β 発話方向軸角度生成された映像の評価会話内容の理解度映像時間感度映像の単調さズームサイズの大きさショット区間の長さカメラワークの見易さズームアウト顔画像検出今後の課題 CSP 係数閾値β 感情認識(音声・画像)　→　会話内容も含めた編集行動認識(画像)　→　会話以外での重要シーンのピックアップ人物認識(音声・画像)　→　パーソナライズされた映像編集角度

各会話シーン毎に、発話（音源）方向を推定

Similar presentations

Presentation on theme: "各会話シーン毎に、発話（音源）方向を推定"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

各会話シーン毎に、発話（音源）方向を推定

Similar presentations

Presentation on theme: "各会話シーン毎に、発話（音源）方向を推定"— Presentation transcript:

Similar presentations

About project

フィードバック