固定カメラ映像からの音声情報を 用いた映像コンテンツ生成 神戸大学 足立順 滝口哲也 有木康雄
研究背景 長時間の行動記録の入手が簡単化 映像の自動編集の必要性 コンピュータの小型化 記憶デバイスの大容量化 (例)結婚式パーティ、車内映像等 撮影・編集には時間と技術が必要 長時間の映像を全て見るのは困難 映像の自動編集の必要性
研究背景 ズーム等のカメラワークを用いた、 ダイジェスト映像の生成 固定カメラによる撮影映像 メリット デメリット 長時間撮影が可能 低コスト(一般家庭向け) デメリット 単調 不必要な部分が多い ズーム等のカメラワークを用いた、 ダイジェスト映像の生成
研究背景 音声データを用い、必要な箇所を 抽出する必要性 従来までの研究 多くが画像情報を元にした編集 デメリット 顔認識、行動認識等 会話部分など動きが少ない箇所で不必要な部分としてデータが失われる恐れ 音声データを用い、必要な箇所を 抽出する必要性
提案手法の処理の流れ 元映像 音声データ 発話区間検出 映像との同期 発話方向推定 カメラワーク ダイジェスト
発話区間検出 低SNR環境化においても頑強な音声非音声の区間検出が可能なAdaboostを用いる (車内、パーティ等、雑音が大きいシーンを想定) 判別器生成のための特徴量は、MFCC(Mel Frequency Cepstrum Coefficient)を用いる
Boosting Boostingの特徴 逐次的に学習機械を構成 重み付きリサンプリング 弱学習機の重み付き結合 1 Data 弱学習機 ・・・ -1 強学習機(Combined Learner)
発話区間検出 VAD:Voice Activity Detection Adaboostにより得られた各フレームの値(信頼度)を、前後のnフレームを用いて平滑化を行う こうして得られた音声区間のうち一定時間以下の区間を削除することにより最終的な音声区間を得る。 v(x)≧θ:音声 v(x)<θ:非音声 θ:閾値 検出 された 区間 検出 された 区間 検出された区間 検出 された 区間 検出 された 区間 音声 時間
映像編集①発話区間との同期 発話区間毎に映像の切り出し
発話者方向推定 到来信号の時間差を用いて方向を推定 CSP法(Cross-power Spectrum Phase Analysis:白色化相互相関法)に基づく音源方向推定法 到来信号の時間差を用いて方向を推定 1発話区間毎に方向推定を行う Sound Wave
発話者方向推定 発話方向推定の結果よりカメラワークを決定 ズーム パン 最大相関値をω、閾値をθとする。この時、 ω≧θ:ズーム ω<θ:パン ズーム パン
映像編集②発話方向との同期 b c a θ’ θ 1280 640 角度θ’の時、 対応するx座標の画素は、 720 52.1° 1280 マイク 1280 640 角度θ’の時、 対応するx座標の画素は、 720 90° 127.9° 52.1° 1280
実験環境 発話者2名(男性) 303秒間 Video Camera Microphone desk A B
発話区間検出①発話区間切り出し 使用したデータ:男性2話者, 303.029sec 発話区間検出の閾値 結果 303.029sec → 192.252secに短縮 (63.443%)
発話区間検出②検出率 発話区間の誤検出 8区間 5.760sec 検出率 区間数: 秒数:
発話区間検出③発話時間頻度 発話時間 区間数:141 総時間:186.492[sec] Min:0.46[sec] Max:6.068[sec] Ave:1.323[sec]
発話方向推定①正答率 対象データ:141区間186.492sec 区間正答率 時間正答率 相関値の閾値 0.08 正解区間数 /全区間数 103/141 正答率 73.05% 相関値の閾値 0.08 正解時間 /全時間 120.284 /186.492 正答率 65.50%
発話方向推定②方向別発話時間 相関値の閾値 正解データ 0.08 Aへのズーム 63.004(s) 67.332(s) Bへのズーム 41.644(s) 55.628(s) その他へのズーム 0(s) 0.492(s) パン 81.844(s) 63.04(s) 計 186.492(s)
発話方向推定③相関値グラフ(発話者A) 発話者:A MAX相関値:0.114301 angle:60.27529 A B
映像編集④発話者Aのズーム X座標:中心となる座標から左右に250ピクセルずつ抜き出す 60°
発話方向推定④相関値グラフ(発話者B) 発話者:B MAX相関値:0.147985 angle:106.5 A B
映像編集⑤発話者Bのズーム X座標:中心となる座標から左右に250ピクセルずつ抜き出す 106°
発話方向推定⑤相関値グラフ(2者発話) 発話者:A,B(交互) MAX相関値:0.059856 angle:73.54075 A B
映像編集⑥パン映像 ズーム無しの元映像
まとめ 長時間の映像を自動編集し、ダイジェスト映像を生成するシステムを提案・実験 冗長な映像からのダイジェスト生成の作成 今後の課題 方向推定の精度の向上 話者の感情判定 画像情報(顔認識技術等)の利用
参考資料①(発話区間検出の例)
参考資料②(発話方向判定の例) pan b_zoom a_zoom
映像編集①カメラのスペック カメラ:Victor GR-HD1(http://www.jvc-victor.co.jp/dvmain/gr-hd1/spec.html) 焦点距離:40.3mm(35mmカメラ換算) (水平)画角:50.1°(垂直画角:29.5°、対角画角:56.4°) 115° 90° 65°
参考資料③(画角を求める式) 参考資料 画角の計算(http://www.cmehappy.jp/articles/angleofview.html) ビデオのスペック(http://www.jvc-victor.co.jp/dvmain/gr-hd1/spec.html) θ:画角 x:フレームサイズ h:高さ2.735mm w:幅4.864mm d:対角5.580mm f:焦点距離5.2mm 焦点距離 画角を求める式 撮像エリア寸法
映像編集②マイクからの角度 A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1° θ’ 1m 1.5m A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1°
映像編集③角度→画素 b c a θ’ θ マイク 1280 640 角度θ’の時、 対応するx座標の画素は、 720 1280
AdaBoost 弱識別器の重み付き投票で出力を決定(Boosting) 弱識別器に適切な重みをつけることで強識別器を作成 強識別器 {-1,+1} 重み 弱識別器 {-1,+1} 弱識別器に適切な重みをつけることで強識別器を作成 弱識別器 AdaBoostは弱識別器と重みを決める手法