固定カメラ映像からの音声情報を用いた映像コンテンツ生成

固定カメラ映像からの音声情報を用いた映像コンテンツ生成
神戸大学足立順　滝口哲也　有木康雄

研究背景長時間の行動記録の入手が簡単化映像の自動編集の必要性コンピュータの小型化記憶デバイスの大容量化
(例)結婚式パーティ、車内映像等撮影・編集には時間と技術が必要長時間の映像を全て見るのは困難映像の自動編集の必要性

研究背景ズーム等のカメラワークを用いた、ダイジェスト映像の生成固定カメラによる撮影映像メリットデメリット長時間撮影が可能
低コスト（一般家庭向け）デメリット単調不必要な部分が多いズーム等のカメラワークを用いた、ダイジェスト映像の生成

研究背景音声データを用い、必要な箇所を抽出する必要性従来までの研究多くが画像情報を元にした編集デメリット顔認識、行動認識等
会話部分など動きが少ない箇所で不必要な部分としてデータが失われる恐れ音声データを用い、必要な箇所を抽出する必要性

提案手法の処理の流れ元映像音声データ発話区間検出映像との同期発話方向推定カメラワークダイジェスト

発話区間検出低SNR環境化においても頑強な音声非音声の区間検出が可能なAdaboostを用いる（車内、パーティ等、雑音が大きいシーンを想定）判別器生成のための特徴量は、MFCC（Mel Frequency Cepstrum Coefficient）を用いる

Boosting Boostingの特徴逐次的に学習機械を構成重み付きリサンプリング弱学習機の重み付き結合 1 Data 弱学習機
・・・ -1 強学習機(Combined Learner)

発話区間検出 VAD:Voice Activity Detection
Adaboostにより得られた各フレームの値(信頼度）を、前後のnフレームを用いて平滑化を行うこうして得られた音声区間のうち一定時間以下の区間を削除することにより最終的な音声区間を得る。 v(x)≧θ:音声 v(x)＜θ:非音声 θ:閾値検出された区間検出された区間検出された区間検出された区間検出された区間音声時間

映像編集①発話区間との同期発話区間毎に映像の切り出し

発話者方向推定到来信号の時間差を用いて方向を推定
ＣＳＰ法（Cross-power Spectrum Phase Analysis:白色化相互相関法）に基づく音源方向推定法到来信号の時間差を用いて方向を推定１発話区間毎に方向推定を行う Sound Wave

発話者方向推定発話方向推定の結果よりカメラワークを決定ズームパン最大相関値をω、閾値をθとする。この時、 ω≧θ：ズーム
ω＜θ：パンズームパン

映像編集②発話方向との同期 b c a θ’ θ 1280 640 角度θ’の時、対応するx座標の画素は、 720 52.1° 1280
マイク 1280 640 角度θ’の時、対応するx座標の画素は、 720 90° 127.9° 52.1° 1280

実験環境発話者2名（男性） 303秒間 Video Camera Microphone desk A B

発話区間検出①発話区間切り出し使用したデータ:男性２話者, 303.029sec 発話区間検出の閾値
結果 sec　→　 secに短縮 (63.443%)

発話区間検出②検出率発話区間の誤検出 8区間　5.760sec 検出率区間数：秒数：

発話区間検出③発話時間頻度発話時間区間数:141 総時間:186.492[sec] Min:0.46[sec]
Max:6.068[sec] Ave:1.323[sec]

発話方向推定①正答率対象データ:141区間186.492sec 区間正答率時間正答率相関値の閾値 0.08 正解区間数 /全区間数
103/141 正答率 73.05% 相関値の閾値 0.08 正解時間 /全時間 / 正答率 65.50%

発話方向推定②方向別発話時間相関値の閾値正解データ 0.08 Aへのズーム 63.004（ｓ） 67.332（ｓ） Bへのズーム
41.644（ｓ） 55.628（ｓ）その他へのズーム 0（ｓ） 0.492（ｓ）パン 81.844（ｓ） 63.04（ｓ）計（ｓ）

発話方向推定③相関値グラフ(発話者A) 発話者：A MAX相関値： angle： A B

映像編集④発話者Aのズーム X座標：中心となる座標から左右に250ピクセルずつ抜き出す 60°

発話方向推定④相関値グラフ(発話者B) 発話者：B MAX相関値： angle：106.5 A B

映像編集⑤発話者Bのズーム X座標：中心となる座標から左右に250ピクセルずつ抜き出す 106°

発話方向推定⑤相関値グラフ(２者発話) 発話者：A,B(交互) MAX相関値： angle： A B

映像編集⑥パン映像ズーム無しの元映像

まとめ長時間の映像を自動編集し、ダイジェスト映像を生成するシステムを提案・実験冗長な映像からのダイジェスト生成の作成今後の課題
方向推定の精度の向上話者の感情判定画像情報（顔認識技術等）の利用

参考資料①（発話区間検出の例）

参考資料②（発話方向判定の例） pan b_zoom a_zoom

映像編集①カメラのスペックカメラ：Victor GR-HD1（焦点距離：40.3mm（35mmカメラ換算） (水平)画角：50.1°（垂直画角：29.5°、対角画角：56.4°） 115° 90° 65°

参考資料③（画角を求める式）参考資料画角の計算（ビデオのスペック（ θ：画角 x:フレームサイズ h:高さ2.735mm w:幅4.864mm d:対角5.580mm f：焦点距離5.2mm 焦点距離画角を求める式撮像エリア寸法

映像編集②マイクからの角度 A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1° θ’
1m 1.5m A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1°

映像編集③角度→画素 b c a θ’ θ マイク 1280 640 角度θ’の時、対応するx座標の画素は、 720 1280

AdaBoost 弱識別器の重み付き投票で出力を決定(Boosting) 弱識別器に適切な重みをつけることで強識別器を作成
強識別器 {-1,+1} 重み弱識別器 {-1,+1} 弱識別器に適切な重みをつけることで強識別器を作成弱識別器 AdaBoostは弱識別器と重みを決める手法

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

Similar presentations

Presentation on theme: "固定カメラ映像からの音声情報を用いた映像コンテンツ生成"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

固定カメラ映像からの音声情報を 用いた映像コンテンツ生成

Similar presentations

Presentation on theme: "固定カメラ映像からの音声情報を 用いた映像コンテンツ生成"— Presentation transcript:

Similar presentations

About project

フィードバック

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

Presentation on theme: "固定カメラ映像からの音声情報を用いた映像コンテンツ生成"— Presentation transcript: