固定カメラ映像からの音声情報を 用いた映像コンテンツ生成

Slides:



Advertisements
Similar presentations
静脈画像を鍵とする暗号化手 法に関する研究 大山研究室 安藤のぞみ. 研究の背景、目的 近年、バイオメトリクス認証が注目されて いる 静脈は身体内部の情報 → 偽造に強い 環境に左右されることが少ない 利用者の心理的抵抗が軽減される オープンなネットワークへのバイオメトリ クス認証の適用 : Double.
Advertisements

自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
顔表情クラスタリングによる 映像コンテンツへのタギング
画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
Deep learningによる 読唇システム
音響モデルを利用したシングルチャネルに よる音源方向推定
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
顔部品の検出システムの構築 指導教員 廉田浩 教授 1DS04188W  田中 甲太郎.
~Lookie~ WEBカメラを用いた対話時における 視線不一致問題の解決手法の提案と 解決支援機構の開発
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ビデオデータベース.
嗜好分類に基づく 個人適応型サッカー映像の 自動生成技術 神戸大学 有木研究室  窪田進太郎.
視点移動カメラにおけるカメラキャリブレーション
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
マルチメディア・コンテンツの 組織化機構 ー映像メディアに対する知的構造化ー 有木康雄 龍谷大学理工学部 電子情報学科
中京大学 情報理工学部 機械情報学科 H 野口裕司
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析
ETPB: Extraction of Context from Pedestrians' Behavior
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響伝達特性を用いたシングルチャネル音源方向推定
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
自己縮小画像と混合ガウス分布モデルを用いた超解像
勾配画像処理に基づく動画中の流体部分抽出
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
市松模様を使用した カメラキャリブレーション
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

固定カメラ映像からの音声情報を 用いた映像コンテンツ生成 神戸大学 足立順 滝口哲也 有木康雄

研究背景 長時間の行動記録の入手が簡単化 映像の自動編集の必要性 コンピュータの小型化 記憶デバイスの大容量化 (例)結婚式パーティ、車内映像等 撮影・編集には時間と技術が必要 長時間の映像を全て見るのは困難 映像の自動編集の必要性

研究背景 ズーム等のカメラワークを用いた、 ダイジェスト映像の生成 固定カメラによる撮影映像 メリット デメリット 長時間撮影が可能 低コスト(一般家庭向け) デメリット 単調 不必要な部分が多い ズーム等のカメラワークを用いた、 ダイジェスト映像の生成

研究背景 音声データを用い、必要な箇所を 抽出する必要性 従来までの研究 多くが画像情報を元にした編集 デメリット 顔認識、行動認識等 会話部分など動きが少ない箇所で不必要な部分としてデータが失われる恐れ 音声データを用い、必要な箇所を 抽出する必要性

提案手法の処理の流れ 元映像 音声データ 発話区間検出 映像との同期 発話方向推定 カメラワーク ダイジェスト

発話区間検出 低SNR環境化においても頑強な音声非音声の区間検出が可能なAdaboostを用いる (車内、パーティ等、雑音が大きいシーンを想定) 判別器生成のための特徴量は、MFCC(Mel Frequency Cepstrum Coefficient)を用いる

Boosting Boostingの特徴 逐次的に学習機械を構成 重み付きリサンプリング 弱学習機の重み付き結合 1 Data 弱学習機 ・・・ -1 強学習機(Combined Learner)

発話区間検出 VAD:Voice Activity Detection Adaboostにより得られた各フレームの値(信頼度)を、前後のnフレームを用いて平滑化を行う こうして得られた音声区間のうち一定時間以下の区間を削除することにより最終的な音声区間を得る。 v(x)≧θ:音声 v(x)<θ:非音声 θ:閾値 検出 された 区間 検出 された 区間 検出された区間 検出 された 区間 検出 された 区間 音声 時間

映像編集①発話区間との同期 発話区間毎に映像の切り出し

発話者方向推定 到来信号の時間差を用いて方向を推定 CSP法(Cross-power Spectrum Phase Analysis:白色化相互相関法)に基づく音源方向推定法 到来信号の時間差を用いて方向を推定 1発話区間毎に方向推定を行う Sound Wave

発話者方向推定 発話方向推定の結果よりカメラワークを決定 ズーム パン 最大相関値をω、閾値をθとする。この時、 ω≧θ:ズーム ω<θ:パン ズーム パン

映像編集②発話方向との同期 b c a θ’ θ 1280 640 角度θ’の時、 対応するx座標の画素は、 720 52.1° 1280 マイク 1280 640 角度θ’の時、 対応するx座標の画素は、 720 90° 127.9° 52.1° 1280

実験環境 発話者2名(男性) 303秒間 Video Camera Microphone desk A B

発話区間検出①発話区間切り出し 使用したデータ:男性2話者, 303.029sec 発話区間検出の閾値 結果 303.029sec → 192.252secに短縮 (63.443%)

発話区間検出②検出率 発話区間の誤検出 8区間 5.760sec 検出率 区間数: 秒数:

発話区間検出③発話時間頻度 発話時間 区間数:141 総時間:186.492[sec] Min:0.46[sec] Max:6.068[sec] Ave:1.323[sec]

発話方向推定①正答率 対象データ:141区間186.492sec 区間正答率 時間正答率 相関値の閾値 0.08 正解区間数 /全区間数 103/141 正答率 73.05% 相関値の閾値 0.08 正解時間 /全時間 120.284 /186.492 正答率 65.50%

発話方向推定②方向別発話時間 相関値の閾値 正解データ 0.08 Aへのズーム 63.004(s) 67.332(s) Bへのズーム 41.644(s) 55.628(s) その他へのズーム 0(s) 0.492(s) パン 81.844(s) 63.04(s) 計 186.492(s)

発話方向推定③相関値グラフ(発話者A) 発話者:A MAX相関値:0.114301 angle:60.27529 A B

映像編集④発話者Aのズーム X座標:中心となる座標から左右に250ピクセルずつ抜き出す 60°

発話方向推定④相関値グラフ(発話者B) 発話者:B MAX相関値:0.147985 angle:106.5 A B

映像編集⑤発話者Bのズーム X座標:中心となる座標から左右に250ピクセルずつ抜き出す 106°

発話方向推定⑤相関値グラフ(2者発話) 発話者:A,B(交互) MAX相関値:0.059856 angle:73.54075 A B

映像編集⑥パン映像 ズーム無しの元映像

まとめ 長時間の映像を自動編集し、ダイジェスト映像を生成するシステムを提案・実験 冗長な映像からのダイジェスト生成の作成 今後の課題 方向推定の精度の向上 話者の感情判定 画像情報(顔認識技術等)の利用

参考資料①(発話区間検出の例)

参考資料②(発話方向判定の例) pan b_zoom a_zoom

映像編集①カメラのスペック カメラ:Victor GR-HD1(http://www.jvc-victor.co.jp/dvmain/gr-hd1/spec.html) 焦点距離:40.3mm(35mmカメラ換算) (水平)画角:50.1°(垂直画角:29.5°、対角画角:56.4°) 115° 90° 65°

参考資料③(画角を求める式) 参考資料 画角の計算(http://www.cmehappy.jp/articles/angleofview.html) ビデオのスペック(http://www.jvc-victor.co.jp/dvmain/gr-hd1/spec.html) θ:画角 x:フレームサイズ h:高さ2.735mm w:幅4.864mm d:対角5.580mm f:焦点距離5.2mm 焦点距離 画角を求める式 撮像エリア寸法

映像編集②マイクからの角度 A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1° θ’ 1m 1.5m A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1°

映像編集③角度→画素 b c a θ’ θ マイク 1280 640 角度θ’の時、 対応するx座標の画素は、 720 1280

AdaBoost 弱識別器の重み付き投票で出力を決定(Boosting) 弱識別器に適切な重みをつけることで強識別器を作成 強識別器 {-1,+1} 重み 弱識別器 {-1,+1} 弱識別器に適切な重みをつけることで強識別器を作成 弱識別器 AdaBoostは弱識別器と重みを決める手法