固定カメラ映像からの音声情報を用いた映像コンテンツ生成

Slides:

Advertisements

Similar presentations

静脈画像を鍵とする暗号化手法に関する研究大山研究室安藤のぞみ. 研究の背景、目的近年、バイオメトリクス認証が注目されている静脈は身体内部の情報 → 偽造に強い環境に左右されることが少ない利用者の心理的抵抗が軽減されるオープンなネットワークへのバイオメトリクス認証の適用 : Double.

Advertisements

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

顔表情クラスタリングによる映像コンテンツへのタギング

画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

Deep learningによる読唇システム

音響モデルを利用したシングルチャネルによる音源方向推定

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討

車内状況アウェアネスのための感情音データベースの設計と評価

雑音重み推定と音声ＧＭＭを用いた雑音除去

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

CV輪講姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡

有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

画像情報を用いた交通流計測情報工学科藤吉研究室 EP02076 都築勇司

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

非負値行列因子分解による構音障害者の声質変換

複数尤度を用いた３次元パーティクルフィルタによる選手の追跡 IS1-39

顔部品の検出システムの構築指導教員　廉田浩　教授 1DS04188W　田中　甲太郎.

~Lookie~ WEBカメラを用いた対話時における視線不一致問題の解決手法の提案と解決支援機構の開発

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

ビデオデータベース.

嗜好分類に基づく個人適応型サッカー映像の自動生成技術神戸大学　有木研究室　　窪田進太郎.

視点移動カメラにおけるカメラキャリブレーション

WIP中間発表画像解析を用いたメイドの為の無許可撮影通知システム

マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科

中京大学情報理工学部機械情報学科 H 野口裕司

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討

1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定

Specmurtを利用した調波構造行列による混合楽音解析の検討

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識

非負値行列因子分解に基づく唇動画像からの音声生成

Number of random matrices

各会話シーン毎に、発話（音源）方向を推定

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による顔・視線方向同時推定顔・視線同時推定研究背景

AdaBoostを用いたシステムへの問い合わせと雑談の判別

ブースティングとキーワードフィルタリングによるシステム要求検出

重みつきノルム基準によるF0周波数選択を用いた Specmurtによる多重音解析

ETPB： Extraction of Context from Pedestrians' Behavior

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

音響伝達特性を用いたシングルチャネル音源方向推定

多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

窪田進太郎有木康雄（神戸大）熊野雅仁（龍谷大）

自己縮小画像と混合ガウス分布モデルを用いた超解像

勾配画像処理に基づく動画中の流体部分抽出

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

市松模様を使用したカメラキャリブレーション

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

固定カメラ映像からの音声情報を用いた映像コンテンツ生成神戸大学足立順　滝口哲也　有木康雄

研究背景長時間の行動記録の入手が簡単化映像の自動編集の必要性コンピュータの小型化記憶デバイスの大容量化 (例)結婚式パーティ、車内映像等撮影・編集には時間と技術が必要長時間の映像を全て見るのは困難映像の自動編集の必要性

研究背景ズーム等のカメラワークを用いた、ダイジェスト映像の生成固定カメラによる撮影映像メリットデメリット長時間撮影が可能低コスト（一般家庭向け）デメリット単調不必要な部分が多いズーム等のカメラワークを用いた、ダイジェスト映像の生成

研究背景音声データを用い、必要な箇所を抽出する必要性従来までの研究多くが画像情報を元にした編集デメリット顔認識、行動認識等会話部分など動きが少ない箇所で不必要な部分としてデータが失われる恐れ音声データを用い、必要な箇所を抽出する必要性

提案手法の処理の流れ元映像音声データ発話区間検出映像との同期発話方向推定カメラワークダイジェスト

発話区間検出低SNR環境化においても頑強な音声非音声の区間検出が可能なAdaboostを用いる（車内、パーティ等、雑音が大きいシーンを想定）判別器生成のための特徴量は、MFCC（Mel Frequency Cepstrum Coefficient）を用いる

Boosting Boostingの特徴逐次的に学習機械を構成重み付きリサンプリング弱学習機の重み付き結合 1 Data 弱学習機・・・ -1 強学習機(Combined Learner)

発話区間検出 VAD:Voice Activity Detection Adaboostにより得られた各フレームの値(信頼度）を、前後のnフレームを用いて平滑化を行うこうして得られた音声区間のうち一定時間以下の区間を削除することにより最終的な音声区間を得る。 v(x)≧θ:音声 v(x)＜θ:非音声 θ:閾値検出された区間検出された区間検出された区間検出された区間検出された区間音声時間

映像編集①発話区間との同期発話区間毎に映像の切り出し

発話者方向推定到来信号の時間差を用いて方向を推定ＣＳＰ法（Cross-power Spectrum Phase Analysis:白色化相互相関法）に基づく音源方向推定法到来信号の時間差を用いて方向を推定１発話区間毎に方向推定を行う Sound Wave

発話者方向推定発話方向推定の結果よりカメラワークを決定ズームパン最大相関値をω、閾値をθとする。この時、 ω≧θ：ズーム ω＜θ：パンズームパン

映像編集②発話方向との同期 b c a θ’ θ 1280 640 角度θ’の時、対応するx座標の画素は、 720 52.1° 1280 マイク 1280 640 角度θ’の時、対応するx座標の画素は、 720 90° 127.9° 52.1° 1280

実験環境発話者2名（男性） 303秒間 Video Camera Microphone desk A B

発話区間検出①発話区間切り出し使用したデータ:男性２話者, 303.029sec 発話区間検出の閾値結果 303.029sec　→　192.252secに短縮 (63.443%)

発話区間検出②検出率発話区間の誤検出 8区間　5.760sec 検出率区間数：秒数：

発話区間検出③発話時間頻度発話時間区間数:141 総時間:186.492[sec] Min:0.46[sec] Max:6.068[sec] Ave:1.323[sec]

発話方向推定①正答率対象データ:141区間186.492sec 区間正答率時間正答率相関値の閾値 0.08 正解区間数 /全区間数 103/141 正答率 73.05% 相関値の閾値 0.08 正解時間 /全時間 120.284 /186.492 正答率 65.50%

発話方向推定②方向別発話時間相関値の閾値正解データ 0.08 Aへのズーム 63.004（ｓ） 67.332（ｓ） Bへのズーム 41.644（ｓ） 55.628（ｓ）その他へのズーム 0（ｓ） 0.492（ｓ）パン 81.844（ｓ） 63.04（ｓ）計 186.492（ｓ）

発話方向推定③相関値グラフ(発話者A) 発話者：A MAX相関値：0.114301 angle：60.27529 A B

映像編集④発話者Aのズーム X座標：中心となる座標から左右に250ピクセルずつ抜き出す 60°

発話方向推定④相関値グラフ(発話者B) 発話者：B MAX相関値：0.147985 angle：106.5 A B

映像編集⑤発話者Bのズーム X座標：中心となる座標から左右に250ピクセルずつ抜き出す 106°

発話方向推定⑤相関値グラフ(２者発話) 発話者：A,B(交互) MAX相関値：0.059856 angle：73.54075 A B

映像編集⑥パン映像ズーム無しの元映像

まとめ長時間の映像を自動編集し、ダイジェスト映像を生成するシステムを提案・実験冗長な映像からのダイジェスト生成の作成今後の課題方向推定の精度の向上話者の感情判定画像情報（顔認識技術等）の利用

参考資料①（発話区間検出の例）

参考資料②（発話方向判定の例） pan b_zoom a_zoom

映像編集①カメラのスペックカメラ：Victor GR-HD1（http://www.jvc-victor.co.jp/dvmain/gr-hd1/spec.html）焦点距離：40.3mm（35mmカメラ換算） (水平)画角：50.1°（垂直画角：29.5°、対角画角：56.4°） 115° 90° 65°

参考資料③（画角を求める式）参考資料画角の計算（http://www.cmehappy.jp/articles/angleofview.html）ビデオのスペック（http://www.jvc-victor.co.jp/dvmain/gr-hd1/spec.html） θ：画角 x:フレームサイズ h:高さ2.735mm w:幅4.864mm d:対角5.580mm f：焦点距離5.2mm 焦点距離画角を求める式撮像エリア寸法

映像編集②マイクからの角度 A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1° θ’ 1m 1.5m A:カメラ位置 B:マイク位置 θ:マイクからの角度 θ’:カメラの画角 127.9° 90° 52.1°

映像編集③角度→画素 b c a θ’ θ マイク 1280 640 角度θ’の時、対応するx座標の画素は、 720 1280

AdaBoost 弱識別器の重み付き投票で出力を決定(Boosting) 弱識別器に適切な重みをつけることで強識別器を作成強識別器 {-1,+1} 重み弱識別器 {-1,+1} 弱識別器に適切な重みをつけることで強識別器を作成弱識別器 AdaBoostは弱識別器と重みを決める手法