各会話シーン毎に、発話(音源)方向を推定

Slides:



Advertisements
Similar presentations
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Advertisements

顔表情クラスタリングによる 映像コンテンツへのタギング
ユーザの表情に基づく 映像コンテンツへのタギング
顔表情からの関心度推定に基づく 映像コンテンツへのタギング
コンピュータビジョン特論 OpenCVについて
Deep learningによる 読唇システム
音響モデルを利用したシングルチャネルに よる音源方向推定
Intelligent Computing Systems Laboratory
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
3-Q-29 脳性麻痺構音障害者の音声認識による情報家電操作の検討
車内状況アウェアネスのための 感情音データベースの設計と評価
雑音重み推定と音声 GMMを用いた雑音除去
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
顔部品の検出システムの構築 指導教員 廉田浩 教授 1DS04188W  田中 甲太郎.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
嗜好分類に基づく 個人適応型サッカー映像の 自動生成技術 神戸大学 有木研究室  窪田進太郎.
視点移動カメラにおけるカメラキャリブレーション
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
マルチメディア・コンテンツの 組織化機構 ー映像メディアに対する知的構造化ー 有木康雄 龍谷大学理工学部 電子情報学科
中京大学 情報理工学部 機械情報学科 H 野口裕司
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
1-P-6 パラボラ反射板を用いたアクティブマイクロフォンによる方向推定
Specmurtを利用した調波構造行列による 混合楽音解析の検討
NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘 ・ 滝口哲也 ・ 有木康雄 (神戸大) 概要 従来手法の問題点 提案手法
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
人物の顔情報に基づくコンテンツの解析 岡田朋子 滝口哲也 有木康雄 神戸大学 …という題目で神戸大学の岡田が発表致します。
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
音響特徴量を用いた自閉症児と定型発達児の識別
音響伝達特性を用いたシングルチャネル音源方向推定
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
自己縮小画像と混合ガウス分布モデルを用いた超解像
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
人物再識別システムの 試作と評価 飯塚 敦志.
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

各会話シーン毎に、発話(音源)方向を推定 IS-2-08 固定カメラからの音声・画像情報を用いた 映像コンテンツの生成 足立順  滝口哲也  有木康雄 (神戸大学) 研究背景 処理の流れ 一般家庭におけるカメラ撮影での問題点 撮影者の肉体的・体力的負担 撮影者が画面に映らない 顔画像検出 カメラワーク ダイジェスト 元映像 音声データ 発話区間検出 映像との同期 発話方向推定 固定カメラによる自動撮影 固定カメラ撮影での問題点 単調な映像(ズーム・パン等、カメラワークの欠如) 不必要なシーンを含む(撮りっぱなしの為) 視聴の際の編集や検索の手間 映像の自動編集の必要性 映像内での会話部分 ストーリーを理解するうえでの必要性 カメラワークへの指標 :音声系処理 :画像系処理 会話シーンを中心とした映像編集 発話方向推定 発話区間検出 CSP法(Cross-power Spectrum Phase Analysis:白色化相互相関法)に基づく音源方向推定法 2chマイク間の音波到来時間差を利用して音源方向を推定 Real AdaBoostによる音声/非音声の識別 逐次的に学習機械を構成 重み付きリサンプリング 弱学習機の重み付き結合 Sound Wave CSP係数:CSP(k) 到来時間差:τ 発話方向:θ サンプリング周波数:f 音声区間検出 隣接するフレーム間でスムージング 一定時間以下の区間を削除 発話区間毎に映像と同期させ、 会話シーンを抜き出す カメラワーク 各会話シーンでのカメラワークルール 1話者発話シーン:発話者(顔)にズームイン 複数話者発話シーン:全員が映るよう、ズームアウト 話者数の判定ルール CSP係数を利用して判定 適当な閾値βを定める 1話者発話の場合、OpenCVにより、推定されている発話方向を中心に顔検出 顔検出:顔画像の中心座標を中心にズームイン 顔不検出:発話方向軸を中心にズームイン 発話方向軸 各会話シーン毎に、発話(音源)方向を推定 実験結果と考察・課題 CSP係数≧β:1話者発話 CSP係数<β:複数話者発話 使用データ:男性2話者(A,B)、 303.029[sec] 発話区間検出 : 303.029[sec]→ 149範囲、192.252[sec] 誤検出:8区間 5.760[sec] 検出率:97% 発話方向推定 : 対象データ:141区間,186.492[sec] 発話方向を推定し、閾値βを利用してカメラワークを決定 カメラワークルール CSP係数<β CSP係数≧β 区間正答率 時間正答率 閾値β 0.1 0.08 正解区間数 /全区間数 101[区間]/ 141[区間] 103[区間]/ 正答率 71.631% 73.05% 閾値β 0.1 0.08 正解時間 /全時間 133.85[sec] /186.49[sec] 120.28[sec] 正答率 71.77% 65.50% 不検出 検出 2話者の場合、カメラワークは3通り 被験者Aへズームイン 被験者Bへズームイン ズームアウト ズームイン 考察 イスの音など発話ではない音に対しての誤検出 カメラワーク決定について正解タグを設け、正答率を求めた ズームイン区間でズームアウトになる不正解が多数(発話者は映像内) 発話者が映像内に映るために閾値βの設定が重要 顔画像検出 CSP 係数 閾値β 発話方向軸 角度 生成された映像の評価 会話内容の理解度 映像時間感度 映像の単調さ ズームサイズの大きさ ショット区間の長さ カメラワークの見易さ ズームアウト 顔画像検出 今後の課題 CSP 係数 閾値β 感情認識(音声・画像) → 会話内容も含めた編集 行動認識(画像) → 会話以外での重要シーンのピックアップ 人物認識(音声・画像) → パーソナライズされた映像編集 角度