Presentation is loading. Please wait.

Presentation is loading. Please wait.

有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討

Similar presentations


Presentation on theme: "有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討"— Presentation transcript:

1 有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討
2007/12/01 CMS研究会 鳥取環境大学 永井孝幸

2 情報システム学科での取り組み 学科の講義を全て撮影(2004年度~) 撮影 レンダリング/配信 ビデオ編集をどうするか?
予習・復習の支援(学生) 専任スタッフなし 25コマ/週 (2007年度後期) 撮影 学生スタッフ+市販ハンディカム レンダリング/配信 自動バッチ処理+自作コース管理システム ビデオ編集をどうするか?

3 発表内容 講義ビデオの編集方法 現行の編集方法 新しく考案した編集方法 画像切り出し手法 音声切り出し手法 ビデオ編集工程

4 講義ビデオの編集方法 無編集? 手作業で短縮ビデオを編集? 自動編集? 簡易編集? 週25本のビデオ編集を少人数・低コストで行うには?
90分講義の編集に約2時間 自動編集? 自動撮影系+講義状況認識 固定HDVカメラ+仮想カメラワーク 簡易編集? クリップ分割+インデックス付与 ←極力避けたい ←難点:作業時間 ←難点:導入コスト ←難点:計算資源 ←難点:作業時間?

5 現行の編集方法(2006/10~) クリップ分割+インデックス付与 「復習」用途では全編視聴よりも部分視聴 撮影時に10分毎の講義内容を記録
10分毎のクリップに記録を転記 1講義あたり5分で編集 25講義を2時間弱で編集

6 有人撮影・編集方式の課題 科目・撮影者による撮影記録の質のばらつき インデックスとビデオの時間的対応づけ クリップの分割単位/不要部分の削除

7 今回考案した方式 画像/音声自動切り出し+インデックス付与 切り出し画像を用いて撮影記録を補足 無音区間でのクリップ分割
自動化 省力化 整除関係 商の一意性 演習 解説 画像へのインデックス付与→インデックスと動画の時刻対応

8 画像切り出し 目標:板書・スライド画像の抽出 前提:撮影時にカメラをあまり動かさない 映像の変化が少ないフレーム(キーフレーム)を抽出
黒板・スクリーンが見やすいのは教員が画面外に出た/動きが止まった瞬間 映像の変化が少ないフレーム(キーフレーム)を抽出

9 キーフレームの抽出 入力(モノクロ)画像列: フレーム差分を利用 基本方針:差分の小さいフレームを抽出
差分値そのものは撮影環境の影響をうけやすい 照明ON/OFF、日差し

10 フレーム差分の比によるスコア付け フレーム差分比 変化の少ない/激しい箇所:差分比は1の近辺 動きの後の一瞬の静止:差分比 < 0.5
スコアの小さいフレームを抽出

11 スコアに基づくキーフレーム抽出 スコアの最も低いフレームを抽出 画像列を分割して再帰的にフレームを抽出
抽出したフレームの前後 d 秒分は除外 フレーム列が一定の長さ L 未満になったら終了 スコアの閾値設定は不要

12 キーフレーム抽出結果 処理時間 抽出画像数 サンプル画像 カラー29.97fps → モノクロ10fpsとして処理
動画90分の処理に約80分 (Xeon 3.6GHz) 抽出画像数 d=20秒,L=60秒の場合で130~150枚/90分 サンプル画像 スライドショーにて紹介

13 音声切り出し 平均音量レベルに基づく有音区間検出 0.1秒毎に指標pi(平均振幅の対数)を計算 装着型マイクを用いて講師音声を明瞭に収録
pi > 全区間のpiの平均 → 有音区間

14 音声要約情報の生成 区間毎の検出結果を0,1の文字列で表現 クリップ分割処理を文字列分割処理に帰着 無音区間→0, 有音区間→1
ノイズ除去:00100→00000 クリップ分割処理を文字列分割処理に帰着 ビデオ配信時に動的に配信プログラムを生成

15 音声クリップ分割 方針:長い無音区間でクリップを分割 分割基準をどうするか? 音声要約情報中の長い00…0のパターンを検出
無音区間の長さはどの程度が適当か? 「一定の長さ以上の無音区間」でよいか?

16 無音区間の長さ分布 講義の進行に依存 5秒未満が98% 大きな区切りは10秒以上 1500秒過ぎまで10秒以上の無音区間が無い 長さ(秒)
頻度 累積(%) 0~1 2847 79.0% 1~2 443 91.3% 2~3 138 95.1% 3~4 68 97.0% 4~5 36 98.0% 5~6 17 98.5% 6~7 15 98.9% 7~8 8 99.3% 8~9 6 9~10 4 99.4% 10~20 19 99.9% 20~ 100.0% 1500秒過ぎまで10秒以上の無音区間が無い 大きな区切りは10秒以上

17 クリップ分割手順 最も長い無音区間でクリップを再帰的に分割 終了条件1:クリップの長さが60秒未満 終了条件2:長さ5秒以上の無音区間がない

18 講義音声分割結果 2007年度後期「情報数学1」 板書講義+時間内演習 クリップ数:36~60個, 平均長:79~144秒
削減された無音区間:255秒~627秒 (4~11%) 担当 収録日 収録時間(秒) 自動分割クリップ 削減長(秒) クリップ数 合計長(秒) 平均長(秒) 最小長(秒) 最大長(秒) 教員A 09/28/07 5466 52 4884 94 5.3 376 582 10/05/07 5311 41 4960 121 1.4 517 351 10/12/07 5371 60 4744 79 5.7 341 627 教員B 10/19/07 5434 50 5011 100 1.6 543 423 10/26/07 5481 36 5170 144 7 980 311 11/02/07 5483 37 5228 141 4.6 704 255

19 簡易ビデオ編集 コース管理システムと連携して省力化 音声要約情報 クリップ自動分割 クリップ配信 この部分のみ手作業 フレーム選択
フレーム抽出 音声要約情報 自然数、整数 ...の解釈 クリップ自動分割 フレーム選択 インデックス付与 クリップ配信 コース管理システム この部分のみ手作業

20 インデックス付与 所要時間: 写真選択:約4分 インデックス付与:約4分

21 ビデオ閲覧画面 音声要約情報から動的に算出 各音声区間に該当する写真・インデックスを列挙

22 まとめ 有人撮影講義ビデオの閲覧・編集支援 画像切り出し、音声分割、インデックス付与 フレーム抽出 音声要約情報 クリップ自動分割
フレーム抽出 音声要約情報 自然数、整数 ...の解釈 クリップ自動分割 フレーム選択 インデックス付与 クリップ配信 コース管理システム 90分ビデオ一本につき 約8分

23 単純法との比較 30秒間隔で抽出 フレーム差分比で抽出 1080秒目 1110秒目 1140秒目 1091秒目 1127秒目 1162秒目

24 明瞭な雑音の除去 明瞭な雑音は除去したい 次の指標qi(振幅の対数の平均)を計算 「板書時のペンの音」「資料をめくる音」など
発話時の波形 板書時の波形 振幅が急激に減衰 qi <0.9 piなら 無音区間と判定

25 背景 講義ビデオの撮影・配信の増加 OpenCourseWare, iTunes U, etc. あまり編集されていない


Download ppt "有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討"

Similar presentations


Ads by Google