有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討 2007/12/01 CMS研究会 鳥取環境大学 永井孝幸
情報システム学科での取り組み 学科の講義を全て撮影(2004年度~) 撮影 レンダリング/配信 ビデオ編集をどうするか? 予習・復習の支援(学生) 専任スタッフなし 25コマ/週 (2007年度後期) 撮影 学生スタッフ+市販ハンディカム レンダリング/配信 自動バッチ処理+自作コース管理システム ビデオ編集をどうするか?
発表内容 講義ビデオの編集方法 現行の編集方法 新しく考案した編集方法 画像切り出し手法 音声切り出し手法 ビデオ編集工程
講義ビデオの編集方法 無編集? 手作業で短縮ビデオを編集? 自動編集? 簡易編集? 週25本のビデオ編集を少人数・低コストで行うには? 90分講義の編集に約2時間 自動編集? 自動撮影系+講義状況認識 固定HDVカメラ+仮想カメラワーク 簡易編集? クリップ分割+インデックス付与 ←極力避けたい ←難点:作業時間 ←難点:導入コスト ←難点:計算資源 ←難点:作業時間?
現行の編集方法(2006/10~) クリップ分割+インデックス付与 「復習」用途では全編視聴よりも部分視聴 撮影時に10分毎の講義内容を記録 10分毎のクリップに記録を転記 ↓ 1講義あたり5分で編集 25講義を2時間弱で編集
有人撮影・編集方式の課題 科目・撮影者による撮影記録の質のばらつき インデックスとビデオの時間的対応づけ クリップの分割単位/不要部分の削除
今回考案した方式 画像/音声自動切り出し+インデックス付与 切り出し画像を用いて撮影記録を補足 無音区間でのクリップ分割 自動化 省力化 整除関係 商の一意性 演習 解説 画像へのインデックス付与→インデックスと動画の時刻対応
画像切り出し 目標:板書・スライド画像の抽出 前提:撮影時にカメラをあまり動かさない 映像の変化が少ないフレーム(キーフレーム)を抽出 黒板・スクリーンが見やすいのは教員が画面外に出た/動きが止まった瞬間 ↓ 映像の変化が少ないフレーム(キーフレーム)を抽出
キーフレームの抽出 入力(モノクロ)画像列: フレーム差分を利用 基本方針:差分の小さいフレームを抽出 差分値そのものは撮影環境の影響をうけやすい 照明ON/OFF、日差し
フレーム差分の比によるスコア付け フレーム差分比 変化の少ない/激しい箇所:差分比は1の近辺 動きの後の一瞬の静止:差分比 < 0.5 スコアの小さいフレームを抽出
スコアに基づくキーフレーム抽出 スコアの最も低いフレームを抽出 画像列を分割して再帰的にフレームを抽出 抽出したフレームの前後 d 秒分は除外 フレーム列が一定の長さ L 未満になったら終了 スコアの閾値設定は不要
キーフレーム抽出結果 処理時間 抽出画像数 サンプル画像 カラー29.97fps → モノクロ10fpsとして処理 動画90分の処理に約80分 (Xeon 3.6GHz) 抽出画像数 d=20秒,L=60秒の場合で130~150枚/90分 サンプル画像 スライドショーにて紹介
音声切り出し 平均音量レベルに基づく有音区間検出 0.1秒毎に指標pi(平均振幅の対数)を計算 装着型マイクを用いて講師音声を明瞭に収録 pi > 全区間のpiの平均 → 有音区間
音声要約情報の生成 区間毎の検出結果を0,1の文字列で表現 クリップ分割処理を文字列分割処理に帰着 無音区間→0, 有音区間→1 ノイズ除去:00100→00000 クリップ分割処理を文字列分割処理に帰着 ビデオ配信時に動的に配信プログラムを生成 11111111111111111111111111111111111111111111111111111111111110011111111111111000111111111110000000011000001111111100011111111111100111111110100000000000000000010110000010110000000011110000111101011001
音声クリップ分割 方針:長い無音区間でクリップを分割 分割基準をどうするか? 音声要約情報中の長い00…0のパターンを検出 無音区間の長さはどの程度が適当か? 「一定の長さ以上の無音区間」でよいか? 1111111000000000000000000000000111111111 1111111 111111111
無音区間の長さ分布 講義の進行に依存 5秒未満が98% 大きな区切りは10秒以上 1500秒過ぎまで10秒以上の無音区間が無い 長さ(秒) 頻度 累積(%) 0~1 2847 79.0% 1~2 443 91.3% 2~3 138 95.1% 3~4 68 97.0% 4~5 36 98.0% 5~6 17 98.5% 6~7 15 98.9% 7~8 8 99.3% 8~9 6 9~10 4 99.4% 10~20 19 99.9% 20~ 100.0% 1500秒過ぎまで10秒以上の無音区間が無い 大きな区切りは10秒以上
クリップ分割手順 最も長い無音区間でクリップを再帰的に分割 終了条件1:クリップの長さが60秒未満 終了条件2:長さ5秒以上の無音区間がない
講義音声分割結果 2007年度後期「情報数学1」 板書講義+時間内演習 クリップ数:36~60個, 平均長:79~144秒 削減された無音区間:255秒~627秒 (4~11%) 担当 収録日 収録時間(秒) 自動分割クリップ 削減長(秒) クリップ数 合計長(秒) 平均長(秒) 最小長(秒) 最大長(秒) 教員A 09/28/07 5466 52 4884 94 5.3 376 582 10/05/07 5311 41 4960 121 1.4 517 351 10/12/07 5371 60 4744 79 5.7 341 627 教員B 10/19/07 5434 50 5011 100 1.6 543 423 10/26/07 5481 36 5170 144 7 980 311 11/02/07 5483 37 5228 141 4.6 704 255
簡易ビデオ編集 コース管理システムと連携して省力化 音声要約情報 クリップ自動分割 クリップ配信 この部分のみ手作業 フレーム選択 111111111111111111111001111111111111100011111111111000000001100000111111110001111111111110011111111010000000000000000001011000001011000000 フレーム抽出 音声要約情報 自然数、整数 ...の解釈 クリップ自動分割 フレーム選択 インデックス付与 クリップ配信 コース管理システム この部分のみ手作業
インデックス付与 所要時間: 写真選択:約4分 インデックス付与:約4分
ビデオ閲覧画面 音声要約情報から動的に算出 各音声区間に該当する写真・インデックスを列挙
まとめ 有人撮影講義ビデオの閲覧・編集支援 画像切り出し、音声分割、インデックス付与 フレーム抽出 音声要約情報 クリップ自動分割 111111111111111111111001111111111111100011111111111000000001100000111111110001111111111110011111111010000000000000000001011000001011000000 フレーム抽出 音声要約情報 自然数、整数 ...の解釈 クリップ自動分割 フレーム選択 インデックス付与 クリップ配信 コース管理システム 90分ビデオ一本につき 約8分
単純法との比較 30秒間隔で抽出 フレーム差分比で抽出 1080秒目 1110秒目 1140秒目 1091秒目 1127秒目 1162秒目
明瞭な雑音の除去 明瞭な雑音は除去したい 次の指標qi(振幅の対数の平均)を計算 「板書時のペンの音」「資料をめくる音」など 発話時の波形 板書時の波形 振幅が急激に減衰 qi <0.9 piなら 無音区間と判定
背景 講義ビデオの撮影・配信の増加 OpenCourseWare, iTunes U, etc. あまり編集されていない