有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討

Slides:



Advertisements
Similar presentations
VQSコラボBusiness VQSコラボLearning ご提案資料 2014/4. Windows版 iPad版 iPhone版 交流タイプ 2 ◆シンプル設計でどの端末からも 議長or講師+5映像付発言 参加者最大:30接続(内25視聴者) (*)Android版は開発中です シンプル設計のインターフェイスはWindowsパソコン、iPad、iPhoneと.
Advertisements

静脈画像を鍵とする暗号化手 法に関する研究 大山研究室 安藤のぞみ. 研究の背景、目的 近年、バイオメトリクス認証が注目されて いる 静脈は身体内部の情報 → 偽造に強い 環境に左右されることが少ない 利用者の心理的抵抗が軽減される オープンなネットワークへのバイオメトリ クス認証の適用 : Double.
高度情報演習 1A “ テーマC ” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 芝浦工業大学 工学部 情報工学科 青木 義満 2006/04/10.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
1 映像技術演習 第 6 回:タイトルの設定・ BGM. 2 まず最初に・・・ ポータブルHDDの自分のフォルダにある ファイルを、Dドライブにコピーしてくださ い。 ※ 原則として、授業の最初に、ポータブルH DDのファイルをDドライブにコピーしてか ら作業する。 ※ 作業終了時に、再びDドライブの必要な.
新設科目:応用数学 イントロダクション 情報工学科 2 年前期 専門科目 担当:准教授 青木義満.
学事予算の支出状況表作成に 係る業務の効率化 教学部 高輪教学課 加藤美博. 目 次 ①背景 ②財務情報システムの現状 ③これまでの取り組み ④新たな改善事項 ⑤効果.
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
仮想テープライブラリ クラウド環境で利用できるテープバックアップの代替サービス 簡単な図 (網羅性より象徴性)
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
静止背景における動物体の検出と追跡 陳 謙 2004年10月19日.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム
「わかりやすいパターン認識」 第1章:パターン認識とは
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
卒業見込み判定資料作成のための工数大幅削減施策
Deep learningによる 読唇システム
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
Intelligent Computing Systems Laboratory
3DCGコンテンツの基礎 第5回授業:最終課題制作
情報処理 第12回の教材 プレゼンテーションソフト PowerPoint 高知大学 共通教育 理学部 対象 担当教員 : 塩田
アナログとディジタル 五感 視覚、聴覚、味覚、臭覚、触覚 埼玉県立越ヶ谷高等学校・情報科.
インターネットにおける オーケストラ演奏同期機構の 設計と実装
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
日常運用可能な省力型ビデオアーカイブシステムの開発
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
OpenCV を使った画像処理コンポーネントの作成例 田窪 朋仁(大阪大学)
PSOLA法を用いた極低ビットレート音声符号化に関する検討
2012年度 情報数理 ~ QRコードを作ろう!(1) ~.
VideoOnDemand型 e-Learningシステムのご提案
Webを使ったナレッジマネジメントとビジネス展開*
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
高度情報演習1C 実践 画像処理プログラミング
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
顔部品の検出システムの構築 指導教員 廉田浩 教授 1DS04188W  田中 甲太郎.
~Lookie~ WEBカメラを用いた対話時における 視線不一致問題の解決手法の提案と 解決支援機構の開発
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
ビデオデータベース.
視点移動カメラにおけるカメラキャリブレーション
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
中京大学 情報理工学部 機械情報学科 H 野口裕司
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
プレゼンテーション動画の制作ならびに 提出方法について
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
高度情報演習1A “テーマC” 実践 画像処理プログラミング 第六回 最終課題 画像処理による動物体自動抽出、モーションキャプチャ
2019/2/24 情報処理 第13回.
3.1 PowerPoint の概要 PowerPointを使ってできること
久長穣 村田孝子 立山紘毅* 刈谷丈治 山口大学総合情報処理センター 山口大学経済学部*
コンピュータ プレゼンテーション.
各会話シーン毎に、発話(音源)方向を推定
情報処理 第7回:Wordを用いた文書の作成 その2 June. 9, 2017.
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
アナログとデジタル.
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
QRコードを用いた演習用紙の効率的な電子コンテンツ化
ここにタイトルを入力 ここにサブタイトルを入力 草原 (初級)
ボールと選手に着目したディジタルカメラワークの実現法
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
CSP係数の識別に基づく話者の 頭部方向の推定
情報スキル活用 第1週    ガイダンス.
Presentation transcript:

有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討 2007/12/01 CMS研究会 鳥取環境大学 永井孝幸

情報システム学科での取り組み 学科の講義を全て撮影(2004年度~) 撮影 レンダリング/配信 ビデオ編集をどうするか? 予習・復習の支援(学生) 専任スタッフなし 25コマ/週 (2007年度後期) 撮影 学生スタッフ+市販ハンディカム レンダリング/配信 自動バッチ処理+自作コース管理システム ビデオ編集をどうするか?

発表内容 講義ビデオの編集方法 現行の編集方法 新しく考案した編集方法 画像切り出し手法 音声切り出し手法 ビデオ編集工程

講義ビデオの編集方法 無編集? 手作業で短縮ビデオを編集? 自動編集? 簡易編集? 週25本のビデオ編集を少人数・低コストで行うには? 90分講義の編集に約2時間 自動編集? 自動撮影系+講義状況認識 固定HDVカメラ+仮想カメラワーク 簡易編集? クリップ分割+インデックス付与 ←極力避けたい ←難点:作業時間 ←難点:導入コスト ←難点:計算資源 ←難点:作業時間?

現行の編集方法(2006/10~) クリップ分割+インデックス付与 「復習」用途では全編視聴よりも部分視聴 撮影時に10分毎の講義内容を記録 10分毎のクリップに記録を転記 ↓ 1講義あたり5分で編集 25講義を2時間弱で編集

有人撮影・編集方式の課題 科目・撮影者による撮影記録の質のばらつき インデックスとビデオの時間的対応づけ クリップの分割単位/不要部分の削除

今回考案した方式 画像/音声自動切り出し+インデックス付与 切り出し画像を用いて撮影記録を補足 無音区間でのクリップ分割 自動化 省力化 整除関係 商の一意性 演習 解説 画像へのインデックス付与→インデックスと動画の時刻対応

画像切り出し 目標:板書・スライド画像の抽出 前提:撮影時にカメラをあまり動かさない 映像の変化が少ないフレーム(キーフレーム)を抽出 黒板・スクリーンが見やすいのは教員が画面外に出た/動きが止まった瞬間 ↓ 映像の変化が少ないフレーム(キーフレーム)を抽出

キーフレームの抽出 入力(モノクロ)画像列: フレーム差分を利用 基本方針:差分の小さいフレームを抽出 差分値そのものは撮影環境の影響をうけやすい 照明ON/OFF、日差し

フレーム差分の比によるスコア付け フレーム差分比 変化の少ない/激しい箇所:差分比は1の近辺 動きの後の一瞬の静止:差分比 < 0.5 スコアの小さいフレームを抽出

スコアに基づくキーフレーム抽出 スコアの最も低いフレームを抽出 画像列を分割して再帰的にフレームを抽出 抽出したフレームの前後 d 秒分は除外 フレーム列が一定の長さ L 未満になったら終了 スコアの閾値設定は不要

キーフレーム抽出結果 処理時間 抽出画像数 サンプル画像 カラー29.97fps → モノクロ10fpsとして処理 動画90分の処理に約80分 (Xeon 3.6GHz) 抽出画像数 d=20秒,L=60秒の場合で130~150枚/90分 サンプル画像 スライドショーにて紹介

音声切り出し 平均音量レベルに基づく有音区間検出 0.1秒毎に指標pi(平均振幅の対数)を計算 装着型マイクを用いて講師音声を明瞭に収録 pi > 全区間のpiの平均 → 有音区間

音声要約情報の生成 区間毎の検出結果を0,1の文字列で表現 クリップ分割処理を文字列分割処理に帰着 無音区間→0, 有音区間→1 ノイズ除去:00100→00000 クリップ分割処理を文字列分割処理に帰着 ビデオ配信時に動的に配信プログラムを生成 11111111111111111111111111111111111111111111111111111111111110011111111111111000111111111110000000011000001111111100011111111111100111111110100000000000000000010110000010110000000011110000111101011001

音声クリップ分割 方針:長い無音区間でクリップを分割 分割基準をどうするか? 音声要約情報中の長い00…0のパターンを検出 無音区間の長さはどの程度が適当か? 「一定の長さ以上の無音区間」でよいか? 1111111000000000000000000000000111111111 1111111 111111111

無音区間の長さ分布 講義の進行に依存 5秒未満が98% 大きな区切りは10秒以上 1500秒過ぎまで10秒以上の無音区間が無い 長さ(秒) 頻度 累積(%) 0~1 2847 79.0% 1~2 443 91.3% 2~3 138 95.1% 3~4 68 97.0% 4~5 36 98.0% 5~6 17 98.5% 6~7 15 98.9% 7~8 8 99.3% 8~9 6 9~10 4 99.4% 10~20 19 99.9% 20~ 100.0% 1500秒過ぎまで10秒以上の無音区間が無い 大きな区切りは10秒以上

クリップ分割手順 最も長い無音区間でクリップを再帰的に分割 終了条件1:クリップの長さが60秒未満 終了条件2:長さ5秒以上の無音区間がない

講義音声分割結果 2007年度後期「情報数学1」 板書講義+時間内演習 クリップ数:36~60個, 平均長:79~144秒 削減された無音区間:255秒~627秒 (4~11%) 担当 収録日 収録時間(秒) 自動分割クリップ 削減長(秒) クリップ数 合計長(秒) 平均長(秒) 最小長(秒) 最大長(秒) 教員A 09/28/07 5466 52 4884 94 5.3 376 582 10/05/07 5311 41 4960 121 1.4 517 351 10/12/07 5371 60 4744 79 5.7 341 627 教員B 10/19/07 5434 50 5011 100 1.6 543 423 10/26/07 5481 36 5170 144 7 980 311 11/02/07 5483 37 5228 141 4.6 704 255

簡易ビデオ編集 コース管理システムと連携して省力化 音声要約情報 クリップ自動分割 クリップ配信 この部分のみ手作業 フレーム選択 111111111111111111111001111111111111100011111111111000000001100000111111110001111111111110011111111010000000000000000001011000001011000000 フレーム抽出 音声要約情報 自然数、整数 ...の解釈 クリップ自動分割 フレーム選択 インデックス付与 クリップ配信 コース管理システム この部分のみ手作業

インデックス付与 所要時間: 写真選択:約4分 インデックス付与:約4分

ビデオ閲覧画面 音声要約情報から動的に算出 各音声区間に該当する写真・インデックスを列挙

まとめ 有人撮影講義ビデオの閲覧・編集支援 画像切り出し、音声分割、インデックス付与 フレーム抽出 音声要約情報 クリップ自動分割 111111111111111111111001111111111111100011111111111000000001100000111111110001111111111110011111111010000000000000000001011000001011000000 フレーム抽出 音声要約情報 自然数、整数 ...の解釈 クリップ自動分割 フレーム選択 インデックス付与 クリップ配信 コース管理システム 90分ビデオ一本につき 約8分

単純法との比較 30秒間隔で抽出 フレーム差分比で抽出 1080秒目 1110秒目 1140秒目 1091秒目 1127秒目 1162秒目

明瞭な雑音の除去 明瞭な雑音は除去したい 次の指標qi(振幅の対数の平均)を計算 「板書時のペンの音」「資料をめくる音」など 発話時の波形 板書時の波形 振幅が急激に減衰 qi <0.9 piなら 無音区間と判定

背景 講義ビデオの撮影・配信の増加 OpenCourseWare, iTunes U, etc. あまり編集されていない