大量の映像分析と 抽出した知識に基づく映像合成

Slides:



Advertisements
Similar presentations
画像処理 05A1027 後藤航太. 研究課題は openLDAP についてでしたが 今回から画像処理に変更しました。 変更した理由 自分が持っていたイメージと実際の openLDAP が違ったので変更を決 めま した。 画像処理に興味を持ったので これからは画像処理を研究課題として やっていきます。
Advertisements

データベースと情報検索 情報検索(2) メディア検索エンジンを使っ てみる 岩村 雅一. 日程(情報検索:担当 岩村)  12/9 検索エンジンを使ってみる  12/16 メディア検索を使ってみる  12/25 ウェブアプリケーションを 使ってみる  1/9 検索エンジンを用いた演習  1/20.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
BRIEF: Binary Robust Independent Elementary Features
Building text features for object image classification
Learning Appearance in Virtual Scenarios for Pedestrian Detection
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
静止背景における動物体の検出と追跡 陳 謙 2004年10月19日.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
Pose Tracking from Natural Features on Mobile Phones
Deep learningによる 読唇システム
国内線で新千歳空港を利用している航空会社はどこですか?
SPA 報告
ライフログデータとしての笑顔の蓄積システムの提案
インターネットにおける オーケストラ演奏同期機構の 設計と実装
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
神奈川大学大学院工学研究科 電気電子情報工学専攻
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
Volume Extractor Ver 概要紹介と造形モデル例-
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
クラシック音楽普及プロジェクト KG:mao B3 wakutin.
Webを使ったナレッジマネジメントとビジネス展開*
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
Semi-Supervised QA with Generative Domain-Adaptive Nets
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
顔部品の検出システムの構築 指導教員 廉田浩 教授 1DS04188W  田中 甲太郎.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ビデオデータベース.
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
EGSに対応した粒子軌跡と 計算体系の3次元表示ソフト - CGVIEW -
Data Clustering: A Review
Volume Extractor Ver 概要紹介と造形モデル例-
複数特徴量の重み付け統合による一般物体認識
SURF+BoFによる特定物体認識 卒業研究1 1 11/27/11.
建築模型制作支援のための ソフトウェア研究開発
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
非負値行列因子分解に基づく唇動画像からの音声生成
Number of random matrices
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
Volume Extractor Ver 概要紹介と造形モデル例-
ETPB: Extraction of Context from Pedestrians' Behavior
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
ロボットから人に話しかける 判断モデルの構築
2018年度ビジョン研究室 ゼミナール・卒研紹介 指導教員:張善俊 6月20日(水) 6-209.
ビデオデータベースを用いた 流体画像に基づくアニメーション生成
Webページタイプによるクラスタ リングを用いた検索支援システム
コンピュータ教育開発センター Eスクエア・アドバンス ◆産業協力情報授業◆ CGアニメ入門 株式会社 ドーガ.
自己縮小画像と混合ガウス分布モデルを用いた超解像
勾配画像処理に基づく動画中の流体部分抽出
市松模様を使用した カメラキャリブレーション
人物再識別システムの 試作と評価 飯塚 敦志.
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Presentation transcript:

大量の映像分析と 抽出した知識に基づく映像合成 2011年9月 岡部 誠 電気通信大学 / JST さきがけ

お話の流れ 自己紹介 映像データを分析してCGに応用する技術

お話の流れ 自己紹介 映像データを分析してCGに応用する技術 ビデオデータベースに基く映像合成 画像中の流体を動かす 楽曲を演奏しているように見える動画生成

自己紹介 CG製作のためのユーザインタフェース 例:3次元CGの照明編集ツール(0:19) レンダリング ライトの配置と調節

自己紹介 CG製作のためのユーザインタフェース 例:3次元CGの照明編集ツール(0:19)

自己紹介 CG製作のためのユーザインタフェース 映像製作を効率化したい 例:3次元CGの照明編集ツール(0:19) 人にとって直感的な入力を扱いたい

背景 大量の動画が利用可能 デジタルビデオカメラ、携帯電話のカメラ YouTube、他の動画データベース

背景 大量の動画が利用可能 有効利用されていない デジタルビデオカメラ、携帯電話のカメラ YouTube、他の動画データベース ダウンロード、切り貼り

やりたいこと 大量の動画を分析、利用

やりたいこと 大量の動画を分析、利用 写真を動かす エキストラ合成 背景音合成

既存研究 大量音声の利用は高い実用性 text to speech、楽曲との合成

既存研究 大量音声の利用は高い実用性 text to speech、楽曲との合成 大量画像の利用 検索と画像処理による穴埋め

既存研究 大量音声の利用は高い実用性 大量画像の利用 大量動画の利用はこれから text to speech、楽曲との合成 検索と画像処理による穴埋め 大量動画の利用はこれから

映像データの分析に 基づくCG合成手法

A morphable model for the synthesis of 3D faces Volker Blanz and Thomas Vetter, SIGGRAPH 99 200個の顔のスキャンデータを主成分分析 男女100ずつ、70000頂点のポリゴン(0:36)

A morphable model for the synthesis of 3D faces Volker Blanz and Thomas Vetter, SIGGRAPH 99 200個の顔のスキャンデータを主成分分析 男女100ずつ、70000頂点のポリゴン(0:36) 写真1枚で顔の3次元形状が推定できる(2:10) 推定すべきパラメータが200個に削減(4:20,4:52)

体格の編集  MovieReshape Arjun Jain, Thorsten Thormählen, Hans-Peter Seidel, Christian Theobalt, SIGGRAPH Asia 2010 550個の人体のスキャンデータを主成分分析 人体モデルでビデオをトラッキングする 体格を編集可能(0:06,0:54,2:50)

Automatic Photo Pop-up(0:16,1:16) Derek Hoiem et al., SIGGRAPH 2005 空、建物、地面の3種類にセグメンテーション 建物と地面の間で、90度に折り曲げる セグメンテーション済みの画像データセット 3つのどの領域に入るかを学習

Scene Completion Using Millions of Photographs James Hays, Alexei A Scene Completion Using Millions of Photographs James Hays, Alexei A. Efros, SIGGRAPH 2007 画像の気に入らないところを削除&穴埋め GIST特徴量による検索 候補を出して選ばせる 2千枚→100万枚で性能アップ

Photo Clip Art Jean-Francois Lalonde, et al., SIGGRAPH 2007 LabelMeユーザによるアノテーション 人や車等、タグ付けされ、領域も分かっている オブジェクトを取り出して新しい画像を作る 画像の合成に使えそうな物体を検索 照明条件やサイズを推定

Sketch2Photo: Internet Image Montage Tao Chen et al Sketch2Photo: Internet Image Montage Tao Chen et al., SIGGRAPH Asia 2009 カンバスにスケッチとテキストを入れる 背景画像の検索 形状を考慮した物体検索 自然な合成を生成 前景・背景の組み合わせを最適化

Sketch2Photo: Internet Image Montage Tao Chen et al Sketch2Photo: Internet Image Montage Tao Chen et al., SIGGRAPH Asia 2009 カンバスにスケッチとテキストを入れる 背景画像の検索 形状を考慮した物体検索 自然な合成を生成 前景・背景の組み合わせを最適化

大量の画像を使ったお絵描き支援(0:20) スケッチに似たエッジ画像の検索 ShadowDraw: Real-Time User Guidance for Freehand Drawing Yong Jae Lee, Larry Zitnick, Michael Cohen, SIGGRAPH 2011 大量の画像を使ったお絵描き支援(0:20) スケッチを描くと参考画像が浮き上がってくる スケッチに似たエッジ画像の検索 パッチに切ってにBiCE特徴(ECCV 2010)を記述 似たパッチをたくさん持つものを候補

Data-driven enhancement of facial attractiveness Tommer Leyvand et al Data-driven enhancement of facial attractiveness Tommer Leyvand et al., SIGGRAPH 2008 顔写真を入れると自動的に整形する

Data-driven enhancement of facial attractiveness Tommer Leyvand et al Data-driven enhancement of facial attractiveness Tommer Leyvand et al., SIGGRAPH 2008 顔写真を入れると自動的に整形する データセット:顔の美しさを7段階で評価したもの 8つの顔パーツの位置を自動検出 特徴ベクトルは特徴点間のエッジ距離(234次元) SVRによる顔空間の学習 スコアを上げるようなメッシュの変形

Data-driven enhancement of facial attractiveness Tommer Leyvand et al Data-driven enhancement of facial attractiveness Tommer Leyvand et al., SIGGRAPH 2008 顔写真を入れると自動的に整形する データセット:顔の美しさを7段階で評価したもの 8つの顔パーツの位置を自動検出 特徴ベクトルは特徴点間のエッジ距離(234次元) SVRによる顔空間の学習 スコアを上げるようなメッシュの変形

Exploring Photobios Ira Kemelmacher-Shlizerman et al., SIGGRAPH 2011 最初と最後の顔画像を入れると(1:10) その間をつなぐようなアニメーションを生成 顔の3次元姿勢推定 3つの特徴による類似度検索

研究中の内容 写真中の流体を動かす 楽曲を演奏しているように見える動画生成

モチベーション 流体画像を元にアニメーションを作りたい

モチベーション 流体画像を元にアニメーションを作りたい 画像の質感を保ったまま

モチベーション 流体画像を元にアニメーションを作りたい 画像の質感を保ったまま 難しい問題

モチベーション 流体画像を元にアニメーションを作りたい 画像の質感を保ったまま 難しい問題 デザイナは1枚の流体の絵は描ける

モチベーション 流体画像を元にアニメーションを作りたい デザイナは1枚の流体の絵は描ける 画像の質感を保ったまま 難しい問題 独特の面白いスタイル

モチベーション 流体画像を元にアニメーションを作りたい デザイナは1枚の流体の絵は描ける 画像の質感を保ったまま 難しい問題 独特の面白いスタイル 何枚も描くのは困難 or 時間が掛かる

既存研究 流体シミュレーション

既存研究 流体シミュレーション 多くの物理パラメータ

既存研究 流体シミュレーション 多くの物理パラメータ 流体の動き 流体の見た目 ?

既存研究 流体シミュレーション 多くの物理パラメータ 流体の動き 流体の見た目 ビデオテクスチャ合成 既存のビデオを切り貼り ?

既存研究 流体シミュレーション ビデオテクスチャ合成 多くの物理パラメータ 既存のビデオを切り貼り 指定された見た目の 再現が難しい 流体の動き 流体の見た目 ビデオテクスチャ合成 既存のビデオを切り貼り 指定された見た目の 再現が難しい ? ?

提案手法 入力 単一の水、炎、煙の流体画像

提案手法 入力 単一の水、炎、煙の流体画像 ユーザは流れ方向と速さを指定しても良い

提案手法 入力 単一の水、炎、煙の流体画像 ユーザは流れ方向と速さを指定しても良い 流体領域を指定するアルファマット

提案手法 入力 出力 単一の水、炎、煙の流体画像 ユーザは流れ方向と速さを指定しても良い 流体領域を指定するアルファマット ビデオデータベースを用いてアニメーション合成

ビデオデータベースの利用 流体ビデオを収集

ビデオデータベースの利用 流体ビデオを収集 入力画像を元に 流体ビデオの検索

ビデオデータベースの利用 流体ビデオを収集 入力画像を元に 流体ビデオの検索 部分的な類似性

ビデオデータベースの利用 流体ビデオを収集 入力画像を元に 流体ビデオの検索 部分的な類似性 コピー&ペーストして アニメーションを生成する

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万)

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万)

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万) 各ビデオパッチの代表画像の作成

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万) 各ビデオパッチの代表画像の作成 ビデオフレームの平均を取る

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万) 各ビデオパッチの代表画像の作成 SIFT特徴の抽出 ビデオフレームの平均を取る SIFT特徴の抽出

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万) 各ビデオパッチの代表画像の作成 SIFT特徴の抽出 ビデオフレームの平均を取る SIFT特徴の抽出

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万) 各ビデオパッチの代表画像の作成 SIFT特徴の抽出 ビデオフレームの平均を取る SIFT特徴の抽出 各パッチをヒストグラムで表現

ビデオパッチ検索 ビデオと画像を48x48のパッチに切る(ビデオ:24万) 各ビデオパッチの代表画像の作成 SIFT特徴の抽出 ビデオフレームの平均を取る SIFT特徴の抽出 各パッチをヒストグラムで表現 200種類のSIFT → 200次元のヒストグラム

最適なビデオパッチの割り当て 動きの滑らかさを考慮した最適化 マルコフ・ランダム場を使用する

最適なビデオパッチの割り当て 動きの滑らかさを考慮した最適化 マルコフ・ランダム場を使用する 見た目の類似度

最適なビデオパッチの割り当て 動きの滑らかさを考慮した最適化 マルコフ・ランダム場を使用する 見た目の類似度 動きの類似度

最適なビデオパッチの割り当て 隣接するパッチ間の動きの滑らかさ

最適なビデオパッチの割り当て 隣接するパッチ間の動きの滑らかさ 流れの速度 :平均

最適なビデオパッチの割り当て 隣接するパッチ間の動きの滑らかさ 流れの速度 :平均 流れの激しさ :分散

アニメーションの生成 入力画像 割当てられたビデオパッチ

アニメーションの生成 入力画像 割当てられたビデオパッチ

まとめ ビデオデータベースを用いた 流体画像のアニメーション手法の提案 ビデオのより直接的な利用法を検討中

研究中の内容 写真中の流体を動かす 楽曲を演奏しているように見える動画生成

目的 自分の好きな曲の演奏動画を作りたい 楽器を演奏する技術はない あたかも演奏しているように見える動画の生成

今回、どのような動画を作るか バイオリンソロに絞って実験 データベース作成上の問題 単音なので、音楽の解析が容易 演者の動作が大きい ビデオ Youtube等では、十分な長さの動画が入手不可 演奏動画を独自に撮影

既存研究 人のCGモデルを音楽に同期させて踊らせる研究 CG業界では割と盛ん 3次元モデルの動き、音楽のテンポ・雰囲気を同期 → 割と適当な同期で、見た目は良い

Future Work 複数楽器の利用 ユーザインタフェース 将来性 音源分離・・・、全自動は困難? 音源分離の手助け、好みに合わせた編集 素人に楽器を演奏させるようなCG技術の確立 バンドの一員になれるような エンターテインメントシステムの構築

まとめ 大量の映像を分析して知識を抽出し、 新たな映像を合成するための研究 大量データに基づくCG技術 流体画像のアニメーション 楽器を演奏しているように見える動画の生成 大量データに基づくCG技術 3次元の顔と人体形状モデル 近年の大量画像データのCG応用