画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮 電子情報通信学科 甲藤二郎

Slides:



Advertisements
Similar presentations
JT-H 265(第 1 版) 高効率ビデオ符号化方式 HIGH EFFICIENCY VIDEO CODING メディア符号化専門委員会 JT- H 265第 1.0 版 OHP- 1.
Advertisements

An Algorithm for Low Memory Bandwidth Wavelet Video Compression and its VLSI Implementation 大阪大学大学院工学研究科 情報システム工学専攻 情報システム工学基礎論講座 情報システム構成学領域 博士後期課程3年.
授業展開#3 アナログとデジタル.
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮 情報ネットワーク専攻 甲藤二郎
Signal Masterによる フィルタバンクの実装
第9回放送授業.
動画像処理特論1 動画像の獲得と保存.
画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮 情報ネットワーク専攻 甲藤二郎
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
画像情報特論 (4) - ディジタル圧縮 (1) ビデオ圧縮 電子情報通信学科 甲藤二郎
J107 マルチメディアとは② 動画と音声 マルチメディアとは② 動画と音声 J107 中3情報.
Motion-JPEG2000を使ったノードに最適な動画像配信
画像セグメンテーションにおけるウェーブレット係数の局所テクスチャ特徴を用いたGraph Cuts
静止背景における動物体の検出と追跡 陳 謙 2004年10月19日.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パノラマ動画像モデルによる 仮想空間表現システムの研究
第1章 第1節 情報のディジタル化のしくみ 4 音の表現 5 画像の表現
第1章 第1節 情報のディジタル化のしくみ 4 音の表現 5 画像の表現
経営情報 #1 デジタル表現 / 2003 (春) 安田豊 1.
平成23年8月 情報学群 岡田 守 このスライドは, 前川佳徳編著による「コンピュータグラフィックス」(オーム社)を基に作成されている.
符号化のための重み付きジョイントバイラテラルフィルタを用いた 奥行き画像超解像
第三章 ディジタル符号変換の基礎 3・1PCMパルス符号変換 3・2符号変換 3・3通信路符号形式 3・4スクランブル.
時空間データからのオブジェクトベース知識発見
画像情報特論 (7) アダプテーション (2) パケット廃棄対策、TCPフレンドリ 情報ネットワーク専攻 甲藤二郎
ウェーブレット変換と 非線形適応信号処理を用いた 電子透かしの研究
マルチメディア情報の ディジタル表現と処理
首都大学東京 都市教養学部数理科学コース 関谷博之
ワイヤレス通信におけるMIMO伝送技術.
コンピュータビジョン Computer Vision(CV) パワーポイント 抜粋
実時間動画像マルチキャストのための フィルタリング手法の実装と評価
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
ディジタル回路 1. アナログ と ディジタル 五島 正裕.
表紙 MATLAB 応用講習会(A) 情報アシスタント M1 山本幸司.
※DES/RSA暗号に関する計算問題(演習・レポート課題)と似た問題は出題しません。
授業展開#3 アナログとデジタル.
画像処理 基礎.
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
ビデオデータベース.
動画ファイル形式 コンピュータでは、文字や画像、動画、音声といった様々な種類の情報を扱うことができるが、記憶装置に記録されるデータそのものは0と1の情報でしかない。動画ファイルの形式としてはMPEGやAVIです。
視点移動カメラにおけるカメラキャリブレーション
2008年度 情報数理 ~ 様々なデジタル情報 ~.
情報数理 ~様々なデジタル情報~ 2007年度 担当教員:幸山直人.
デザイン情報学科 メディア情報設計 河原英紀
画像情報特論 (8) - アダプテーション (2) パケット廃棄対策 電子情報通信学科 甲藤二郎
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
デザイン情報学科 メディア情報設計 河原英紀
東京農業大学 東京情報大学 附属第一高等学校・中等部 附属第二高等学校 附属第三高等学校・中等部
QRコードを用いたIDカードに 適した電子透かし
-画像処理(空間フィルタリング)- 画像処理(空間フィルタリング)のモデルとその基本操作 雑音除去・平滑化への適用
2012年度 情報数理 ~ 様々なデジタル情報(1) ~.
アナログ と ディジタル アナログ,ディジタル: 情報処理の過程: 記録/伝送 と 処理 において, 媒体(メディア)の持つ物理量 と
Hoffman符号 2011/05/23.
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 電子情報通信学科 甲藤二郎
音声合成.
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
2010年度 情報数理 ~ 様々なデジタル情報(1) ~.
適応信号処理とその応用 大阪府立大学大学院工学研究科 電気・情報系専攻 大松 繁.
アナログとデジタル.
画像情報特論 (7) アダプテーション (2) パケット廃棄対策、TCPフレンドリ 電子情報通信学科 甲藤二郎
第2回 標本化と量子化.
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 情報ネットワーク専攻 甲藤二郎
エラー訂正符号を含むシステム CD, DAT, MD, DVD, ディジタルVTR等 ディジタル(衛星)TV放送 ディジタル・セルラ
ソースフィルタモデル.
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 電子情報通信学科 甲藤二郎
※演習や小テスト(DES/RSA暗号に関する計算問題)と似た問題は出題しません。
2019年度 情報数理特論B ~ 様々なデジタル情報(1) ~.
アナログ と ディジタル アナログ,ディジタル: 情報処理の過程: 記録/伝送 と 処理 において, 媒体(メディア)の持つ物理量 と
コンピュータと音 B3 入野仁志(irino).
Presentation transcript:

画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮 2002.05.14 電子情報通信学科 甲藤二郎 電子情報通信学科 甲藤二郎 E-Mail: katto@katto.comm.waseda.ac.jp

ビデオ圧縮の原理

ディジタル動画 (1) 時間方向・空間方向のサンプリング RGB / YUV 変換 カメラ ビデオキャプチャ 時間 R Y G U B V フレーム 時間 フレーム周期 (1/30秒~) RGB / YUV 変換 R Y G U B V RGB各8ビット YUV各8ビット

ディジタル動画 (2) CCIR 601 フォーマット 4:4:4 4:2:2 4:2:0 通常のビデオ圧縮: 4:2:0 フォーマット Y Y Y U U U V V V YUV解像度同じ UV垂直解像度半分 UV水平・垂直解像度半分 通常のビデオ圧縮: 4:2:0 フォーマット 高画質ビデオ圧縮: 4:2:2 フォーマット

ディジタル動画 (3) 莫大な情報量 用途 解像度 データ量 TV会議 352x240 21Mbit/s TV 720x480 HDTV 1920x1080 498Mbit/s データ圧縮の必要性

ビデオ圧縮の仕組み MC+DCT ハイブリッド予測符号化 (20年間変わらない方式) - + 符号量 制御 YUV入力 圧縮ストリーム 量子化 エントロピー 符号化 - 逆量子化 逆DCT 時間方向の相関除去: MC (動き補償: motion compensation) 空間方向の相関除去: DCT (離散コサイン変換: discrete cosine transform) + 動き補償 メモリ 局所デコーダ 動き検出 Q: 局所デコーダが必要な理由を説明せよ

フレーム内符号化 DCT フレーム 画像信号の性質: 隣接画素間の相関が非常に高い (相関係数: 0.9 ~) ブロック 直交変換 空間方向の相関除去 フレーム内符号化 DCT フレーム 画像信号の性質: 隣接画素間の相関が非常に高い (相関係数: 0.9 ~) ブロック 直交変換 DCT (離散コサイン変換) 特定の変換係数にエネルギーが集中 隣接ブロック間でさらに予測 (特に直流成分)

直交変換 (1) DCTが使われる理由 KLT, DCT, DFT の符号化利得の比較 空間方向の相関除去 圧縮効率 理論的最適値 3 4 5 6 7 8 9 10 11 2 12 14 16 GAIN (dB) OPTIMUM ( r=0.95 ) KLT, DCT DFT KLT: 理論的に最適な直交変換。 DCT: 相関の高い入力に対する KLTへの漸近性、及び高速アルゴ リズムが存在。通常は 8x8 サイズ のDCTを使用。 SIZE 直交変換の ブロックサイズ

直交変換 (2) Wavelet 変換 (対抗) LL LH H 2分割フィルタバンクのツリー接続 p 長所: ブロックひずみが少ない 空間方向の相関除去 直交変換 (2) Wavelet 変換 (対抗) h0(n) LLL 2 h0(n) 2 h1(n) h0(n) LLH 2 2 x(n) h1(n) LH 2 h1(n) 2 H 2分割フィルタバンクのツリー接続 p 角周波数 LLL LLH LH H LL LH 長所: ブロックひずみが少ない 短所: ブロック動き補償と相性が悪い H ピラミッド表現

直交変換 (3) DCT と Wavelet の比較 DCT: 動画 (ビデオ) 圧縮 Wavelet: 静止画圧縮 (JPEG-2000) 空間方向の相関除去 直交変換 (3) DCT と Wavelet の比較 理論的最適値 圧縮効率 DCT, Wavelet の符号化利得 11 OPTIMUM ( r=0.95 ) 10 DCT(16) DCT(8) 9 8 DCT(4) GAIN (dB) 7 6 5 Wavelet: 4 ● 直交CQF (16tap) ▲ SSKF (5/3) 3 1 2 3 4 STAGES Wavelet の多段接続数 DCT: 動画 (ビデオ) 圧縮 Wavelet: 静止画圧縮 (JPEG-2000)

フレーム間符号化 (1) IP 予測 I P P P P P P ビデオ信号の性質: フレーム間の予測誤差がほとんどゼロ 時間方向の相関除去 フレーム間符号化 (1) IP 予測 I P P P P P P ビデオ信号の性質: 隣接フレーム間の相関が非常に高い (相関係数: 0.9 ~) フレーム間の予測誤差がほとんどゼロ I: I ピクチャ (フレーム内符号化) P: P ピクチャ (フレーム間符号化) さらに動き検出・動き補償予測

フレーム間符号化 (2) IPB 予測 I B B P B B P 片方向で予測を行うより、両方向で 時間方向の相関除去 フレーム間符号化 (2) IPB 予測 I B B P B B P 片方向で予測を行うより、両方向で 予測を行うほうが予測効率が高い (ただし、フレーム間の距離に依存) I: I ピクチャ (フレーム内符号化) P: P ピクチャ (片方向予測) B: B ピクチャ (両方向予測) → 予測効率の改善

フレーム間符号化 (3) フィールド予測 I B B P B B P 奇数フィールド 偶数フィールド 時間方向の相関除去 フレーム間符号化 (3) フィールド予測 I B B P B B P 奇数フィールド 偶数フィールド ディジタルTV放送に対応 (MPEG-2) 動き補償: フィールド予測、フレーム予測、デュアルプライム予測 DCT: フレームDCT、フィールドDCT

動き検出と動き補償 (1) 動き検出 (ブロックマッチング): 時間方向の相関除去 動き検出と動き補償 (1) 動き検出 (ブロックマッチング):  過去の画像 (参照フレーム) から、現在の画像 (カレントフレーム) に最も類似  しているブロックを探索し、動きベクトルを求める。 動き補償:  動き検出で求めた動きベクトルから、カレントフレームの予測画像 (予測フレーム)  を作成する。 ③ 予測誤差 ① 動き検出 - 参照フレーム カレントフレーム 予測フレーム 類似 動き ベクトル ブロック ブロック ② 動き補償

動き検出と動き補償 (2) 半画素精度動き補償: 線形内挿を行い、0.5 画素精度の動きベクトルを算出し、予測画像 を作成。 線形内挿画素 時間方向の相関除去 動き検出と動き補償 (2) 半画素精度動き補償:  線形内挿を行い、0.5 画素精度の動きベクトルを算出し、予測画像  を作成。 線形内挿画素 内挿フィルタ: 画素 0.5 0.5 各々0.25 (注) 1/4精度、1/8精度の効果はほぼ飽和

動き検出と動き補償 (3) オーバーラップ動き補償: 隣接ブロックの動きベクトルも利用し、ブロックの平滑化加算によって 予測画像を作成。 時間方向の相関除去 動き検出と動き補償 (3) オーバーラップ動き補償:  隣接ブロックの動きベクトルも利用し、ブロックの平滑化加算によって  予測画像を作成。 通常のブロックマッチング 参照フレーム 予測フレーム オーバーラップ動き補償 参照フレーム 予測フレーム 平滑化: 台形ウィンドウ、 コサインウィンドウなど。 平滑化

動き検出と動き補償 (4) 特性比較 時間方向の相関除去 予測誤差の 低減効果 動き予測しにくい 画像の場合 動き予測しやすい 画像の場合 整数画素精度・ブロック動き補償に対する 半画素精度・オーバーラップ動き補償の予測利得 0.5 1 1.5 2 2.5 3 3.5 4 0.7 0.75 0.8 0.85 0.9 0.95 Estimation Reliability Gain (dB) オーバーラップ+半画素 半画素のみ オーバーラップのみ 予測誤差の 低減効果 整数精度 ブロックマッチング 動き予測しにくい 画像の場合 動き予測しやすい 画像の場合

国際標準方式

国際標準方式 (1) 団体 名称 時期 符号化レート 当初の用途 ITU-T H.261 1990年 64kb/s~2Mb/s ISDN用テレビ電話 H.263 1996年 数十kb/s~ アナログ回線用テレビ電話 H.263+ 1998年 数十kb/s~ インターネット、移動体 H.26L* インターネット、移動体 2003年? 数十kb/s~ ISO MPEG-1 1992年 ~1.5Mb/s CD-ROM MPEG-2* 1995年 数Mb/s~数十Mb/s ディジタル放送 MPEG-4 1999年 数十kb/s~ インターネット、移動体 * MPEG-2/H.262、H.26L はISOとITU-Tのジョイント規格

国際標準方式 (2) ITU-T Joint (ITU-T & ISO) ISO 82 84 86 88 90 92 94 96 98 00 02 MC (動き補償) DCT MC+DCT の 基本構成 Bピクチャ 半画素精度 フィールド予測 スケーラビリティ 誤り耐性 形状符号化 H.120 Sub-rate H.261 H.263 / H.263+ ITU-T 1.5M 384K 64K - 1.5M モデム, Internet, 移動体 ISDN MPEG-2 / H.262 H.26L Joint (ITU-T & ISO) 放送、DVD、HDTV Internet, 移動体 ISO MPEG-1 MPEG-4 CD-ROM Internet, 移動体

国際標準方式 (3) 代表的な機能の比較 名称 MC+DCT 1/2画素 IPB予測 フィールド 再同期 H.261 ○ - - - - - 形状符号化 再同期 スケーラビリティ H.261 ○ - - - - - - H.263 ○ ○ △ - - - - MPEG-1 ○ ○ ○ - - ○ - MPEG-2 ○ ○ ○ ○ - ○ ○ H.263+ ○ ○ △ - △ ○ ○ MPEG-4 ○ ○ ○ ○ ○ ○ ○ H.26L ○ △ - インターネット放送で有効 + 符号量制御 (後述)

ISO/IEC MPEG-4

MPEG-4 の特徴 機能拡張 (誤り耐性とオブジェクトベース符号化) 誤り耐性ツール (アダプテーション) : シンプルプロファイル 誤り耐性ツール (アダプテーション) : シンプルプロファイル 形状符号化ツール (シーン合成) : コア・メインプロファイル スプライト符号化 : メインプロファイル 静止画像符号化 (Wavelet 変換) : ハイブリッドプロファイル 顔画像・胴体アニメーション : ハイブリッドプロファイル メッシュ符号化 : ハイブリッドプロファイル

形状符号化 (1) オブジェクト合成 シーン合成 Hello “Hello” 前景 (形状符号化) 背景 テキスト MPEG-4 形状符号化 (1) オブジェクト合成 前景 (形状符号化) シーン合成 Hello 背景 テキスト “Hello” (注) 形状取得方法 (領域分割方法) は標準化の対象外

形状符号化 (2) 境界マクロブロック 通常のフレーム (CIF, QCIF, …) オフセット (x, y) VOP領域 (w, h) スキップマクロブロック 境界マクロブロック 通常のマクロブロック

形状符号化 (3) 境界マクロブロックにおけるパディング処理 境界MBの動き検出・動き補償 (1) 形状範囲外をパディング 水平パディング 垂直パディング 境界MBの動き検出・動き補償 (1) 形状範囲外をパディング (2) ポリゴンマッチング (3) 予測画像作成 境界マクロブロック 境界MBのテクスチャ符号化 (1) I-ピクチャ: ブロック内平均値でパディングしたブロックに DCT (2) P-ピクチャ: 形状範囲外を0でパディングしたブロックに DCT

形状符号化 (4) 形状の符号化 (1) バイナリ符号化 (2) グレイスケール符号化 2値画像 (0,1) として符号化 (0, 255) の画素とみなして符号化 (DCT) (参考) (R, G, B, A)、(Y, U, V, A) フォーマット A: アルファマップ (コンピュータグラフィックス用語) A = 0: 透過、形状無し (transparent) A = 255: 形状あり (opaque) A = 1 ~ 254: アルファブレンディング (前景と背景の混合)

ITU-T H.26L (進行中)

H.26Lの特徴 圧縮効率の改善 (目標: MPEG-4 の 50%) 多モード・イントラ予測 多モード・動き補償予測   可変ブロックサイズ、1/4・1/8 画素精度、複数参照ピクチャ、ループフィルタ 整数変換 (⇔ 浮動小数点 DCT) 符号化レイヤとネットワークレイヤの分離   VCL: Video Coding Layer   NAL: Network Adaptation Layer → RTP Packetization ファイルフォーマット

多モード・イントラ予測 I A B C D E a b c d F e f g h G i j k l H m n o p I A B C mode 0: DC prediction mode 1: Vertical/Diagonal prediction mode 2: Vertical prediction mode 3: Diagonal prediction mode 4: Horizontal prediction mode 5: Horizontal/Diagonal prediction I A B C D 符号化済み画素 E a b c d F e f g h 未符号化画素 G i j k l H m n o p 予測の方向 例: mode 0: I A B C D E a b c d F e f g h G i j k l H m n o p 1 2 3 4 5 予測値 = (A+B+C+D+E+F+G+H) / 8 mode 1: a = (A+B) / 2 e = B b = i = (B+C) / 2 f = m = C c = j = (C+D) / 2 d = g = h = k = l = n = o = p = D

多モード・動き補償予測 mode 1 16x16 block 1 vector mode 2 8x16 block 2 vectors 1 1 1 2 3 mode 5 4x8 block 8 vectors mode 6 8x4 block 8 vectors mode 7 4x4 block 16 vectors 4 5 1 6 2 7 3 2 4 6 1 3 5 7 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

複数参照ピクチャ 参照ピクチャの適応切り替え P P P P P P 符号化済みピクチャ