画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎

画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎
情報ネットワーク専攻甲藤二郎

音声・オーディオ圧縮の原理

ディジタルオーディオキャプチャ＆圧縮典型的なサンプリングレートマイクサウンドキャプチャ音声： 8 kHz 、8 ビット
オーディオ： 22.5, 44.1, 48 kHz、16 ビット

音声・オーディオ符号化の歴史 kbit/s 512 PCM オーディオ波形符号化 (フィルタバンク) 256 128 64 32 電話
CD/DAT 波形符号化 (フィルタバンク) 256 MPEG1 128 MPEG4 64 G.726 (ADPCM) G.711 (PCM) 32 電話 G.728 (CELP) 16 G (CELP) G.729 (CELP) GSM (CELP) 8 ボコーダ (音源モデル) VSELP AMR (CELP) 4 PSI-CELP 携帯 CELP (音源モデル) 2 40 80 90 00 守谷： “音声符号化”

音声符号化 (1) 音声合成モデルｘ以下のパラメータを推定 (予測) して送信するパルス列 (有声・無声) ピッチ周期ゲイン
LPCパラメータピッチ周期有声音周期パルス声道 (フィルタ) 音源 (パルス源) 声道モデルｘ無声音ランダム雑音 G (ゲイン) LPC分析合成励振ベクトル L.Rabiner et al: “Fundamentals of Speech Recognition”

音声符号化 (2) CELP + - CELP: Code Excitation Linear Prediction 音声入力 LPC分析
局所デコーダ音声出力ピッチ予測 LPC合成 + - 雑音予測ゲイン探索誤差最小化守谷： “音声符号化”

音声符号化 (3) LPC 分析 (線形予測分析) ：声道モデル s(n): 音声サンプル ak: LPC係数 p: LPC分析次数
LPC: Linear Prediction Coding s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 G: 励振ゲイン u(n): 正規化励振項過去の k 個のサンプル値から線形予測 (注) 通常、画像のモデルでは雑音と扱う予測誤差二乗平均の最小化 r(k): 自己相関係数 ak: 推定LPC係数 ^ 自己相関法 (Durbinのアルゴリズム)

音声符号化 (4) ベクトル量子化：音源パルス列 d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン
励振ベクトルとゲインの探索： d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン c: 励振ベクトル (パルス列) となる励振ベクトルとゲインを探索さまざまな探索手法 ... 入力ベクトル量子化インデクスコードブック出力励振ベクトル → ベクトル量子化探索ゲイン → スカラー量子化コードブック事前学習 (声道パラメータ → ベクトル量子化)

音声符号化 (5) ベクトル量子化：コードブックの学習 (1) K-平均アルゴリズム (一般化 Lloyd アルゴリズム)
クラスタ (符号ベクトル) 初期化 (M: 符号ベクトル数) 新しい学習ベクトルの入力 (L: 学習ベクトル数) 最近隣 (NN) 探索 (ユークリッド距離の場合) クラスタ重心更新欠点：最終結果が初期ベクトルに依存

音声符号化 (6) ベクトル量子化：コードブックの学習 (2) LBG アルゴリズム k-平均アルゴリズム全学習ベクトルの
重心算出 (初期化) LBG アルゴリズムクラスタ分割新しい学習ベクトルの入力最近隣 (NN) 探索クラスタ重心更新 k-平均アルゴリズム

オーディオ符号化 (1) オーディオ符号化の基本周波数音声入力量子化分割心理聴覚分析
エントロピー符号化周波数分割、周波数分析： FFT、サブバンド分割 (QMF)、MDCT 心理聴覚分析：絶対閾値とマスキング量子化、エントロピー符号化：スカラー量子化とハフマン符号

オーディオ符号化 (2) 心理聴覚分析絶対閾値：人間は絶対可聴閾値よりも大きな音しか知覚できない
振幅聞こえる周波数聞こえないマスキング (相対閾値)：大きな音の周波数の近傍の小さな音の周波数は知覚できない振幅聞こえる聞こえない周波数

オーディオ符号化 (3) MP3 (MPEG-1 Layer III) cf. Layer I, II ハイブリッド分割 QMF
適応ブロック長 MDCT 非線形量子化ハフマン符号化 FFT 心理聴覚分析量子化制御 cf. Layer I, II QMF FFT 心理聴覚分析線形量子化符号化

オーディオ符号化 (4) MPEG-2 AAC 適応ブロック長 MDCT 時間領域ノイズ整形予測非線形量子化ハフマン符号化心理聴覚分析量子化制御時間領域ノイズ整形 (for transient signals)：一部のMDCT係数を時系列とみなして線形予測 (LPC) 分析。振幅の大きい部分に量子化雑音が集中する (ノイズ整形)。予測 (for stationary signals)： MDCT係数毎に、過去2フレームのMDCT係数から予測。入力が定常的な場合に有効。

オーディオ符号化 (5) Twin VQ LPC分析、ピッチ・スペクトル包絡・電力分析： MDCT係数の平坦化。ベクトル量子化
適応ブロック長 MDCT ピッチスペクトル包絡電力分析係数正規化インタリーブベクトル量子化 LPC分析心理聴覚モデル LPC分析、ピッチ・スペクトル包絡・電力分析： MDCT係数の平坦化。ベクトル量子化のコードブック削減。インターリーブベクトル量子化：適応量子化に替わるひずみの最小化手法。傾向の似た変換係数のグルーピング。

音声とオーディオ、ビデオの対比音声符号化オーディオ符号化、ビデオ符号化 PCM → 波形符号化 → 分析合成符号化 (音声合成モデル)
オーディオ合成モデル：楽器 (+ ボーカル) ビデオ合成モデル：コンピュータグラフィックス？分析合成手法の試み (ブレークスルーにはなっていない)：オーディオ符号化：音源分離ビデオ符号化：知的符号化 (顔画像アニメーション)

コンテンツの進化ストリーミング将来？ (リアルタイム) 3D ビデオ CG AV ストリーミングレイアウト記述ゲーム CG ウェブ
ダウンロード受動的能動的 (インタラクティブ)

SMIL ・ストリーミングのためのレイアウト記述言語
＊ Synchronized Multimedia Integration Language ・ストリーミングのためのレイアウト記述言語 <smil> <head> <layout> レイアウト記述 </layout> </head> <body> <par> メディア記述 </par> </body> </smil> * XML ベース ... HTML に慣れていれば習得は簡単

レイアウト記述表示画面レイアウト記述 root a b
SMIL レイアウト記述 root a <root-layout width=“500” height=“400”/> <region id=“a” top=“50” left=“50” width=“100” height=“80” /> <region id=“b” top=“200” left=“50” width=“400” height=“200” /> b 表示画面レイアウト記述

メディア記述 <par> メディア1, メディア2, … </par> 複数メディアの「並列」再生
SMIL メディア記述ストリーミング <par> <video region=“b” src=“rtsp:// /> <seq> <img region=“a” src=“ dur=“10s” /> <img region=“a” src=“ dur=“10s” /> <img region=“a” src=“ dur=“10s” /> </seq> </par> <par> メディア1, メディア2, … </par> 複数メディアの「並列」再生 <seq> メディア1, メディア2, … </seq> 複数メディアの「逐次」再生 <video>, <audio>, <img>, ... 各種メディアタグ

グラフィクス

VRML ・三次元CGの記述フォーマット＊ Virtual Reality Modeling Language VRML記述
Transform { translation Shape { geometry Box 2 2 2 } translation geometry Cylinder ... シーングラフ “Hello” シーン合成

VRML 2.0 のノード一覧グループ: Billboard Group Inline LOD Switch Transform
形状特性: Coordinate Color Normal TextureCoordinate センサ: Anchor Collision CylinderSensor PlaneSensor ProximitySensor SphereSensor TimeSensor TouchSensor VisibilitySensor その他： AudioClip Background Fog FontStyle NavigationInfo Script Sound WorldInfo アピアランス: Appearance Material ImageTexture PixelTexture MovieTexture TextureTransform 形状: Shape Box Cone Cylinder ElevationGrid Extrusion IndexedFaceSet IndexedLineSet PointSet Sphere Text インタポレーター: ColorInterpolator CoordinateInterpolator NormalInterpolator OrientationInterpolator PositionInterpolator ScalarInterpolator 光源、視点: DirectionalLight PointLight SpotLight Viewpoint

MPEG-4 Systems/SNHC 目的：従来の AV 系システムへの CG、コンピュータミュージックの取り込み MPEG4/SNHC
自然音響符号化多重化多重化分離自然音響復号合成自然画像符号化自然画像復号グラフィクス符号化グラフィクス復号出力合成音響符号化合成音響復号テキスト符号化テキスト復号シーン符号化シーン復号インタラクション目的：従来の AV 系システムへの CG、コンピュータミュージックの取り込み

(1) シーン記述 (MPEG4 BIFS) VRMLのストリーミング拡張 Hello ＋
MPEG4/SNHC (1) シーン記述 (MPEG4 BIFS) ＊ Binary Format for Scene ネットワーク蓄積媒体シーン記述シーン合成 VRMLのストリーミング拡張シーングラフ (VRML) シーングラフのストリーミング合成シーン Hello ＋ CG 従来のAVストリーミングビデオオーディオ顔画像アニメーション

(2) 顔画像アニメーション顔画像パラメータ：顔画像パラメータ顔画像合成
MPEG4/SNHC (2) 顔画像アニメーション顔画像パラメータ顔画像合成ネットワーク蓄積媒体顔画像パラメータ： FAP (Facial Animation Parameter) 顔の基本的な動きの表現。 FAP 初期値で基本的な顔を転送。以下は差分を転送 (ストリーミング)。 FAP を与えない場合には「ニュートラルフェイス」を使用。 FDP (Facial Definition Parameter) FAP で与えられる一般的な顔画像のカスタマイズ。セッション開始時に転送 (オプション)。

(3) 人体アニメーション人体パラメータ：人体パラメータ人体合成 BAP (Body Animation Parameter)
MPEG4/SNHC (3) 人体アニメーション人体パラメータネットワーク蓄積媒体人体合成人体パラメータ： BAP (Body Animation Parameter) 人体の基本的な動きの表現。 BAP 初期値で基本的な人体を転送、以下は差分を転送 (ストリーミング)。 BAP を与えない場合には「デフォルト人体」を使用。 BDP (Body Definition Parameter) BAP で与えられる一般的な人体のカスタマイズ。セッション開始時に転送 (オプション)。

(4) 三次元メッシュ符号化三次元メッシュ：三次元メッシュ符号化：ポリゴンの頂点座標 + 頂点間の接続情報 + 各種特性情報
MPEG4/SNHC (4) 三次元メッシュ符号化三次元メッシュ：ポリゴンの頂点座標 + 頂点間の接続情報 + 各種特性情報三次元メッシュ符号化：上記の三次元メッシュ記述の圧縮 G.Taubin: “Geometric Compression Through Topological Surgery,” ACM Trans on Graphics.

メッシュ符号化のブロック図三段階の符号化： 1. ポリゴン頂点の接続情報 (connectivity) の符号化
MPEG4/SNHC メッシュ符号化のブロック図 3次元メッシュ接続情報符号化多重化多重化分離接続情報復号 3次元メッシュ再構成頂点頂点頂点座標符号化頂点座標復号三段階の符号化： 1. ポリゴン頂点の接続情報 (connectivity) の符号化 2. ポリゴン頂点の三次元座標 (geometry) の符号化 3. 色、法線、テクスチャ座標などの特性 (property) の符号化

接続情報の符号化 [1] シンプルメッシュ頂点木頂点の接続関係三次元メッシュ (A) 一頂点の選択と頂点木の作成 (C)
MPEG4/SNHC 接続情報の符号化 [1] シンプルメッシュ頂点木頂点の接続関係三次元メッシュ (A) 3 5 2 4 11 一頂点の選択と頂点木の作成 (C) 9 7 12 10 二次元平面に展開 (E) (一番外側が選択頂点) デュアルグラフ (双対木) の作成 (F) 双対木の符号化 (次ページ) (カットスルー) ポリゴンループデュアルグラフ G.Taubin: “Geometric Compression Through Topological Surgery,” ACM Trans on Graphics.

接続情報の符号化 [2] ポリゴン接続関係の符号化ルート (開始線) 符号化結果左エッジ (1) 両方 (3) 符号化ルール
MPEG4/SNHC 接続情報の符号化 [2] ポリゴン接続関係の符号化ルート (開始線) 符号化結果左エッジ (1) 両方 (3) 符号化ルール右エッジ (2) 現在のエッジ G.Taubin: “Geometric Compression Through Topological Surgery,” ACM Trans on Graphics.

頂点座標の符号化 (1) ポリゴンによる予測符号化対象の頂点を、ポリゴンを構成する頂点の一つと仮定して、座標を外挿予測。
MPEG4/SNHC 頂点座標の符号化 (1) ポリゴンによる予測符号化対象の頂点を、ポリゴンを構成する頂点の一つと仮定して、座標を外挿予測。予測誤差を符号化。 (2) 平均による予測符号化対象の頂点を、それを囲むポリゴンの重心と仮定して、座標を内挿予測。予測誤差を符号化。仮想的なポリゴンビデオ符号化に類似

(5) 合成オーディオオーディオ合成パラメータ：オーディオ合成パラメータオーディオ
MPEG4/SNHC (5) 合成オーディオオーディオパラメータ合成オーディオネットワーク蓄積媒体オーディオ合成パラメータ： SAOL (Structured Audio Orchestra Language): 楽器の特徴、信号処理方法を記述する言語 ... 音源物理モデルに相当。 SASL (Structured Audio Score Language): 楽譜情報を記述するフォーマット ... MIDI に相当。 SABSF (SA Bank Sample Format): 音源波形をそのまま使うフォーマット ... PCM 音源に相当。

画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎

Similar presentations

Presentation on theme: "画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス 情報ネットワーク専攻 甲藤二郎

Similar presentations

Presentation on theme: "画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス 情報ネットワーク専攻 甲藤二郎"— Presentation transcript:

Similar presentations

About project

フィードバック

画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎

Presentation on theme: "画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎"— Presentation transcript: