画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス 情報ネットワーク専攻 甲藤二郎

Slides:



Advertisements
Similar presentations
量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
Advertisements

画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮 情報ネットワーク専攻 甲藤二郎
Signal Masterによる フィルタバンクの実装
第9回放送授業.
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
画像情報特論 (4) - ディジタル圧縮 (1) ビデオ圧縮 電子情報通信学科 甲藤二郎
画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮 電子情報通信学科 甲藤二郎
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
「わかりやすいパターン認識」 第1章:パターン認識とは
ウェーブレットによる 信号処理と画像処理 宮崎大輔 2004年11月24日(水) PBVセミナー.
符号化のための重み付きジョイントバイラテラルフィルタを用いた 奥行き画像超解像
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
第三章 ディジタル符号変換の基礎 3・1PCMパルス符号変換 3・2符号変換 3・3通信路符号形式 3・4スクランブル.
クロストーク成分の相互相関に 着目した音場再生システム
WWW上の3次元空間表現 A three-dimesional space expression on WWW
ブロック線図によるシミュレーション ブロック線図の作成と編集 ブロック線図の保存と読込み ブロック線図の印刷 グラフの印刷
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
PSOLA法を用いた極低ビットレート音声符号化に関する検討
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
マルチメディア情報の ディジタル表現と処理
担当 : 山口 匡 伊藤 祐吾 (TA) 宮内 裕輔 (TA)
ワイヤレス通信におけるMIMO伝送技術.
コンピュータビジョン Computer Vision(CV) パワーポイント 抜粋
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
音声処理ソフトPraatの使い方.
表紙 MATLAB 応用講習会(A) 情報アシスタント M1 山本幸司.
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
東京工業大学 機械制御システム専攻 山北 昌毅
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
授業展開#3 アナログとデジタル.
画像情報特論 (6) - ディジタル圧縮 (3) その他のコンテント 電子情報通信学科 甲藤二郎
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
第11回   ディジタル画像(2) ディジタル画像処理(2)
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
音高による音色変化に着目した音源同定に関する研究
多重ベータ分布を用いた音色形状の数理モデリングによる
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
東京農業大学 東京情報大学 附属第一高等学校・中等部 附属第二高等学校 附属第三高等学校・中等部
-画像処理(空間フィルタリング)- 画像処理(空間フィルタリング)のモデルとその基本操作 雑音除去・平滑化への適用
Data Clustering: A Review
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 電子情報通信学科 甲藤二郎
音声合成.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
適応信号処理とその応用 大阪府立大学大学院工学研究科 電気・情報系専攻 大松 繁.
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
第2回 標本化と量子化.
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 情報ネットワーク専攻 甲藤二郎
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
ソースフィルタモデル.
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 電子情報通信学科 甲藤二郎
市松模様を使用した カメラキャリブレーション
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
今後の音声圧縮技術について 鈴木 誠人 .
コンピュータと音 B3 入野仁志(irino).
Presentation transcript:

画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス 情報ネットワーク専攻 甲藤二郎 情報ネットワーク専攻 甲藤二郎 E-Mail: katto@waseda.jp

音声・オーディオ圧縮の 原理

ディジタルオーディオ キャプチャ&圧縮 典型的なサンプリングレート マイク サウンドキャプチャ 音声: 8 kHz 、8 ビット オーディオ: 22.5, 44.1, 48 kHz、16 ビット

音声・オーディオ符号化の歴史 kbit/s 512 PCM オーディオ 波形符号化 (フィルタバンク) 256 128 64 32 電話 CD/DAT 波形符号化 (フィルタバンク) 256 MPEG1 128 MPEG4 64 G.726 (ADPCM) G.711 (PCM) 32 電話 G.728 (CELP) 16 G.723.1 (CELP) G.729 (CELP) GSM (CELP) 8 ボコーダ (音源モデル) VSELP AMR (CELP) 4 PSI-CELP 携帯 CELP (音源モデル) 2 40 80 90 00 守谷: “音声符号化”

音声符号化 (1) 音声合成モデル x 以下のパラメータを推定 (予測) して送信する パルス列 (有声・無声) ピッチ周期 ゲイン LPCパラメータ ピッチ周期 有声音 周期パルス 声道 (フィルタ) 音源 (パルス源) 声道モデル x 無声音 ランダム雑音 G (ゲイン) LPC分析合成 励振ベクトル L.Rabiner et al: “Fundamentals of Speech Recognition”

音声符号化 (2) CELP + - CELP: Code Excitation Linear Prediction 音声入力 LPC分析 局所デコーダ 音声出力 ピッチ予測 LPC合成 + - 雑音予測 ゲイン探索 誤差最小化 守谷: “音声符号化”

音声符号化 (3) LPC 分析 (線形予測分析) : 声道モデル s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 LPC: Linear Prediction Coding s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 G: 励振ゲイン u(n): 正規化励振項 過去の k 個のサンプル値から線形予測 (注) 通常、画像のモデルでは雑音と扱う 予測誤差二乗平均の最小化 r(k): 自己相関係数 ak: 推定LPC係数 ^ 自己相関法 (Durbinのアルゴリズム)

音声符号化 (4) ベクトル量子化 : 音源パルス列 d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン 励振ベクトルとゲインの探索: d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン c: 励振ベクトル (パルス列) となる励振ベクトルとゲインを探索 さまざまな探索手法 ... 入力 ベクトル 量子化 インデクス コード ブック 出力 励振ベクトル → ベクトル量子化 探索 ゲイン → スカラー量子化 コード ブック 事前学習 (声道パラメータ → ベクトル量子化)

音声符号化 (5) ベクトル量子化 :コードブックの学習 (1) K-平均アルゴリズム (一般化 Lloyd アルゴリズム) クラスタ (符号ベクトル) 初期化 (M: 符号ベクトル数) 新しい 学習ベクトルの入力 (L: 学習ベクトル数) 最近隣 (NN) 探索 (ユークリッド距離の場合) クラスタ重心更新 欠点: 最終結果が初期ベクトルに依存

音声符号化 (6) ベクトル量子化 :コードブックの学習 (2) LBG アルゴリズム k-平均アルゴリズム 全学習ベクトルの 重心算出 (初期化) LBG アルゴリズム クラスタ分割 新しい 学習ベクトルの入力 最近隣 (NN) 探索 クラスタ重心更新 k-平均アルゴリズム

オーディオ符号化 (1) オーディオ符号化の基本 周波数 音声入力 量子化 分割 心理聴覚 分析 エントロピー 符号化 周波数分割、周波数分析: FFT、サブバンド分割 (QMF)、MDCT 心理聴覚分析: 絶対閾値とマスキング 量子化、エントロピー符号化: スカラー量子化とハフマン符号

オーディオ符号化 (2) 心理聴覚分析 絶対閾値: 人間は絶対可聴閾値よりも大きな音しか知覚できない 振幅 聞こえる 周波数 聞こえない マスキング (相対閾値): 大きな音の周波数の近傍の小さな音の周波数は知覚できない 振幅 聞こえる 聞こえない 周波数

オーディオ符号化 (3) MP3 (MPEG-1 Layer III) cf. Layer I, II ハイブリッド分割 QMF 適応ブロック長 MDCT 非線形量子化 ハフマン符号化 FFT 心理聴覚分析 量子化制御 cf. Layer I, II QMF FFT 心理聴覚分析 線形量子化 符号化

オーディオ符号化 (4) MPEG-2 AAC 適応ブロック長 MDCT 時間領域 ノイズ整形 予測 非線形 量子化 ハフマン 符号化 心理聴覚分析 量子化制御 時間領域ノイズ整形 (for transient signals): 一部のMDCT係数を時系列とみなして 線形予測 (LPC) 分析。振幅の大きい部分に量子化雑音が集中する (ノイズ整形)。 予測 (for stationary signals): MDCT係数毎に、過去2フレームのMDCT係数から予測。 入力が定常的な場合に有効。

オーディオ符号化 (5) Twin VQ LPC分析、ピッチ・スペクトル包絡・電力分析: MDCT係数の平坦化。ベクトル量子化 適応ブロック長 MDCT ピッチ スペクトル包絡 電力分析 係数正規化 インタリーブ ベクトル 量子化 LPC分析 心理聴覚 モデル LPC分析、ピッチ・スペクトル包絡・電力分析: MDCT係数の平坦化。ベクトル量子化 のコードブック削減。 インターリーブベクトル量子化: 適応量子化に替わるひずみの最小化手法。傾向の 似た変換係数のグルーピング。

音声とオーディオ、ビデオの対比 音声符号化 オーディオ符号化、ビデオ符号化 PCM → 波形符号化 → 分析合成符号化 (音声合成モデル) オーディオ合成モデル: 楽器 (+ ボーカル) ビデオ合成モデル: コンピュータグラフィックス? 分析合成手法の試み (ブレークスルーにはなっていない): オーディオ符号化: 音源分離 ビデオ符号化: 知的符号化 (顔画像アニメーション)

SMIL

コンテンツの進化 ストリーミング 将来? (リアルタイム) 3D ビデオ CG AV ストリーミング レイアウト 記述 ゲーム CG ウェブ ダウンロード 受動的 能動的 (インタラクティブ)

SMIL ・ ストリーミングのためのレイアウト記述言語 * Synchronized Multimedia Integration Language ・ ストリーミングのためのレイアウト記述言語 <smil> <head> <layout> レイアウト記述 </layout> </head> <body> <par> メディア記述 </par> </body> </smil> * XML ベース ... HTML に慣れていれば習得は簡単

レイアウト記述 表示画面 レイアウト記述 root a b SMIL レイアウト記述 root a <root-layout width=“500” height=“400”/> <region id=“a” top=“50” left=“50” width=“100” height=“80” /> <region id=“b” top=“200” left=“50” width=“400” height=“200” /> b 表示画面 レイアウト記述

メディア記述 <par> メディア1, メディア2, … </par> 複数メディアの「並列」再生 SMIL メディア記述 ストリーミング <par> <video region=“b” src=“rtsp://www.foo.ac.jp/guide.sdp” /> <seq> <img region=“a” src=“http://www.foo.ac.jp/point0.jpg” dur=“10s” /> <img region=“a” src=“http://www.foo.ac.jp/point1.jpg” dur=“10s” /> <img region=“a” src=“http://www.foo.ac.jp/point2.jpg” dur=“10s” /> </seq> </par> <par> メディア1, メディア2, … </par> 複数メディアの「並列」再生 <seq> メディア1, メディア2, … </seq> 複数メディアの「逐次」再生 <video>, <audio>, <img>, ... 各種メディアタグ

グラフィクス

VRML ・ 三次元CGの記述フォーマット * Virtual Reality Modeling Language VRML記述 Transform { translation 15 10 0 Shape { geometry Box 2 2 2 } translation 0 0 -1 geometry Cylinder ... シーングラフ “Hello” シーン合成

VRML 2.0 のノード一覧 グループ: Billboard Group Inline LOD Switch Transform 形状特性: Coordinate Color Normal TextureCoordinate センサ: Anchor Collision CylinderSensor PlaneSensor ProximitySensor SphereSensor TimeSensor TouchSensor VisibilitySensor その他: AudioClip Background Fog FontStyle NavigationInfo Script Sound WorldInfo アピアランス: Appearance Material ImageTexture PixelTexture MovieTexture TextureTransform 形状: Shape Box Cone Cylinder ElevationGrid Extrusion IndexedFaceSet IndexedLineSet PointSet Sphere Text インタポレーター: ColorInterpolator CoordinateInterpolator NormalInterpolator OrientationInterpolator PositionInterpolator ScalarInterpolator 光源、視点: DirectionalLight PointLight SpotLight Viewpoint

MPEG-4 Systems/SNHC 目的: 従来の AV 系システムへの CG、コンピュータミュージックの取り込み MPEG4/SNHC 自然音響符号化 多重化 多重化分離 自然音響復号 合成 自然画像符号化 自然画像復号 グラフィクス符号化 グラフィクス復号 出力 合成音響符号化 合成音響復号 テキスト符号化 テキスト復号 シーン符号化 シーン復号 インタラクション 目的: 従来の AV 系システムへの CG、コンピュータミュージックの取り込み

(1) シーン記述 (MPEG4 BIFS) VRMLのストリーミング拡張 Hello + MPEG4/SNHC (1) シーン記述 (MPEG4 BIFS) * Binary Format for Scene ネットワーク 蓄積媒体 シーン記述 シーン合成 VRMLのストリーミング拡張 シーングラフ (VRML) シーングラフのストリーミング 合成シーン Hello + CG 従来のAVストリーミング ビデオ オーディオ 顔画像アニメーション

(2) 顔画像アニメーション 顔画像パラメータ: 顔画像 パラメータ 顔画像 合成 MPEG4/SNHC (2) 顔画像アニメーション 顔画像 パラメータ 顔画像 合成 ネットワーク 蓄積媒体 顔画像パラメータ: FAP (Facial Animation Parameter) 顔の基本的な動きの表現。 FAP 初期値で基本的な顔を転送。以下は差分を転送 (ストリーミング)。 FAP を与えない場合には「ニュートラルフェイス」を使用。 FDP (Facial Definition Parameter) FAP で与えられる一般的な顔画像のカスタマイズ。 セッション開始時に転送 (オプション)。

(3) 人体アニメーション 人体パラメータ: 人体 パラメータ 人体合成 BAP (Body Animation Parameter) MPEG4/SNHC (3) 人体アニメーション 人体 パラメータ ネットワーク 蓄積媒体 人体合成 人体パラメータ: BAP (Body Animation Parameter) 人体の基本的な動きの表現。 BAP 初期値で基本的な人体を転送、以下は差分を転送 (ストリーミング)。 BAP を与えない場合には「デフォルト人体」を使用。 BDP (Body Definition Parameter) BAP で与えられる一般的な人体のカスタマイズ。 セッション開始時に転送 (オプション)。

(4) 三次元メッシュ符号化 三次元メッシュ: 三次元メッシュ符号化: ポリゴンの頂点座標 + 頂点間の接続情報 + 各種特性情報 MPEG4/SNHC (4) 三次元メッシュ符号化 三次元メッシュ: ポリゴンの頂点座標 + 頂点間の接続情報 + 各種特性情報 三次元メッシュ符号化: 上記の三次元メッシュ記述の圧縮 G.Taubin: “Geometric Compression Through Topological Surgery,” ACM Trans on Graphics.

メッシュ符号化のブロック図 三段階の符号化: 1. ポリゴン頂点の接続情報 (connectivity) の符号化 MPEG4/SNHC メッシュ符号化のブロック図 3次元 メッシュ 接続情報 符号化 多重化 多重化分離 接続情報 復号 3次元 メッシュ 再構成 頂点 頂点 頂点座標 符号化 頂点座標 復号 三段階の符号化: 1. ポリゴン頂点の接続情報 (connectivity) の符号化 2. ポリゴン頂点の三次元座標 (geometry) の符号化 3. 色、法線、テクスチャ座標などの特性 (property) の符号化

接続情報の符号化 [1] シンプルメッシュ 頂点木 頂点の接続関係 三次元メッシュ (A) 一頂点の選択と 頂点木の作成 (C) MPEG4/SNHC 接続情報の符号化 [1] シンプルメッシュ 頂点木 頂点の接続関係 三次元メッシュ (A) 3 5 2 4 11 一頂点の選択と 頂点木の作成 (C) 9 7 12 10 二次元平面に展開 (E) (一番外側が選択頂点) デュアルグラフ (双対木) の作成 (F) 双対木の符号化 (次ページ) (カットスルー) ポリゴンループ デュアルグラフ G.Taubin: “Geometric Compression Through Topological Surgery,” ACM Trans on Graphics.

接続情報の符号化 [2] ポリゴン 接続関係の符号化 ルート (開始線) 符号化結果 左エッジ (1) 両方 (3) 符号化ルール MPEG4/SNHC 接続情報の符号化 [2] ポリゴン 接続関係の符号化 ルート (開始線) 符号化結果 左エッジ (1) 両方 (3) 符号化ルール 右エッジ (2) 現在のエッジ G.Taubin: “Geometric Compression Through Topological Surgery,” ACM Trans on Graphics.

頂点座標の符号化 (1) ポリゴンによる予測 符号化対象の頂点を、ポリゴンを 構成する頂点の一つと仮定して、 座標を外挿予測。 MPEG4/SNHC 頂点座標の符号化 (1) ポリゴンによる予測 符号化対象の頂点を、ポリゴンを 構成する頂点の一つと仮定して、 座標を外挿予測。 予測誤差を符号化。 (2) 平均による予測 符号化対象の頂点を、それを囲む ポリゴンの重心と仮定して、座標を 内挿予測。 予測誤差を符号化。 仮想的なポリゴン ビデオ符号化に類似

(5) 合成オーディオ オーディオ合成パラメータ: オーディオ 合成 パラメータ オーディオ MPEG4/SNHC (5) 合成オーディオ オーディオ パラメータ 合成 オーディオ ネットワーク 蓄積媒体 オーディオ合成パラメータ: SAOL (Structured Audio Orchestra Language): 楽器の特徴、信号処理方法を記述する言語 ... 音源物理モデルに相当。 SASL (Structured Audio Score Language): 楽譜情報を記述するフォーマット ... MIDI に相当。 SABSF (SA Bank Sample Format): 音源波形をそのまま使うフォーマット ... PCM 音源に相当。

関連情報