画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎

Slides:



Advertisements
Similar presentations
知能情報工学 年4月26日 吉川雅博 第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別辞書 (プロトタイプ) 音声や画像 (アナログ信号) 識別 結果 識別が容易な 特徴を抽出 プロトタイプと比較.
Advertisements

量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化・符号化).
Signal Masterによる フィルタバンクの実装
第9回放送授業.
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
画像情報特論 (4) - ディジタル圧縮 (1) ビデオ圧縮 電子情報通信学科 甲藤二郎
画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮 電子情報通信学科 甲藤二郎
高精度画像マッチングを用いた SAR衛星画像からの地表変位推定
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス 情報ネットワーク専攻 甲藤二郎
音響信号処理特論 音声信号処理の基礎(その2)
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
符号化のための重み付きジョイントバイラテラルフィルタを用いた 奥行き画像超解像
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
第三章 ディジタル符号変換の基礎 3・1PCMパルス符号変換 3・2符号変換 3・3通信路符号形式 3・4スクランブル.
クロストーク成分の相互相関に 着目した音場再生システム
デジタル信号処理①
徳島大学工学部知能情報工学科 A1 グループ 学部4年 森陽司
PSOLA法を用いた極低ビットレート音声符号化に関する検討
ウェーブレット変換と 非線形適応信号処理を用いた 電子透かしの研究
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
ランダムプロジェクションを用いた 音声特徴量変換
ワイヤレス通信におけるMIMO伝送技術.
コンピュータビジョン Computer Vision(CV) パワーポイント 抜粋
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
音声処理ソフトPraatの使い方.
実時間動画像マルチキャストのための フィルタリング手法の実装と評価
デジタル信号処理④
羽佐田葉子 2007年3月24日 アクロス研究会@静岡大学
亀岡弘和 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所
周波数領域での非線形適応システムを用いた電子透かしの耐性評価
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
第3回: 今日の目標 平均情報量を説明し、計算できる シャノンの通信モデルを説明できる 情報源符号化の条件を示せる
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
音信号表現 音声波形のデジタル化(PCM) サンプリング、標本化定理、量子化 ソースフィルタモデル
授業展開#3 アナログとデジタル.
2008年度 情報数理 ~ 様々なデジタル情報 ~.
サウンドファイルの紹介 wave, aiff, MP3 参考: 御池鮎樹著,2004. 裏口からのDTM. 工学社.
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
論文輪講 2012年1月11日 D3 岩淵 勇樹.
音・音楽の設計と表現Ⅱ キーワード : サンプリング(標本化)、周波数、量子化 音は空気を伝わる波 → 音をデジタル(0と1の数値)にする。
-画像処理(空間フィルタリング)- 画像処理(空間フィルタリング)のモデルとその基本操作 雑音除去・平滑化への適用
Data Clustering: A Review
2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るか ー調音音声学 2.3 声の正体とは ー音響音声学 2.4 どうやって声を聴き取るか ー聴覚音声学.
2012年度 情報数理 ~ 様々なデジタル情報(1) ~.
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 電子情報通信学科 甲藤二郎
音声合成.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
楽器音を対象とした音源同定: 音高による音色変化を考慮する識別手法の検討
2010年度 情報数理 ~ 様々なデジタル情報(1) ~.
適応信号処理とその応用 大阪府立大学大学院工学研究科 電気・情報系専攻 大松 繁.
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
第2回 標本化と量子化.
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ ハミング距離 ~.
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
ソースフィルタモデル.
画像情報特論 (1) - インターネット電話とインターネット放送 はじめに 電子情報通信学科 甲藤二郎
2019年度 情報数理特論B ~ 様々なデジタル情報(1) ~.
雑音環境下における Sparse Coding声質変換 3-P-49d
今後の音声圧縮技術について 鈴木 誠人 .
第5章 伝送理論と伝送技術 5.1 電気通信設備の概要 5.2 アナログ伝送方式 5.3 ディジタル伝送方式 5.4 データ伝送方式
コンピュータと音 B3 入野仁志(irino).
Presentation transcript:

画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 2001.05.15 電子情報通信学科 甲藤二郎 電子情報通信学科 甲藤二郎 E-Mail: katto@katto.comm.waseda.ac.jp

音声・オーディオ圧縮の 原理

ディジタルオーディオ キャプチャ&圧縮 典型的なサンプリングレート マイク サウンドキャプチャ 音声: 8 kHz 、8 ビット オーディオ: 22.5, 44.1, 48 kHz、16 ビット

音声波形の例 5秒間の波形 ピッチ 0.1 秒間の波形 ピッチ (2~18ms): 右の例では約7ms

オーディオ波形の例 8秒間の波形 0.1 秒間の波形 ピッチ

音声・オーディオ符号化の歴史 kbit/s 512 PCM オーディオ 波形符号化 (フィルタバンク) 256 128 64 32 電話 CD/DAT 波形符号化 (フィルタバンク) 256 MPEG1 128 MPEG4 64 G.726 (ADPCM) G.711 (PCM) 32 電話 G.728 (CELP) 16 G.723.1 (CELP) G.729 (CELP) GSM (CELP) 8 ボコーダ (音源モデル) VSELP AMR (CELP) 4 PSI-CELP 携帯 CELP (音源モデル) 2 40 80 90 00 守谷: “音声符号化”

音声符号化 (1) 音声合成モデル x 以下のパラメータを推定 (予測) して送信する パルス列 (有声・無声) ピッチ周期 ゲイン LPCパラメータ ピッチ周期 有声音 周期パルス 声道 (フィルタ) 音源 (パルス源) 声道モデル x 無声音 ランダム雑音 G (ゲイン) LPC分析合成 L.Rabiner et al: “Fundamentals of Speech Recognition”

音声符号化 (2) CELP (LD-CELP 方式) - 送信側: 受信側: CELP: Code Excitation Linear Prediction CELP (LD-CELP 方式) CELP の閉ループは最適ベクトル探索を意味し、 ビデオのフレーム間予測の閉ループとは異なる 送信側: ひずみ評価 聴覚補正 ベクトル 量子化 音声入力 - 励振ベクトル (パルス列) &ゲイン 音源 コードブック 声道 LPC合成 ピッチ予測 局所デコーダ LPCパラメータとピッチは送らずに復号信号から推定 (もともとのCELP方式では送信する) 受信側: コードブック ピッチ予測 LPC合成 励振ベクトル 音声出力 守谷: “音声符号化”

音声符号化 (3) LPC 分析 (線形予測分析) : 声道モデル s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 LPC: Linear Prediction Coding s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 G: 励振ゲイン u(n): 正規化励振項 過去の k 個のサンプル値から線形予測 (注) 通常、画像のモデルでは雑音と扱う 予測誤差二乗平均の最小化 r(k): 自己相関係数 ak: 推定LPC係数 ^ 自己相関法 (Durbinのアルゴリズム)

音声符号化 (4) ベクトル量子化 : 音源パルス列 d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン 励振ベクトルとゲインの探索: d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン c: 励振ベクトル (パルス列) となる励振ベクトルとゲインを探索 さまざまな探索手法 ... 入力 ベクトル 量子化 インデクス コード ブック 出力 励振ベクトル → ベクトル量子化 探索 ゲイン → スカラー量子化 コード ブック 事前学習 (声道パラメータ → ベクトル量子化)

音声符号化 (5) ベクトル量子化 :コードブックの学習 (1) K-平均アルゴリズム (一般化 Lloyd アルゴリズム) クラスタ (符号ベクトル) 初期化 (M: 符号ベクトル数) 新しい 学習ベクトルの入力 (L: 学習ベクトル数) 最近隣 (NN) 探索 (ユークリッド距離の場合) クラスタ重心更新 欠点: 最終結果が初期ベクトルに依存

音声符号化 (6) ベクトル量子化 :コードブックの学習 (2) LBG アルゴリズム k-平均アルゴリズム 全学習ベクトルの 重心算出 (初期化) LBG アルゴリズム クラスタ分割 新しい 学習ベクトルの入力 最近隣 (NN) 探索 クラスタ重心更新 k-平均アルゴリズム

オーディオ符号化 (1) オーディオ符号化の基本 周波数 音声入力 量子化 分割 心理聴覚 分析 エントロピー 符号化 周波数分割、周波数分析: FFT、サブバンド分割 (QMF)、MDCT 心理聴覚分析: 絶対閾値とマスキング 量子化、エントロピー符号化: スカラー量子化とハフマン符号

オーディオ符号化 (2) 心理聴覚分析 絶対閾値: 人間は絶対可聴閾値よりも大きな音しか知覚できない 振幅 聞こえる 周波数 聞こえない マスキング (相対閾値): 大きな音の周波数の近傍の小さな音の周波数は知覚できない 振幅 聞こえる 聞こえない 周波数

オーディオ符号化 (3) MP3 (MPEG-1 Layer III) cf. Layer I, II ハイブリッド分割 QMF 適応ブロック長 MDCT 非線形量子化 ハフマン符号化 FFT 心理聴覚分析 量子化制御 cf. Layer I, II QMF FFT 心理聴覚分析 線形量子化 符号化

オーディオ符号化 (4) MPEG-2 AAC 適応ブロック長 MDCT 時間領域 ノイズ整形 予測 非線形 量子化 ハフマン 符号化 心理聴覚分析 量子化制御 時間領域ノイズ整形 (for transient signals): 一部のMDCT係数を時系列とみなして 線形予測 (LPC) 分析。振幅の大きい部分に量子化雑音が集中する (ノイズ整形)。 予測 (for stationary signals): MDCT係数毎に、過去2フレームのMDCT係数から予測。 入力が定常的な場合に有効。

オーディオ符号化 (5) Twin VQ LPC分析、ピッチ・スペクトル包絡・電力分析: MDCT係数の平坦化。ベクトル量子化 適応ブロック長 MDCT ピッチ スペクトル包絡 電力分析 係数正規化 インタリーブ ベクトル 量子化 LPC分析 心理聴覚 モデル LPC分析、ピッチ・スペクトル包絡・電力分析: MDCT係数の平坦化。ベクトル量子化 のコードブック削減。 インターリーブベクトル量子化: 適応量子化に替わるひずみの最小化手法。傾向の 似た変換係数のグルーピング。

音声とオーディオ、ビデオの対比 音声符号化 オーディオ符号化、ビデオ符号化 PCM → 波形符号化 → 分析合成符号化 (音声合成モデル) オーディオ合成モデル: 楽器 (+ ボーカル) ビデオ合成モデル: コンピュータグラフィックス? 分析合成手法の試み (ブレークスルーにはなっていない): オーディオ符号化: 音源分離 ビデオ符号化: 知的符号化 (顔画像アニメーション)