画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮電子情報通信学科甲藤二郎

Slides:

Advertisements

Similar presentations

知能情報工学年4月26日吉川雅博第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部・標本化・量子化・ノイズ除去・正規化識別辞書（プロトタイプ）音声や画像（アナログ信号）識別結果識別が容易な特徴を抽出プロトタイプと比較.

Advertisements

量子化(Mid-riser型) 出力y 入力x 通信ネットワーク特論(量子化･符号化）.

Signal Masterによるフィルタバンクの実装

第9回放送授業.

第四章　情報源符号化の基礎４・１　情報量とエントロピー４・２　エントロピー符号化４・３　音声符号化４・４　画像符号化.

画像情報特論 (4) - ディジタル圧縮 (1) ビデオ圧縮電子情報通信学科甲藤二郎

画像情報特論 (4) ディジタル圧縮とメディア表現 (1) ビデオ圧縮電子情報通信学科甲藤二郎

高精度画像マッチングを用いた SAR衛星画像からの地表変位推定

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

画像情報特論 (5) ディジタル圧縮とメディア表現 (2) 音声・オーディオ、SMIL、グラフィクス情報ネットワーク専攻甲藤二郎

音響信号処理特論音声信号処理の基礎（その2）

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

符号化のための重み付きジョイントバイラテラルフィルタを用いた奥行き画像超解像

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

第三章　ディジタル符号変換の基礎３・１PCMパルス符号変換３・２符号変換３・３通信路符号形式３・４スクランブル.

クロストーク成分の相互相関に着目した音場再生システム

デジタル信号処理①

徳島大学工学部知能情報工学科 A1 グループ学部４年森陽司

PSOLA法を用いた極低ビットレート音声符号化に関する検討

ウェーブレット変換と非線形適応信号処理を用いた電子透かしの研究

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

ランダムプロジェクションを用いた音声特徴量変換

ワイヤレス通信におけるMIMO伝送技術.

コンピュータビジョン Computer Vision(CV) パワーポイント抜粋

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

音声処理ソフトPraatの使い方.

実時間動画像マルチキャストのためのフィルタリング手法の実装と評価

デジタル信号処理④

羽佐田葉子 2007年3月24日アクロス研究会＠静岡大学

亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

周波数領域での非線形適応システムを用いた電子透かしの耐性評価

ー第1日目ー確率過程について抵抗の熱雑音の測定実験

発表日：平成１５年４月２５日担当者：時田陽一担当箇所：第３章誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則

第3回：今日の目標平均情報量を説明し、計算できるシャノンの通信モデルを説明できる情報源符号化の条件を示せる

大阪大学大学院工学研究科極限光通信工学領域井上研究室欅田直也・橘遼太郎・隅田拓也・高祥史

音信号表現音声波形のデジタル化（ＰＣＭ）サンプリング、標本化定理、量子化ソースフィルタモデル

授業展開＃３アナログとデジタル.

2008年度情報数理～様々なデジタル情報～.

サウンドファイルの紹介 wave, aiff, MP3 参考：　御池鮎樹著，2004. 裏口からのDTM. 工学社.

5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて－スペクトル分析 5.4 もうひと工夫－ケプストラム分析 5.5 雑音の除去.

第14章　モデルの結合修士２年山川佳洋.

雑音環境下における非負値行列因子分解を用いた声質変換

論文輪講 2012年1月11日 D3 岩淵勇樹.

音・音楽の設計と表現Ⅱ キーワード：サンプリング（標本化）、周波数、量子化音は空気を伝わる波 → 音をデジタル（０と１の数値）にする。

－画像処理（空間フィルタリング）－画像処理（空間フィルタリング）のモデルとその基本操作雑音除去・平滑化への適用

Data Clustering: A Review

2. 音声とは 2.1 音声の科学 2.2 どうやって声を作るかー調音音声学 2.3 声の正体とはー音響音声学 2.4 どうやって声を聴き取るかー聴覚音声学.

2012年度情報数理～様々なデジタル情報（１）～.

画像情報特論 (1) - インターネット電話とインターネット放送はじめに電子情報通信学科甲藤二郎

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

楽器音を対象とした音源同定：音高による音色変化を考慮する識別手法の検討

2010年度情報数理～様々なデジタル情報（１）～.

適応信号処理とその応用大阪府立大学大学院工学研究科電気・情報系専攻大松　繁.

多重ベータ混合モデルを用いた調波時間構造のモデル化による音声合成の検討

第２回標本化と量子化.

富山大学公開講座 2008 「QRコードを作ろう！」～ハミング距離～.

HMM音声合成における変分ベイズ法に基づく線形回帰

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

制約付き非負行列因子分解を用いた音声特徴抽出の検討

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年8月1日 3.2 競合学習

ソースフィルタモデル.

画像情報特論 (1) - インターネット電話とインターネット放送はじめに電子情報通信学科甲藤二郎

2019年度情報数理特論B ～様々なデジタル情報（１）～.

雑音環境下における Sparse Coding声質変換 3-P-49d

今後の音声圧縮技術について鈴木　誠人　.

第5章伝送理論と伝送技術５．１電気通信設備の概要５．２アナログ伝送方式５．３ディジタル伝送方式５．４データ伝送方式

コンピュータと音 B3 入野仁志(irino).

Presentation transcript:

画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 2001.05.15 電子情報通信学科甲藤二郎電子情報通信学科甲藤二郎 E-Mail: katto@katto.comm.waseda.ac.jp

音声・オーディオ圧縮の原理

ディジタルオーディオキャプチャ＆圧縮典型的なサンプリングレートマイクサウンドキャプチャ音声： 8 kHz 、8 ビットオーディオ： 22.5, 44.1, 48 kHz、16 ビット

音声波形の例 5秒間の波形ピッチ 0.1 秒間の波形ピッチ (2～18ms)：右の例では約7ms

オーディオ波形の例 8秒間の波形 0.1 秒間の波形ピッチ

音声・オーディオ符号化の歴史 kbit/s 512 PCM オーディオ波形符号化 (フィルタバンク) 256 128 64 32 電話 CD/DAT 波形符号化 (フィルタバンク) 256 MPEG1 128 MPEG4 64 G.726 (ADPCM) G.711 (PCM) 32 電話 G.728 (CELP) 16 G.723.1 (CELP) G.729 (CELP) GSM (CELP) 8 ボコーダ (音源モデル) VSELP AMR (CELP) 4 PSI-CELP 携帯 CELP (音源モデル) 2 40 80 90 00 守谷： “音声符号化”

音声符号化 (1) 音声合成モデルｘ以下のパラメータを推定 (予測) して送信するパルス列 (有声・無声) ピッチ周期ゲイン LPCパラメータピッチ周期有声音周期パルス声道 (フィルタ) 音源 (パルス源) 声道モデルｘ無声音ランダム雑音 G (ゲイン) LPC分析合成 L.Rabiner et al: “Fundamentals of Speech Recognition”

音声符号化 (2) CELP (LD-CELP 方式) - 送信側：受信側： CELP: Code Excitation Linear Prediction CELP (LD-CELP 方式) CELP の閉ループは最適ベクトル探索を意味し、ビデオのフレーム間予測の閉ループとは異なる送信側：ひずみ評価聴覚補正ベクトル量子化音声入力 - 励振ベクトル (パルス列) ＆ゲイン音源コードブック声道 LPC合成ピッチ予測局所デコーダ LPCパラメータとピッチは送らずに復号信号から推定 (もともとのCELP方式では送信する) 受信側：コードブックピッチ予測 LPC合成励振ベクトル音声出力守谷： “音声符号化”

音声符号化 (3) LPC 分析 (線形予測分析) ：声道モデル s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 LPC: Linear Prediction Coding s(n): 音声サンプル ak: LPC係数 p: LPC分析次数 G: 励振ゲイン u(n): 正規化励振項過去の k 個のサンプル値から線形予測 (注) 通常、画像のモデルでは雑音と扱う予測誤差二乗平均の最小化 r(k): 自己相関係数 ak: 推定LPC係数 ^ 自己相関法 (Durbinのアルゴリズム)

音声符号化 (4) ベクトル量子化：音源パルス列 d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン励振ベクトルとゲインの探索： d: ひずみ x: 目標ベクトル (入力音声) A: LPC係数行列 g: ゲイン c: 励振ベクトル (パルス列) となる励振ベクトルとゲインを探索さまざまな探索手法 ... 入力ベクトル量子化インデクスコードブック出力励振ベクトル → ベクトル量子化探索ゲイン → スカラー量子化コードブック事前学習 (声道パラメータ → ベクトル量子化)

音声符号化 (5) ベクトル量子化：コードブックの学習 (1) K-平均アルゴリズム (一般化 Lloyd アルゴリズム) クラスタ (符号ベクトル) 初期化 (M: 符号ベクトル数) 新しい学習ベクトルの入力 (L: 学習ベクトル数) 最近隣 (NN) 探索 (ユークリッド距離の場合) クラスタ重心更新欠点：最終結果が初期ベクトルに依存

音声符号化 (6) ベクトル量子化：コードブックの学習 (2) LBG アルゴリズム k-平均アルゴリズム全学習ベクトルの重心算出 (初期化) LBG アルゴリズムクラスタ分割新しい学習ベクトルの入力最近隣 (NN) 探索クラスタ重心更新 k-平均アルゴリズム

オーディオ符号化 (1) オーディオ符号化の基本周波数音声入力量子化分割心理聴覚分析エントロピー符号化周波数分割、周波数分析： FFT、サブバンド分割 (QMF)、MDCT 心理聴覚分析：絶対閾値とマスキング量子化、エントロピー符号化：スカラー量子化とハフマン符号

オーディオ符号化 (2) 心理聴覚分析絶対閾値：人間は絶対可聴閾値よりも大きな音しか知覚できない振幅聞こえる周波数聞こえないマスキング (相対閾値)：大きな音の周波数の近傍の小さな音の周波数は知覚できない振幅聞こえる聞こえない周波数

オーディオ符号化 (3) MP3 (MPEG-1 Layer III) cf. Layer I, II ハイブリッド分割 QMF 適応ブロック長 MDCT 非線形量子化ハフマン符号化 FFT 心理聴覚分析量子化制御 cf. Layer I, II QMF FFT 心理聴覚分析線形量子化符号化

オーディオ符号化 (4) MPEG-2 AAC 適応ブロック長 MDCT 時間領域ノイズ整形予測非線形量子化ハフマン符号化心理聴覚分析量子化制御時間領域ノイズ整形 (for transient signals)：一部のMDCT係数を時系列とみなして線形予測 (LPC) 分析。振幅の大きい部分に量子化雑音が集中する (ノイズ整形)。予測 (for stationary signals)： MDCT係数毎に、過去2フレームのMDCT係数から予測。入力が定常的な場合に有効。

オーディオ符号化 (5) Twin VQ LPC分析、ピッチ・スペクトル包絡・電力分析： MDCT係数の平坦化。ベクトル量子化適応ブロック長 MDCT ピッチスペクトル包絡電力分析係数正規化インタリーブベクトル量子化 LPC分析心理聴覚モデル LPC分析、ピッチ・スペクトル包絡・電力分析： MDCT係数の平坦化。ベクトル量子化のコードブック削減。インターリーブベクトル量子化：適応量子化に替わるひずみの最小化手法。傾向の似た変換係数のグルーピング。

音声とオーディオ、ビデオの対比音声符号化オーディオ符号化、ビデオ符号化 PCM → 波形符号化 → 分析合成符号化 (音声合成モデル) オーディオ合成モデル：楽器 (+ ボーカル) ビデオ合成モデル：コンピュータグラフィックス？分析合成手法の試み (ブレークスルーにはなっていない)：オーディオ符号化：音源分離ビデオ符号化：知的符号化 (顔画像アニメーション)