Presentation is loading. Please wait.

Presentation is loading. Please wait.

第13回 画像処理技術と音響処理技術 画像処理技術 空間周波数、DCT 静止画像圧縮(JPEG) 動画像圧縮(MPEG)

Similar presentations


Presentation on theme: "第13回 画像処理技術と音響処理技術 画像処理技術 空間周波数、DCT 静止画像圧縮(JPEG) 動画像圧縮(MPEG)"— Presentation transcript:

1 第13回 画像処理技術と音響処理技術 画像処理技術 空間周波数、DCT 静止画像圧縮(JPEG) 動画像圧縮(MPEG)
第13回 画像処理技術と音響処理技術 画像処理技術 空間周波数、DCT 静止画像圧縮(JPEG) 動画像圧縮(MPEG) 情報のディジタル化(音響処理技術) オーバーサンプリング ΔΣ変調(1ビットAD変換) 音声の圧縮(MP3) 立体音響(サラウンド) 1

2 空間周波数(P.255) 音の周波数 画像の周波数=空間周波数 明るさの強弱の変化を周波数で表す 縞模様の間隔で周波数が変わる 大きさ
   音の周波数      画像の周波数=空間周波数 明るさの強弱の変化を周波数で表す 大きさ 明るさ 時間 方向 縞模様の間隔で周波数が変わる

3 空間周波数 周波数が低い 周波数が高い 明るさの変化による縞模様の間隔が周波数の高低を表している 変化の回数が少ない 変化の回数が多い
明   明るさ 明るさ 方向 方向 変化の回数が少ない 変化の回数が多い 周波数が低い 周波数が高い 明るさの変化による縞模様の間隔が周波数の高低を表している

4 空間周波数 ① ② ④ ③ ⑦ ⑤ ⑧ ⑥ 横方向の空間周波数 空間周波数がゼロの画像は 明るさの変化のない1色で
表現されている画像となります。 空間周波数が高いと 明るさの変化でできる 縞模様の間隔が狭くなります 逆に空間周波数が低いと 縞模様の間隔が広くなります 空間周波数が最も高い画像は 1画素ごとに明暗がある 格子模様となります。 縦方向の空間周波数 格子模様 (市松模様) 赤線の順に並べて、低周波から高周波とする 問1へ

5 ディジタル画像は縞模様の組み合わせ = + + + 元画像 + + + +・・・+
周波数が次第に高くなる 《第1低周波》 《第2低周波》 元画像 周波数が次第に高くなる 《最高周波数》 +・・・+ 元画像は縞模様(各周波数成分に対応)に分解することができる

6 静止画の圧縮(JPEG圧縮) Joint Photographic coding Experts Group (圧縮方式を作ったグループ名)
人間の視覚特性を利用した不可逆圧縮  ⇒元画像を8×8のブロックに分けて高周波成分を減らす    画像中の輪郭や境目の変化に鈍感 高周波成分減らす DCT* 8×8画素 周波数成分 元画像を8×8の 画素ブロックに分割 * DCT(離散コサイン変換)は 画像の周波数成分を調べる変換方法

7 静止画像圧縮(JPEG)の手順(P.261) 情報源の前処理: 静止画像情報を輝度信号と色差信号に変換 DCT量子化:
量子化テーブルで主に高周波成分(主に境目や輪郭部分)を圧縮 データ採取(並べ替え): 直流成分から交流成分の順にデータを採取 ハフマン符号化: 頻度に応じて符号化 伝送路符号化: 誤り訂正符号を付加

8 静止画像圧縮(JPEG)の手順 DCT 量子化 322342221010110010 ・・・・ 0
量子化された 空間周波数成分 元画像 空間周波数成分 DCT 量子化 8×8画素 単位 量子化テーブル 低周波成分(左上)から順に取り出す 画素数(8×8)×輝度(8bit) = 512bit ・・・・ 0 ランレングス+ハフマン符号化 41bit 問2へ

9 量子化テーブル(P.262) JPEG圧縮を行う際にどの周波数成分を削減するかを決める ⇒ 量子化テーブル(Qテーブル)という
周波数の低い成分は  256÷8 = 32=25 色(⇒ 5bitで表現) それ以外の周波数成分は  256÷32 = 8=23 色(⇒ 3bitで表現) を割り当てることになる すなわち、低周波は色数が多く、高周 波は色数が少ないので、高周波成分が 圧縮される 低い      高い 横方向周波数 8 32 低い       高い 縦方向周波数 Qテーブルの値を大きくするほど画像は圧縮される ステップサイズ という 問3,4へ

10 圧縮による劣化(ノイズ) 圧縮による主な画像劣化 モスキートノイズ ブロックノイズ ⇒高周波成分の過度な圧縮による
モスキートノイズ           ブロックノイズ ⇒高周波成分の過度な圧縮による ⇒低周波成分の過度な圧縮による 字の輪郭の周りに蚊が飛んで いるようなにじみが見える  * 蚊 : mosquito 8×8の大きさの四角い箱状 (ブロック)模様が見える 輪郭以外の場所で目立つ JPEGが8×8画素のブロック毎に圧縮していることによる 問5へ

11 離散コサイン変換:DiscreteCosineTransform
画素の情報 d(x,y) に対して、下記の計算を行うと周波数成分 F(m,n) が得られる。 F(1,0) F(0,0) 左上は低周波成分 右下は高周波成分 周波数 周波数 F(8,8)

12 動画像の圧縮(MPEG P.267) 情報源の前処理: 静止画像情報を輝度信号と色差信号に変換 DPCM、動き補償:
フレーム間の時間的圧縮 (フレーム間差分と動き補償) DCT: JPEG同様の量子化 エントロピー符号化: JPEG同様の符号化 伝送路符号化: 誤り訂正符号の付加

13 動画像圧縮(フレーム間DPCM) 動画像では動いている部分と静止している部分がある フレーム間の差 フレーム間の差 フレーム間の差
フレーム1 フレーム2 フレーム3 フレーム4 フレーム間の差 フレーム間の差 フレーム間の差 最初のフレームと動きのある部分だけ記録すれば情報を少なくできる

14 動画像圧縮(動きベクトル検出) 前フレーム 現フレーム 動きベクトル検出 しかし、実際には次のフレームと異なる部分が生じる
探索領域 類似ブロック抽出 各ブロックの画像が どこへ移動したか調べる 前フレーム+動きベクトル   ⇒次のフレームを再構成 動きベクトル検出 しかし、実際には次のフレームと異なる部分が生じる

15 動画像圧縮(動き補償) ー 動きベクトルによる次のフレーム 前フレーム 現フレーム 動き補償
引き算 現フレーム (表示すべきフレーム) 動き補償 ずれた分の補正 客車と煙拡散部分が予測フレームとずれている 前フレーム+動きベクトル+動き補償 ⇒ 次フレーム

16 MPEG圧縮まとめ 動きのない背景部分は1枚だけ記録 同じ背景が続く画像では背景を削減
  同じ背景が続く画像では背景を削減 動きのある部分では対象物と、どの方向にどれだけ動くかを記録   対象物の動きを前後の関係から予測し、予測と   実際のずれを記録(DPCMと動き補償) 一枚一枚はJPEG圧縮 問6,7へ

17 MPEGにおけるGOP構成(P.270) Iピクチャは単独でその時の画像を復元できる Pピクチャは I、Pピクチャから復元される画像
Bピクチャは Iピクチャ、前後のPピクチャから復元される画像 GOPのピクチャ数=15 ・・・ B B I B B P B B P B B P B B P B ・・ B ・・・ B ピクチャはIピクチャ、前後P ピクチャから予測 Pピクチャ、Bピクチャは単体では画面を復元できない ⇒ Iピクチャが必要

18 MPEGの種類(P.272) MPEG1 ⇒ Video CD、MP3プレイヤー MPEG2 MPEG
1.5Mbps程度のディジタルメディア(CD)に、約1時間分の 画像や音声などを圧縮して符号化する規格 ⇒ Video CD、MP3プレイヤー MPEG2 16Mbps程度のディジタルメディア(CD)に、約2時間分の 放送用画像品質相当の高画質画像や音声などを 圧縮して符号化する規格 MPEG ⇒ DVDプレイヤー、デジタルビデオカメラ   BS/CS放送、地上波ディジタル放送 MPEG4 64kbps程度の低速の無線通信路でも動画像を送れる ように圧縮して符号化する規格(携帯端末向け) ⇒ ワンセグ、携帯電話ムービー機能   ディジタルカメラのムービー機能 問8,9,10へ

19 情報のディジタル化(P.276) 音響(音声)信号のディジタル化と音響処理技術 ⇒ ハイレゾオーディオ、音楽圧縮、立体音響 基礎知識
  ⇒ ハイレゾオーディオ、音楽圧縮、立体音響 基礎知識  □ 人の耳に聞こえる周波数帯(可聴帯域) 20Hz~20kHz  □ アナログ信号をディジタル信号に変換すること AD変換(復習)  □ ディジタル信号をアナログ信号に変換すること DA変換(復習)  □ AD変換では、標本化、量子化、符号化が行われる(復習)  □ 3ビット量子化では、信号の振幅は8段階で表現される 問11 標本化は英語で何と呼ばれるか? 問12 8ビット量子化では、信号の振幅は何段階で表現されるか?

20 ダイナミックレンジ(P.279) 20 log 10 2 𝑛 =20𝑛 log 10 2 [𝑑𝐵]
ダイナミックレンジとは、最小信号と最大信号の比 カメラのダイナミックレンジ   CCDが識別できる最も明るい輝度と最も暗い輝度の比を表す オーディオのダイナミックレンジ   記録可能な最も大きい信号と最も小さい信号の比を表す n ビットの量子化で表現される信号のダイナミックレンジは、 単位を dB(デシベル)として下記で表される 20 log 𝑛 =20𝑛 log [𝑑𝐵] 問13へ

21 ハイレゾオーディオでも利用される技術 オーバーサンプリング 1ビットAD変換(ΔΣ変調) SACD (SuperAudioCD):
周波数レンジ ダイナミックレンジ 120dB 96dB 5Hz 20kHz 100kHz SACDはCDと比較して、 再生周波数で約5倍 ダイナミックレンジで約16倍

22 サンプリング(復習) どれも同じ標本点となる波形 fsが低いと、雑音は低い周波数に集まってきてしまうことになる Ts:サンプリング周期

23 オーバーサンプリング(時間領域) 𝑓 𝑠 2 𝑓 𝑠 2倍のオーバーサンプリング オーバーサンプリングにより信号は細かく再現可能
⇒ サンプリング定理よりも高い周波数でサンプリング Ts:サンプリング周期 fs = 1/Ts :サンプリング周波数 2倍のオーバーサンプリング 電圧 電圧 𝑇 𝑠 𝑇 𝑠 /2 時間 時間 𝑓 𝑠 2 𝑓 𝑠 = 1 𝑇 𝑠 オーバーサンプリングにより信号は細かく再現可能 ⇒それだけではない

24 オーバーサンプリング(周波数領域) 1/k となる サンプリング周波数 k倍 雑音はk倍の周波数まで分散 雑音のエネルギー総和は同じなので
電力 サンプリング周波数 k倍 雑音はk倍の周波数まで分散 雑音のエネルギー総和は同じなので 信号帯域の雑音の電力は   1/k となる 信号のダイナミックレンジ改善 信号 雑音 𝑓 𝑠 /2 𝑓 𝑠 周波数 電力 信号 1/k 雑音 𝑘 𝑓 𝑠 /2 𝑘𝑓 𝑠 周波数

25 オーバーサンプリングによるダイナミックレンジ改善
信号成分 信号成分 ノイズレベル -30dB -40dB 𝑓 𝑠 10 𝑓 𝑠 サンプリング周波数 k倍 ダイナミックレンジの改善 10 log 10 𝑘 [𝑑𝐵] 問14へ

26 量子化ビットとオーバーサンプリング によるダイナミックレンジ 20 log 10 2 [𝑑𝐵] 改善する
量子化ビットを1ビット増やすと、ダイナミックレンジは   20 log [𝑑𝐵] 改善する 標本化周波数を4倍に増やすと、ダイナミックレンジは   10 log =20 log [𝑑𝐵] 改善する すなわち、標本化周波数を4倍に増やすことと 量子化ビットを1ビット増やすことは ダイナミックレンジにおいて等価となります したがって、量子化ビットを1ビット減らす毎に、標本化周波数を4倍にすれば、 同じダイナミックレンジを保つことができます 問15へ

27 ΔΣ変調(1ビットAD変換) + + (a) Δ変調 + - (b) ΔΣ変調 + - 入力信号の大きさに近づけるように働くので、入力信号の
値が大きいところで、1 ⇔ 0 の入れ替わりが多くなる ディジタル 信号 1ビット 量子化器 アナログ 出力 アナログ 入力 積分器 LPF + 積分器 遅延器 変調部 復調部 (b) ΔΣ変調 入力信号との差をなくすように働くので、入力信号に変化が あるところで、1 ⇔ 0 の入れ替わりが多くなる ディジタル 信号 アナログ 入力 アナログ 出力 1ビット 量子化器 積分器 LPF + 遅延器 微分作用 変調部 復調部

28 1ビットAD変換の波形 AD変換の波形 n ビットのパルスで表現される (階段状の信号となる) 1ビットAD変換(ΔΣ変調)の波形
1ビットのパルスで表現される (パルスあるなしの信号となる)

29 1ビットAD変換の波形 ΔΣ変調の波形(LTspiceシミュレーションによる)
アナログ信号(サイン波)の微分値が大きい箇所で 1⇔0 入替りが発生する

30 ΔΣ変調によるノイズシェーピング ノイズシェーピング 𝑘 𝑓 𝑠 /2 信号 元々の 量子化雑音 オーバーサンプリングの量子化雑音
周波数 電力 𝑘 𝑓 𝑠 /2 ノイズシェーピング 微分効果により、高周波に ノイズを集めることができます 信号帯域内の量子化雑音 を大幅に低減 元々の 量子化雑音 オーバーサンプリングの量子化雑音 ΔΣ変調の 量子化雑音 ΔΣ変調のオーバーサンプリングは CDの64~128倍が利用されます

31 ノイズシェーピング効果比較(シミュレーション)
1kHzの信号の量子化雑音の比較   ( 5MHz でオーバーサンプリング) Δ変調時の復調信号 (b) ΔΣ変調時の復調信号 ΔΣ変調 Δ変調 ノイズは一定 信号帯域で ノイズが低減 オーバーサンプリングのみなので ノイズ低減効果は一定 ΔΣ変調時はノイズシェーピング効果で 高周波にノイズを移動させる 問16へ

32 音声圧縮(P.284) 可逆圧縮 非可逆圧縮 非可逆圧縮に使われる原理 人間の聴覚特性に基づく不要な音をカットする
 元の音声を完全復元可能だが、圧縮率は1/2程度。  代表的な圧縮:FLAC、APE、TAK、TTAなど 非可逆圧縮  元の音声を完全復元できないが、圧縮率は1/20程度まで可能。  代表的な圧縮:MP3、AAC、WMAなど 非可逆圧縮に使われる原理 人間の聴覚特性に基づく不要な音をカットする   ①最小可聴限界以下の音をカット ⇒人間の耳に聞こえないレベルの音をカット   ②マスキング効果で聞こえなくなる音をカット ⇒大きな音に隠されて聞き取れない音をカット

33 特に、低音、高音は、小さくなると聞こえなくなる
最小可聴限界 特に、低音、高音は、小さくなると聞こえなくなる ⇒ 最小可聴限界より小さい音はカット 80 聞こえる限界 (最小可聴限界) 音圧(dB) 40 k 2k 5k 10k 20k 周波数(Hz) カットされる音

34 周波数マスキング 大きな音圧の近辺には、聞こえない領域ができる ⇒ マスキング効果 ⇒ マスキングされる音はカット
⇒ マスキング効果 ⇒ マスキングされる音はカット この線より小さい周波数成分は聞こえない マスカー(マスキングする音) 音圧(dB) 聞こえない領域 カットされる音 マスキー (マスキングされる音) k 2k 5k 10k 20k 周波数(Hz) 問17,18へ

35 モノラル、ステレオ、サラウンド(P.285) モノラル 「片耳用の」という意味。1本のマイクで収音したものを1つの信号だけで再生
ステレオ(2chステレオ) 「立体音響」という意味。スピーカを2つ設置し、左(右)側スピーカから左(右)から到達する音を、前方からの音は左右のスピーカから同じ大きさで音を再生 バイノーラル:人の耳の位置にマイクを設置し(ダミーヘッドを用いる)、マイクで捕らえられた音を耳の位置でヘッドフォンなどで再生すれば収録した音が原音に近い形で聞ける サラウンド 「取り囲む」という意味。音が聴者を取り囲んでいるような音響効果。この効果を得るため3個以上の複数のスピーカを用いる

36 サラウンドの様々な規格 ドルビーステレオ 4ch
ドルビーと付くものは全てドルビー・ラボラトリーズが開発したもの。フロント3ch、リア1chの計4chで構成 ドルビーデジタル 5.1ch ドルビーAC-3(Audio Code number3)規格で圧縮記録された方式。 フロント3ch、リア2ch、低音用(サブウーファー)の0.1chを採用した5.1ch DTS 5.1ch Digital Theater Systems社が提唱。ドルビーデジタルよりも低圧縮で記録されるため情報量が多くより高音質の再生が可能 ドルビーデジタル/DTS 6.1ch 5.1ch方式に対しリア中央にスピーカを増設。真後ろの定位感が向上。DTSの6.1chをDTS-ESと呼ぶ ドルビーデジタル/DTS 7.1ch 7.1chとは、5.1ch方式に対しリアのサラウンドスピーカを2つ追加したもの。6.1chよりも臨場感溢れる音場を再生 7.1chのスピーカ配置については現在様々な提案がなされており、フロントに2つ追加や上下に配置などがある

37 ITU勧告 5.1ch 前方に3チャンネルのスピーカ 「FrontLeft」「FrontCenter」「FrontRight」
International Telecommunication Union 国際電気通信連合 前方に3チャンネルのスピーカ 「FrontLeft」「FrontCenter」「FrontRight」 後方には2チャンネルのスピーカ「SurroundLeft」「SurroundRight」を配置。 +0.1chのサブウーファーの配置の指定はない。 各スピーカは等距離、同じ高さに設置。 サラウンドスピーカの配置位置は 厳密ではなく、100~120度の範囲に設置

38 ITU勧告 6.1ch 5.1chに加え、180度後ろに、「Surroundback」 スピーカを設置
サラウンドスピーカも 90~110度の範囲で設置

39 ITU勧告 7.1ch フロント3つ、サラウンド2つは「6.1ch」と同じ配置 バックサラウンドスピーカ 2個を135~150度の範囲に設置

40 本日の講義はここまで


Download ppt "第13回 画像処理技術と音響処理技術 画像処理技術 空間周波数、DCT 静止画像圧縮(JPEG) 動画像圧縮(MPEG)"

Similar presentations


Ads by Google