Download presentation
Presentation is loading. Please wait.
Published byMarie Kalb Modified 約 6 年前
1
情報通信システム(6) http://www10. plala. or
情報通信システム(6) 年5月29日 火曜日 午後4時10分~5時40分 NTT-TX Corp. 加藤 洋一
2
通信速度の場合には、通信速度は通常「ビット/秒」で表現される。バイト(=8ビット)/秒もまれに使われるので注意が必要。
通信速度の単位 bps 1秒間に伝送される「ビット」の数 Kbps bpsの1,000倍の単位 Mbps Kbpsの1,000倍の単位 Gbps Mbpsの1,000倍の単位 Tbps Gbpsの1,000倍の単位 通信速度の場合には、通信速度は通常「ビット/秒」で表現される。バイト(=8ビット)/秒もまれに使われるので注意が必要。 一方、ファイルの大きさなど、データ量を表す場合には、「バイト」を単位とするのが普通。 さらに、ファイルなどの場合、K=1,024、M=1,048,576(1,024の2乗)などの場合もあるので要注意。
3
通信システムの速度 通信システム ディジタル通信速度 注釈 音響カプラー 300bps 講師は昔卒研で使った。 電話回線 最大56Kbps
モデムを使う。 ISDN 64Kbps~128Kbps 唯一のディジタル交換網 ADSL 上り 1Mbps 下り 1~20Mbps 実効値は千差万別 FTTH 上り 7.4Mbps 下り 39Mbps 講師自宅実測 最近はもっと早い FOMA 上り 64Kbps 下り 384Kbps パケット LTE 上り 80Mbps 下り 300Mbps 5G 1Gbps? 基幹網光 ~100Gbps DWDM
4
音声と画像の無圧縮時情報速度 メディア 周波数帯域、チャンネル数 標本化周波数、ビット数/標本 無圧縮時ビットレート 電話音声 3.4KHz
1チャンネル 8KHz 8ビット 64Kbps 音楽 20KHz 2チャンネル 44.1KHz,48KHz 16ビット 1.4Mbps 音楽(ハイレゾ) 80KHz 6チャンネル 192KHz 24ビット 27.648Mbps HDTV 1920*1080*30 1.5Gbps~ 4K 3840*2160*60 12Gbps 8K 7680 x 4320 x 120 96Gbps
5
音声と画像の情報量圧縮の目的 伝送コストを安くしたい。 携帯電話 ビデオ伝送 効率よく蓄積したい ビデオ 音楽 映画
6
(あらためて)「情報量」とは何か? 「情報量」とは、捉え方によって異なる。
「横浜Fマリノスが勝った」という情報は、ファンには意味があるが、サッカーに興味のない人には無意味な情報である。つまり「情報量0」。 通信工学という立場からは、受信側の情報の「捉え方」は問題にしないこととする。 やった! 情報:横浜Fマリノスが勝った! 俺には関係ないね。
7
情報量(定義) nat bit 対数の底が2のとき、単位はbit(びっと)という 対数の底がeのとき、単位はnat(なっと)という
P=0.5のとき1ビット p p 確率が小さいほど、情報量は多い。
8
情報量の期待値=平均情報量=情報エントロピー
9
エントロピーの性質 entropy 前頁では、赤黒の生起確率は0.5で情報エントロピーは1bitだった。 2つの事象の生起確率とエントロピー
p1 ( = 1 – p2) 一般に、場合の数をNとすると、それぞれの事象の発生確率が1/Nのとき(即ち、全て同じとき)、エントロピーが最大となり、その値は、log2(N)となる。逆に、発生確率が「片寄る」と、エントロピーは減る。
10
Harry Potter and the Order of Phoenix
Harry Potter and Order of the Phoenix, J.K. Rowling Chapter One “DUDLEY DEMENTED” The hottest day of the summer so far was drawing to a close and a drowsy silence lay over the large, square houses of Privet Drive. Cars that were usually gleaming stood dusty in their drives and lawns that were once emerald green lay parched and yellowing; the use Of hosepipes had been banned due to drought. Deprived of their usual car-washing and lawn-mowing pursuits, the inhabitants of Privet Drive had retreated into the shade of their cool houses, windows thrown wide in the hope of tempting in a nonexistent breeze. The only person lea outdoors was a teenage boy who was lying flat on his back in a Rower bed outside number four. …………………. 各文字の発生頻度 最初の9ページ分 文字数 文字の種類の数 28 (大文字と小文字を区別 しないこととした) エントロピー 計算結果 bit ‘ ‘ 2840 a 1032 b 217 c 266 d 640 e 1554 f 213 g 325 h 879 i 800 j k 117 l 486 m 234 n 956 o 876 p 224 q 9 r 794 s 781 t 1075 u 388 v 132 w 346 x 10 y 306 z
11
効率的な符号化 前頁の例では、場合の数は28であった(26のアルファベット+スペース+ピリオド)。この28のシンボルを2進数で表すことを考える。 最も簡単な方法は、1シンボルあたり、5ビットの数字をひとつずつ割り付ける方法である(5ビットでは、2の5乗、即ち32個のシンボルを表すことができる)。これを固定長符号化という。 エントロピーの実測値は4.15bitなので、この方法では、元来の情報量の約20%増の符号量となり得策ではない。 固定長符号化の例 ‘ ‘ 00000 a 00010 b 00011 c 00100 d 00101 e 00110 F g 01000 h i j k 01100 l m 01110 n o p 10001 q 10010 r 10011 s 10100 t u 10110 v 10111 w 11000 x 11001 y 11010 z 11011 (11100から11111までの4つの符号は使用しない)
12
前頁の例では、固定長(5bit)の符号を用いた。固定長の符号は扱いやすいが、効率が悪い場合がある。 符号には固定長の他に、可変長符号がある。
効率的な符号化(可変長符号化) 前頁の例では、固定長(5bit)の符号を用いた。固定長の符号は扱いやすいが、効率が悪い場合がある。 符号には固定長の他に、可変長符号がある。 例: 袋には4種類の玉が入っている。赤と黒は10個ずつ、 白は20個、黄色は、40個とする。全部で80個。玉をひとつ取り出したときの発生 確率は、黄色 50%、白25%、赤12.5%、黒12.5%である。 以下のような符号を割り振る。 黄色 0 白 赤 黒 玉を16回取り出したところ(出したら元に戻してかきまぜる) 黄 白 黒 黄 黒 白 黄 赤 黄 白 黄 白 黄 赤 黄 黄 とでた。これを符号化すると、 となる。詰めて表示すると、 (total 28bit) これを復号してみる。左のビットから順番に見ていくと、まず0なので直ちに決まって黄、次は1なので決まらずさらに次を見ると10つまり白、というように、正しく復号できる。 場合の数は4なので、固定長符号なら2ビット、16シンボル分では32ビットとなる。可変長符号化の場合には28ビットだったので、効率が上がったことが分かる。
13
効率的な符号化方法(ハフマン符号化) 効率的な可変長符号を決める方法のひとつとして、ハフマン符号化がある。手順は以下のとおり。
シンボルについて、その生起確率の小さいものから2つを探す。 生起確率が最小のシンボルに”0”、2番目に小さいシンボルに”1”の符号を与える。シンボルが、(3)の合成シンボルの場合、合成前のオリジナルのシンボル全てに符号を与える。 この2つのシンボルを合わせてひとつのシンボルと考える(合成シンボル)。新しいシンボルの生起確率は元の値を足したものとする。 1-3の操作で、全体のシンボル数はひとつ減る。全体のシンボル数が1になるまで1-3の操作を繰り返す。 終わり。
14
効率的な符号化方法(ハフマン符号化) 前述のHarry Potterのテキストの各文字発生確率から生成したハフマン符号
‘ ‘ a b c d e f g h i j k l m n o p q r s t u v w x y z 前述のHarry Potterのテキストの各文字発生確率から生成したハフマン符号 生起確率の高いシンボルほど短い符号が割り当てられている。 平均符号長 (エントロピーは4.15ビットだった) 固定長符号化に比べ、ずっと効率が良い。
15
結合確率 色付きの形違いのタイルがたくさんある 目をつぶって一つ取り出す。手触りで形はわかる。 形が分かった時、色が分かるか?
16
この場合は?
17
確率事象の結合
18
確率事象の結合 参考 x1y1+x1y2+x1y3+… x2y1+x2y2+x2y3+… …. =
… = (x1 + x2 + x3 + …)(y1 + y2 + y3 …)
19
結合確率のエントロピー
20
結合確率のエントロピー 重要:つまり、各々の事象のエントロピーより結合事象のエントロピーの方が小さい(あるいは等しい)、ということになる。
21
結合確率 j p(i ,j) i p(i) p(j) Triangle Circle Rectangle Star Red 0.1000
0.0100 0.0700 0.0200 0.20 Blue 0.0250 0.1400 0.0050 0.1300 0.30 Yellow 0.0775 0.0625 0.15 Pink 0.0475 0.1450 0.0125 0.35 0.25 色だけ i p(i) 形だけ p(j) Triangle 25 Circle 30 Rectangle 15 Star 30 Red 20 Blue 30 Yellow 15 Pink 35 独立でない場合
22
結合確率 j p(i ,j) i p(i) p(j) Triangle Circle Rectangle Star Red 0.0500
0.0600 0.0300 0.20 Blue 0.0750 0.0900 0.0450 0.30 Yellow 0.0375 0.0225 0.15 Pink 0.0875 0.1050 0.0525 0.35 0.25 色だけ i p(i) 形だけ p(j) Triangle 25 Circle 30 Rectangle 15 Star 30 Red 20 Blue 30 Yellow 15 Pink 35 独立な場合
23
結合確率 前頁の性質を使うと、情報量の圧縮ができる。つまり、複数のイベントの結合確率p(i,j,…)を求め、その複数のイベントをまとめて符号化すれば、イベントをひとつずつ符号化するより出力符号量を減らすことができる。 例えば、 イベント1は、テキストの奇数番目の文字 イベント2は、テキストの偶数番目の文字 と考え、文字を2つずつ組にして符号化することが考えられる。 The hottest day of the summer so far was drawing to a close and a drowsy silence lay over the large, square houses of Privet Drive.
24
確率事象の結合 事象の数 場合の数 エントロピー 一文字あたりのエントロピー 1文字 15717 28 4.14 2文字 7858 385
前述のHarry Potterのテキストで、1文字ずつを事象とした場合、2文字ずつを事象とした場合、3文字ずつを事象とした場合で計算してみた。 複数の文字をまとめてひとつの事象と捉えることで、一文字あたりのエントロピー、即ち情報量が減ることが分かる。これは、隣り合う文字間に何らかの関連があるからである。 事象の数 場合の数 エントロピー 一文字あたりのエントロピー 1文字 15717 28 4.14 2文字 7858 385 7.44 3.72 3文字 5239 1521 9.70 3.23
25
「確率事象」とは、「袋から玉を取り出す」ことのように、確率的に生起する事象のことを言う。
確率事象と確率過程 「確率事象」とは、「袋から玉を取り出す」ことのように、確率的に生起する事象のことを言う。 確率事象が連続的に起きる場合、それを「確率過程」という。 通信システムで伝送する信号は「確率過程」であるということができる。 信号がメールであれば、一文字一文字が「確率事象」であり、そのまとまりであるメールは、 「確率過程」である。 例えば、音声信号のような一次元信号であれば、サンプル値ひとつひとつが「確率事象」であり、その連続であるディジタル音声信号は「確率過程」である。このような場合の「確率事象」を「確率変数」と呼ぶ。
26
テキスト、音声信号、画像信号などは、時間的、あるいは、空間的に「近い」標本間での関連が高い。
マルコフ過程 テキスト、音声信号、画像信号などは、時間的、あるいは、空間的に「近い」標本間での関連が高い。 例えば、テキストの場合、ある文字の発生確率は、その直前、さらにその前、...の文字により変化する。このように、ある時点での事象の発生確率がそれ以前に生起したN個の事象に影響されるとき、それを「N次のマルコフ過程」という。 マルコフ過程は、実際の信号の近似的なモデルとしてよく利用されている。 本講義では「マルコフ過程」について詳しく調べることはしませんが、その概念は覚えておいてください。
27
量子化とは、連続的な値(アナログ値)を飛び飛びの値に「丸める」ことである(ディジタル化)。
既に量子化されている信号をさらに粗く「丸める」ことも「量子化」という場合がある。 量子化を行うと、もとの信号との誤差が発生する。これを量子化誤差、あるいは、量子化雑音という。 量子化出力 量子化誤差 量子化代表値 真値
28
量子化雑音 量子化出力 量子化出力 真値 真値 細かい量子化 量子化雑音小 粗い量子化 量子化雑音大 代表値数は多くなる 代表値数が少ない
細かい量子化 量子化雑音小 代表値数は多くなる 即ち、情報量大 粗い量子化 量子化雑音大 代表値数が少ない 即ち、情報量小 WAVEファイルを量子化する実験を行う。量子化誤差を「量子化雑音」という意味が分かると思う。 画像ファイルを量子化する実験を行う。画像の場合、劣化は雑「音」ではないが、慣習的にやはり「量子化雑音」という場合が多い。
29
前頁で、音声や画像では、「完全再生」は必要ないと述べた。では、どの程度不完全でも良いのであろうか?
再生信号の評価 前頁で、音声や画像では、「完全再生」は必要ないと述べた。では、どの程度不完全でも良いのであろうか? いくつかの尺度がある。例えば、次の式で与えられる平均二乗誤差。 しかし、最終的には、複数の人間が実際にオリジナル信号と再生信号(復号された信号)を聞き(見)比べて評価することが多い。 このような方法を「主観評価」という。
30
量子化雑音のパワー 量子化出力 左の図のように等間隔で量子化する場合を一様量子化という。量子化代表値の間隔(ステップサイズ)をSとすると、量子化雑音は、以下のように計算できる。 e=S/2 e=-S/2 真値
31
確率過程の効率的符号化方法? 信号の標本化と量子化 Nサンプルずつグループ化する グループのサンプルの結合確率密度に
ここまでの学習をまとめると、信号の効率的符号化方法は、以下のようになるであろう。 信号の標本化と量子化 量子化には、情報量と雑音のトレードオフがある。 Nを大きくすると、シンボル数が一サンプルの代表値数のN乗の比例して増加してしまう。 Nサンプルずつグループ化する グループのサンプルの結合確率密度に 従いハフマン符号化を行う
32
現実論 ディジタル音声信号を符号化しよう。ここで、互いに関係しあうサンプルをまとめて符号化することで、効率を上げる。このまとまりを、例えば、20サンプルとする(本来、もっと多くのサンプルが互いに関連していると思われる)。 標本値は、256通りである。20サンプルまとめてひとつの事象だと考えるので、場合の数は256の20乗となる。 ハフマン符号を生成するため、 256の20乗のそれぞれのパターンの発生確率を求めねばならない。発生確率は、その母集団から十分なサンプルを収集してそのヒストグラムから計算できる。しかし、 256の20乗個(49桁)のパターンに対する発生確率を求めるためのサンプル数は膨大となる。またそのハフマン符号の生成、利用も容易ではない。 つまり、この方法は現実的でない。 現実的な情報量圧縮符号の「戦略」は次ページ。
33
音声と画像の情報量圧縮の「戦略」 音声、音楽、画像の各標本値は、他の近隣の標本値と関連がある。即ち、冗長性がある。最初に、信号の性質に着目して、冗長性を削減することで情報量を減らす。 音声や画像では、完全に再生できなくても支障がない場合が多い。「完全に再生する」ことをあきらめる事で、さらに情報量を削減する。 最終的に得られた値(シンボル)を効率よくビット列にする。 「完全に再生できない」場合の元信号との差を「符号化雑音」という。これを目立たせないように、復号の後で何らかの処理を加える。 次回へ続く。。。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.