情報通信システム（6） http://www10. plala. or 情報通信システム（6） http://www10.plala.or.jp/katofmly/chiba-u/ 2018年5月29日　火曜日　午後4時10分～5時40分 NTT-TX Corp. 加藤洋一.

Slides:

Advertisements

Similar presentations

北海道大学 Hokkaido University 1 情報理論講義資料 2016/06/22 情報エレクトロニクス学科共通科目・２年次・第 1 学期〔必修科目〕講義「情報理論」第 5 回第 3 章情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.

Advertisements

知能情報工学年4月26日吉川雅博第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部・標本化・量子化・ノイズ除去・正規化識別辞書（プロトタイプ）音声や画像（アナログ信号）識別結果識別が容易な特徴を抽出プロトタイプと比較.

5 章標本と統計量の分布湯浅直弘. 5-1 母集団と標本 ■ 母集合今までは確率的なことこれからは，確率や割合がわかっていないときに，推定することが目標．個体：実験や観測を行う 1 つの対象母集団：個体全部の集合  ・有限な場合：有限母集合 → １つの箱に入っているねじ．  ・無限な場合：無限母集合.

コンピュータプラクティスⅠ アンケート水野嘉明 1. 本日の予定「アンケート」  人間的な要因を評価するための一手段として、アンケートの方法について学ぶ  実験では、アンケートの集計を行う 2.

データの圧縮.

授業展開＃３アナログとデジタル.

第2章第2節情報通信の効率的な方法 1 情報の容量と伝送の特性 2 データの圧縮 3 エラー検出とエラー訂正

第１節コンピュータにおける情報のあらわし方

第四章　情報源符号化の基礎４・１　情報量とエントロピー４・２　エントロピー符号化４・３　音声符号化４・４　画像符号化.

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

看護学部中澤港統計学第５回看護学部　中澤　港

「わかりやすいパターン認識」第１章：パターン認識とは

富山大学公開講座 2008 「QRコードを作ろう！」～ QRコードを作ろう！～.

第1章第1節情報のディジタル化のしくみ 4 音の表現 5 画像の表現

情報A 第１２回授業 04情報のディジタル化対応ファイル：12exp12.xls

情報通信システム（8） plala. or 情報通信システム（8）年6月21日　火曜日　午後4時10分～5時40分 NTT-IT Corp. 加藤洋一.

コンピュータ基礎(10) 11章通信ネットワーク.

情報科指導法Ⅰ 第11回年間授業計画表.

情報の表現（３）情報社会とコンピュータ第10回.

第1章第1節情報のディジタル化のしくみ 4 音の表現 5 画像の表現

アナログとディジタル五感視覚、聴覚、味覚、臭覚、触覚埼玉県立越ヶ谷高等学校・情報科.

第５回ディジタル回路内の数値表現瀬戸ディジタル回路内部で，数を表現する方法（２進数）を学ぶ１０進数⇔２進数⇔１６進数の変換ができる

多数の疑似システムを用いたシステム同定の統計力学三好誠司岡田真人神戸高専東大，理研

第三章　ディジタル符号変換の基礎３・１PCMパルス符号変換３・２符号変換３・３通信路符号形式３・４スクランブル.

Bias2 - Variance - Noise 分解

PSOLA法を用いた極低ビットレート音声符号化に関する検討

アナログとディジタル高校1年　社会と情報⑤.

家庭からのインターネットラスト・ワン・マイルダイアルアップと常時接続接続帯域

2012年度情報数理～ QRコードを作ろう！（１）～.

2008年度情報数理～ QRコードを作ろう！（１）～.

日本大学文理学部情報システム解析学科谷研究室益田真太郎

コンピュータ基礎(10) 11章通信ネットワーク.

10．通信路符号化手法2 （誤り検出と誤り訂正符号）

情報Ａーディジタル化のしくみー.

1. アナログとディジタル五島正裕.

ー第1日目ー確率過程について抵抗の熱雑音の測定実験

2010年度情報数理～ QRコードを作ろう！（１）～.

画像のディジタル化１ A/D変換器光強度のアナログ情報をディジタル信号に変換する標本化：sampling

第3回：今日の目標平均情報量を説明し、計算できるシャノンの通信モデルを説明できる情報源符号化の条件を示せる

ディジタル信号処理 Digital Signal Processing

情報通信システム（13） plala. or 情報通信システム（13）年7月24日　火曜日　午後4時10分～5時40分 NTT-TX Corp. 加藤洋一.

大阪大学大学院工学研究科極限光通信工学領域井上研究室欅田直也・橘遼太郎・隅田拓也・高祥史

情報機器の発達とディジタル化第２節情報のディジタル化②

授業展開＃３アナログとデジタル.

コンピュータを知る１Ｅ１６Ｍ００９－１梅津たくみ１Ｅ１６Ｍ０１７－８小沢あきら１Ｅ１６Ｍ０３５－０柴田かいと

画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮電子情報通信学科甲藤二郎

2. 論理ゲートとブール代数五島正裕.

２章　暗号技術 FM15002 友池絲子.

予測に用いる数学 2004/05/07 ide.

2012年度情報数理～様々なデジタル情報（１）～.

画像の情報量 Copyright(C)2008 Tsutomu Ohara All rights reserved.

情報通信システム（7） plala. or 情報通信システム（7）年6月12日　火曜日　午後4時10分～5時40分 NTT-TX Corp. 加藤洋一.

様々な情報源（４章）.

音声のディジタル化 Copyright(C)200４ Tsutomu Ohara All rights reserved.

情報処理Ⅱ 第２回：２００３年１０月１４日（火）.

Hoffman符号 2011/05/23.

ウィルスってどの位感染しているのかな？菊池研究室　　小堀智弘.

情報A 第１５回授業 04情報のディジタル化対応ファイル：12exp15.xls

2010年度情報数理～様々なデジタル情報（１）～.

アナログとデジタル.

第２回標本化と量子化.

音声のディジタル化 Copyright(C)200４ Tsutomu Ohara All rights reserved.

コンピュータ・ネットワーク工学科後藤滋樹

確率と統計2007（最終回）平成20年1月17日(木) 東京工科大学亀田弘之.

画像の情報量 Copyright(C)2008 Tsutomu Ohara All rights reserved.

わかりやすいパターン認識第６章特徴空間の変換６．５ KL展開の適用法〔１〕 KL展開と線形判別法〔２〕 KL展開と学習パターン数

情報通信システム（6） plala. or 情報通信システム（6）年5月28日　火曜日　午後4時10分～5時40分 NTT-TX Corp. 加藤洋一.

2019年度情報数理特論B ～様々なデジタル情報（１）～.

第5章伝送理論と伝送技術５．１電気通信設備の概要５．２アナログ伝送方式５．３ディジタル伝送方式５．４データ伝送方式

コンピュータと音 B3 入野仁志(irino).

Presentation transcript:

情報通信システム（6） http://www10. plala. or 情報通信システム（6） http://www10.plala.or.jp/katofmly/chiba-u/ 2018年5月29日　火曜日　午後4時10分～5時40分 NTT-TX Corp. 加藤洋一

通信速度の場合には、通信速度は通常「ビット／秒」で表現される。バイト（＝8ビット）／秒もまれに使われるので注意が必要。通信速度の単位 bps 1秒間に伝送される「ビット」の数 Kbps bpsの1,000倍の単位 Mbps Kbpsの1,000倍の単位 Gbps Mbpsの1,000倍の単位 Tbps Gbpsの1,000倍の単位通信速度の場合には、通信速度は通常「ビット／秒」で表現される。バイト（＝8ビット）／秒もまれに使われるので注意が必要。一方、ファイルの大きさなど、データ量を表す場合には、「バイト」を単位とするのが普通。さらに、ファイルなどの場合、K=1,024、M=1,048,576（1,024の２乗）などの場合もあるので要注意。

通信システムの速度通信システムディジタル通信速度注釈音響カプラー 300bps 講師は昔卒研で使った。電話回線最大56Kbps モデムを使う。 ISDN 64Kbps～128Kbps 唯一のディジタル交換網 ADSL 上り１Mbps 下り 1～20Mbps 実効値は千差万別 FTTH 上り 7.4Mbps 下り 39Mbps 講師自宅実測最近はもっと早い FOMA 上り 64Kbps 下り 384Kbps パケット LTE 上り 80Mbps 下り 300Mbps 5G 1Gbps? 基幹網光～100Gbps DWDM

音声と画像の無圧縮時情報速度メディア周波数帯域、チャンネル数標本化周波数、ビット数/標本無圧縮時ビットレート電話音声 3.4KHz 1チャンネル 8KHz 8ビット 64Kbps 音楽２０KHｚ 2チャンネル 44.1KHz,48KHz 16ビット 1.4Mbps 音楽（ハイレゾ）８０KHz 6チャンネル１９２KHｚ 24ビット 27.648Mbps HDTV 1920*1080*30 1.5Gbps~ 4K 3840*2160*60 12Gbps 8K 7680 x 4320 x 120 96Gbps

音声と画像の情報量圧縮の目的伝送コストを安くしたい。携帯電話ビデオ伝送効率よく蓄積したいビデオ音楽映画

（あらためて）「情報量」とは何か？「情報量」とは、捉え方によって異なる。「横浜Fマリノスが勝った」という情報は、ファンには意味があるが、サッカーに興味のない人には無意味な情報である。つまり「情報量０」。通信工学という立場からは、受信側の情報の「捉え方」は問題にしないこととする。やった！情報：横浜Fマリノスが勝った！俺には関係ないね。

情報量（定義） nat bit 対数の底が2のとき、単位はbit（びっと）という対数の底がeのとき、単位はnat（なっと）という P=0.5のとき1ビット p p 確率が小さいほど、情報量は多い。

情報量の期待値＝平均情報量＝情報エントロピー

エントロピーの性質 entropy 前頁では、赤黒の生起確率は0.5で情報エントロピーは1bitだった。２つの事象の生起確率とエントロピー p1 ( = 1 – p2) 一般に、場合の数をNとすると、それぞれの事象の発生確率が1/Nのとき（即ち、全て同じとき）、エントロピーが最大となり、その値は、log2(N)となる。逆に、発生確率が「片寄る」と、エントロピーは減る。

Harry Potter and the Order of Phoenix Harry Potter and Order of the Phoenix, J.K. Rowling Chapter One “DUDLEY DEMENTED” The hottest day of the summer so far was drawing to a close and a drowsy silence lay over the large, square houses of Privet Drive. Cars that were usually gleaming stood dusty in their drives and lawns that were once emerald green lay parched and yellowing; the use Of hosepipes had been banned due to drought. Deprived of their usual car-washing and lawn-mowing pursuits, the inhabitants of Privet Drive had retreated into the shade of their cool houses, windows thrown wide in the hope of tempting in a nonexistent breeze. The only person lea outdoors was a teenage boy who was lying flat on his back in a Rower bed outside number four. …………………. 各文字の発生頻度最初の9ページ分文字数 15717 文字の種類の数 28 （大文字と小文字を区別しないこととした）エントロピー計算結果 4.15 bit ‘ ‘ 2840 . 197 a 1032 b 217 c 266 d 640 e 1554 f 213 g 325 h 879 i 800 j 11 k 117 l 486 m 234 n 956 o 876 p 224 q 9 r 794 s 781 t 1075 u 388 v 132 w 346 x 10 y 306 z 9

効率的な符号化前頁の例では、場合の数は28であった（26のアルファベット＋スペース＋ピリオド）。この28のシンボルを2進数で表すことを考える。最も簡単な方法は、1シンボルあたり、5ビットの数字をひとつずつ割り付ける方法である（5ビットでは、2の5乗、即ち32個のシンボルを表すことができる）。これを固定長符号化という。エントロピーの実測値は4.15bitなので、この方法では、元来の情報量の約20%増の符号量となり得策ではない。固定長符号化の例 ‘ ‘ 00000 . 00001 a 00010 b 00011 c 00100 d 00101 e 00110 F 00111 g 01000 h 01001 i 01010 j 01011 k 01100 l 01101 m 01110 n 01111 o 10000 p 10001 q 10010 r 10011 s 10100 t 10101 u 10110 v 10111 w 11000 x 11001 y 11010 z 11011 （11100から11111までの4つの符号は使用しない）

前頁の例では、固定長(5bit)の符号を用いた。固定長の符号は扱いやすいが、効率が悪い場合がある。符号には固定長の他に、可変長符号がある。効率的な符号化（可変長符号化）前頁の例では、固定長(5bit)の符号を用いた。固定長の符号は扱いやすいが、効率が悪い場合がある。符号には固定長の他に、可変長符号がある。例：袋には4種類の玉が入っている。赤と黒は10個ずつ、白は20個、黄色は、40個とする。全部で80個。玉をひとつ取り出したときの発生確率は、黄色 50%、白25%、赤12.5%、黒12.5%である。以下のような符号を割り振る。黄色 0 白 10 赤 110 黒 111 玉を16回取り出したところ（出したら元に戻してかきまぜる）黄白黒黄黒白黄赤黄白黄白黄赤黄黄とでた。これを符号化すると、 0 10 111 0 111 10 0 110 0 10 0 10 0 110 0 0 となる。詰めて表示すると、 0101110111100110010010011000 (total 28bit) これを復号してみる。左のビットから順番に見ていくと、まず0なので直ちに決まって黄、次は1なので決まらずさらに次を見ると10つまり白、というように、正しく復号できる。場合の数は4なので、固定長符号なら2ビット、16シンボル分では32ビットとなる。可変長符号化の場合には28ビットだったので、効率が上がったことが分かる。

効率的な符号化方法（ハフマン符号化）効率的な可変長符号を決める方法のひとつとして、ハフマン符号化がある。手順は以下のとおり。シンボルについて、その生起確率の小さいものから２つを探す。生起確率が最小のシンボルに”0”、2番目に小さいシンボルに”1”の符号を与える。シンボルが、（３）の合成シンボルの場合、合成前のオリジナルのシンボル全てに符号を与える。この２つのシンボルを合わせてひとつのシンボルと考える（合成シンボル）。新しいシンボルの生起確率は元の値を足したものとする。 1-3の操作で、全体のシンボル数はひとつ減る。全体のシンボル数が1になるまで1-3の操作を繰り返す。終わり。

効率的な符号化方法（ハフマン符号化）前述のHarry Potterのテキストの各文字発生確率から生成したハフマン符号 ‘ ‘ 111 . 010010 a 1010 b 100000 c 110001 d 11010 e 000 f 010011 g 110110 h 0111 i 0101 j 1100101011 k 11001011 l 10001 m 110000 n 1001 o 0110 p 100001 q 1100101000 r 0011 s 0010 t 1011 u 01000 v 1100100 w 110111 x 1100101010 y 110011 z 1100101001 前述のHarry Potterのテキストの各文字発生確率から生成したハフマン符号生起確率の高いシンボルほど短い符号が割り当てられている。平均符号長 4.18 （エントロピーは4.15ビットだった）固定長符号化に比べ、ずっと効率が良い。

結合確率色付きの形違いのタイルがたくさんある目をつぶって一つ取り出す。手触りで形はわかる。形が分かった時、色が分かるか？

この場合は？

確率事象の結合

確率事象の結合参考 x1y1+x1y2+x1y3+… x2y1+x2y2+x2y3+… …. = …. = (x1 + x2 + x3 + …)(y1 + y2 + y3 …)

結合確率のエントロピー

結合確率のエントロピー重要：つまり、各々の事象のエントロピーより結合事象のエントロピーの方が小さい（あるいは等しい）、ということになる。

結合確率 j p(i ,j) i p(i) p(j) Triangle Circle Rectangle Star Red 0.1000 0.0100 0.0700 0.0200 0.20 Blue 0.0250 0.1400 0.0050 0.1300 0.30 Yellow 0.0775 0.0625 0.15 Pink 0.0475 0.1450 0.0125 0.35 0.25 色だけ i p(i) 形だけ p(j) Triangle 25 Circle 30 Rectangle 15 Star 30 Red 20 Blue 30 Yellow 15 Pink 35 独立でない場合

結合確率 j p(i ,j) i p(i) p(j) Triangle Circle Rectangle Star Red 0.0500 0.0600 0.0300 0.20 Blue 0.0750 0.0900 0.0450 0.30 Yellow 0.0375 0.0225 0.15 Pink 0.0875 0.1050 0.0525 0.35 0.25 色だけ i p(i) 形だけ p(j) Triangle 25 Circle 30 Rectangle 15 Star 30 Red 20 Blue 30 Yellow 15 Pink 35 独立な場合

結合確率前頁の性質を使うと、情報量の圧縮ができる。つまり、複数のイベントの結合確率p(i,j,…)を求め、その複数のイベントをまとめて符号化すれば、イベントをひとつずつ符号化するより出力符号量を減らすことができる。例えば、イベント１は、テキストの奇数番目の文字イベント２は、テキストの偶数番目の文字と考え、文字を２つずつ組にして符号化することが考えられる。 The hottest day of the summer so far was drawing to a close and a drowsy silence lay over the large, square houses of Privet Drive.

確率事象の結合事象の数場合の数エントロピー一文字あたりのエントロピー 1文字 15717 28 4.14 2文字 7858 385 前述のHarry Potterのテキストで、1文字ずつを事象とした場合、2文字ずつを事象とした場合、3文字ずつを事象とした場合で計算してみた。複数の文字をまとめてひとつの事象と捉えることで、一文字あたりのエントロピー、即ち情報量が減ることが分かる。これは、隣り合う文字間に何らかの関連があるからである。事象の数場合の数エントロピー一文字あたりのエントロピー 1文字 15717 28 4.14 2文字 7858 385 7.44 3.72 3文字 5239 1521 9.70 3.23

「確率事象」とは、「袋から玉を取り出す」ことのように、確率的に生起する事象のことを言う。確率事象と確率過程「確率事象」とは、「袋から玉を取り出す」ことのように、確率的に生起する事象のことを言う。確率事象が連続的に起きる場合、それを「確率過程」という。通信システムで伝送する信号は「確率過程」であるということができる。信号がメールであれば、一文字一文字が「確率事象」であり、そのまとまりであるメールは、「確率過程」である。例えば、音声信号のような一次元信号であれば、サンプル値ひとつひとつが「確率事象」であり、その連続であるディジタル音声信号は「確率過程」である。このような場合の「確率事象」を「確率変数」と呼ぶ。

テキスト、音声信号、画像信号などは、時間的、あるいは、空間的に「近い」標本間での関連が高い。マルコフ過程テキスト、音声信号、画像信号などは、時間的、あるいは、空間的に「近い」標本間での関連が高い。例えば、テキストの場合、ある文字の発生確率は、その直前、さらにその前、．．．の文字により変化する。このように、ある時点での事象の発生確率がそれ以前に生起したN個の事象に影響されるとき、それを「N次のマルコフ過程」という。マルコフ過程は、実際の信号の近似的なモデルとしてよく利用されている。本講義では「マルコフ過程」について詳しく調べることはしませんが、その概念は覚えておいてください。

量子化とは、連続的な値（アナログ値）を飛び飛びの値に「丸める」ことである（ディジタル化）。既に量子化されている信号をさらに粗く「丸める」ことも「量子化」という場合がある。量子化を行うと、もとの信号との誤差が発生する。これを量子化誤差、あるいは、量子化雑音という。量子化出力量子化誤差量子化代表値真値

量子化雑音量子化出力量子化出力真値真値細かい量子化量子化雑音小粗い量子化量子化雑音大代表値数は多くなる代表値数が少ない細かい量子化量子化雑音小代表値数は多くなる即ち、情報量大粗い量子化量子化雑音大代表値数が少ない即ち、情報量小 WAVEファイルを量子化する実験を行う。量子化誤差を「量子化雑音」という意味が分かると思う。画像ファイルを量子化する実験を行う。画像の場合、劣化は雑「音」ではないが、慣習的にやはり「量子化雑音」という場合が多い。

前頁で、音声や画像では、「完全再生」は必要ないと述べた。では、どの程度不完全でも良いのであろうか？再生信号の評価前頁で、音声や画像では、「完全再生」は必要ないと述べた。では、どの程度不完全でも良いのであろうか？いくつかの尺度がある。例えば、次の式で与えられる平均二乗誤差。しかし、最終的には、複数の人間が実際にオリジナル信号と再生信号（復号された信号）を聞き（見）比べて評価することが多い。このような方法を「主観評価」という。

量子化雑音のパワー量子化出力左の図のように等間隔で量子化する場合を一様量子化という。量子化代表値の間隔（ステップサイズ）をSとすると、量子化雑音は、以下のように計算できる。 e=S/2 e=-S/2 真値

確率過程の効率的符号化方法？信号の標本化と量子化 Nサンプルずつグループ化するグループのサンプルの結合確率密度にここまでの学習をまとめると、信号の効率的符号化方法は、以下のようになるであろう。信号の標本化と量子化量子化には、情報量と雑音のトレードオフがある。 Nを大きくすると、シンボル数が一サンプルの代表値数のN乗の比例して増加してしまう。 Nサンプルずつグループ化するグループのサンプルの結合確率密度に従いハフマン符号化を行う

現実論ディジタル音声信号を符号化しよう。ここで、互いに関係しあうサンプルをまとめて符号化することで、効率を上げる。このまとまりを、例えば、20サンプルとする（本来、もっと多くのサンプルが互いに関連していると思われる）。標本値は、256通りである。20サンプルまとめてひとつの事象だと考えるので、場合の数は256の20乗となる。ハフマン符号を生成するため、 256の20乗のそれぞれのパターンの発生確率を求めねばならない。発生確率は、その母集団から十分なサンプルを収集してそのヒストグラムから計算できる。しかし、 256の20乗個（49桁）のパターンに対する発生確率を求めるためのサンプル数は膨大となる。またそのハフマン符号の生成、利用も容易ではない。つまり、この方法は現実的でない。現実的な情報量圧縮符号の「戦略」は次ページ。

音声と画像の情報量圧縮の「戦略」音声、音楽、画像の各標本値は、他の近隣の標本値と関連がある。即ち、冗長性がある。最初に、信号の性質に着目して、冗長性を削減することで情報量を減らす。音声や画像では、完全に再生できなくても支障がない場合が多い。「完全に再生する」ことをあきらめる事で、さらに情報量を削減する。最終的に得られた値（シンボル）を効率よくビット列にする。「完全に再生できない」場合の元信号との差を「符号化雑音」という。これを目立たせないように、復号の後で何らかの処理を加える。次回へ続く。。。