情報通信システム(6) http://www10. plala. or 情報通信システム(6) http://www10.plala.or.jp/katofmly/chiba-u/ 2018年5月29日 火曜日  午後4時10分~5時40分 NTT-TX Corp. 加藤 洋一.

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

知能情報工学 年4月26日 吉川雅博 第3回第3回 k最近傍法. プロトタイプによるNN法の流れ 2 AD変換前処理部特徴抽出部識別部 ・標本化 ・量子化 ・ノイズ除去 ・正規化 識別辞書 (プロトタイプ) 音声や画像 (アナログ信号) 識別 結果 識別が容易な 特徴を抽出 プロトタイプと比較.
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
データの圧縮.
授業展開#3 アナログとデジタル.
第2章 第2節 情報通信の効率的な方法 1 情報の容量と伝送の特性 2 データの圧縮 3 エラー検出とエラー訂正
第1節 コンピュータにおける 情報のあらわし方
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
「わかりやすいパターン認識」 第1章:パターン認識とは
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
第1章 第1節 情報のディジタル化のしくみ 4 音の表現 5 画像の表現
情報A 第12回授業 04情報のディジタル化 対応ファイル:12exp12.xls
情報通信システム(8) plala. or 情報通信システム(8) 年6月21日 火曜日  午後4時10分~5時40分 NTT-IT Corp. 加藤 洋一.
コンピュータ基礎(10) 11章 通信ネットワーク.
情報科指導法Ⅰ 第11回 年間授業計画表.
情 報 の 表 現(3) 情報社会とコンピュータ 第10回.
第1章 第1節 情報のディジタル化のしくみ 4 音の表現 5 画像の表現
アナログとディジタル 五感 視覚、聴覚、味覚、臭覚、触覚 埼玉県立越ヶ谷高等学校・情報科.
第5回 ディジタル回路内の数値表現 瀬戸 ディジタル回路内部で,数を表現する方法(2進数)を学ぶ 10進数⇔2進数⇔16進数の変換ができる
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
第三章 ディジタル符号変換の基礎 3・1PCMパルス符号変換 3・2符号変換 3・3通信路符号形式 3・4スクランブル.
Bias2 - Variance - Noise 分解
PSOLA法を用いた極低ビットレート音声符号化に関する検討
アナログとディジタル 高校1年 社会と情報⑤.
家庭からのインターネット ラスト・ワン・マイル ダイアルアップと常時接続 接続帯域
2012年度 情報数理 ~ QRコードを作ろう!(1) ~.
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
コンピュータ基礎(10) 11章 通信ネットワーク.
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
情 報 A ー ディジタル化のしくみ ー.
1. アナログ と ディジタル 五島 正裕.
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
画像のディジタル化 1 A/D変換器 光強度のアナログ情報をディジタル信号に変換する 標本化:sampling
第3回: 今日の目標 平均情報量を説明し、計算できる シャノンの通信モデルを説明できる 情報源符号化の条件を示せる
ディジタル信号処理 Digital Signal Processing
情報通信システム(13) plala. or 情報通信システム(13) 年7月24日 火曜日  午後4時10分~5時40分 NTT-TX Corp. 加藤 洋一.
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
情報機器の発達とディジタル化 第2節 情報のディジタル化②
授業展開#3 アナログとデジタル.
コンピュータを知る 1E16M009-1 梅津たくみ 1E16M017-8 小沢あきら 1E16M035-0 柴田かいと
画像情報特論 (5) - ディジタル圧縮 (2) 音声・オーディオ圧縮 電子情報通信学科 甲藤二郎
2. 論理ゲート と ブール代数 五島 正裕.
2章 暗号技術 FM15002 友池 絲子.
予測に用いる数学 2004/05/07 ide.
2012年度 情報数理 ~ 様々なデジタル情報(1) ~.
画像の情報量 Copyright(C)2008 Tsutomu Ohara All rights reserved.
情報通信システム(7) plala. or 情報通信システム(7) 年6月12日 火曜日  午後4時10分~5時40分 NTT-TX Corp. 加藤 洋一.
様々な情報源(4章).
音声のディジタル化 Copyright(C)2004 Tsutomu Ohara All rights reserved.
情報処理Ⅱ 第2回:2003年10月14日(火).
Hoffman符号 2011/05/23.
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
情報A 第15回授業 04情報のディジタル化 対応ファイル:12exp15.xls
2010年度 情報数理 ~ 様々なデジタル情報(1) ~.
アナログとデジタル.
第2回 標本化と量子化.
音声のディジタル化 Copyright(C)2004 Tsutomu Ohara All rights reserved.
コンピュータ・ネットワーク工学科 後藤 滋樹
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
画像の情報量 Copyright(C)2008 Tsutomu Ohara All rights reserved.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
情報通信システム(6) plala. or 情報通信システム(6) 年5月28日 火曜日  午後4時10分~5時40分 NTT-TX Corp. 加藤 洋一.
2019年度 情報数理特論B ~ 様々なデジタル情報(1) ~.
第5章 伝送理論と伝送技術 5.1 電気通信設備の概要 5.2 アナログ伝送方式 5.3 ディジタル伝送方式 5.4 データ伝送方式
コンピュータと音 B3 入野仁志(irino).
Presentation transcript:

情報通信システム(6) http://www10. plala. or 情報通信システム(6) http://www10.plala.or.jp/katofmly/chiba-u/ 2018年5月29日 火曜日  午後4時10分~5時40分 NTT-TX Corp. 加藤 洋一

通信速度の場合には、通信速度は通常「ビット/秒」で表現される。バイト(=8ビット)/秒もまれに使われるので注意が必要。 通信速度の単位 bps 1秒間に伝送される「ビット」の数 Kbps bpsの1,000倍の単位 Mbps Kbpsの1,000倍の単位 Gbps Mbpsの1,000倍の単位 Tbps Gbpsの1,000倍の単位 通信速度の場合には、通信速度は通常「ビット/秒」で表現される。バイト(=8ビット)/秒もまれに使われるので注意が必要。 一方、ファイルの大きさなど、データ量を表す場合には、「バイト」を単位とするのが普通。 さらに、ファイルなどの場合、K=1,024、M=1,048,576(1,024の2乗)などの場合もあるので要注意。

通信システムの速度 通信システム ディジタル通信速度 注釈 音響カプラー 300bps 講師は昔卒研で使った。 電話回線 最大56Kbps モデムを使う。 ISDN 64Kbps~128Kbps 唯一のディジタル交換網 ADSL 上り 1Mbps 下り 1~20Mbps 実効値は千差万別 FTTH 上り 7.4Mbps 下り 39Mbps 講師自宅実測 最近はもっと早い FOMA 上り 64Kbps 下り 384Kbps パケット LTE 上り 80Mbps 下り 300Mbps 5G 1Gbps? 基幹網光 ~100Gbps DWDM

音声と画像の無圧縮時情報速度 メディア 周波数帯域、チャンネル数 標本化周波数、ビット数/標本 無圧縮時ビットレート 電話音声 3.4KHz 1チャンネル 8KHz 8ビット 64Kbps 音楽 20KHz 2チャンネル 44.1KHz,48KHz 16ビット 1.4Mbps 音楽(ハイレゾ) 80KHz 6チャンネル 192KHz 24ビット 27.648Mbps HDTV 1920*1080*30 1.5Gbps~ 4K 3840*2160*60 12Gbps 8K 7680 x 4320 x 120 96Gbps

音声と画像の情報量圧縮の目的 伝送コストを安くしたい。 携帯電話 ビデオ伝送 効率よく蓄積したい ビデオ 音楽 映画

(あらためて)「情報量」とは何か? 「情報量」とは、捉え方によって異なる。 「横浜Fマリノスが勝った」という情報は、ファンには意味があるが、サッカーに興味のない人には無意味な情報である。つまり「情報量0」。 通信工学という立場からは、受信側の情報の「捉え方」は問題にしないこととする。 やった! 情報:横浜Fマリノスが勝った! 俺には関係ないね。

情報量(定義) nat bit 対数の底が2のとき、単位はbit(びっと)という 対数の底がeのとき、単位はnat(なっと)という P=0.5のとき1ビット p p 確率が小さいほど、情報量は多い。

情報量の期待値=平均情報量=情報エントロピー

エントロピーの性質 entropy 前頁では、赤黒の生起確率は0.5で情報エントロピーは1bitだった。 2つの事象の生起確率とエントロピー p1 ( = 1 – p2) 一般に、場合の数をNとすると、それぞれの事象の発生確率が1/Nのとき(即ち、全て同じとき)、エントロピーが最大となり、その値は、log2(N)となる。逆に、発生確率が「片寄る」と、エントロピーは減る。

Harry Potter and the Order of Phoenix Harry Potter and Order of the Phoenix, J.K. Rowling Chapter One “DUDLEY DEMENTED” The hottest day of the summer so far was drawing to a close and a drowsy silence lay over the large, square houses of Privet Drive. Cars that were usually gleaming stood dusty in their drives and lawns that were once emerald green lay parched and yellowing; the use Of hosepipes had been banned due to drought. Deprived of their usual car-washing and lawn-mowing pursuits, the inhabitants of Privet Drive had retreated into the shade of their cool houses, windows thrown wide in the hope of tempting in a nonexistent breeze. The only person lea outdoors was a teenage boy who was lying flat on his back in a Rower bed outside number four. …………………. 各文字の発生頻度 最初の9ページ分 文字数 15717 文字の種類の数 28 (大文字と小文字を区別 しないこととした) エントロピー 計算結果 4.15 bit ‘ ‘ 2840 . 197 a 1032 b 217 c 266 d 640 e 1554 f 213 g 325 h 879 i 800 j 11 k 117 l 486 m 234 n 956 o 876 p 224 q 9 r 794 s 781 t 1075 u 388 v 132 w 346 x 10 y 306 z 9

効率的な符号化 前頁の例では、場合の数は28であった(26のアルファベット+スペース+ピリオド)。この28のシンボルを2進数で表すことを考える。 最も簡単な方法は、1シンボルあたり、5ビットの数字をひとつずつ割り付ける方法である(5ビットでは、2の5乗、即ち32個のシンボルを表すことができる)。これを固定長符号化という。 エントロピーの実測値は4.15bitなので、この方法では、元来の情報量の約20%増の符号量となり得策ではない。 固定長符号化の例 ‘ ‘ 00000 . 00001 a 00010 b 00011 c 00100 d 00101 e 00110 F 00111 g 01000 h 01001 i 01010 j 01011 k 01100 l 01101 m 01110 n 01111 o 10000 p 10001 q 10010 r 10011 s 10100 t 10101 u 10110 v 10111 w 11000 x 11001 y 11010 z 11011 (11100から11111までの4つの符号は使用しない)

前頁の例では、固定長(5bit)の符号を用いた。固定長の符号は扱いやすいが、効率が悪い場合がある。 符号には固定長の他に、可変長符号がある。 効率的な符号化(可変長符号化) 前頁の例では、固定長(5bit)の符号を用いた。固定長の符号は扱いやすいが、効率が悪い場合がある。 符号には固定長の他に、可変長符号がある。 例: 袋には4種類の玉が入っている。赤と黒は10個ずつ、 白は20個、黄色は、40個とする。全部で80個。玉をひとつ取り出したときの発生 確率は、黄色 50%、白25%、赤12.5%、黒12.5%である。 以下のような符号を割り振る。 黄色 0 白 10 赤 110 黒 111 玉を16回取り出したところ(出したら元に戻してかきまぜる) 黄 白 黒 黄 黒 白 黄 赤 黄 白 黄 白 黄 赤 黄 黄 とでた。これを符号化すると、 0 10 111 0 111 10 0 110 0 10 0 10 0 110 0 0 となる。詰めて表示すると、 0101110111100110010010011000 (total 28bit) これを復号してみる。左のビットから順番に見ていくと、まず0なので直ちに決まって黄、次は1なので決まらずさらに次を見ると10つまり白、というように、正しく復号できる。 場合の数は4なので、固定長符号なら2ビット、16シンボル分では32ビットとなる。可変長符号化の場合には28ビットだったので、効率が上がったことが分かる。

効率的な符号化方法(ハフマン符号化) 効率的な可変長符号を決める方法のひとつとして、ハフマン符号化がある。手順は以下のとおり。 シンボルについて、その生起確率の小さいものから2つを探す。 生起確率が最小のシンボルに”0”、2番目に小さいシンボルに”1”の符号を与える。シンボルが、(3)の合成シンボルの場合、合成前のオリジナルのシンボル全てに符号を与える。 この2つのシンボルを合わせてひとつのシンボルと考える(合成シンボル)。新しいシンボルの生起確率は元の値を足したものとする。 1-3の操作で、全体のシンボル数はひとつ減る。全体のシンボル数が1になるまで1-3の操作を繰り返す。 終わり。

効率的な符号化方法(ハフマン符号化) 前述のHarry Potterのテキストの各文字発生確率から生成したハフマン符号 ‘ ‘ 111 . 010010 a 1010 b 100000 c 110001 d 11010 e 000 f 010011 g 110110 h 0111 i 0101 j 1100101011 k 11001011 l 10001 m 110000 n 1001 o 0110 p 100001 q 1100101000 r 0011 s 0010 t 1011 u 01000 v 1100100 w 110111 x 1100101010 y 110011 z 1100101001 前述のHarry Potterのテキストの各文字発生確率から生成したハフマン符号 生起確率の高いシンボルほど短い符号が割り当てられている。 平均符号長 4.18 (エントロピーは4.15ビットだった) 固定長符号化に比べ、ずっと効率が良い。

結合確率 色付きの形違いのタイルがたくさんある 目をつぶって一つ取り出す。手触りで形はわかる。 形が分かった時、色が分かるか?

この場合は?

確率事象の結合

確率事象の結合 参考 x1y1+x1y2+x1y3+… x2y1+x2y2+x2y3+… …. = …. = (x1 + x2 + x3 + …)(y1 + y2 + y3 …)

結合確率のエントロピー

結合確率のエントロピー 重要:つまり、各々の事象のエントロピーより結合事象のエントロピーの方が小さい(あるいは等しい)、ということになる。

結合確率 j p(i ,j) i p(i) p(j) Triangle Circle Rectangle Star Red 0.1000 0.0100 0.0700 0.0200 0.20 Blue 0.0250 0.1400 0.0050 0.1300 0.30 Yellow 0.0775 0.0625 0.15 Pink 0.0475 0.1450 0.0125 0.35 0.25 色だけ i p(i) 形だけ p(j) Triangle 25 Circle 30 Rectangle 15 Star 30 Red 20 Blue 30 Yellow 15 Pink 35 独立でない場合

結合確率 j p(i ,j) i p(i) p(j) Triangle Circle Rectangle Star Red 0.0500 0.0600 0.0300 0.20 Blue 0.0750 0.0900 0.0450 0.30 Yellow 0.0375 0.0225 0.15 Pink 0.0875 0.1050 0.0525 0.35 0.25 色だけ i p(i) 形だけ p(j) Triangle 25 Circle 30 Rectangle 15 Star 30 Red 20 Blue 30 Yellow 15 Pink 35 独立な場合

結合確率 前頁の性質を使うと、情報量の圧縮ができる。つまり、複数のイベントの結合確率p(i,j,…)を求め、その複数のイベントをまとめて符号化すれば、イベントをひとつずつ符号化するより出力符号量を減らすことができる。 例えば、 イベント1は、テキストの奇数番目の文字 イベント2は、テキストの偶数番目の文字 と考え、文字を2つずつ組にして符号化することが考えられる。 The hottest day of the summer so far was drawing to a close and a drowsy silence lay over the large, square houses of Privet Drive.

確率事象の結合 事象の数 場合の数 エントロピー 一文字あたりのエントロピー 1文字 15717 28 4.14 2文字 7858 385 前述のHarry Potterのテキストで、1文字ずつを事象とした場合、2文字ずつを事象とした場合、3文字ずつを事象とした場合で計算してみた。 複数の文字をまとめてひとつの事象と捉えることで、一文字あたりのエントロピー、即ち情報量が減ることが分かる。これは、隣り合う文字間に何らかの関連があるからである。 事象の数 場合の数 エントロピー 一文字あたりのエントロピー 1文字 15717 28 4.14 2文字 7858 385 7.44 3.72 3文字 5239 1521 9.70 3.23

「確率事象」とは、「袋から玉を取り出す」ことのように、確率的に生起する事象のことを言う。 確率事象と確率過程 「確率事象」とは、「袋から玉を取り出す」ことのように、確率的に生起する事象のことを言う。 確率事象が連続的に起きる場合、それを「確率過程」という。 通信システムで伝送する信号は「確率過程」であるということができる。 信号がメールであれば、一文字一文字が「確率事象」であり、そのまとまりであるメールは、 「確率過程」である。 例えば、音声信号のような一次元信号であれば、サンプル値ひとつひとつが「確率事象」であり、その連続であるディジタル音声信号は「確率過程」である。このような場合の「確率事象」を「確率変数」と呼ぶ。

テキスト、音声信号、画像信号などは、時間的、あるいは、空間的に「近い」標本間での関連が高い。 マルコフ過程 テキスト、音声信号、画像信号などは、時間的、あるいは、空間的に「近い」標本間での関連が高い。 例えば、テキストの場合、ある文字の発生確率は、その直前、さらにその前、...の文字により変化する。このように、ある時点での事象の発生確率がそれ以前に生起したN個の事象に影響されるとき、それを「N次のマルコフ過程」という。 マルコフ過程は、実際の信号の近似的なモデルとしてよく利用されている。 本講義では「マルコフ過程」について詳しく調べることはしませんが、その概念は覚えておいてください。

量子化とは、連続的な値(アナログ値)を飛び飛びの値に「丸める」ことである(ディジタル化)。 既に量子化されている信号をさらに粗く「丸める」ことも「量子化」という場合がある。 量子化を行うと、もとの信号との誤差が発生する。これを量子化誤差、あるいは、量子化雑音という。 量子化出力 量子化誤差 量子化代表値 真値

量子化雑音 量子化出力 量子化出力 真値 真値 細かい量子化 量子化雑音小 粗い量子化 量子化雑音大 代表値数は多くなる 代表値数が少ない 細かい量子化 量子化雑音小 代表値数は多くなる 即ち、情報量大 粗い量子化 量子化雑音大 代表値数が少ない 即ち、情報量小 WAVEファイルを量子化する実験を行う。量子化誤差を「量子化雑音」という意味が分かると思う。 画像ファイルを量子化する実験を行う。画像の場合、劣化は雑「音」ではないが、慣習的にやはり「量子化雑音」という場合が多い。

前頁で、音声や画像では、「完全再生」は必要ないと述べた。では、どの程度不完全でも良いのであろうか? 再生信号の評価 前頁で、音声や画像では、「完全再生」は必要ないと述べた。では、どの程度不完全でも良いのであろうか? いくつかの尺度がある。例えば、次の式で与えられる平均二乗誤差。 しかし、最終的には、複数の人間が実際にオリジナル信号と再生信号(復号された信号)を聞き(見)比べて評価することが多い。 このような方法を「主観評価」という。

量子化雑音のパワー 量子化出力 左の図のように等間隔で量子化する場合を一様量子化という。量子化代表値の間隔(ステップサイズ)をSとすると、量子化雑音は、以下のように計算できる。 e=S/2 e=-S/2 真値

確率過程の効率的符号化方法? 信号の標本化と量子化 Nサンプルずつグループ化する グループのサンプルの結合確率密度に ここまでの学習をまとめると、信号の効率的符号化方法は、以下のようになるであろう。 信号の標本化と量子化 量子化には、情報量と雑音のトレードオフがある。 Nを大きくすると、シンボル数が一サンプルの代表値数のN乗の比例して増加してしまう。 Nサンプルずつグループ化する グループのサンプルの結合確率密度に 従いハフマン符号化を行う

現実論 ディジタル音声信号を符号化しよう。ここで、互いに関係しあうサンプルをまとめて符号化することで、効率を上げる。このまとまりを、例えば、20サンプルとする(本来、もっと多くのサンプルが互いに関連していると思われる)。 標本値は、256通りである。20サンプルまとめてひとつの事象だと考えるので、場合の数は256の20乗となる。 ハフマン符号を生成するため、 256の20乗のそれぞれのパターンの発生確率を求めねばならない。発生確率は、その母集団から十分なサンプルを収集してそのヒストグラムから計算できる。しかし、 256の20乗個(49桁)のパターンに対する発生確率を求めるためのサンプル数は膨大となる。またそのハフマン符号の生成、利用も容易ではない。 つまり、この方法は現実的でない。 現実的な情報量圧縮符号の「戦略」は次ページ。

音声と画像の情報量圧縮の「戦略」 音声、音楽、画像の各標本値は、他の近隣の標本値と関連がある。即ち、冗長性がある。最初に、信号の性質に着目して、冗長性を削減することで情報量を減らす。 音声や画像では、完全に再生できなくても支障がない場合が多い。「完全に再生する」ことをあきらめる事で、さらに情報量を削減する。 最終的に得られた値(シンボル)を効率よくビット列にする。 「完全に再生できない」場合の元信号との差を「符号化雑音」という。これを目立たせないように、復号の後で何らかの処理を加える。 次回へ続く。。。