「情報」 (中村) オリジナル PPT (2010/05/07) 1 1
第2章 情報の表現 記号・符号化
10進法と16進法の表記の比較 A45F = 42,079 44,604 = FA3C グレイ符号 構成法は HTML で説明 整数の表現-2進法10進法16進法 11 10001 17 10 10000 16 F 1111 15 E 1110 14 D 1101 13 C 1100 12 B 1011 A 1010 9 1001 8 1000 7 111 6 110 5 101 4 100 3 2 1 16 進法 2 進法 10 進法 グレイ符号 10進法と16進法の表記の比較 00000 00001 00011 00010 00110 00111 00101 00100 01100 01101 01111 01110 01010 01011 01001 01000 10000 11001 A45F = 42,079 44,604 = FA3C グレイ符号 構成法は HTML で説明 3
文字・記号とコード化の種類(1バイト文字=半角文字) ■ASCIIコード(1バイト文字=半角文字) (American Standard Code for Information Interchange) 1963年にアメリカ規格協会(ANSI)で定められた文字コード。 7ビット128文字で構成されている。94文字がアルファベット・数字・記号等の印刷可能な文字。34文字が空白文字と制御記号。 滅多に文字化けしない。 ・実際には7ビットに、1 ビットのパリティビット加えた 8 ビット (1 バイト) で扱われる。 Def. 1バイト=8ビット それゆえ、メモリなどの容量を示すのにバイトが使われる。(基本的に文字数をそのまま表すから。) 4 4
ASCII コード a (0110 0001) b (0110 0010), c (0110 0011) これらの8ビットの 0, 1 の列の内、最後の7ビットで文字を表現し、ゆえに、2の7乗つまり128通りあるから、計算機内では余分な 1 ビットを加えて、8 ビット= 1 バイト (byte) で表現している。 ( 1 byte = ASCII 文字 1 文字) ■ JISコード (1バイト文字=半角文字) ASCII で表現される文字は、英字、数字、他に ? # などのいくつかの記号である。日本ではこれにカタカナ(半角カナ)を加えてJIS コードとしている。
2バイト文字(全角文字)(日本語の表記) ■ JISコード:日本語で漢字も含めて扱おうとすると、128通りでは足りない。そこで日本では JIS(日本工業規格)によって漢字を表わすコードが定められている。そこでは漢字、ひらがな、カタカナを 16ビット(2バイト)で表わす。 16ビットの列は、2の16乗=65536通りあるので、ひらかな、カタカナと日常に必要とされる程度の漢字をそこに割り当てて、表現できる。 JIS コードを持つ漢字のうち、比較的良く使われる漢字を第一水準(2965字)、その他を第二水準(3388字)と区別してある。 例 漢字(全角文字)のJIS コードの例。 JIS コードの 16ビット列は、通例4けたの16進数の列として表記される。次がその例。左が16進数の4つ組、右がそのビット列。 中 --> 4 3 6 6 = (0100 0011 0110 0110) 村 --> 4 2 3 C = (0100 0010 0011 1100) 6
■Shift JISコード Microsoftによって考案された、日本で一番使用されている日本語文字コード。 主にMS-DOS、Windows、Mac OS、OS/2等のOSで広く使用される。パソコンで使われている。 半角カナを扱うことが可能。 ASCII部分は、7bitのJIS X 0201のローマ字で表現しているため、 ・バックスラッシュ(半角の\)⇒円記号(\) ・ティルダ(~)⇒オーバースコア( ̄)の違いがある。 7
■EUC-JPコード 主に UNIX、Linux で広く使用される。 情報棟の UNIX サーバでは EUC が使われている。そのため日本語をファイル名に使えない。 ■Unicode すべての文字を16ビット(2バイト)で表現し、1つの文字コード体系で多国語処理を想定した文字コード。 2バイト表記の場合、最大65536文字の表現の為、漢字圏の言語は全てをサポート出来ない問題がある。 JavaではUnicodeをデフォルトのデータ型としている。 情報棟端末ではUTF-8 を使っている。 8
情報表現の様々な側面(1) 情報の説明の仕方の違い 情報の表現のされ方の違い 手続き的表現 宣言的表現 記号表現 パターン表現 時間をおった手順を説明 宣言的表現 対象間の関係や対象の属性を説明 情報の表現のされ方の違い 記号表現 与えられた記号の集合と解釈するための規則体系 パターン表現 構成要素間の時空間パターン
記号の恣意性 これは本来、構造主義の用語である。別述。 車両通行禁止の標識(日本) すべての車両通行禁止(欧州) 二輪車以外の車両通行禁止(欧州) 記号の恣意性 これは本来、構造主義の用語である。別述。 記号表現と命題の対応付けは恣意的である
アナログ表現とディジタル表現の実際 量子化 観測値を離散的に取る 例 気温を 0.1 度単位ではかる 量子化 観測値を離散的に取る 例 気温を 0.1 度単位ではかる 標本化 観測の時間間隔を離散的にする 例 1時間ごとの気温をはかる (左の図)気温のアナログ表現-観測の標本化 (右の図)気温のディジタル表現-標本化と観測値の量子化 11 11
例 上限が 2000Hz の情報を復元するには、時間間隔 4000Hz 以上でサンプリング、標本化すれば、元のデータが復元できる。 ・標本化定理 標本化するときの周波数 を t とすると、 の周波数まで復元できる 。 をナイキスト周波数と呼ぶ。 例 上限が 2000Hz の情報を復元するには、時間間隔 4000Hz 以上でサンプリング、標本化すれば、元のデータが復元できる。 12
量子化と標本化の実際 情報の用途によって間隔の詳細度を決める 音楽CDのデジタル化 標本化 量子化 コンピュータディスプレイ装置 赤(R)緑(G)青(B)を混色したRGB形式を用いている 各々 8 ビット=256種類の異なる色で表現 256×256×256=16,777,216色を表示できる 音楽CDのデジタル化 人は通常 20Hzから、個人差があるが 15,kHz ないし20 kHz 程度の音を音として感じることができ、この周波数帯域を可聴域と いう。 . 標本化 標本化の基準:44.1kHz 1/44100=0.0000227秒間隔で音の情報を標本化 量子化 量子化のために16ビットを用いて、音の振幅を65536(2の16乗)個の段階に分割している。周波数の対数を 65536 分の一に分けているはずだと思う。(Weberの法則) 人間の視覚、聴覚の分解能を十分カバーできる詳細な量子化になっている 13 13
エイリアシング 対象にナイキスト周波数より高い周波数の周期関数が含まれている場合に,誤った関数が復元される現象をエイリアシングと呼ぶ (左の図)オリジナル画像 (右の図)エイリアシングが生じた例
標本化定理 f(t) が W以上の周波数成分を持たないとき での 時刻 から 観測値 もとの信号関数が一意に復元できる 15
2.4 ディジタル符号化 ハミング距離 二つの記号列 の間の距離を で定義する 16
[演習] ハミング距離が上の3つの公理を満たすことを示せ。 A=(0 0 1 0 1 1 1 1 0 0 0 1 1 1 0 0) B=(0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0) ハミング距離は3である。 数学上の距離の定義:以下の3つの性質を持つこと [演習] ハミング距離が上の3つの公理を満たすことを示せ。