情報量とエントロピー 田浦健次朗.

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

情報量とエントロピー 田浦健次朗

本日の範囲 コンピュータにおける情報の表現 ファイルとその中身 コンピュータの仕組み 通信・ネットワーク,インターネット 情報の符号化,その限界 ファイルとフォルダ コマンドライン プログラムの仕組み 通信の符号化,その限界 暗号 簡単なプログラムの作成・実行 Excelで計算・データの可視化 基礎的概念 (本講義中では)やや高度な概念 実技・実践

計算機による情報表現の基本 (人間が)計算機を通じて目にする「情報」には様 々なものがある 文字, 絵, 音, 動画, etc. 計算機はそれらすべての情報を 0/1 (bit)の列とし て表現する というよりもbitの列しか蓄積・処理できない 注:通常 8 bit 未満の単位で情報を蓄積・処理する ことはないので, 8 bitをまとめてバイト(byte)と呼 び, 「すべてをバイト列で表現する」というのが 実際に近い

用語: 符号化と復号化 符号化(encoding) (なんらかの意味のある)「情報」 → バイトの列 復号化(decoding) バイトの列 → (なんらかの意味のある)「情報」 「情報」 「情報」の符号 符号化 ○○さん こんにちは 226 151 139 226 151 ... 復号化 255 216 255 224 0 ... 212 0 124 218 26 34 58 29 ...

符号化にあたっての一般的な制約 (当然のことながら)符号から,元の情報が復元可能 でなくてはならない A → 00 B → 01 C → 000 D → 1 というわけにはいかない(0001はABなのかCDな のか?)

本日の内容 情報量と情報エントロピー 効率の良い符号化(圧縮) 情報源符号化定理

全体を通した動機付け 符号化の方法にも色々ある cf. 前回の演習 テキストファイル vs それをgzipで圧縮したもの BMPファイル vs JPEGファイル どうせ符号化するなら効率が良い(=必要なバイト 数が少ない)符号化を考えたい どのようにしたらそれが達成できるか? 限界はあるのか? 情報量やエントロピーは,それらに対する答えを 与えてくれる

準備:確率に関する用語の復習(1) 事象(event) ある確率で起こる事柄 よく使う記号: A, B, C, ... 例 サイコロを2個ふってたして10が出る 明日の天気が晴れ 画像中の(5,8)の画素が青である 文章の最初の文字が 'T' である P(A) : 事象Aが起こる確率

準備:確率に関する用語の復習(2) 確率分布(probability distribution) 起こりうる全事象とその確率の組の集合 { (A1, p1), (A2, p2), ..., (An, pn) } 注: ここおよび以降, 全事象は有限個と仮定する 事象に確率を割り当てる関数P(A)のこと,という 言い方もできる

確率分布の例(1) サイコロを2個ふって出た目の和 (2が出る, 1/36) (3が出る, 1/18) ... (12が出る, 1/36) 明日の天気 (晴, 1/2) (曇り,1/4) (雨, 1/4)

確率分布の例(2) X = 「英文中に現れる文字」 ('a', 0.03) ('b', 0.01) ...

確率変数(random variable) ある確率分布にしたがって定まる値 事象に付随する値という言い方もできる よく使う記号: X, Y, … 例: くじ引き 事象: 1等が当たる, 2等が当たる, はずれ 確率変数: 賞金(1等 → 5000円, 2等 →1000円, 3等 → 0円)

準備:確率変数の平均(期待値) X : 確率変数とし, 事象Aiに割り当てられた値をxi と書くことにする 例: サイコロの出た目に応じて賞金(出た目 1000円)がもらえる この時, その確率変数の平均(期待値)E(X)を, E(X) =  pi xi で定義する(pi= P(X = xi))

情報量:定義 確率pでおこる事象の情報量を, – log p で定義する. logの底は2とする 上式を以降 I(p)と書く

情報量  めずらしさ(ビックリ 度) いったい何が始まったのか? 「ある事象が起こった」という情報の「量」(大 雑把に言って,それが起きるということを知ること の貴重さ)を定量的に把握したい 「めずらしい」=「滅多に起こらない」=「確率 が小さい」事象ほど「情報量が多い」 情報量  めずらしさ(ビックリ 度)

それにしてもなぜ–log pなのか? 珍しさを数値化したいなら1/pだけでもいい それどころか任意のpの減少関数でよいのでは? 要請したい性質: 加法性 二つの独立な事象AとBが「両方」おきたという 事象の情報量は,A, Bそれぞれの情報量の和であっ てほしい (AかつB)の情報量 = Aの情報量 + Bの情報量 つまりI(pq) = I(p) + I(q)

情報量の定義の心(まとめ) I(p)が満たすべき性質 pに関して単調減少, 微分可能 I(pq) = I(p) + I(q) これとIの微分可能性を仮定するとI(p) = k log pが 導かれる(k : 定数) 定数kは重要ではないがあとはとりあえず I(1/2) = 1 としておくことで, k = – 1

Xのエントロピー H(X) = i – pi log pi エントロピー:定義 確率変数Xのエントロピーを,「Xの事象の情報量 の平均」と定義する(実際, Xの「平均情報量」と も言う). つまり Xのエントロピー H(X) = i – pi log pi

エントロピーが大きい分布とは?

エントロピーと符号長 動機付け: 英語のテキストファイルをファイルに 格納する(符号化する)ことを考える 通常用いられる符号化(ASCII符号化; テキストフ ァイルで用いられる)では, 1文字に等しく8 bitを 割り当てる しかし, 例えば英語の文章には, スペースが多い, 'e'や'a'がよく現れる, などの特徴(偏り)がある これを利用した, 「もっとよい符号化」はないも のか?

基本アイデア よく現れる文字には短い符号を,滅多に現れない 文字には長い符号を割り当てる これで「平均」符号長はもっと短くできるので はないか?

問題の定式化と仮定 ある「確率分布」がわかっているとする 文字はその一定の確率分布からひかれる 複数回ひいた場合も各回独立とする (independently and identically distributed; i.i.d) 注:現実はそうでない場合もある(英語で'q'の次は ほぼ確実に'u'など) 問題: 一文字あたりの平均符号長を最小化せよ

直感 よくでてくる(確率が大きい)文字 → 短い符号 滅多にでない(確率が小さい)文字 → 長い符号

制約: なぜいくらでも短い符号は作れないのか? 復号化可能であるための条件(クラフトの不等式) 文字aiに符号長liを割り当てた(i = 1, ..., n)とき, 1 2 𝑙 1 +...+ 1 2 𝑙 𝑛 ≤1

情報源符号化定理 限界 平均符号長  H(X) 朗報 平均符号長 < H(X) + 1なる符号化は作成可能 どうやって? 大雑把には,確率pの文字に対し,符号 長 –log p (その文字の情報量分のビット数)を割り 当てる

ハフマン符号化 情報源符号化定理で言うところの効率を持つ符 号の実際の作り方 入力: n個の記号S1, S2, ..., Snが現れる確率p1, p2, ..., pn 出力: 各記号に割り当てる符号(0/1の列) S1 0.6 S2 0.08 S3 0.07 S4 0.13 S5 0.1

ハフマン符号化のやり方 ハフマン符号の「木」を作る(符号はそこから自動 的に定まる) 初期状態: 各記号に対応する「親の無い」点を作る 以下を, 親のない点が一つになるまで繰り返す: 親のない点の中で確率最小のもの二つをとり, 両者 の親を作る(その親の確率は二つ点の確率の和とす る) 各点の子供への枝の一つに符号0, もう一つに1を割 り当て, 各記号(木の葉)には,木の根からそこへ至る 枝に付いている符号の列を割り当てる

S1 0.6 S2 0.08 S3 0.07 S4 0.13 S5 0.1 S23 0.15 S1 0.6 S2 0.08 S3 0.07 S4 0.13 S5 0.1 S23 0.15 S45 0.23 S1 0.6 S2 0.08 S3 0.07 S4 0.13 S5 0.1

S2345 0.38 S23 0.15 S45 0.23 S1 0.62 S2 0.08 S3 0.07 S4 0.13 S5 0.1 S12345 1.0 S2345 0.38 ハフマン符号木 S23 0.15 S45 0.23 S1 0.62 S2 0.08 S3 0.07 S4 0.13 S5 0.1

S12345 1.0 1 S2345 0.38 1 S23 0.15 S45 0.23 1 1 S1 0.62 S2 0.08 S3 0.07 S4 0.13 S5 0.1 100 110 101 111 ハフマン符号