前回の練習問題 無記憶・非定常な情報源を一つ例示せよ 時刻 t に t 枚のコインを投げるとき,表が出る枚数 以下のマルコフ情報源について,

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
2 年 確率の導入 指導手順 身の回りの生活の中の確率の話をする。 10 円玉の表と裏を確認する。 本時の課題を提示する。 ( シート 4) 実験をする。 準備物 ワークシート、 10 円玉 ×2× 生徒数 結果をエクセルに入力 グラフから言えるこ とを発表する。 確率についてまとめる。 教科書の練習問題をする。
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
経済統計学 第2回 4/24 Business Statistics
数理統計学(第四回) 分散の性質と重要な法則
いろいろな確率を求めてみよう。.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
全加算回路 A, Bはそれぞれ0または1をとるとする。 下位桁からの繰り上がりをC1とする。(0または1)
情報エレクトロニクス学科共通科目・2年次・第1学期〔必修科目〕 講義「情報理論」(クラスC)
情報理論:楫 勇一(かじ ゆういち) 情報理論: C. E. Shannon によって創始された理論体系
統計学 10/25(木) 鈴木智也.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
Pattern Recognition and Machine Learning 1.5 決定理論
統計解析 第9回 第9章 正規分布、第11章 理論分布.
アルゴリズムイントロダクション第5章( ) 確率論的解析
4. 順序回路 五島 正裕.
経済統計 第三回 5/1 Business Statistics
情報エレクトロニクス学科共通科目・2年次・第1学期〔必修科目〕 講義「情報理論」第4回
情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
11.確率モデル 確率・・・不確実性の経済学や金融やファイナンス で重要 密度関数がある場合に期待値を取る計算を中心に、紹介.
今日の目標 情報理論の概略を説明できる 情報とは何かを説明できる ニュースバリューの要因を示せる 科学的に扱う情報を確率の概念で説明できる
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
人工知能概論 第6章 確率とベイズ理論の基礎.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第2章 確率と確率分布 統計学 2006年度.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計学 11/08(木) 鈴木智也.
10. 積分 積分・・確率モデルと動学モデルで使われる この章は計算方法の紹介 積分の定義から
情報エレクトロニクス学科共通科目・2年次・第1学期〔必修科目〕 講義「情報理論」
第Ⅱ部 協力ゲームの理論 第9章 シャープレイ値.
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第3回: 今日の目標 平均情報量を説明し、計算できる シャノンの通信モデルを説明できる 情報源符号化の条件を示せる
数理統計学 第4回 西山.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第3章 統計的推定 (その1) 統計学 2006年度.
Basic Tools B4  八田 直樹.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
予測に用いる数学 2004/05/07 ide.
Extractor D3 川原 純.
2009年12月4日 ○ 前田康成(北見工業大学) 吉田秀樹(北見工業大学) 鈴木正清(北見工業大学) 松嶋敏泰(早稲田大学)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
スポーツの最適化 優勝決定可能性問題 スポーツスケジュール問題.
様々な情報源(4章).
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
4. システムの安定性.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ ハミング距離 ~.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
京大院情報学研究科 Graduate School of Informatics, Kyoto University
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
プログラミング言語論 第10回 情報工学科 篠埜 功.
確率と統計 確率編- 平成20年10月29日(木).
確率と統計 確率編- 平成19年10月25日(木) 確率と統計2007.
プログラミング演習II 2004年11月 2日(第3回) 理学部数学科・木村巌.
Presentation transcript:

前回の練習問題 無記憶・非定常な情報源を一つ例示せよ 時刻 t に t 枚のコインを投げるとき,表が出る枚数 以下のマルコフ情報源について, 状態の定常確率分布を求めよ 通報 A, B の定常確率を求めよ 1 2 A/0.4 A/0.5 B/0.6 A/0.8 B/0.5 B/0.2 (w0, w1, w2) = (0.1, 0.7, 0.2) P(A) = 0.7 P(B) = 0.3

前回の補足:マルコフ情報源が既約であること 既約(irreducible)マルコフ情報源 任意の状態から任意の状態に遷移可能なマルコフ情報源 厳密には... 時刻 t の状態を変数 Xt で表現するとき,任意の時刻 i, j (i < j) および任意の状態 si, sj に対し,P(Xj = sj | Xi = si) > 0 であること 無限個の状態を持つマルコフ連鎖では,既約であっても, P(Xj = sj | Xi = si) → 0 となるケースもある(収束 ≠ 一致) 1.0 0.1 0.9

本日の講義について 「情報量」を定義する 情報源に対し,エントロピーの概念を導入 エントロピー=通報を予想する難しさの定量的指標 エントロピーが大きい ⇔ 予測することが難しい 一個の通報の持つ情報量を定義 情報量=その通報がもたらすエントロピーの減少量 通信路の性能指標となる相互情報量を定義 その通信路を通過する通報の情報量の加重平均

記憶のない情報源のエントロピー 以下の通報発生確率を持つ,記憶のない定常情報源S を考える ... 通報 確率 a1 p1 a2 p2 aM pM 情報源 S の一次エントロピー (first-order entropy): (ビット, bit) この項は非負 ⇒エントロピーは常に0以上 例1: コイン投げのエントロピー:表,裏とも確率 1/2...M = 2, p1=p2=0.5 ビット

エントロピーの計算例 例2:サイコロの目...コイン投げより,結果予想は難しいはず 1 1/6 通報 確率 2 3 4 5 6 ビット 例3:イカサマ賭博のサイコロ 1 0.9 通報 確率 2 0.02 3 4 5 6 ビット 一個の指標で,予測の難しさの大小関係を定義可能

予想の難しさとエントロピー:二元情報源の場合 通報が0 または1の,記憶のない二元情報源 S を考える 0, 1 の発生確率が p, 1 – p のとき, ビット この値をH(p) と表記する(二元エントロピー関数) p=0.5のとき, H(p) は最大値 1 を取る p が 0, 1 に近づくとき, H(p) は 0 に近づく p H(p) 1.0 0.5 予想のしやすさとエントロピーの 間には,相関関係がある

M元情報源の場合 天気...三元情報源 奈良の天気...晴40%, 曇50%, 雨10%とすると,H1(S)=1.361 もし,晴,曇,雨の確率が全部 1/3 の場合, M元情報源では,M個の通報が等確率で発生するとき, エントロピーは最大値 log M ビットとなる エントロピーが最小値を取るのは,ある一つの通報について, その発生確率が1となる場合 ...この場合,通報は,あいまいさなく予測可能

拡大情報源について ブロック化(block): 情報源からの通報を複数個まとめて,一個の通報とみなすこと M元情報源Sの出力をn個まとめて一つのブロックを構成 ⇒ S の n次拡大(n-th order extended)情報源 ...通報は Mn 種類: Mn元情報源になる 拡大情報源のエントロピーは? 記憶のない情報源だと,ブロック化しても面白くない 記憶のある情報源のブロック化,が興味深い結果を示す ... 話の順番として,まずは記憶のないケースを議論

拡大情報源のエントロピー計算 コイン投げ2回分の通報を,1ブロックにまとめる場合... 通報は {表表, 表裏,裏表,裏裏} の4通り...22元情報源 通報 確率 表表 1/4 表裏 1/4 裏表 1/4 裏裏 1/4 H1(S2)=log 4 = 2 ビット...結果予想は一個の場合の2倍難しい H1(S2)は,S の通報2個分のエントロピー ⇒ S の通報1個分に換算すると,H1(S2)/2 = 1ビット Sの n次 (n-th order)エントロピー.Hn(S)と表記 Sの極限エントロピー.H(S)と表記

記憶のない情報源の拡大とエントロピー S: 0, 1 をそれぞれ確率 0.8, 0.2 で発生する記憶のない情報源 1 0.8 0.2 S 1 0.8 0.2 S H1(S)= –0.8log0.8 – 0.2log0.2 = 0.72 S2 00 01 10 11 0.64 0.16 0.04 H1(S2)= –0.64log0.64 – 0.16log0.16 –0.16log0.16 – 0.04log0.04 = 1.44 H2(S) = H1(S2)/2 = 1.44/2 = 0.72 この情報源では,任意の n に対して H1(Sn) = 0.72n となる ⇒ Hn(S) = H(S) = 0.72...極限エントロピー=一次エントロピー

記憶のない情報源の拡大とエントロピー 定理:任意の無記憶な定常情報源 S に対し,H1(Sn) = nH1(S). 無記憶だから P(x0, x1) = P(x0)P(x1) 確率 P(x0) の 総和は 1 系:任意の無記憶な定常情報源 S に対し,H (S) = H1(S).

記憶のある情報源:マルコフ情報源の場合 1 0/0.9 1/0.1 0/0.4 1/0.6 1 0/0.9 1/0.1 0/0.4 1/0.6 定常確率分布は w0 = 0.8, w1 = 0.2 各通報の定常確率: 不一致 0.8·0.9 + 0.2·0.4 = 0.80 H1(S) = 0.722 1 0.8·0.1 + 0.2·0.6 = 0.20 00 0.8·0.9·0.9 + 0.2·0.4·0.9 = 0.72 01 0.8·0.9·0.1 + 0.2·0.4·0.1 = 0.08 H1(S2) = 1.2914 H2(S) = H1(S2)/2 = 0.6457 10 0.8·0.1·0.4 + 0.2·0.6·0.4 = 0.08 11 0.8·0.1·0.6 + 0.2·0.6·0.6 = 0.12 1文字を2個予測するより,2文字 まとめてのほうが予測しやすい 前スライドの定理は,記憶のある情報源では成立しない

マルコフ情報源の極限エントロピー 極限エントロピーの計算: 情報源に記憶がなければ...一次エントロピーと一致 情報源に記憶のある場合は...一般には計算困難 ⇒ マルコフ情報源であれば,別の手がある 定常確率分布を求めておく 各状態について,その状態を記憶のない情報源と考え, 極限エントロピー(一次エントロピー)を計算する 定常確率分布より,各状態のエントロピーの加重平均を取る

極限エントロピーの計算例 1 0/0.9 1/0.1 0/0.4 1/0.6 極限分布は w0 = 0.8, w1 = 0.2 1 0/0.9 1/0.1 0/0.4 1/0.6 極限分布は w0 = 0.8, w1 = 0.2 状態 0:P(0)=0.9, P(1)=0.1の情報源 ⇒ H(S) = H(0.9) = 0.469 状態 1:P(0)=0.4, P(1)=0.6の情報源 ⇒ H(S) = H(0.4) = 0.971 状態0に居る確率80%,1に居る確率20%なので,加重平均は 0.8·0.469 + 0.2·0.971 = 0.5694...これが極限エントロピー ちなみに,H1(S) = 0.722,H2(S) = 0.6457,... 単調減少?

拡大マルコフ情報源と極限エントロピー 一般に,マルコフ情報源においてブロック長 n を大きくすると... 極限エントロピーに収束する n Hn(S) H(S) 記憶のある情報源: ある程度,通報の出現パターンが「読める」 自然語だと,“qu” は高頻出,“qz” は,まず出現しない 無記憶の場合より,振舞いが予想しやすい ⇒ エントロピー小

情報源の記憶とエントロピー 定常確率 0.8 で 0 を,0.2 で 1 を出力する情報源を考える 0/0.8 1/0.2 0/0.9 1/0.1 1/0.6 0/0.4 記憶無し 記憶あり 一次エントロピー 0.72 極限エントロピー 0.5694 記憶のある情報源では,「ブロック化したほうが都合良い」場合も ⇒ プロセッサの条件分岐予測など

通報の持つ情報量 阪神タイガースの試合があったが,結果をまだ知らない 阪神が勝つ確率,負ける確率,引き分ける確率は,全部1/3 巨人ファンの友人Aからメイル:「阪神は負けなかった」 友人Aのメイルに含まれる情報の「量」は? メイルを受け取る前:結果に関する不確かさが大きい P(勝) = 1/3. P(引) = 1/3, P(負) = 1/3 メイルを受け取った後:結果に関する不確かさが小さくなった P(勝) = 1/2. P(引) = 1/2, P(負) = 0 「不確かさの減少量 = 情報量」と定義したい

野球の試合の例では メイルを受け取る前:P(勝) = 1/3, P(引) = 1/3, P(負) = 1/3 エントロピーは 条件付きエントロピーは 「阪神は負けなかった」というメイルに含まれる情報量: 1.585 – 1 = 0.585 ビット

情報量とエントロピー 離れたところにある情報源 S の出力(通報)を知りたい 通報の確率分布はわかるが,実際に発生した通報は不明 このとき,ヒント(通報)がもたらした情報量 (information) は H(S) – H(S’) ビット

気まぐれな友人の場合(case 1) 右図の行動を取る友人Bが 「言いたくない」と言った時の 情報量は? 勝ち 引分 負け 「勝ったよ」 「負けたよ」 0.5 1.0 P(言いたくない) = 2/3 P(勝ち,言いたくない) = 1/6 P(勝ち | 言いたくない) = 1/4 P(引分,言いたくない) = 1/3 P(引分 | 言いたくない) = 1/2 P(負け,言いたくない) = 1/6 P(負け | 言いたくない) = 1/4 「言いたくない」と言っているときのエントロピーは 情報量は1.585 – 1.5 = 0.085ビット(友人Aのメイル:0.585ビット)

気まぐれな友人の場合(case 2) 友人Bが「勝ったよ」と言った ときの情報量は? 勝ち 引分 負け 「勝ったよ」 「言いたくない」 「負けたよ」 0.5 1.0 P(勝ったよ) = 1/6 P(勝ち,勝ったよ) = 1/6 P(勝ち | 勝ったよ) = 1 P(引分 | 勝ったよ) = 0 エントロピーは0になる (結果を正確に知ることができる) P(負け | 勝ったよ) = 0 情報量は1.585 – 0 = 1.585ビット(友人Aのメイル:0.585ビット) (p.17 の)友人Aと,この友人B,どちらが「頼りになる」友人か? ... 個々の通報の情報量だけを見ていたのではわからない

情報量の「平均」 友人Bの行動: 1/6 の確率で「勝ったよ」...情報量 1.585ビット 2/3 の確率で「言いたくない」...情報量 0.085ビット 1/6 の確率で「負けたよ」...情報量 1.585ビット 平均すると 1.585  1/6 + 0.085  2/3 +1.585  1/6 = 0.585ビット 友人Aの行動: 2/3の確率で「負けなかった」...情報量 0.585ビット 1/3の確率で「負けたよ」...情報量 1.585ビット 平均すると 0.585  2/3 + 1.585  1/3 = 0.918ビット 勝ち 引分 負け 「負けなかった」 「負けたよ」 平均すると,友人Aのほうが 0.333ビット多くの情報をくれる

相互情報量 友人A,友人Bは,異なる特性を持った通信路と考えられる 通信路の入力確率変数を X,出力確率変数を Y とする 「負けなかった」 「言いたくない」 通信路の入力確率変数を X,出力確率変数を Y とする X と Y の相互情報量 I(X; Y): Yの各値が持つ(X に関する)情報量の加重平均 前ページでは「試合結果と友人の振舞いの相互情報量」を計算 X Y

相互情報量の意味 相互情報量: その通信路が,どれだけの情報を伝達しているかの指標 システムとして通信路を実現することを考えると,個々の 通報の情報量より,相互情報量にこそ着目すべき 同じ通信路でも,入力分布が変わると,相互情報量も変わる 同じ友人Aでも... 勝ち,引分,負けが 1/3のチーム...相互情報量は0.918ビット 勝ち,負けが1/2のチーム...相互情報量は 1 ビット 相互情報量の取り得る最大値 ⇒ 通信路容量という(第三部)

相互情報量の計算例(1) 天気予報:天気についての情報を与える,やや不正確な通信路 例:100日間の実際の天気 (X) と天気予報 (Y) の統計: X 晴 45 15 60 雨 12 28 40 P(Y)×100 Y P(X) ×100 57 43 X Y 現実 予報 実際の天気が晴だったのは57日,PX(晴)=0.57 予報が晴といったのは60日,PY(雨)=0.60 天気 X, 予報 Y とも晴だったのは45日,PX,Y(晴,晴)=0.45

相互情報量の計算例(2) X 晴 45 15 60 雨 12 28 40 P(Y)×100 Y P(X) ×100 57 43 天気予報が当たる確率=PX,Y(晴,晴)+ PX,Y(雨,雨)=0.73 この予報と友人Aのメイル,どちらが「高性能」? 天気のエントロピー: ビット

相互情報量の計算例(3) 天気予報Yが晴のとき: 本当に晴れる確率は 0.45/0.60 = 0.75,雨の確率は0.25 「晴」という予報を聞いた後の条件付エントロピーは H(X | 晴) = – 0.75log0.75 – 0.25log0.25 = 0.811 ビット 「晴」という天気予報の持つ情報量は 0.986 – 0.811 = 0.175 天気予報Yが雨のとき: 本当に雨の確率は 0.28/0.40 = 0.70,晴の確率は0.30 「雨」という予報を聞いた後の条件付エントロピーは H(X | 雨) = – 0.30log0.30 – 0.70log0.70 = 0.881 ビット 「雨」という天気予報の持つ情報量は 0.986 – 0.881 = 0.105 加重平均をとると 0.60·0.175 + 0.40·0.105 = 0.147 ビット

相互情報量と当たる確率 X 晴 45 15 60 雨 12 28 40 P(Y)×100 Y P(X) ×100 57 43 A社: まぁまぁ当たる予報 73% 0.147ビット X 晴 43 雨 57 P(Y)×100 Y P(X) ×100 B社: 絶対はずれる予報 0% 0.986ビット 情報の「量」は,B社予報のほうが大きい

本日のまとめ エントロピーの概念を導入 予測の難しさを定量化したもの 1次,n次,極限エントロピー 無記憶情報源では,上の三者は同一 情報量,相互情報量を定義 エントロピーの減少量として定式化 システムの評価には,相互情報量の概念が有用

練習問題 12ページの例において,3次,4次のエントロピーを求めよ.可能であれば,n 次エントロピーを計算するプログラムを書け. 以下を示せ I(X; Y) = H(X) – H(X | Y) ただし I(X; Y) = I(Y; X) I(X; Y) = H(X) + H(Y) – H(X, Y) ただし H(X, Y) は X と Y の結合エントロピー (X と Y をまとめて一個の確率変数と考える) (条件付きエントロピーの加重平均)