情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論.

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学  第7回 西 山.
Pattern Recognition and Machine Learning 1.5 決定理論
Bassモデルにおける 最尤法を用いたパラメータ推定
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
大数の法則 平均 m の母集団から n 個のデータ xi をサンプリングする n 個のデータの平均 <x>
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
第7回 二項分布(続き)、幾何分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
京都大学 化学研究所 バイオインフォマティクスセンター
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
第6章 連立方程式モデル ー 計量経済学 ー.
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
第3章 統計的推定 (その1) 統計学 2006年度.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
様々な情報源(4章).
母分散の信頼区間 F分布 母分散の比の信頼区間
ベイズ・アプローチによる グラフィカル・テスト理論
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
経営学研究科 M1年 学籍番号 speedster
クロス表とχ2検定.
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

情報の扱いのける 数学的基礎 確率 エントロピー 統計 確率分布 形式言語理論 計算量の理論

確率論 事象 e とは、ある確率変数 X の値が x であること: e: X=x 事象 e  の確率を p(e), p(X=x), p(x)  などと書く。 全事象 e1, e2, ….. , eN  (つまり事象数)とすると X=a とX=b が同時に起こった場合の確率を同時確率といい、p(a,b)と書く。 条件付確率 ベイズの定理 従属性 p(A,B)>p(A)p(B) が普通だが、これはAが起こればある確からしさでBが起こるような場合もあるから。  ←→ 排反性    仮にAは起これば必ずBも起こるならBはAに従属するといい、 p(A,B)=p(A)=p(B) 独立性 Aが起こっても次にBが起こるかどうかは影響されない場合、AとBは独立といい、。    p(A,B)=p(A)p(B)

条件付確率 C+A+B+AB=N C a a A AB B b

ベイズの定理の使い方(文書分類への応用 その1) ベイズの定理の使い方(文書分類への応用 その1) インターネット上の文書(原理的には無限個ある)がいくつかの集合に分類されている。ターム t を含む文書が C1とC2のどちらの分類に属するかどうかを予測したい。つまり確率 p(C1|t) と p(C2|t)を求めたい。 しかし、相手が無限なので、数えて確率を出すわけにはいかない。 そこで、サンプルとして集めた文書集合における確率を使う。まず、文書集合を分類し、分類 C1,C2 に属する文書がターム t を含む確率 p(t|C1), p(t|C2) は数えれば求まる。また、文書が分類 C に属する確率p(C)は、   (分類Cの文書数)/(サンプル文書集合の全文書数)   により求められる。そこでベイズの定理により 右辺の分子はサンプルの文書集合から分かっている。問題は分母のp(t)であり、これはインターネット上の全部の文書を見ないと分からない。しかし、近似として、インターネット上でターム t が現れる確率は一定値としてもよい。もっとも問題は p(C1|t) と p(C2|t) のどちらが大きいかを知りたいのだから、分母は等しいので、分子だけで比較すればよい。

ベイズの定理の使い方(文書分類への応用 その2) ベイズの定理の使い方(文書分類への応用 その2) インターネット上の文書(原理的には無限個ある)がいくつかの集合に分類されている。ターム t を含む文書が C1とC2のどちらの分類に属するかどうかを予測したい。すでに確率 p(C1|t) と p(C2|t)を求めたので、次にすることは、 p(C1|t) と p(C2|t) うち最大のほうの分類を求めることである。 これは簡単なことだが、次のように書く。 C1,C2 のうち t によって分類される確率の高い分類 C-max argmax f(x) とは、f(x)を最大にする x を意味する

ベイズの定理の使い方(文書分類への応用 その3) ベイズの定理の使い方(文書分類への応用 その3) 今まではターム1個による分類だったが、複数のタームt1,t2,…,tn による分類に拡張しよう。 C-max=argmax p(Ci|t1,t2,.…,tn) ターム数が多いと t1,t2,.…,tn がすべて含まれる文書がサンプル文書集合中に存在しないかもしれない。そこで、 argmax p(Ci|t1,t2,.…,tn)=argmax p(t1,t2,…,tn|Ci)p(Ci) しかし、このままでは事態は同じ。そこで、各タームの出現が独立であるとすると argmax p(t1|Ci)p(t2|Ci)…p(tn|Ci)p(Ci) 各 p(tj|Ci) はサンプル文書集合から容易に計算できる。

母集団と大数の法則 標本と母集団: 我々が観測により得たデータはあくまでも背後にある膨大な確率的集合すなわち母集団の標本 (sample)である。 確率や統計は観測により得られたデータから母集団の統計的性質を推測することである。 大数の法則   標本数が増えると、標本の平均値が母集団の平均値に近づく(確率収束する) 問題:もし、ふたつの事象が完全に従属(例えば、姉が選んだ服を1年後にかならず妹も選ぶから、姉の服Xと妹の1年後の服Yは従属)の場合、p(X)とp(Y)はどうような関係になるか?

平均と分散 サンプル集合における平均:母集団の期待値  (母集団の)分散 サンプル集合における変動 サンプル集合における分散: 標準偏差: 

確率分布 正規分布:最もよく使われる分布 いろんな分布の変数Xを多数足し合わせた分布は正規分布に近づく。 (中心極限定理という)   (中心極限定理という) 二項分布(binominal distribution) 二項分布は、赤と白の玉が適当な割合 p:1-p で入っている壷からn回玉を取り出したとき、赤がr回、白が残りn-r回取り出される確率。 二項分布の平均値は np  、分散は np(1-p) である。 二項分布およびその極限であるPoisson分布は頻繁に使われる確立分布である。

エントロピー 事象の散らばり方あるいは random さの尺度 個々の事象(ある確率変数の個別の値)ではなく、ある確率変数の挙動全体を測る尺度。これをビットを単位とする情報量と呼ぶ。 こうみてもよい。 問題1: 裏表が等確率ででるコインを投げる場合のエントロピーは? 問題2: 次の図のような通信路の受信側のエントロピーは?ただし、送られる0,1は等確率 p 1-p 1-q 1 1 q

相互情報量(エントロピー) 複数の確率変数の間にどれだけ相関(あるいは依存関係)があるかを測るために相互情報量が定義される。   1.まったく相似な振る舞いをするなら相互情報量=0   2.まったく独立なら各々のエントロピーの和 結合エントロピー  条件付エントロピー(Xの値が与えられたという条件下でのYのエントロピー) 相互情報量 問題 3:問題2の通信路の相互情報量を計算せよ。

確率分布 正規分布:最もよく使われる分布 いろんな分布の変数Xを多数足し合わせた分布は正規分布に近づく。 (中心極限定理という)   (中心極限定理という) 二項分布(binominal distribution) 二項分布は、赤と白の玉が適当な割合 p:1-p で入っている壷からn回玉を取り出したとき、赤がr回、白が残りn-r回取り出される確率。 問題: 二項分布の平均値と分散を求めよ。 二項分布およびその極限であるPoisson分布は頻繁に使われる確立分布である。つまり、np=λという一定値にしたまま、nを無限大にした分布。式は、 問題:Poisson分布の平均と分散を求めよ。

不偏推定、一致性、有効性 確率や統計は観測により得られたデータから母集団の統計的性質を推測することである。 ある確率変数 x の母集団における統計量を t とする。 一致性:サンプル数を大きくすると、サンプル集合から得られる t の推定値が 真の(つまり母集団の)t に収束する。 不偏性:このとき、サンプル集合における x の値の平均が  t に等しいことを不偏性という。   E(x)=t   また、 この性質を満たすE(x) を不偏推定量という。 有効性:いかなる不偏推定量よりも分散が小さい推定量を有効推定量という。

最尤推定法 確率変数Xのサンプル観測値x1,x2,…,xnが与えられたとき、Xの母集団における尤もらしい推定値 t を求める。 サンプルの値が独立だとすると、同時確率は次のようになる。 最尤推定法とは、L(t) (これを尤度と呼ぶ)を最大にするような t の値として最も尤もらしい t の値 t’ とする。つまり t’= argmax L(t)  実際は、尤度のlogをとって、 t で微分し0とおいて解く。 問題:コインの表がn回中x回でた場合の二項分布の表が出る確率を最尤推定せよ。 問題:正規分布        でサンプル観測値x1,x2,…,xnが与えられたときの母集団の正規分布の平均値と分散を最尤推定せよ。

尤度比 (likeli hood) ふたつの仮説のうちどちらがより尤もらしいかを調べる。例えば、ある文書 d がある分類のクラス c に属するか、属さないか ~c はその確率の比(これを尤度比という)が予め決められた閾値より大きいか小さいかで決める。実際は、尤度比の対数をとって計算することが多い。 この式の右辺の確率をさらにベイズの定理で書き換え、計算しやすくする場合もあり。

EMアルゴリズム その1 観測されたサンプルデータから内部状態が一意に特定できない場合には、最尤推定で母集団のパラメタ-を推定できない。そのような場合には Expectation & Maximization: 「期待値最大化」,略して    EMアルゴリズム と呼ばれる枠組みを用いる。 基本アイデア:観測データ xi について母集団のパラメタ-θをθ’に更新したときの対数尤度の差を最も大きく増加させる。

EMアルゴリズム その2 次の式が成り立つので、第2項は常に正。よって、第1項を最大化すればよい。 そこで   とおくと、第1項は    Q(θ,θ’)-Q(θ,θ) となるので、結局、Q(θ,θ’) を最大化するようにθ’を選べばよい。

EMアルゴリズム その3 定式化 θに適当な初期値を与える θが収束するまで次のEステップとMステップを繰り返す。   Eステップ:Q(θ,θ’)を計算する。   Mステップ:          によってθを更新する。

EMアルゴリズム その4 例 混合分布モデルの推定 これを最大化する。ラグランジュ未定乗数法という簡単な方法を用いると、sつぎのような結果が得られる。