混合試料の構成人数 Nuisance パラメタ

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
第4章補足 分散分析法入門 統計学 2010年度.
多々納 裕一 京都大学防災研究所社会システム研究分野
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計解析 第9回 第9章 正規分布、第11章 理論分布.
統計的仮説検定 治験データから判断する際の過誤 検定結果 真実 仮説Hoを採用 仮説Hoを棄却 第一種の過誤(α) (アワテモノの誤り)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
ベイズ的ロジスティックモデル に関する研究
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
クラスター変分法と確率的情報処理 --Belief Propagation と画像処理アルゴリズム--
確率モデルによる 画像処理技術入門 --- ベイズ統計と確率的画像処理 ---
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの      数学的基礎 3.5 情報量基準を用いた構造学習 岩崎唯史.
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第9章 混合モデルとEM 修士2年 北川直樹.
教師なしデータ 学習データ  X1, X2, …, Xn   真の情報源 テストデータ  X  .
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
法数学勉強会 2018/07/21 京大(医) 統計遺伝学分野 山田亮
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
細胞の形と変形のための データ駆動型解析手法
顧客維持に関するモデル.
統計学 西 山.
ゲノム科学概論 ~ゲノム科学における統計学の役割~ (遺伝統計学)
法数学勉強会 2016年4月会 京都大学(医)統計遺伝学分野 山田 亮
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
法数学勉強会 2016/06/15 京都大学(医)統計遺伝学分野 山田 亮
法数学勉強会(京大法医学講座) 2012/02/18 京都大学 統計遺伝学 山田
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
東日本大震災におけるご遺体身元確認と行方不明家族捜索のためのDNA鑑定
様々な情報源(4章).
2011/05/28 京都大学大学院 附属ゲノム医学センター統計遺伝学分野 山田 亮
尤度の比較と仮説検定とを比較する ~P値のことなど~
第3章 線形回帰モデル 修士1年 山田 孝太郎.
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
決断のための分布合算 京大(医)統計遺伝学分野 山田 亮.
経営学研究科 M1年 学籍番号 speedster
法医学会 2013年6月26日 京都大学(医)統計遺伝学 山田 亮
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
親子鑑定に見る尤度比を 角度を変えて眺めてみる
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
法数学勉強会 2015/09/26 京都大学統計遺伝学分野 山田 亮
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
DNA鑑定を理解するために必要な数学の学び方
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
ベイズ音声合成における 事前分布とモデル構造の話者間共有
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
重回帰分析入門 (第5章補足) 統計学 2007年度.
法数学における ベイジアンネットワーク(2) ~成書で学ぶ~
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
確率と統計 年12月16日(木) Version 3.
確率と統計 年1月7日(木) Version 3.
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

混合試料の構成人数 Nuisance パラメタ 法数学勉強会 2019/04/20 京都大学(医)統計遺伝学分野 山田 亮

ネタが切れました…

法医学講座 玉木研からお題をいただきました 法医学講座 玉木研からお題をいただきました

2016年 8月10日

ISFG推奨っていうのがあって 検察側の仮説 Vs. 弁護側の仮説 それらの尤度は 「同条件」 にした上で 尤度比を計算するべきでは?

2006年

https://www.isfg.org/files/ISFG2007_Statistics_Gill_ISFG_Recommendations.pdf

Peter Gill (Norway)のコメント 2016年 9月30日 Peter Gill (Norway)のコメント オリジナルコレスポンデンスが1ページなのに対して、 このコメントは4ページ。 『部分を取り出して問題点を指摘せず、全体の文脈から適切な判断を』

Charles Brenner (USA) のコメント 2016年 10月18日 Charles Brenner (USA) のコメント 混合試料の構成人数のように不確かなものを『情報として使う』のは難しく それに基づく『条件付確率』は無理なんだからしかたないじゃない … とやや、無理押しなコメント

Ian Evett (UKE)のコメント 2017年 1月7日 尤度比とか ベイズ推定とか それをきちんと解っていれば もめることないんじゃないの?

少し、気合を入れて考えてみよう

Nuisance parameter 厄介もの、邪魔くさい 「知りたいことそのもの」ではないけれど 「確率モデルに入り込む」パラメタ 今回の文脈では、「混合試料の構成人数」 じゃまくさい、1人でも2人でも3人でも、どうでもええやん!

Nuisance parameter 厄介もの、邪魔くさい 「知りたいことそのもの」ではないけれど 「確率モデルに入り込む」パラメタ 今回の文脈では、「混合試料の構成人数」 じゃまくさい、1人でも2人でも3人でも、どうでもええやん! ・・・と、いうわけに行くか、という話

Nuisance Parameter(s) 京大 統計遺伝学分野的 結論 Nuisance Parameter(s) 混合試料構成人数 を 無視したり・勝手に固定したり してよいわけがない

極端な例をいくつか考えてみる

あるローカス アレルが3つ (A,B,C) あった まったくかみ合わない~ 弁護側 検察側 『(もろもろを勘案して)寄与者は1人である』 『寄与者1人の下で、被疑者1名が3つのアレルを残すことは不可能である』 『尤度は0である』 検察側 『もろもろを勘案して)寄与者は2人である』 『寄与者のうちの1人が被疑者であるとしてい矛盾しない』 『尤度は十分に大きい』 まったくかみ合わない~

3アレル検出 寄与人数=1人という主張がナンセンス 確かに・・・

3アレル検出 寄与人数=1人という主張がナンセンス 確かに・・・ では「寄与人数=2人」という主張はどれほどナンセンスから 遠いのか???

3アレル検出 寄与人数=1人という主張がナンセンス 確かに・・・ どうして「ナンセンス」なのか 「寄与人数=1人」という『事前確率』は0ではなかった しかるに、「データ」が指し示す尤度を考慮したら 「寄与人数=1人」という仮説の『事後確率』が0になったこ とを「ナンセンス」と称している

3アレル検出 寄与人数=1人という主張がナンセンス 確かに・・・ どうして「ナンセンス」なのか 「寄与人数=1人」という『事前確率』は0ではなかった しかるに、「データ」が指し示す尤度を考慮したら 「寄与人数=1人」という仮説の『事後確率』が0になったことを 「ナンセンス」と称している 「寄与人数=1人」という仮説を維持しつつ、3アレルを許す仮説 (たとえば、実験上の理由で第三アレルのシグナルが検出される)は ナンセンスではなくなる

小総括 仮説(モデル)が単純に過ぎる(実験エラー等を許さない)と、事後 確率が0になる場合が増えてしまう モデルをある程度複雑にする~現実に近づけると、色々な仮説 に0でない事後確率が得られる 2つの仮説の比較なら、2つの尤度を比べればよい 2つの尤度の比べ方には「尤度比」という手がある 3つ以上の仮説が尤度を持ってしまったら『尤度比』でよいの か?

寄与人数を推定して決めうちにすること 寄与人数が不明であるとき、1人か、2人か、3人か・・・が決 まらない とはいえ、最大尤度をもたらすのは、n人である、という計算 はできる このとき、nを寄与人数の最尤推定値という Nuisance パラメタ(寄与人数)の最尤推定値を一つ取り出して、 それを固定し、条件付き尤度を計算するとはどういうことか?

最尤推定 Nuisance parameter(寄与人数)も含めて、諸々のパラメタのすべ てについて、尤度を最大にする値を推定することはできる (複数パラメタの)最尤推定 最尤推定結果は、「もっともありそうな仮説」の「そのもっと もらしさ」 検察側 vs. 弁護側とで、最尤推定をそれぞれ行って、その尤度 を比較するのは 最大尤度の比較。最大尤度比 この比を決断の根拠にしてよいのか???

Nuisance parameterが離散的な場合 寄与人数が1のときの、検察仮説尤度/弁護仮説尤度 =LR1 2 =LR2 3 =LR3 … すべての i について、LRi > Q なら 絶対に 検察仮説尤度/弁護仮説尤度 > Q が言える

Nuisance parameterが離散的な場合 寄与人数が1のときの、検察仮説尤度/弁護仮説尤度 =LR1 2 =LR2 3 =LR3 … すべての i について、LRi > Q とは限らないときは? i = 1,2,3,…について、重み付き平均をとるしかない その重みは i の値の『事前分布』

Nuisance parameterが離散的な場合 寄与人数が1のときの、検察仮説尤度/弁護仮説尤度 =LR1 2 =LR2 3 =LR3 … すべての i について、LRi > Q とは限らないときは? i = 1,2,3,…について、重み付き平均をとるしかない その重みは i の値の『事前分布』・・・それってわかるの?

i の事前分布がわからないとき… 困ってしまう… じゃあ、やっぱり、i も最尤推定してしまう???

パラメタをいじるときには、要注意! モデルが複雑になると、尤度は上がります オッカムのかみそり 赤池の情報量基準 バイアス・バリアンスのトレードオフ 統計学・データサイエンスのいたるところで問題になるテーマ

尤度・確率、確率密度 最尤推定は 尤度関数と、確率密度関数は同じ 「確率密度関数」の値は、「確率」を教えてくれない 「尤度関数の値を最大にするパラメタ値を推定する」 尤度関数と、確率密度関数は同じ 「確率密度関数」の値は、「確率」を教えてくれない 「幅があって」初めて「確率」が0ではなくなる 「尤度~事後確率」も「幅があって」こそ 「幅のある」「0でない」尤度の計算は、「最尤推定」だけで は無理

小総括 尤度を比べたい 2つの画然とした仮説を比較するなら、尤度比を使う Nuisance parameterがあるなら、Nuisance parameterの値を決め うちにするのは、難がある 特にNuisance parameterが連続値をとるときは、要注意 離散的なNuisance parameterでも、複数のNuisance parameter値 について合算するのが無難 合算するには、重みが必要・・・事前分布~ある程度の恣意性 が入る?