文系学生に対する ベイズ統計学の数理の教育

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
摂南大学理工学部における 数学教育と EMaT への取組み 東武大、小林俊公、中津了勇、島田伸一、寺本惠昭、友枝 恭子 ( 摂南大学理工学部 基礎理工学機構 ) 日本工学教育協会 第 63 回年次大会 2015 年 9 月 4 日 ( 金 ) 9:30-9:45.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
新設科目:応用数学 イントロダクション 情報工学科 2 年前期 専門科目 担当:准教授 青木義満.
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
数理統計学  第9回 西山.
数理統計学(第ニ回) 期待値と分散 浜田知久馬 数理統計学第2回.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
数理統計学 西 山.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
ホーエル『初等統計学』 第8章1節~3節 仮説の検定(1)
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
Pattern Recognition and Machine Learning 1.5 決定理論
Microsoft Excel 2010 を利用した 2項分布の確率計算
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
スペクトル法による数値計算の原理 -一次元線形・非線形移流問題の場合-
統計解析 第9回 第9章 正規分布、第11章 理論分布.
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
H25年5月22日(水) 中央水研 「水産資源のデータ解析入門」 Terrapub
確率・統計Ⅱ 第7回.
第2章補足Ⅱ 2項分布と正規分布についての補足
第7回 二項分布(続き)、幾何分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
ホーエル『初等統計学』 第8章4節~6節 仮説の検定(2)
統計リテラシー教育における 携帯端末の利用
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計解析 第10回 12章 標本抽出、13章 標本分布.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
電気回路Ⅱ 演習 特別編(数学) 三角関数 オイラーの公式 微分積分 微分方程式 付録 三角関数関連の公式
10. 積分 積分・・確率モデルと動学モデルで使われる この章は計算方法の紹介 積分の定義から
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規分布確率密度関数.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
数理統計学 西 山.
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
Microsoft Excel 2010 を利用した 2項分布の確率計算
統計現象 高嶋 隆一 6/26/2019.
情報数理Ⅱ 第10章 オートマトン 平成28年12月21日.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

文系学生に対する ベイズ統計学の数理の教育 日本心理学会第81回大会 公募シンポジウム 2017年9月22日(金) ベイズ統計をどう教えていくか―心理統計教育の中への取り入れについて考えるー 話題提供 文系学生に対する ベイズ統計学の数理の教育 寺尾 敦 青山学院大学社会情報学部

自己紹介 関心領域:数学教育,汎用人工知能,認知アーキテクチャ バックグラウンド:認知科学,認知神経科学,教育工学 数学教育の一分野として,統計学教育にも関心を持つ. バックグラウンド:認知科学,認知神経科学,教育工学 所属する社会情報学部は,いわゆる文理融合学部. 社会,人間,情報の融合領域を学ぶ. 6割から7割は文系の学生.理系の学習を拒否できないということは 受け入れている(この点では心理の学生と似ているのでは?).

話題提供 ベイズの定理の理解には3つの段階があるように思われる. 多くのテキストで,段階2から3へのギャップを埋める工夫が十分で ないように思う.工夫の一案を提示する. 確率分布の数理を,これまでよりもしっかりと教える必要があ るように思われる. 確率(密度)関数の導出,および,平均と分散の計算について,教え 方を試行錯誤してきた.文系学生にも受け入れられる方法を提示す る. 基本的な分布の数理であっても,いくつかの難所や注意点がある.

教育実践の場 後期の「ゼミナール II 」でベイズ統計を学習している. 前期,後期の「サブゼミ」として,統計検定2級対策の学習をしてい る. 受講生は3年生. 「統計入門」が1年次後期に必修科目として配置されている.ホーエ ル『初等統計学』の第9章までを学習.

ベイズ統計学の学習で使用しているテキスト 涌井良幸(2009)道具としてのベイズ統計学 日本実業出版社 この秋から追加 → 豊田秀樹(2017)新訂心理統計法―有意性検定 からの脱却― NHK出版 統計検定2級対策の学習で使用しているテキストと問題集 東京大学教養部統計学教室(1991)統計学入門 東京大学出版会 村上正康・安田正實(1989)統計学演習 培風館 他に,統計検定2級公式問題集

ベイズの定理の理解変化 データ D から,特定の仮説 H が正しい確率を求める. データ D から,母数の値 θ の確率分布を求める. 事前確率から事後確率への更新 データ D から,母数の値 θ の確率分布を求める. 事前分布から事後分布への更新 比例式で書いたベイズの定理 尤度の概念 事前分布の確率(密度)関数 π(θ) と,尤度関数 f(D| θ) から, 事後分布の確率(密度)関数 π(θ|D) を求める. 多くのテキストで,2から3への移行を急ぎすぎでは?

テキスト『道具としてのベイズ統計学』での例題(p.79): 1個の壺がある.壺の中には白と赤の3個の玉が入っている.そこか ら玉1個を取り出したとき,それが赤玉であった.壺の中に入ってい る赤玉の個数の確率分布を求めよ. 注意:問題文ではあいまいだが,事前分布で赤玉が0個という可能性 は考えない.

段階1 データ D から,特定の仮説 H が正しい確率を求める. データを得ることで,特定の仮説(信念)の確からしさが変化する. 例:赤玉が出たとき,「壺の中に入っている赤玉が1個である確率を 求めよ」

段階2 データ D から,母数の値 θ の確率分布を求める. すべての θ ( θ = 1, 2, 3)について確率を計算すれば,データが得られ る前後で母数 θ の確率分布がどのように変化したのかがわかる.デー タを得て分布を更新するというアイデアは,ここで理解できる. すべての θ について確率を計算すれば,分母がいつも同じであること から,比例式で書いたベイズの定理が理解できる.

尤度の合計が1にならないことから,尤度関数は確率(密度)関数で はないことがわかる. 尤度の概念はこの段階で導入できる.データ D が得られたとき,特定 の仮説(あるいは,特定の母数の値)のもとでそのデータが出現する 条件つき確率を,そのデータのもとでの仮説のもっともらしさを表す 数量として扱う. 尤度の合計が1にならないことから,尤度関数は確率(密度)関数で はないことがわかる. テキストでの尤度関数の記号は f(D|θ) だが,データを固定したときの θ の関数なのだから,L(θ|D) と書く方がよいと思う.

論点 母数が未知の固定値であると考えることと,母数が確率変数で あると考えることは,矛盾しないのではないか. 壺の問題で,母数(赤玉の個数)の真の値は存在する.その一方で, どの値がどれほどありうるかという議論は自然である. 頻度主義とベイズ主義の対立は,私にはよく理解できない.以 下の対立なのだろうが,そんなに相容れないものなのか? 確率の意味として,頻度確率 vs 主観確率 仮説の表現として,母集団分布 vs 事前分布 推論の根拠として,標本分布 vs 尤度関数 たとえば,主観確率は事象の生起頻度に関する経験に起因するはず.いずれにしても,統計的な推論で扱う分布は数学的な仮定やモデルであって,頻度なのか主観なのかは関係ない.

段階3 事前分布の確率(密度)関数 π(θ) と,尤度関数 f(D| θ) から, 事後分布の確率(密度)関数 π(θ|D) を求める. テキストにこの計算はない. 離散分布を使ってこうした計算を行えば,段階2から3への移行がスムーズに行える.連続分布の場合の類推も容易.

テキストでは,離散分布を例に理解段階2まで到達したところ で,段階2でのベイズの定理の式を次のように読み替えて連続 分布に対応している.急ぎすぎだろう. 事前確率 事前分布 尤度 尤度 事後確率 事後分布

確率分布の数理の教え方 ベイズ統計学を教えるならば,これまでよりも,確率分布の数 理(たとえば,平均や分散の計算)をしっかりと教える必要が あるのではないか? MCMCで推定できても,確率分布の平均や分散をまったく計算できな いのはおかしいと思う. 統計検定2級範囲の分布について,その数理をどう教えるか試 行錯誤した. 計算や証明方法の比較検討. 積率母関数を使う方法は候補に入れなかった. ゼミで(文系)学生に教えてみて,少なくとも拒否的な反応はない.

これらの他に,推定・検定の問題で,t 分布,F 分布,カイ2乗 分布を使用する. 統計検定2級の出題範囲に含まれる確率分布 一様分布 二項分布 ポアソン分布 幾何分布 指数分布 正規分布 これらの他に,推定・検定の問題で,t 分布,F 分布,カイ2乗 分布を使用する.

二項分布・ポアソン分布 配布資料を参照. 二項分布の平均と分散は,ベルヌーイ分布(試行数1の二項分布)の 平均と分散から計算すると簡単. 平均と分散を定義に従って計算することは少しやっかい. 二項定理と偏微分を用いた証明はエレガント. ポアソン分布の確率関数は,指数関数 eλ のテイラー展開を利用して覚 えておくことができる. ポアソン分布の平均と分散は,二項分布の平均と分散の極限. 定義に従って平均を計算することは簡単だが,分散は少しやっかい. べき級数の項別微分の定理を認めれば,エレガントな証明方法もあ る.

幾何分布 『統計学入門』(東大出版)では,幾何分布の平均を求めるた めに,以下の「恒等式」をいきなり提示している. これは以下の引き算を意味するが,一般には無限級数について こうした操作をしてはいけない.級数の収束が前提である.

高校数学で学習する基本に帰って,第 n 項までの部分和につい て,同様の引き算のあと極限をとってみる. この第2項が 0 に収束することは直観的に受け入れてよい. 高校数学の範囲である程度厳密に示すことも可能. 清史弘(2005)分野別 受験数学の理論 6. 数列 駿台文庫(p.162)

幾何分布の分散は,無限級数の演算を問題にしなければ,平均 と同様に計算できる.『統計学入門』(東大出版)はこの計算 のヒントを以下のように与えているが,わかりにくい. E(X2) も (x+1)2-x2=2x+1 に注意すると E(X) の計算に帰して・・・ おそらく誤植. 参考:松原望(2013) 統計学 東京図書(p.53)

べき級数の項別微分の定理を認めれば,小針(1973)の示して いる証明がすっきりしている. (*)の両辺に p をかけて, 左辺の微分: (*)の両辺に q をかけて項別微分すると 右辺の微分: ・・・(*)

指数分布 指数分布の平均と分散は,定義に従って計算するしかない. 部分積分が必要なことと,不定形の極限が出てくることが,文 系学生にとってはやや難しい. 部分積分により. 不定形

ゼミでの学習の補助のために作成したウェブページでの解説 http://terao.akiba.coocan.jp/lecture/aoyama/statex/statex.html

論点 分布についてのこうした学習は,ベイズ統計学の学習に必要な のか? 基本的な分布の数理をここで述べたように教えている限りで は,これまでの頻度主義統計学での教え方と何も変わらない. それでいいのか?

今後の展望 統計学を教える教員が利用できる事典あるいはハンドブックを 作成したい. 単に教え方の研究ではなく,認知科学的な研究にしたい. 複数の証明方法など,可能な教育方法をいくつか示し,教員が教え方 を選択するときに役立つようにしたい. 単に教え方の研究ではなく,認知科学的な研究にしたい. ベイズの定理の理解の変化は,見通しが出てきた. 確率分布の教え方については,まだ研究の手掛かりがつかめていな い.

話題提供まとめ ベイズの定理の理解には3つの段階があるように思われる. 多くのテキストで,段階2から3へのギャップを埋める工夫が十分で ないように思う.離散分布を使った例題で,事前分布(確率分布)と 尤度関数を使って事後分布を求める練習を行うと,段階3への移行が スムーズになる. 確率分布の数理を,これまでよりもしっかりと教える必要があ るように思われる. 確率(密度)関数の導出,および,平均と分散の計算について,文系 学生への教え方を試行錯誤してきた. 基本的な分布の数理であっても,無限級数の扱い,べき級数の項別微 分,部分積分,不定形の極限など,いくつかの難所や注意点がある.

論点まとめ 母数が未知の固定値であると考えることと,母数が確率変数で あると考えることは,矛盾しないのではないか. 頻度主義とベイズ主義の対立は,私にはよく理解できない.そ んなに相容れないものなのか? 分布の数理について学習は,ベイズ統計学の学習に必要なの か? 基本的な分布の数理をここで述べたように教えている限りで は,これまでの頻度主義統計学での教え方と何も変わらない. それでいいのか?