第14章 モデルの結合 修士2年 山川佳洋.

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
「わかりやすいパターン認識」 第1章:パターン認識とは
ラベル付き区間グラフを列挙するBDDとその応用
ニューラルネットのモデル選択 村田研究室 4年  1G06Q117-5 園田 翔.
遺伝的アルゴリズム  新川 大貴.
Pattern Recognition and Machine Learning 1.5 決定理論
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
回帰分析.
ベイズ的ロジスティックモデル に関する研究
雑音重み推定と音声 GMMを用いた雑音除去
EMアルゴリズム クラスタリングへの応用と最近の発展
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
第4章 線形識別モデル 修士2年 松村草也.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
決定木とランダムフォレスト 和田 俊和.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
Introduction to Soft Computing (第11回目)
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
部分的最小二乗回帰 Partial Least Squares Regression PLS
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
回帰分析(Regression Analysis)
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ポッツスピン型隠れ変数による画像領域分割
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
パターン認識特論 ADA Boosting.
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
パターン認識特論 ADA Boosting.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

第14章 モデルの結合 修士2年 山川佳洋

14章の目次 モデルの結合 ベイズモデル平均化 コミッティ ブースティング 指数誤差の最小化 ブースティングのための誤差関数 木構造モデル 条件付き混合モデル 線形回帰モデルの混合 ロジスティックモデルの混合 混合エキスパートモデル

概要 コミッティ L個の異なるモデルを訓練した後に,各モデルで得られた予測の平均値を予測値として用いる →代表的なものにブースティング 決定木 予測に用いる1つのモデルを入力変数の関数として選択するもの →応用したものに混合エキスパートモデル

コミッティ L個の異なるモデルを訓練した後に,各モデルで得られた予測の平均値を予測値として用いる 各モデル間には変化が必要 →バギングの利用   個のブートストラップデータ集合を生成し,それらデータ集合を用いて 個々に独立な  個の予測モデル    のコピーを訓練する.

ブースティング コミッティとの違い →データを逐次的に訓練 複数の「ベース」分類器を結合する →いずれのベース分類器より高性能のコミッティ →ベース分類器は弱学習器と呼ばれる 代表的なものにAdaBoost (Freund and Schapire, 1996) もとは分類問題→回帰問題にも拡張 各ベース分類器の訓練→重み付けられたデータ集合 重み係数は以前の学習の分類器の性能による

AdaBoost アルゴリズム 1.n=1,…,N のデータの重み係数 を に初期化する 2.m=1,…,M について以下を繰り返す   誤差関数を最小化するように訓練データに   フィットさせる (b)次の値(誤差率の尺度)を計算する これを用いて次の量(重み係数)を求める (c)データ点の重み係数を   以下の式で更新する 3.以下の式で,最終モデルの予測をする

AdaBoost アルゴリズム

決定木 木構造に沿った一連の二値選択として記述 個々には非常に簡単なモデルを用いる 分類問題,回帰問題,いずれにも適用

決定木 例1(PRMLより) 決定木 木構造の予測モデル 入力空間を多次元の矩形領域に区分する 二次元入力空間 根ノード 枝 葉ノード

決定木 例2(wikipediaより) ゴルフ場の経営者が従業員の勤務体制を最適化する

決定木 例2イメージ図 三次元の入力空間の分割図 風 ゴルフをする 湿度 ゴルフをしない 強い 強くない 70% 天気 晴れ くもり 雨

決定木! 目標変数を予測するためのモデルは各領域に個別に存在 回帰問題では領域ごとに単純に定数値を予測 →家賃の見積もり(駅からの距離,広さ,築年数など) 分類問題では各領域に特定のクラスを割り当てる →医療診断(体温,血圧など) 訓練集合からの学習 各ノードにおいて分割規準として利用する入力変数を選択肢し 閾値θiを決めることで木構造を決定する 領域ごとに予測する変数の値を決定する D次元ベクトル から一次元の目標変数  を予測する 訓練データ 連続ラベル を伴う入力ベクトル

回帰モデルの分割方法 入力空間の分割を二乗誤差を最小にするように 与えるならば予測変数の最適値は領域内のデータ点の平均値となる 二乗和誤差が最小となるように分割を行う クラス1 平均値 ノードの追加を終わらせる条件 τ:葉 クラス2 平均値 分割面

分類問題の分割方法 ジニ係数 最小となるように分割 2クラス分類(赤と青) ③ ① ② ③ ① ② ③<②<①

決定木!! 人における可読性が木モデルの強み データ集合の細部に非常に敏感 →データのわずかな違いから結果が大きく変わることも 分割が特徴空間の軸に沿わせているため準最適となる 回帰問題で予測が分離境界において不連続 入力空間分割がハードな分割 →確率的な枠組みの導入でソフトに →混合エキスパートモデル