決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.

Slides:



Advertisements
Similar presentations
A Simple Constant Time Enumeration Algorithm for Free Trees 中野 眞一 宇野 毅明 群馬大学 情報学研究所 2003 年 9 月 19 日 アルゴリズム研究会.
Advertisements

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
重回帰分析入門 経済データ解析 2009年度.
Pattern Recognition and Machine Learning 1.5 決定理論
On the Enumeration of Colored Trees
Problem G : Entangled Tree
重回帰分析入門 経済データ解析 2011年度.
アルゴリズムとデータ構造 補足資料13-4 「2分探索木の追加・削除(ダイジェスト)」
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
回帰分析.
変数選択手法っていろいろあるけど 何を使えばいいの?
Generative Topographic Mapping (GTM) でデータの 可視化・回帰分析・モデルの 逆解析を一緒にやってみた
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
データ解析 静岡大学工学部 安藤和敏
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
決定木とランダムフォレスト 和田 俊和.
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
主成分分析 Principal Component Analysis PCA
A Simple Algorithm for Generating Unordered Rooted Trees
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
部分的最小二乗回帰 Partial Least Squares Regression PLS
決定木-II 学習目標 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比
Genetic Algorithm-based Partial Least Squares GAPLS Genetic Algorithm-based Support Vector Regression GASVR 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
適応的近傍を持つ シミュレーテッドアニーリングの性能
プログラミング 4 木構造とヒープ.
第3章補足2 多変量データの記述 統計学基礎 2010年度.
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
15.cons と種々のデータ構造.
線形判別分析 Linear Discriminant Analysis LDA
アルゴリズムとデータ構造 第3章 ヒープ 5月31日分の復習
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
サポートベクターマシン Support Vector Machine SVM
自己組織化マップ Self-Organizing Map SOM
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
遺伝的アルゴリズム (GA) を活用した スペクトルの波長選択および時系列 データにおけるプロセス変数かつその時間 遅れ (ダイナミクス) の選択 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
アルゴリズムとデータ構造 2011年6月16日
データ解析 静岡大学工学部 安藤和敏
決定木-III Occam’s razor(オッカムの剃刀) Minimum Description Length (最小記述長) 枝刈り
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
リッジ回帰(Ridge Regression, RR) Least Absolute Shrinkage and Selection Operator (LASSO) Elastic Net (EN) 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
重回帰分析入門 経済データ解析 2008年度.
ヒープソート.
実験計画法 Design of Experiments (DoE)
Locally-Weighted Partial Least Squares LWPLS 局所PLS
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
アルゴリズムとデータ構造 2013年6月20日
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Boruta 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
転移学習 Transfer learning
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌

決定木 (Decision Tree, DT) とは? 回帰分析にもクラス分類にも使える 回帰モデル・クラス分類モデルが、木のような構造で与えられるため、 モデルを直感的に理解しやすい 理解しやすい反面、モデルの精度は他の手法と比べて低くなって しまうことが多い 今回説明するのは CART (Classification and Regression Tree)

決定木でできることのイメージ (回帰分析) n ・・・ 目的変数 y の値が n のサンプル yP = 2.58 2.5 2.2 2.4 2.1 2.5 2.7 2.8 説明変数2 (x2) 4 yP = 1.85 2.1 2.3 1.7 3.0 1.4 2.0 2.6 3.3 yP = 3.27 1 1.1 yP = 1.2 推定値 yP は、サンプル の平均値 2.25 3.5 1.3 3 5 説明変数1 (x1)

決定木のでできることのイメージ (クラス分類) ・・・ クラスが 1 のサンプル ・・・ クラスが 2 のサンプル クラス 2 説明変数2 (x2) 4 クラス 1 クラス 1 1 クラス 2 推定されたクラスは、 多数決で クラス 2 3 5 説明変数1 (x1)

決定木モデルの木構造 (回帰分析) 根ノード 枝 x1 ≤ 3 x1 > 3 ノード x2 ≤ 4 x2 > 4 x2 ≤ 1 葉ノード yP = 1.2 yP = 1.85 yP = 2.25 yP = 3.27 yP = 2.58

決定木モデルの木構造 (クラス分類) 根ノード 枝 x1 ≤ 3 x1 > 3 ノード x2 ≤ 4 x2 > 4 x2 ≤ 1 葉ノード クラス 2 クラス 1 クラス 2 クラス 1 クラス 2

決定木のアルゴリズム どのように木を作るか? 根ノードから、2つずつ葉ノードを追加していき、木を成長させる どのように2つの葉ノードを追加するか? つまり、どのように説明変数を選んで、どのようにしきい値を選ぶか? 説明変数としきい値とのすべての組み合わせにおいて、 評価関数 E の値を計算し、それが最も小さい組み合わせにする

回帰分析における評価関数 E 目的変数の誤差の二乗和 それぞれの葉ノードにおける目的変数の推定値は、 同じ葉ノードにあるサンプルの平均値で与えられる n : 葉ノードの数 Ei : 葉ノード i の評価関数 mi : 葉ノード i におけるサンプル数 yj(i) : 葉ノード i における、 j 番目の サンプルの目的変数の値 yPi : 葉ノード i における目的変数の 推定値

クラス分類における評価関数 E 交差エントロピー誤差関数 ジニ係数 K : クラスの数 pik : 葉ノード i における、クラス k の サンプルの割合 いずれも、 (ジニ係数のほうが よく使われるかな・・・)

いつ木の成長を止めるか? クロスバリデーションの誤差が最小になるように深さを決める 1つの葉ノードにおける最小サンプル数を決め ( 3 とか)、 とりあえずすべて木を生成させる 葉ノードを2つずつ枝刈りしていく 下の基準 C が大きくなったら枝刈りストップ λ はクロスバリデーションで決める E : 評価関数 n : 葉ノードの数 λ : 木の精度と複雑度との間の トレードオフを決める重み