決定木とランダムフォレスト 和田 俊和.

Slides:



Advertisements
Similar presentations
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
Advertisements

©2008 Ikuo Tahara探索 状態空間と探索木 基本的な探索アルゴリズム 横形探索と縦形探索 評価関数を利用した探索アルゴリズム 分岐限定法 山登り法 最良優先探索 A ( A* )アルゴリズム.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
A Simple Constant Time Enumeration Algorithm for Free Trees 中野 眞一 宇野 毅明 群馬大学 情報学研究所 2003 年 9 月 19 日 アルゴリズム研究会.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
離散システム特論 整列(sorting)アルゴリズム 2.
ラベル付き区間グラフを列挙するBDDとその応用
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
遺伝的アルゴリズム  新川 大貴.
Pattern Recognition and Machine Learning 1.5 決定理論
On the Enumeration of Colored Trees
Problem G : Entangled Tree
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
情報知能学科「アルゴリズムとデータ構造」
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
マイクロシミュレーションにおける 可変属性セル問題と解法
岩井 儀雄 コンピュータ基礎演習  ー探索、整列ー 岩井 儀雄
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
二分探索木によるサーチ.
Classification Problem
Classification Problem
クラス分類問題 (Classification)
k 個のミスマッチを許した点集合マッチング・アルゴリズム
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94
モデルの適用範囲 モデルの適用領域 Applicability Domain (AD)
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
第9章 混合モデルとEM 修士2年 北川直樹.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第7章 疎な解を持つカーネルマシン 修士2年 山川佳洋.
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
決定木-II 学習目標 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
15.cons と種々のデータ構造.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
アルゴリズムとデータ構造 第3章 ヒープ 5月31日分
アルゴリズムとデータ構造 第3章 ヒープ 5月31日分の復習
サポートベクターマシン Support Vector Machine SVM
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
アルゴリズムとデータ構造 2011年6月16日
情報工学概論 (アルゴリズムとデータ構造)
Advanced Data Structure 第3回
ヒープソート.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
ヒープソート.
アルゴリズムとデータ構造 2013年6月20日
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

決定木とランダムフォレスト 和田 俊和

T1, T2, T3, T4 の値 クラス分類器 (classifier) 出力 (目標属性に一致させる) 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 0 0 1 1 0 1 0 1 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 0 T1, T2, T3, T4 の値 クラス分類器 (classifier) 出力 (目標属性に一致させる)

分類ルール テスト If T1=1 Then If T3=1 If T4=1 Then 目標属性=1 Else 目標属性=0 Else T1 T2 T3 T4 目標属性 (Objective) 1 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 0 0 1 1 0 1 0 1 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 0

決定木(decision tree) If T1=1 Then If T3=1 If T4=1 Then 目標属性=1 Else 目標属性=0 Else 目標属性=0 T1 1 T3 T4 1 1 T4 1 1 1 ルールによる表現 木構造表現

テストの順番を変えると異なる決定木が得られる T1 T2 T3 T4 目標属性 1 1 1 1 1 1 1 1 0 0 1 1 0 1 0 0 1 0 1 1 0 1 0 0 0 1 0 1 1 1 0 0 1 1 1 0 0 0 1 1 1 0 0 1 0 0 0 1 0 0 1 0 1 0 0 T2 1 T1 T4 1 1 T3 T4 T3 1 1 1 T4 1 1 T1 1 1 1 1

用語 属性(attribute) テスト属性(test attributes) レコード(record) 目標属性(Objective attribute) T1  T2  T3  T4  Ao 1   1   1   1  1 1   1   1   0  0 : レコード(record) レコード t の属性 A の値を t[A] と表記 目標値  目標属性の値の1つ.  例えば 1 目標属性 Ao、目標値が 1 のとき、  t[Ao]= 1 となる t を 正(positive)  t[Ao]≠1となる t を 負(negative)

決定木の最小化

決定木のコスト 決定木の評価 根ノードから葉ノード x に至るテストの数 cost(x)  決定木のコスト = S {cost(x) | x は葉ノード}  決定木のコストは小さい  ほうが望ましい T1 T3 T4 1 2 3 3 12

コストの比較 T2 T1 T4 T3 1 T1 T3 T4 1 3+3+2+2+2=12 4+4+3+3+3+3+4+4+2=30

近似的解法 Greedy Algorithm エントロピー

近似的解法 貪欲(greedy)アルゴリズム  「最も良さそうな」テストを選択し、  レコード集合を分割  分割したレコード集合に  同じ戦略を繰り返し適用する  一度選択したテストは変更しない  「最も良さそうな」 の基準を工夫

最初にT2ではなくT1を選ぶべき T1 T3 T4 1 3+3+2+2+2=12 4+4+3+3+3+3+4+4+2=30 T2 T1 T4 T1 T3 T4 1 3+3+2+2+2=12 4+4+3+3+3+3+4+4+2=30

T2 ではなく T1 を選択する評価基準は? #P : 正レコードの数 #N: 負レコードの数 T1 1 #P = 3 #N = 5 T1 T2 T3 T4 目標属性 1 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 0 0 1 1 0 1 0 1 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 1 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 0 #P : 正レコードの数 #N: 負レコードの数 T1 1 #P = 3 #N = 5 #P = 5 #N = 3 T2 1 #P = 4 #N = 4 #P = 4 #N = 4

テスト選択のための評価値を定める y #P+#N = n #P = m (x, y+Δ) (x -Δ, y) (x, y) test 1 (m, m) (n, m) (x, y+Δ) (x -Δ, y) (x, y) test 1 (x, y) (x +Δ, y) #P+#N = x #P = y #P+#N = n-x #P = m-y (x, y-Δ) x (n-m, 0)  test を選択すると (x, y) が定まる.評価関数を φ(x, y) とおく  評価基準 φ(x, y) が満たしてほしい条件 φ(x, y) は m/n = y/x のとき最小 φ(x, y) ≦ φ(x, y+Δ), φ(x, y) ≦ φ (x -Δ, y) if m/n < y/x φ(x, y) ≦ φ(x, y-Δ), φ(x, y) ≦ φ (x +Δ, y) if m/n > y/x Δ> 0

評価値:エントロピーゲイン 正レコードの割合 p = #P / (#P + #N) 負レコードの割合 1-p = #N / (#P+#N) エントロピー ent(p) = - p log2 p - (1-p) log2 (1-p) レコード数  n 正レコードの割合  p0 = m / n 1 n1 = x p1 = y / x n2 = n - x p2 = (m - y) / (n - x) Entropy Gain Ent(x, y) = ent(p0) - (n1/n) ent(p1) - (n2 /n) ent(p2)

T1を選んだときのエントロピーゲイン #P = 8 #N = 8 ent(8/16) = 2 (- (1/2) log2(1/2)) = 1 #P = 3 #N = 5 #P = 5 #N = 3 ent(3/8) = - (3/8)log2(3/8) - (5/8)log2(5/8) = 0.95444 ent(5/8) = ent(3/8) Entropy Gain = ent(8/16) - (8/16)ent(3/8) - (8/16)ent(5/8) = 1 - 0.95444 = 0.04556

T2を選んだときのエントロピーゲイン #P = 8 #N = 8 ent(8/16) = 1 T2 1 #P = 4 #N = 4 #P = 4 #N = 4 #P = 4 #N = 4 ent(4/8) = 1 ent(4/8) = 1 Entropy Gain = ent(8/16) - (8/16)ent(4/8) - (8/16)ent(4/8) = 0

決定木とは?

決定木の定義 data point

分岐ノード

各ノードにおけるサンプル

各ノードにおけるh(v,θj)の学習 評価には,エントロピーゲインが主に用いられる

エントロピーゲイン

完全な最適化を行うことは不可能 全パラメータ空間T内でエントロピーゲインIを最大化するパラメータθ*を求めるのは時間がかかりすぎて不可能. ランダムにサンプルしたパラメータTjについて,それぞれエントロピーゲインを評価する.(サンプルデータを流す)

葉っぱで計算される内容 vを与えて,葉に到達したときそれがクラスcに属するか,あるいは出力値yに関連づけられているかの確率に関連づけられている.

学習データからランダムにサンプリングしたデータで複数の木を作る. トレーニング集合Sから,ランダムにサンプル集合Skを求め,それぞれについて決定木を求める.(集合間の重なりは許容する) t番目の木についてベクトルvを与えて求められる事後確率pt(c|v)を元にして,T個の木から下記のように確率を統合する.(通常は平均を使う)

学習データからランダムにサンプリングしたデータで複数の木を作る.

学習の終了条件 1. あらかじめ定めた深さに達した場合 2. ノードに割り当てられた学習データの個数が一定値以下になったとき 3. 分割によるエントロピーゲインが一定値以下になったとき

画像への応用

点対応付けの際の学習データの生成(Lepetit 2006)

Feature Harvesting for Tracking-by-Detection

kinect からの身体部位推定shoutton 2011 open NIに組み込まれている. 人間の身体を31個の部位に分割 入力:デプスマップ 出力:部位ラベル 奥行きの差を特徴として用いる.

学習データ モーションキャプチャと距離データペアを取得

身体部位推定結果

特徴抽出

Semantic Texton Forest Shotton 2008

Bag of Semantic textons

結果

回帰計算の例 Hough Forest Gall et al. 2009

Hough Forest Gall et al. 2009

Hough Forestによる投票結果

演習問題 左の表のようなテスト-目標属性間の関係があるとき,エントロピーゲインに基づいて決定木を求めなさい T1 T2 T3 T4 目標属性 1 0 1 1   1 1 1 1 1   1 1 1 1 0   0 1 0 1 0   0 1 1 0 1   0 1 0 0 1   0 0 1 0 1   1 0 0 1 1   1 0 1 0 1    1 0 0 0 1   1 0 0 1 0   0 0 1 0 0   0 左の表のようなテスト-目標属性間の関係があるとき,エントロピーゲインに基づいて決定木を求めなさい