決定木-II 学習目標 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比

Slides:



Advertisements
Similar presentations
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
Advertisements

相互作用図 FM11010 田中健太.
第2回 プロセス管理 ジョブ、プロセスとは? プロセスの状態遷移 プロセス制御ブロック スケジューリング.
「わかりやすいパターン認識」 第1章:パターン認識とは
極小集合被覆を列挙する 実用的高速アルゴリズム
離散システム特論 整列(sorting)アルゴリズム 2.
知識ベース型CAI / IROSA-Ⅱの開発・評価 著者 岡本敏雄
Problem G : Entangled Tree
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
ORB: an efficient alternative to SIFT or SURF
PSOLA法を用いた極低ビットレート音声符号化に関する検討
Probabilistic Method 6-3,4
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
Probabilistic method 輪講 第7回
Proper Interval Graphsの ランダム生成と列挙
s a b f c e d 2016年度 有限幾何学 期末試験 問1:15点
5.5 The Linear Arboricity of Graphs (グラフの線形樹化数)
第13章 フォンノイマン/モルゲンシュテイン解
クラス分類問題 (Classification)
人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
決定木とランダムフォレスト 和田 俊和.
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
第9章 混合モデルとEM 修士2年 北川直樹.
第5章:特徴の評価とベイズ誤り確率 5・3:ベイズ誤り確率とは
7.4 Two General Settings D3 杉原堅也.
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
【第二講義】1次元非線形写像の不変集合とエントロピー
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
予測に用いる数学 2004/05/07 ide.
Extractor D3 川原 純.
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
アルゴリズムとプログラミング (Algorithms and Programming)
Data Clustering: A Review
決定木による知識の獲得 認知システム論 知識と推論(4) 学習と帰納推論 決定木 ID3アルゴリズム 性能評価と応用
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
様々な情報源(4章).
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
福永 拓郎 (京都大学) Magnús M. Halldórsson (Reykjavik University) 永持 仁 (京都大学)
プログラミング 4 木構造とヒープ.
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
アルゴリズムとデータ構造1 2006年7月11日
15.cons と種々のデータ構造.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
アルゴリズムとデータ構造 第3章 ヒープ 5月31日分
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
5.3, 5.4 D2 岡本 和也.
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
人工知能特論II 第8回 二宮 崇.
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
7.8 Kim-Vu Polynomial Concentration
決定木-III Occam’s razor(オッカムの剃刀) Minimum Description Length (最小記述長) 枝刈り
分枝カット法に基づいた線形符号の復号法に関する一考察
ヒープソート.
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
計算の理論 I 反復補題 火曜3校時 大月 美佳 平成16年7月13日 佐賀大学知能情報システム学科.
データ分布の特徴 基準化変量 歪度 尖度.
原口和也 高橋隆一 丸岡章 石巻専修大学 理工学部 情報電子工学科
参考:大きい要素の処理.
Speaker: Kazuhiro Inaba Paper Introduction from WSDM 2015
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
無向グラフが与えられたとき、最大位数の完全部分グラフを求める問題
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

決定木-II 学習目標 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比 2.△事例数に応じた決定木の検証法を 設定できる 事例が十分 事例が不十分 3.△枝刈を適切に行える

決定木 属性とクラスの対からなる事例集合 身長H, 収入L, 学歴Hの場合は? 身長 収入 学歴 クラス L M H + -

決定木 属性とクラスの対からなる事例集合 ID3で生成された決定木 身長H, 収入H, 学歴Lの場合は? なぜ「収入」→「学歴」の順? 赤(楕円)ノードは判別ノード 最も上の判別ノードをルートノード 青ノードはクラスノード なぜ「収入」→「学歴」の順? 身長 収入 学歴 クラス L M H + - L 学歴 H M L,M,H:+ L,M,M:- H,M,M:- 収入 H,H,H:+ H,H,M:+ H,L,L:- H,L,H:- L,L,H:-

属性選択基準 利得 (Information Gain) 利得比 (Gain Ratio) 該当(現時点で残った)事例集合のエントロピー -   該当(現時点で残った)事例集合のエントロピー  - 候補属性で分岐した場合のエントロピーの期待値 利得比 (Gain Ratio) 利得/候補属性で分岐した場合の分割エントロピー 補足   エントロピー → クラスに関するエントロピー

判別ノード1 身長 収入 学歴 エントロピーの期待値 = 0.95 bit エントロピーの期待値 = 0.34 bit 最も低い (予想つきやすい) ので選択

エントロピー(情報量の期待値) n個の事象がそれぞれ確率p1, p2 ,…, pnで 発生するとき、この事象の集合の不確定度 を示す

収入のときのエントロピーの平均 = 0.344 bit 収入 L H M H,L,M:- H,L,H:- L,L,H:- H,H,H:+ H,H,M:+ L,M,H:+ L,M,M:- H,M,M:- エントロピー = 0 bit エントロピー = 0 bit エントロピー = -1/3 log2 1/3 - 2/3 log2 2/3 = 0.917 bit エントロピーの 平均 =0x3/8 + 0x2/8 + 0.917x3/8 =0.34 bit

判別ノード2は? 残りのデータに対して 身長のエントロピーの平均=0.666 bit 学歴のエントロピーの平均=0 bit 収入 L H M H,L,M:- H,L,H:- L,L,H:- H,H,H:+ H,H,M:+ ? L,M,H:+ L,M,M:- H,M,M:- 残りのデータに対して 身長のエントロピーの平均=0.666 bit 学歴のエントロピーの平均=0 bit

決定木生成アルゴリズム STEP1: 該当事例集合Cのすべての事例が同一 クラスに属するなら,そのクラスノードをつくり,停止する.それ以外なら,属性選択基準により一つの 属性A*を選んで判別ノードをつくる. STEP2: 属性A*の属性値(a1, a2,…, an )によりCをC1, C2,…, Cnにわけてノードをつくり,属性値の枝を張る. STEP3: それぞれのノードCi(1≦i≦n ) に対して  このアルゴリズムを再起的に適用する.

決定木の例 事例集合 収入 L H M H,L,M:- H,L,H:- H,H,H:+ H,H,M:+ L,L,H:- 学歴 L,M,M:- 身長 収入 学歴 クラス L M H + - L 学歴 H M L,M,H:+ L,M,M:- H,M,M:- 収入 H,H,H:+ H,H,M:+ H,L,M:- H,L,H:- L,L,H:-

属性選択基準(再登場) 利得 (Information Gain) 利得比 (Gain Ratio)   該当(現時点で残った)事例集合のエントロピー  - 候補属性で分岐した場合のエントロピーの期待値 利得比 (Gain Ratio) 利得/候補属性で分岐した場合の分割エントロピー

利得 H(C) - H(C|A) 利得が最も高かい属性A = A*を選択 H(C)は該当事例集合Cのエントロピー m: Cのクラスの種類   p(i) : Cに含まれているクラスiの事例の確率 H(C|A)はCをn種類の属性値を持つAでn分岐した場合の エントロピーの期待値(Cの条件付きエントロピー) p(ai) :Cにおいて属性Aが値aiをとる確率  H(C|ai): Aの値がaiである事例集合(ノードCi)のエントロピー

ルートノードの属性を30秒以内で 決めよ! ID 身長 収入 学歴 クラス 1 L M H + 2 H L L - 3 H L H - 4 ルートノードの属性を30秒以内で  決めよ! ID 身長 収入 学歴 クラス 1 L M H + 2 H L L - 3 H L H - 4 H H H + 5 L L H - 6 H H M + 7 L M M - 8 H M M -

利得比 H(C) - H(C|A) split(C, A) 利得比が最も高かい属性A = A*を選択 split(C, A)はCをn種類の属性値を持つ候補Aで  n分岐した場合の「分割エントロピー」 p(ai) :Cにおいて属性Aが値aiをとる確率

次回 決定木の検証法 枝刈 面白い?論文紹介 決定木に関する質疑応答