クラス分類問題 (Classification)

クラス分類問題 (Classification)

T1, T2, T3, T4 の値クラス分類器 (classifier) 目標属性の値 1 0 1 1 1 1 1 1 1 1
T1, T2, T3, T4 の値クラス分類器 (classifier) 目標属性の値

クラス分類器 (Classifier) の様々な手法
　決定木 (decision tree) k-nearest neighbor Boosting 　Neural Network 　Hidden Markov Model 　Support Vector Machine

テスト If T1=1 Then If T3=1 If T4=1 Then 目標属性＝1 Else 目標属性＝0 Else 目標属性＝0
T1 T2 T3 T4 目標属性 (Objective) If T1=1 Then If T3=1 If T4=1 Then 目標属性＝1 Else 目標属性＝0 Else 目標属性＝0 決定木(decision tree)

If T1=1 Then If T3=1 If T4=1 Then 目標属性＝1 Else 目標属性＝0 Else 目標属性＝0 T1 T3
T3 T4 1 1 T4 1 1 1

T1 T2 T3 T4 目標属性 T2 1 T1 T4 1 1 T3 T4 T3 1 1 1 T4 1 1 T1 1 1 1 1

クラス分類問題の様々な応用例　製品の歩留まりの向上 (Improvement of Yields) 目標属性機械の故障の有無　(Disorders of Machines) テスト機械の状態 (Conditions of Machines) 　薬品効果の分類 (Effectiveness of Medicine) 目標属性薬の効果　発病テスト心拍数(Heartbeats)　血糖値(blood sugar level) 遺伝子マーカー(polymorphic markers on genome) 　顧客の分類 (Customer Classification) 目標属性顧客の忠誠度(Loyality)　自動車事故の有無 (Records of Automobile Accidents) テスト年齢 (Age)　収入(Income)　購入履歴(Purchase Records) 　詐欺行為の検出 (Fraud Detection) 目標属性詐欺行為の有無テスト口座引落回数などの予兆　(Symptoms)

テスト属性（test attributes）
属性(attribute) フィーチャ－(feature) T1　　T2　　T3　　T4 目標属性 1　　　1　　　1　　　1 1 1 　　1　　　1　　　0 0 : レコード(record)　データ(data)　タップル(tuple) レコード t の属性 A の値を t[A] と表記目標値　　目標属性の値から一つ選択．　　例えば 1 目標属性が A、目標値が 1 のとき、　t[A]= 1 となる t を　正(positive) 　t[A]≠1となる t を　負(negative)

決定木の最小化はＮＰ困難

根ノードから葉ノード x に至るテストの数 cost(x)
各葉ノードにおいて、到達するレコードがすべて正であるか、すべて負であるかのいづれかが成り立つ決定木を生成することを考える決定木の評価　根ノードから葉ノード x に至るテストの数 cost(x) 　決定木のコスト＝ S {cost(x) | x は葉ノード} 　決定木のコストは小さい　ほうが望ましい T1 1 T3 T4 1 1 T4 1 2 2 2 1 1 3 3 12

T1 T3 T4 T4 1 1 3+3+2+2+2=12 4+4+3+3+3+3+4+4+2=30 1 1 1 1 T2 1 T1 T4 1
1 T1 T4 T3 T4 1 1 1 1 T3 T4 T3 T4 1 1 1 1 T4 1 1 T1 1 1 1 1 =12 1 1 =30

コストがある w 以下の決定木は存在するか否か：ＮＰ完全 L. Hyafil and R. L
　コストがある w 以下の決定木は存在するか否か：　ＮＰ完全 L. Hyafil and R. L. Rivest: “Constructing Optimal Binary Decision Trees is NP-complete,” Information Processing Letters, Vol. 5, No. 1, May 1976 　従って、コスト最小の決定木を求める最適化問題はＮＰ困難ＮＰであること　決定木を生成する非決定性チューリング機械Ｔを構成する　Ｔが出力する決定木のコストは多項式時間で計算可能ＮＰ完全であること　EXACT COVER BY 3-SETS 問題を決定木のコストを計算する　問題に多項式時間で変換できる

EXACT COVER BY 3-SETS 問題　（ＮＰ完全）
３個の元を含む X の部分集合の集まり S={T1, T2, …} が与えられたとき、　次の条件を満たす S1 ⊆ S は存在するか？　∪ { T | T ∈ S1 } = X 　S1 の元は互いに素（任意の i ≠ j について　Ti ∩ Tj = φ）つまり X の任意の元は、S1の中でどれか一つに含まれる例 X = {1,2,3,4,5,6,7,8,9} S = { {1,2,3}, {2,3,4}, {1,5,6}, {5,6,7}, {6,7,8}, {7,8,9}　} 3 4 9 2 5 8 1 6 7

EXACT COVER BY 3-SETS 問題のＮＰ完全性については
M. R. Garey and D. S. Johnson. Computer and Intractability. A Guide to NP-Completeness W. H. Freeman, 1979 SAT →　3SAT →　3D Matching →　 EXACT COVER BY 3-SETS

EXACT COVER BY 3-SETS X，S = {T1, T2, …} |X| 個の新たな元を生成し
集合Ｙ={y1,y2, ...} とおく X∪Y の元 t をレコード、 S∪Y の元をテストとみなす t∈ X∪Y t[Ti] = 1 t∈Ti = 0 otherwise t[y] = 1 t=y (y∈Y) t[A] = 1 t∈X = 0 t∈Y 目標属性 T1 T2 T3 ... y1 y2 y A : X Y 多項式時間で変換可能

正レコード　t[A]=1 Xの元負レコード　t[A]=0 Yの元テストとなる属性

正レコードと負レコードを決定木で分離する戦略１ S = {T1, T2, …} のテストを使って正レコードを包含する T1 T2 T3 T1 1 1 T2 1 1 T3 1 1

正レコードと負レコードを決定木で分離する戦略２ Y = {y1, y2, …} のテストをすべて使って負レコードを包含する y1 1 y1 y2 y3 y2 1 y3 1 y9 1 1

正レコードと負レコードを分離する決定木では　正レコードをすべて包含する　S の部分集合をテストとして使うか　負レコードを包含する Y のテストを　すべて使う前者でＹのテストを使うのは無駄で、後者でＳのテストを使うのも無駄したがって、戦略１もしくは戦略２がコスト最小の木を生成する

y1 1 戦略２のコスト 1+2+…+|X|+|X| は戦略１のコストより大きい戦略１がコスト最小の木を生成 EXACT COVER BY 3-SETSが存在するならば、戦略１よりコストが 1+2+…+ (2*|X|)/3　(= w とおく）となるコスト最小の決定木を生成できるコストがw以下の決定木が存在することと、 EXACT COVER BY 3-SETSが存在することは同値 y2 1 y3 1 y|X| 1 1

近似的解法 Greedy Algorithm エントロピー

近似的解法貪欲(greedy)アルゴリズム
　「最も良さそうな」テストを選択し、　レコード集合を分割　分割したレコード集合に　同じ戦略を繰り返し適用する　一度選択したテストは変更しない　「最も良さそうな」　の基準を工夫

T1 T3 T4 T4 1 1 3+3+2+2+2=12 4+4+3+3+3+3+4+4+2=30 1 1 1 1 T2 1 T1 T4 1
1 T1 T4 T3 T4 1 1 1 1 T3 T4 T3 T4 1 1 1 1 T4 1 1 T1 1 1 1 1 =12 1 1 =30

#P : 正レコードの数 #N: 負レコードの数 T1 1 #P = 3 #N = 5 #P = 5 #N = 3 T2 1 #P = 4
T1 T2 T3 T4 目標属性 T1 1 #P = 3 #N = 5 #P = 5 #N = 3 T2 1 #P = 4 #N = 4 #P = 4 #N = 4 T2 ではなく T1 を選択する評価基準は？

test を選択すると (x, y) が定まるので、評価関数を φ(x, y) とおく
#P+#N = n #P = m (m, m) (n, m) (x, y+Δ) test (x -Δ, y) (x, y) 1 (x, y) (x +Δ, y) #P+#N = x #P = y #P+#N = n-x #P = m-y (x, y-Δ) x (n-m, 0) 　test を選択すると (x, y) が定まるので、評価関数を φ(x, y) とおく　評価基準 φ(x, y) が満たしてほしい条件 φ(x, y) は m/n = y/x のとき最小 φ(x, y) ≦ φ(x, y+Δ), φ(x, y) ≦ φ (x -Δ, y) if m/n < y/x φ(x, y) ≦ φ(x, y-Δ), φ(x, y) ≦ φ (x +Δ, y) if m/n > y/x Δ> 0

正レコードの割合 p = #P / (#P + #N)
負レコードの割合 1-p = #N / (#P+#N) エントロピー ent(p) = - p log2 p - (1-p) log2 (1-p) レコード数　 n 正レコードの割合　 p0 = m / n 1 n1 = x p1 = y / x n2 = n - x p2 = (m - y) / (n - x) Entropy Gain Ent(x, y) = ent(p0) - (n1/n) ent(p1) - (n2 /n) ent(p2)

#P = 8 #N = 8 ent(8/16) = 2 (- (1/2) log2(1/2)) = 1 T1 1 #P = 3 #N = 5 #P = 5 #N = 3 ent(3/8) = - (3/8)log2(3/8) - (5/8)log2(5/8) = ent(5/8) = ent(3/8) Entropy Gain = ent(8/16) - (8/16)ent(3/8) - (8/16)ent(5/8) = =

#P = 8 #N = 8 ent(8/16) = 1 T2 1 #P = 4 #N = 4 #P = 4 #N = 4 ent(4/8) = 1 ent(4/8) = 1 Entropy Gain = ent(8/16) - (8/16)ent(4/8) - (8/16)ent(4/8) = 0

Ent(x, y) は m/n = y/x のとき最小
　Ent(x, y) は凸関数　任意の点 v1, v2 と 0≦λ≦1について Ent(λv1+(1-λ)v2 ) ≦　λEnt(v1) + (1-λ) Ent(v2) 　すると Ent(λv1+(1-λ)v2 ) ≦　max{Ent(v1) , Ent(v2)} (m, m) (n, m) (x -Δ, y) (y(n/m), y) (x, y) Ent(x,y) ≦ max{Ent (x -Δ, y), Ent (y(n/m), y)} ≦ Ent (x -Δ, y) x (n-m, 0)

巨大な決定木と Overfitting 問題

決定木は巨大になりがち Pretty printing of the C4.5 output © R. Kohavi

未知のテストレコードに対する正答率訓練(training)レコード T1 T3 T4 1 テスト (test) レコード
T1 T2 T3 T4 目標属性テスト (test) レコード T1 T2 T3 T4 目標属性正答率 = 4/5

Overfitting 問題決定木を十分に大きくすれば、訓練レコードに関しては正答率を改善できる
　決定木を十分に大きくすれば、　訓練レコードに関しては正答率を改善できる　しかし巨大な木のテストレコードに対する正答率は　必ずしも高くない　訓練レコードに対して過剰に適合 (overfitting)した状態

pre-pruning 法決定木を構成中に Entropy Gain が小さいテスト属性は生成しない
Overfitting に対する対症療法　pre-pruning 法　決定木を構成中に Entropy Gain が　小さいテスト属性は生成しない　 post pruning 法　決定木を構成後に Entropy Gain が　小さいテスト属性を木の葉ノードから　ボトムアップに除く　様々なテストを利用　実験的(empirical) には Overfitting を　ある程度回避できると言われている pre-pruning post-pruning

小さい決定木を生成するアプローチ　　Entropy Gain を最大化する様々なテストを　　　効率的に計算するアルゴリズムの開発　テスト属性が２値の場合すべてのテスト属性の Entropy Gain を計算　テスト属性 T の領域に３つ以上の異なる離散値がある場合 T の領域 {1, 2, …, k} の部分集合 S を使い、条件 T ∈ S でレコード集合を分割することを考える Entropy Gain を最大化する S は効率的に計算できるか？　テスト属性が数値の場合　（現実のデータベースの殆どの場合） T ∈　[c, d] のような条件で分割　論理積でレコード集合を分割 (T1 = 1) ∧ (T2 = 1) ∧ … ∧ (Tn = 1)

テスト属性 T の領域に３つ以上の異なる離散値がある場合
　T の領域を {1, 2, …, k} T 目標属性A 2 1 3 0 1 1 : : 例えば　k=1000 のときは巨大な木になる n0 p0 T 1 2 3 k n1 p1 n2 p2 n3 p3 nk pk ent(p0) - Σ (ni / n0) ent(pi)

T 一般性を失うことなく　p1 ≧ p2 ≧ … ≧ pk と仮定 1 2 3 k n1 p1 n2 p2 n3 p3 nk pk #P+#N = n #P = m S ⊆{1, 2, …, k} T∈ S 定理　ある j≦ k が存在し S ={i | 1≦ i ≦ j } が Entropy Gain を最大化 Yes No #P+#N = Σ{ni | i∈S} = x #P = Σ{pini | i∈S} = y #P+#N = Σ{ni | i∈S} #P = {pini | i∈S}

各テスト T∈ S に (x, y) を対応させる上凸包 (Upper Convex Hull) (n, m) v1 Ent(v) ≦ max{Ent(v1), Ent(v2)} Ent(v2) は最小値 Ent(v) ≦ Ent(v1) v v2

(n, m) v y =λx + a 上凸包を探せばOK 凸包上の点 v = (Σ{ni | i∈S}, Σ{pini | i∈S} ) に対して、傾きλの直線が存在し、全点中で v は y 切片 a を最大化　a = Σ{pini | i∈S} - λ Σ{ni | i∈S} = Σ{ (pi - λ) ni | i∈S} pj ≧ λ ≧ pj+1 のとき　 pi - λ≧ 0 となるには、　S = {1, …, j}

数値属性の場合正レコード負レコード b2 b3 b4 a1 a3 a2 b1 Y<b1 ? X<a1 ? X<a2 ?
1 X<a3 ? Y<b4 ? Y<b3 ? Yes No 正レコード負レコード

決定木だけだと理解しにくい Y<b1 ? X<a1 ? X<a2 ? Y<b2 ? 1 X<a3 ?
1 X<a3 ? Y<b4 ? Y<b3 ? Yes No 決定木だけだと理解しにくい

領域 Q 領域 Q に入るか？ Yes No 1 多項式時間で効率的に計算できるか？

領域 Q 領域 Q に入るか？ Yes No 負レコードが大多数正レコードが大多数正レコード負レコード

目標属性が数値の場合の拡張

T T1 T2 … 目標属性A （血圧） 1 0 125 0 1 145 1 1 113 : : : 遺伝子の状態レコード数 = n
: : : 遺伝子の状態レコード数 = n Σt[A] = m 平均値 = m / n = p0 T 1 レコード数 = x Σ{t[A] | t[T]=1} = y 平均値 = y / x = p1 レコード数 = n - x 平均値 = (m-y) / (n-x) = p2 クラス間分散　　Var(x, y) = x (p1 - p0)2 + (n-x) (p2 - p0)2 クラス間分散を最大化する T をみつけたい

　Var(x, y) は m/n = y/x のとき最小
　Var(x, y) は凸関数　任意の点 v1, v2 と 0≦λ≦1について Var(λv1+(1-λ)v2 ) ≦　λVar(v1) + (1-λ) Var(v2) 　Entropy Gain を最大化する方法がクラス間分散を最大化　するのに使える　決定木のように、レコード分割を繰り返した木構造を　回帰木 (Regression Tree) と呼ぶ

クラス分類問題 (Classification)

Similar presentations

Presentation on theme: "クラス分類問題 (Classification)"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

クラス分類問題 (Classification)

Similar presentations

Presentation on theme: "クラス分類問題 (Classification)"— Presentation transcript:

Similar presentations

About project

フィードバック