Presentation is loading. Please wait.

Presentation is loading. Please wait.

東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之

Similar presentations


Presentation on theme: "東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之"— Presentation transcript:

1 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
先進的データ分析法2015 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之

2 Decision Tree for PlayTennis
Outlook Sunny Rain Overcast Humidity Wind Yes High Normal Strong Weak No Yes No Yes

3 Training Examples Day Outlook 天候 Temperature 温度 Humidity 湿度 Wind 風
Play Tennis D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Sunny Overcast Rain Hot Mild Cool High Normal Weak Strong No Yes

4 Top-down Induction of Decision Tree
Main loop: A ← the best decision attribute for next node Assign A as decision attribute for node For each value of A, create new descendant of node Sort training examples to leaf nodes If training examples perfectly classified, then HALT, else iterate over new leaf nodes.

5 Which attribute is the best?
[29+, 35-] A1=? A2=? [29+, 35-] F T F T [21+, 5-] [8+, 30-] [18+, 33-] [11+, 2-]

6 Entropy S is a sample of training examples
p+ is the proportion of positive examples in S p- is the proportion of negative examples in S Entropy measures the impurity of S

7 Entropy(エントロピー)

8 Interpretation of Entropy
Entropy(S)とは…2つのグループ(各生起確率がp+とp-)を符号化するのに必要なビット数(情報量) その理由は… P+ P-

9 Information Theory(情報理論)
生起確率pのメッセージに対する最適符号長符号(optimal length code)は、      で与えられる。 したがって、それぞれ確率p+とp-で生起する2つの組に対する平均符号長は、   で与えられる。これはEntropyの公式そのものである。

10 Entropyの本当の定義 無記憶情報源Sから、シンボルs1, s2, s3, …, snがそれぞれp1, p2, p3, … ,pn の生起確率で出現するとき、この無記憶情報源Sのエントロピーは以下の式で定義される。

11 Information Gain(情報利得)
Gain(S,A): 「もともと(S)のエントロピー」と「Aに着目する分類後のエントロピー」の差。 これを情報利得と呼ぶ。 (注)A: attribute(属性)

12 Which attribute is the best?
[29+, 35-] A1=? A2=? [29+, 35-] F T F T [21+, 5-] [8+, 30-] [18+, 33-] [11+, 2-]

13 Which is the best? - Selecting the next attribute -
[9+, 5-], E=0.940 Humidity Wind strong high normal weak [3+, 4-], E=0.985 [6+, 1-], E=0.592 [6+, 2-], E=0.811 [3+, 3-], E=1.00 Gain(S,Humidity)=0.151 Gain(S,Wind)=0.048

14 Training Examples Day Outlook 天候 Temperature 温度 Humidity 湿度 Wind 風
Play Tennis D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 Sunny Overcast Rain Hot Mild Cool High Normal Weak Strong No Yes

15 分類前のエントロピー ・Yes 9 S[9+, 5-] ・No 5

16 Outlookに着目する場合 Sunny [2+, 3-] Overcast [4+, 0-] Rain [3+, 2-]

17 Temperatureに着目する場合 Hot [2+, 2-] Mild [4+, 2-] Cool [3+, 1-]

18 Humidityに着目する場合 High [3+, 4-] Normal [6+, 1-]

19 Windに着目する場合 Weak [6+, 2-] Strong [3+, 3-]

20 情報利得を計算すると… 自分で計算してみてください。 どの場合の情報利得が一番大きいですか?

21 Decision Tree for PlayTennis
Outlook Sunny Rain Overcast Humidity Wind Yes High Normal Strong Weak No Yes No Yes

22 決定木まとめ 決定木は分類器 決定木が例から学習出来る 過学習(overfiting)回避の工夫が必要 => 枝刈り(pruning)
決定木学習は命題論理の命題学習に相当 =>述語論理への拡張が必要 =>帰納的論理プログラミング (ILP; Inductive Logic Programming)


Download ppt "東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之"

Similar presentations


Ads by Google