人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅.

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
コンピュータビジョン特論 OpenCVについて
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
人工知能特論2011 No.4 東京工科大学大学院 担当教員:亀田弘之.
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
離散システム特論 整列(sorting)アルゴリズム 2.
人工知能特論 6.機械学習概論とバージョン空間法
半構造化テキストの分類のための ブースティングアルゴリズム
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
人工知能特論2011 資料No.6 東京工科大学大学院 担当教員 亀田弘之.
部分木を素性とする Decision Stumps と Boosting Algorithm の適用
雑音重み推定と音声 GMMを用いた雑音除去
DMLA 小町守 半教師あり学習 チュートリアル.
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
Classification Problem
Classification Problem
クラス分類問題 (Classification)
人工知能特論2009.
ディジタル回路 3. 組み合わせ回路 五島 正裕 2018/11/28.
Deep Learningを用いたタンパク質のコンタクト残基予測
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
人工知能特論2011 平成24年1月13日(金) 東京工科大学大学院 亀田 弘之.
決定木とランダムフォレスト 和田 俊和.
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
Online Decoding of Markov Models under Latency Constraints
音高による音色変化に着目した音源同定に関する研究
平成28年6月3日(金) 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
教師がコミティマシンの場合の アンサンブル学習
第14章 モデルの結合 修士2年 山川佳洋.
訓練データとテストデータが 異なる分布に従う場合の学習
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
平成27年4月20日(月)第2日目 担当教員:亀田弘之
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
決定木による知識の獲得 認知システム論 知識と推論(4) 学習と帰納推論 決定木 ID3アルゴリズム 性能評価と応用
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
平成29年6月3&9日(金) 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
部分的最小二乗回帰 Partial Least Squares Regression PLS
決定木.
決定木-II 学習目標 1.○与えられた事例集合から,指定された属性選択基準に基づいて決定木を生成 できる 利得 利得比
Nightmare at Test Time: Robust Learning by Feature Deletion
実空間における関連本アウェアネス 支援システム
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
教師がコミティマシンの場合の アンサンブル学習
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
人工知能特論II 第8回 二宮 崇.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
決定木-III Occam’s razor(オッカムの剃刀) Minimum Description Length (最小記述長) 枝刈り
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
ベイジアンネットワーク概説 第3章 ベイジアンネットワークモデルの 数学的基礎 3.1 ベイジアンネットワークモデルの概要
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
skill-net(MILESTONE CAI,笈川他,1982)[Fortranの課題選択など]
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

人工知能特論 7.決定木の学習 北陸先端科学技術大学院大学 鶴岡 慶雅

今日の講義内容 決定木とは? 決定木の作り方 過学習 講義資料 エントロピー Information Gain 汎化性能 枝刈り http://www.jaist.ac.jp/~tsuruoka/lectures/

決定木の学習 Chapter 3 of Mitchell, T., Machine Learning (1997) 決定木(Decision Trees) Disjunction of conjunctions 実用に使われる分類器 病気の診断 クレジットリスクの評価 特長 学習結果が人間にとって理解しやすい ルールの集合

決定木の例 Concept: PlayTennis Outlook Humidity Wind Sunny Overcast Rain Yes High Normal Strong Weak No Yes No Yes

決定木による分類の例 事例 Outlook Humidity Wind Sunny Overcast Rain Yes High <Outlook = Sunny, Temperature = Hot, Humidity = High, Wind = Strong> Outlook Sunny Overcast Rain Humidity Wind Yes High Normal Strong Weak No Yes No Yes

Disjunction of conjunctions (Outlook = Sunny ^ Humidity = Normal) v (Outlook = Overcast) v (Outlook = Rain ^ Wind = Weak) Outlook Sunny Overcast Rain Humidity Wind Yes High Normal Strong Weak No Yes No Yes

決定木に適した問題 離散的な属性値 ターゲットも離散的 Disjunctive な記述が必要とされる 学習データに誤りが存在するかもしれない 学習データの属性値に欠損があるかもしれない

学習データ例 Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Strong D3 Overcast Yes D4 Rain Mild D5 Cool Normal D6 D7 D8 D9 D10 D11 D12 D13 D14

どの属性で分割する? 最終的には小さな決定木にしたい 分割した結果、学習データが、より整理されたデータになるような属性で分割 学習データの「乱雑さ」をエントロピーで定量化

エントロピー クラスが2つの場合 一般には

Information Gain ある属性に着目して事例の集合を分割したときにどれだけエントロピーを減らせるか

Information Gain の計算例 Humidity Wind High Normal Weak Strong

どの属性で分割する? 属性ごとに information gain を計算してみると

Outlook 属性による枝分かれ ? (練習) ? Outlook Yes {D1,D2,…,D14} [9+,5-] Sunny Overcast Rain {D1,D2,D8,D9,D11} [2+,3-] {D3,D7,D12,D13} [4+,0-] {D4,D5,D6,D10,D14} [3+,2-] Yes ? (練習) ?

過学習(Overfitting) 機械学習の本来の目的 過学習 未知の入力を正しく分類すること 学習事例を正しく分類することではない(!) 学習事例は精度よく分類できるが、学習データに存在しない未知の例をうまく処理できない 特徴空間の次元をやみくもに大きくするのは危険

Reduced Error Pruning 枝刈り(Pruning)を行って過学習を防ぐ どのノードを刈る? 分類精度が悪化しないノードを刈る Validation set を利用して分類精度を推定 Greedy にノードを刈っていき、推定精度が悪化する直前で枝刈りを止める

Validation (development) set 学習データの一部を性能評価用にまわす 学習データが少なくなってしまう Training set Training set Validation set Test set Test set