先進的データ分析法 Advanced Data Analysis 東京工科大学大学院 バイオニクス・情報メディア学専 攻科 担当: 亀田 弘之
先週の復習 データ分析に挑戦!
練習問題(1) 1. 次のことを真似してやってください。 ( R の基本的な使い方の練習) – キーボードからの読み込み –Clipboard からの読み込み – ファイルからの読み込み – 平均を求める (mean 関数 ) – ヒストグラム作成( hist 関数) – 箱ひげ図作成 (boxplot 関数 )
練習問題(2) 陸上競技デー タ 1. ファイル( csv 形式)の読み込み 2. データの構造確認( str ) 3. 数値要約の表示( summary ) 4. 散布図作成(開催年と記録の関係) 5. ヒストグラム作成
復習問題 新生児の体重データに対して、以下の操 作をしなさい。 – 数値要約( summary )を求める。 平均、最小値、最大値、中央値 (Q2) 、第1四分位 数( Q1 )、第3四分位数( Q3 ) – ヒストグラムを作成する。 – 箱ひげ図を作成する。
DM Methodology ( 注 ) DM: Data Mining ( データマイニング ) Methodology: 方法論
DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)
DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)
1. Exploratory data analysis a. 統計的データ解析 (SDA) b. 探索的データ解析 (EDA)
統計的データ解析 (EDA の基礎 ) 1. 視覚的分析 表:度数分布表 (frequency table) 図:ヒストグラム (histogram) 2. 数値的分析 代表値:平均 (mean) 中央値 (median) モード (mode, 最頻値) ばらつき度:分散 (variance) 平均偏差 (mean deviation; MD) 標準偏差 (standard deviation) 範囲 (range = 最大値ー最小値 ) その他四分位数 (quartile, 第一・二・三) 外れ値
統計的データ解析 (EDA の基礎 ) 1. 視覚的分析 表:度数分布表 (frequency table) 図:ヒストグラム (histogram) 2. 数値的分析 代表値:平均 (mean) 中央値 (median) モード (mode, 最頻値) ばらつき度:分散 (variance) 平均偏差 (mean deviation; MD) 標準偏差 (standard deviation) 範囲 (range = 最大値ー最小値 ) その他四分位数 (quartile, 第一・二・三) 外れ値( outlier )
1. 幹葉表示 (stem-and-leaf display) 2. 要約値 (letter value display) 3. 箱ヒゲ図 (box-whisker plots) 4. X-Y表示 (X-Y plotting) 5. 抵抗性のある直線回帰 (registant line) 6. 中央値分散分析 (median polish) 7. 時系列データのならし (smoothing) 探索的データ解析 (EDA)
1. 幹葉表示 (stem-and-leaf display) ヒストグラムに代わる手法 2. 要約値 (letter value display) 平均値・標準偏差に代わるもの 3. 箱ヒゲ図 (box-whisker plots) 分布の形と外れ値の図的表示
DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)
3. Statistical data mining a.Statistic models (統計モデル) b.Statistic inference (統計的推論) c.Non-parametric model d.General linear model e.Log-linear model f.Graphical model etc.
DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)
2. Computational data mining 1.Cluster analysis (クラスター分析) 2.Tree models (木モデル) 3.Linear regression (線形回帰) 4.Logistic regression (ロジスティック回帰) 5.Neural networks (ニューラルネットワーク) 6.ILP(Inductive Logic Programming; 帰納論理プログラミング) 7.SVM(support vector machines) etc.
a.Tree models (木モデル) b.Cluster analysis (クラスター分析) c.Linear regression (線形回帰) d.Logistic regression (ロジスティック回 帰) e.Neural networks (ニューラルネットワー ク) f.ILP(Inductive Logic Programming; 帰納論理プログラミング) etc. 2. Computational data mining
a .クラスター分析 i.Hierarchical methods (階層型法) ii.Non-hierarchical methods (非階層型 法)
a .クラスター分析(2) 基本的考え方: 1. 近いデータをかき集めてグループを作る。 2. 近いグループ同士をかき集めて新たなグ ループを作る。 3. これの繰り返し。
クラスター分析(例)
クラスター分析(2) 基本的考え方: 1. 近いデータをかき集めてグループを作る。 2. 近いグループ同士をかき集めて新たなグ ループを作る。 近い => 距離 (distance) が主要な役割を果 たす
距離って何だっけ?
距離 (distance) 空間Sの任意の2点 x,y の間に、1つの実数 d(x,y) が定義されていて、これが次の4つの 条件を満たしているとき、 d(x,y) を2点 x,y 間 の距離という。
2点間の距離 2点間の距離 d(x,y) x y 空間S
2グループ間の距離は?
グループ A グループ B
2グループ間の距離 距離 d(A,B) グループ A グループ B
2グループ間の距離 距離 d(A,B) グループ A グループ B 平均値・中央値
2グループ間の距離 距離 d(A,B) グループ A グループ B 平均値・中央値 代表値間の距離
クラスター分析法の種類 1. 最短距離法 2. 最長距離法 3. 群平均法 4. 重心法 5. ウォード法
いろいろな距離(関数)
いろいろな距離(関数)(2) Euclidean distance (ユークリッド距離) Mahalanobis disntance (マハラノビス距 離) Edit distance (エディト距離) etc.
b .木モデル 決定木 (decision tree)
次回の予定 ここまでの総復習 決定木 (decision tree) の話 決定木作成・解釈の演習 (特に予習は必要ありません。)
決定木の用途 分類問題 診断問題 予測問題 制御問題 パターン認識問題 etc.
その前に、ちょっと確認
木とは?
これらをひっくり返すると …
これらを抽象化すると …
木とは
木とは(2) 枝 (branch)
木とは 節 (node) 根 (root)
木とは 節 (node) 根 (root) 葉 (leaf)
決定木の例 ( その1 ) 利用状況 負債状況 履歴状況
決定木作成のための生データ
決定木の例 ( その2 ) サイレン 車体の色車体の大きさ 大型トラック普通自動車消防車パトカー あり 白 救急車軽自動車 なし 白黒 赤 大 中 小
決定木の作成(学習) 決定木の作成
決定木の作成(学習) 決定木の作成 分類問題の解
予習 1. 決定木について調べてきなさい 2. 情報エントロピーについて調べてきなさ い。