Presentation is loading. Please wait.

Presentation is loading. Please wait.

先進的データ分析法 Advanced Data Analysis

Similar presentations


Presentation on theme: "先進的データ分析法 Advanced Data Analysis"— Presentation transcript:

1 先進的データ分析法2017 - Advanced Data Analysis 2107 -
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之

2 先週の復習 データ分析に挑戦! (先週のパワポの残りの説明から始めます。) 東京工科大学 コンピュータサイエンス学部 2017

3 練習問題(1) 次のことを真似してやってください。 (Rの基本的な使い方の練習) キーボードからの読み込み Clipboardからの読み込み
ファイルからの読み込み 平均を求める(mean関数) ヒストグラム作成(hist関数) 箱ひげ図作成(boxplot関数) 東京工科大学 コンピュータサイエンス学部 2017

4 練習問題(2) 陸上競技データ ファイル(csv形式)の読み込み データの構造確認(str) 数値要約の表示(summary)
練習問題(2) 陸上競技データ ファイル(csv形式)の読み込み データの構造確認(str) 数値要約の表示(summary) 散布図作成(開催年と記録の関係) ヒストグラム作成 東京工科大学 コンピュータサイエンス学部 2017

5 復習問題 新生児の体重データに対して、以下の操作をしなさい。 数値要約(summary)を求める。 ヒストグラムを作成する。
平均、最小値、最大値、中央値(Q2)、第1四分位数(Q1)、第3四分位数(Q3) ヒストグラムを作成する。 箱ひげ図を作成する。 東京工科大学 コンピュータサイエンス学部 2017

6 DM Methodology (注) DM: Data Mining (データマイニング) Methodology: 方法論
東京工科大学 コンピュータサイエンス学部 2017

7 DM Methodology Exploratory data analysis (探索的データ解析)
Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

8 DM Methodology Exploratory data analysis (探索的データ解析)
Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

9 1.Exploratory data analysis
統計的データ解析(SDA) 探索的データ解析(EDA) 東京工科大学 コンピュータサイエンス学部 2017

10 統計的データ解析(EDAの基礎) 視覚的分析 数値的分析 表: 度数分布表(frequency table)
図: ヒストグラム(histogram) 数値的分析 代表値: 平均 (mean) 中央値 (median) モード (mode,最頻値) ばらつき度:分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他 四分位数(quartile,第一・二・三) 外れ値 東京工科大学 コンピュータサイエンス学部 2017

11 統計的データ解析(EDAの基礎) 視覚的分析 数値的分析 表: 度数分布表(frequency table)
図: ヒストグラム(histogram) 数値的分析 代表値: 平均 (mean) 中央値 (median) モード (mode,最頻値) ばらつき度:分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他 四分位数(quartile,第一・二・三) 外れ値(outlier) 東京工科大学 コンピュータサイエンス学部 2017

12 探索的データ解析(EDA) 幹葉表示(stem-and-leaf display) 要約値(letter value display)
箱ヒゲ図(box-whisker plots) X-Y表示(X-Y plotting) 抵抗性のある直線回帰(registant line) 中央値分散分析(median polish) 時系列データのならし(smoothing) 東京工科大学 コンピュータサイエンス学部 2017

13 探索的データ解析(EDA) 幹葉表示(stem-and-leaf display) ヒストグラムに代わる手法
要約値(letter value display) 平均値・標準偏差に代わるもの 箱ヒゲ図(box-whisker plots) 分布の形と外れ値の図的表示 東京工科大学 コンピュータサイエンス学部 2017

14 DM Methodology Exploratory data analysis (探索的データ解析)
Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

15 3.Statistical data mining
Statistic models(統計モデル) Statistic inference(統計的推論) Non-parametric model General linear model Log-linear model Graphical model etc. 東京工科大学 コンピュータサイエンス学部 2017

16 DM Methodology Exploratory data analysis (探索的データ解析)
Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

17 2.Computational data mining
Cluster analysis(クラスター分析) Tree models(木モデル) Linear regression(線形回帰) Logistic regression(ロジスティック回帰) Neural networks(ニューラルネットワーク) ILP(Inductive Logic Programming;   帰納論理プログラミング) SVM(support vector machines) etc. 東京工科大学 コンピュータサイエンス学部 2017

18 2.Computational data mining
Tree models(木モデル) Cluster analysis(クラスター分析) Linear regression(線形回帰) Logistic regression(ロジスティック回帰) Neural networks(ニューラルネットワーク) ILP(Inductive Logic Programming;   帰納論理プログラミング) etc. 東京工科大学 コンピュータサイエンス学部 2017

19 a.クラスター分析 Hierarchical methods(階層型法) Non-hierarchical methods(非階層型法)
東京工科大学 コンピュータサイエンス学部 2017

20 a.クラスター分析(2) 基本的考え方: 近いデータをかき集めてグループを作る。 近いグループ同士をかき集めて新たなグループを作る。
これの繰り返し。 東京工科大学 コンピュータサイエンス学部 2017

21 クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

22 クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

23 クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

24 クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

25 クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

26 クラスター分析(2) 基本的考え方: 近いデータをかき集めてグループを作る。 近いグループ同士をかき集めて新たなグループを作る。
近い => 距離(distance)が主要な役割を果たす 東京工科大学 コンピュータサイエンス学部 2017

27 距離って何だっけ? 東京工科大学 コンピュータサイエンス学部 2017

28 距離(distance) 空間Sの任意の2点x,yの間に、1つの実数d(x,y)が定義されていて、これが次の4つの条件を満たしているとき、d(x,y)を2点x,y間の距離という。 東京工科大学 コンピュータサイエンス学部 2017

29 東京工科大学 コンピュータサイエンス学部 2017

30 2点間の距離 空間S x 2点間の距離d(x,y) y 東京工科大学 コンピュータサイエンス学部 2017

31 2グループ間の距離は? 東京工科大学 コンピュータサイエンス学部 2017

32 2グループ間の距離は? グループA グループB 東京工科大学 コンピュータサイエンス学部 2017

33 2グループ間の距離 グループA グループB 距離d(A,B) 東京工科大学 コンピュータサイエンス学部 2017

34 2グループ間の距離 グループA 平均値・中央値 グループB 距離d(A,B) 東京工科大学 コンピュータサイエンス学部 2017

35 2グループ間の距離 代表値間の距離 グループA 平均値・中央値 グループB 距離d(A,B)
東京工科大学 コンピュータサイエンス学部 2017

36 クラスター分析法の種類 最短距離法 最長距離法 群平均法 重心法 ウォード法 東京工科大学 コンピュータサイエンス学部 2017

37 いろいろな距離(関数) 東京工科大学 コンピュータサイエンス学部 2017

38 いろいろな距離(関数)(2) Euclidean distance(ユークリッド距離)
Mahalanobis disntance(マハラノビス距離) Edit distance(エディト距離) etc. 東京工科大学 コンピュータサイエンス学部 2017

39 b.木モデル 決定木(decision tree) 東京工科大学 コンピュータサイエンス学部 2017

40 次回の予定 ここまでの総復習 決定木(decision tree)の話 決定木作成・解釈の演習 (特に予習は必要ありません。)
 (特に予習は必要ありません。) 東京工科大学 コンピュータサイエンス学部 2017

41 決定木の用途 分類問題 診断問題 予測問題 制御問題 パターン認識問題 etc. 東京工科大学 コンピュータサイエンス学部 2017

42 その前に、ちょっと確認 東京工科大学 コンピュータサイエンス学部 2017

43 木とは? 東京工科大学 コンピュータサイエンス学部 2017

44 東京工科大学 コンピュータサイエンス学部 2017

45 東京工科大学 コンピュータサイエンス学部 2017

46 東京工科大学 コンピュータサイエンス学部 2017

47 これらをひっくり返すると… 東京工科大学 コンピュータサイエンス学部 2017

48 東京工科大学 コンピュータサイエンス学部 2017

49 これらを抽象化すると… 東京工科大学 コンピュータサイエンス学部 2017

50 木とは 東京工科大学 コンピュータサイエンス学部 2017

51 木とは(2) 枝(branch) 東京工科大学 コンピュータサイエンス学部 2017

52 木とは 根(root) 節(node) 東京工科大学 コンピュータサイエンス学部 2017

53 木とは 根(root) 葉(leaf) 節(node) 東京工科大学 コンピュータサイエンス学部 2017

54 決定木の例(その1) クレジット利用者 1000人 適切利用者 700人 負債あり 500人 負債なし 200人 不適切利用者 300人
ブラックリスト者 10人 非ブラックリスト者 290人 利用状況 負債状況 履歴状況 東京工科大学 コンピュータサイエンス学部 2017

55 決定木作成のための生データ 東京工科大学 コンピュータサイエンス学部 2017

56 決定木の例(その2) あり 白 なし 白黒 赤 大 中 小 サイレン 車体の色 車体の大きさ 大型トラック 普通自動車 消防車 パトカー
救急車 軽自動車 なし 白黒 東京工科大学 コンピュータサイエンス学部 2017

57 決定木の作成(学習) 決定木の作成 大量の例 決定木 東京工科大学 コンピュータサイエンス学部 2017

58 決定木の作成(学習) 決定木の作成 大量の例 決定木 分類問題の解 東京工科大学 コンピュータサイエンス学部 2017

59 予習 決定木について調べてきなさい 情報エントロピーについて調べてきなさい。 東京工科大学 コンピュータサイエンス学部 2017


Download ppt "先進的データ分析法 Advanced Data Analysis"

Similar presentations


Ads by Google