先進的データ分析法 Advanced Data Analysis

先進的データ分析法2017 - Advanced Data Analysis 2107 -
東京工科大学大学院バイオニクス・情報メディア学専攻科担当：　亀田　弘之

先週の復習データ分析に挑戦！ (先週のパワポの残りの説明から始めます。) 東京工科大学　コンピュータサイエンス学部 2017

練習問題（１）次のことを真似してやってください。（Rの基本的な使い方の練習）キーボードからの読み込み Clipboardからの読み込み
ファイルからの読み込み平均を求める(mean関数) ヒストグラム作成（hist関数）箱ひげ図作成(boxplot関数) 東京工科大学　コンピュータサイエンス学部 2017

練習問題（２）陸上競技データファイル（csv形式）の読み込みデータの構造確認（str）数値要約の表示（summary）
練習問題（２）　陸上競技データファイル（csv形式）の読み込みデータの構造確認（str）数値要約の表示（summary）散布図作成（開催年と記録の関係）ヒストグラム作成東京工科大学　コンピュータサイエンス学部 2017

復習問題新生児の体重データに対して、以下の操作をしなさい。数値要約（summary）を求める。ヒストグラムを作成する。
平均、最小値、最大値、中央値(Q2)、第１四分位数（Q1）、第３四分位数（Q3）ヒストグラムを作成する。箱ひげ図を作成する。東京工科大学　コンピュータサイエンス学部 2017

ＤＭ Methodology (注) DM: Data Mining (データマイニング) Methodology: 方法論
東京工科大学　コンピュータサイエンス学部 2017

ＤＭ Methodology Exploratory data analysis （探索的データ解析）
Computational data mining （計算論的データマイニング） Statistical data mining （統計的データマイニング）東京工科大学　コンピュータサイエンス学部 2017

１．Exploratory data analysis
統計的データ解析(SDA) 探索的データ解析(EDA) 東京工科大学　コンピュータサイエンス学部 2017

統計的データ解析(EDAの基礎) 視覚的分析数値的分析表：度数分布表(frequency table)
図：ヒストグラム(histogram) 数値的分析代表値：平均 (mean) 中央値 (median) モード (mode,最頻値）ばらつき度：分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他四分位数(quartile,第一・二・三）外れ値東京工科大学　コンピュータサイエンス学部 2017

統計的データ解析(EDAの基礎) 視覚的分析数値的分析表：度数分布表(frequency table)
図：ヒストグラム(histogram) 数値的分析代表値：平均 (mean) 中央値 (median) モード (mode,最頻値）ばらつき度：分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他四分位数(quartile,第一・二・三）外れ値（outlier）東京工科大学　コンピュータサイエンス学部 2017

探索的データ解析(EDA) 幹葉表示(stem-and-leaf display) 要約値(letter value display)
箱ヒゲ図(box-whisker plots) Ｘ－Ｙ表示(X-Y plotting) 抵抗性のある直線回帰(registant line) 中央値分散分析(median polish) 時系列データのならし(smoothing) 東京工科大学　コンピュータサイエンス学部 2017

探索的データ解析(EDA) 幹葉表示(stem-and-leaf display) ヒストグラムに代わる手法
要約値(letter value display) 平均値・標準偏差に代わるもの箱ヒゲ図(box-whisker plots) 分布の形と外れ値の図的表示東京工科大学　コンピュータサイエンス学部 2017

３．Statistical data mining
Statistic models（統計モデル） Statistic inference（統計的推論） Non-parametric model General linear model Log-linear model Graphical model etc. 東京工科大学　コンピュータサイエンス学部 2017

２．Computational data mining
Cluster analysis（クラスター分析） Tree models（木モデル） Linear regression（線形回帰） Logistic regression（ロジスティック回帰） Neural networks（ニューラルネットワーク） ILP(Inductive Logic Programming; 　　帰納論理プログラミング） SVM(support vector machines) etc. 東京工科大学　コンピュータサイエンス学部 2017

２．Computational data mining
Tree models（木モデル） Cluster analysis（クラスター分析） Linear regression（線形回帰） Logistic regression（ロジスティック回帰） Neural networks（ニューラルネットワーク） ILP(Inductive Logic Programming; 　　帰納論理プログラミング） etc. 東京工科大学　コンピュータサイエンス学部 2017

a．クラスター分析 Hierarchical methods（階層型法） Non-hierarchical methods（非階層型法）

a．クラスター分析（２）基本的考え方：近いデータをかき集めてグループを作る。近いグループ同士をかき集めて新たなグループを作る。
これの繰り返し。東京工科大学　コンピュータサイエンス学部 2017

クラスター分析（例）東京工科大学　コンピュータサイエンス学部 2017

クラスター分析（２）基本的考え方：近いデータをかき集めてグループを作る。近いグループ同士をかき集めて新たなグループを作る。
近い　＝＞　距離(distance)が主要な役割を果たす東京工科大学　コンピュータサイエンス学部 2017

距離って何だっけ？東京工科大学　コンピュータサイエンス学部 2017

距離(distance) 空間Ｓの任意の２点x,yの間に、１つの実数d(x,y)が定義されていて、これが次の４つの条件を満たしているとき、d(x,y)を２点x,y間の距離という。東京工科大学　コンピュータサイエンス学部 2017

２点間の距離空間Ｓ x ２点間の距離d(x,y) y 東京工科大学　コンピュータサイエンス学部 2017

２グループ間の距離は？東京工科大学　コンピュータサイエンス学部 2017

２グループ間の距離は？グループA グループＢ東京工科大学　コンピュータサイエンス学部 2017

２グループ間の距離グループA グループＢ距離d(A,B) 東京工科大学　コンピュータサイエンス学部 2017

２グループ間の距離グループA 平均値・中央値グループＢ距離d(A,B) 東京工科大学　コンピュータサイエンス学部 2017

２グループ間の距離代表値間の距離グループA 平均値・中央値グループＢ距離d(A,B)

クラスター分析法の種類最短距離法最長距離法群平均法重心法ウォード法東京工科大学　コンピュータサイエンス学部 2017

いろいろな距離（関数）東京工科大学　コンピュータサイエンス学部 2017

いろいろな距離（関数）（２） Euclidean distance（ユークリッド距離）
Mahalanobis disntance（マハラノビス距離） Edit distance（エディト距離） etc. 東京工科大学　コンピュータサイエンス学部 2017

b．木モデル決定木(decision tree) 東京工科大学　コンピュータサイエンス学部 2017

次回の予定ここまでの総復習決定木(decision tree)の話決定木作成・解釈の演習（特に予習は必要ありません。）
　（特に予習は必要ありません。）東京工科大学　コンピュータサイエンス学部 2017

決定木の用途分類問題診断問題予測問題制御問題パターン認識問題 etc. 東京工科大学　コンピュータサイエンス学部 2017

その前に、ちょっと確認東京工科大学　コンピュータサイエンス学部 2017

木とは？東京工科大学　コンピュータサイエンス学部 2017

これらをひっくり返すると… 東京工科大学　コンピュータサイエンス学部 2017

これらを抽象化すると… 東京工科大学　コンピュータサイエンス学部 2017

木とは東京工科大学　コンピュータサイエンス学部 2017

木とは（２）枝(branch) 東京工科大学　コンピュータサイエンス学部 2017

木とは根(root) 節(node) 東京工科大学　コンピュータサイエンス学部 2017

木とは根(root) 葉(leaf) 節(node) 東京工科大学　コンピュータサイエンス学部 2017

決定木の例(その１) クレジット利用者 1000人適切利用者 700人負債あり 500人負債なし 200人不適切利用者 300人
ブラックリスト者 10人非ブラックリスト者 290人利用状況負債状況履歴状況東京工科大学　コンピュータサイエンス学部 2017

決定木作成のための生データ東京工科大学　コンピュータサイエンス学部 2017

決定木の例(その２) あり白なし白黒赤大中小サイレン車体の色車体の大きさ大型トラック普通自動車消防車パトカー
救急車軽自動車なし白黒赤大中小東京工科大学　コンピュータサイエンス学部 2017

決定木の作成（学習）決定木の作成大量の例決定木東京工科大学　コンピュータサイエンス学部 2017

決定木の作成（学習）決定木の作成大量の例決定木分類問題の解東京工科大学　コンピュータサイエンス学部 2017

予習決定木について調べてきなさい情報エントロピーについて調べてきなさい。東京工科大学　コンピュータサイエンス学部 2017

先進的データ分析法 Advanced Data Analysis

Similar presentations

Presentation on theme: "先進的データ分析法 Advanced Data Analysis"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

先進的データ分析法 Advanced Data Analysis

Similar presentations

Presentation on theme: "先進的データ分析法 Advanced Data Analysis"— Presentation transcript:

Similar presentations

About project

フィードバック