先進的データ分析法 Advanced Data Analysis

Slides:



Advertisements
Similar presentations
もう少し高い位置から 統計応用のひとつの風景. Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科.
Advertisements

1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
先進的データ分析法 Advanced Data Analysis 東京工科大学大学院 バイオニクス・情報メディア学専 攻科 担当: 亀田 弘之.
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
9. 主成分分析 Principal Component Analysis (PCA)
RコマンダーでANOVA 「理学療法」Vol28(7)のデータ
統計学 第3回 「データの尺度・データの図示」
第1回 担当: 西山 統計学.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
月曜3限 1132教室 担当者: 河田 正樹 年度 経済データ解析講義内容 月曜3限  1132教室 担当者: 河田 正樹
生物統計学・第3回 全体を眺める(2) 主成分分析
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
回帰分析.
統計学 11/08(木) 鈴木智也.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
統計リテラシー育成のための数学の指導方法に関する実践的研究
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
人工知能特論2009.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
人工知能特論2011 平成24年1月13日(金) 東京工科大学大学院 亀田 弘之.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
平成28年6月3日(金) 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
独立成分分析 (ICA:Independent Component Analysis )
中澤 港 統計学第4回 中澤 港
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
数量分析 第2回 データ解析技法とソフトウェア
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
Data Clustering: A Review
平成29年6月3&9日(金) 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
部分的最小二乗回帰 Partial Least Squares Regression PLS
Number of random matrices
ex-8. 平均と標準偏差 (Excel 実習シリーズ)
東京工科大学 コンピュータサイエンス学部 亀田弘之
都市・港湾経済学(総) 国民経済計算論(商)
数理科学Ⅰ 大阪府立天王寺高等学校 大西 義一 2019/5/4.
東京工科大学 コンピュータサイエンス学部 亀田弘之
代表値と散らばり.
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
ex-8. 平均と標準偏差 (Excel を演習で学ぶシリーズ)
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
ランダムプロジェクションを用いた音響モデルの線形変換
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
素子のばらつきが特性に与える影響を調べます。 ここでは,RCフィルタ回路の 抵抗の誤差1%,コンデンサの誤差5% とします。
Presentation transcript:

先進的データ分析法2017 - Advanced Data Analysis 2107 - 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之

先週の復習 データ分析に挑戦! (先週のパワポの残りの説明から始めます。) 東京工科大学 コンピュータサイエンス学部 2017

練習問題(1) 次のことを真似してやってください。 (Rの基本的な使い方の練習) キーボードからの読み込み Clipboardからの読み込み ファイルからの読み込み 平均を求める(mean関数) ヒストグラム作成(hist関数) 箱ひげ図作成(boxplot関数) 東京工科大学 コンピュータサイエンス学部 2017

練習問題(2) 陸上競技データ ファイル(csv形式)の読み込み データの構造確認(str) 数値要約の表示(summary) 練習問題(2) 陸上競技データ ファイル(csv形式)の読み込み データの構造確認(str) 数値要約の表示(summary) 散布図作成(開催年と記録の関係) ヒストグラム作成 東京工科大学 コンピュータサイエンス学部 2017

復習問題 新生児の体重データに対して、以下の操作をしなさい。 数値要約(summary)を求める。 ヒストグラムを作成する。 平均、最小値、最大値、中央値(Q2)、第1四分位数(Q1)、第3四分位数(Q3) ヒストグラムを作成する。 箱ひげ図を作成する。 東京工科大学 コンピュータサイエンス学部 2017

DM Methodology (注) DM: Data Mining (データマイニング) Methodology: 方法論 東京工科大学 コンピュータサイエンス学部 2017

DM Methodology Exploratory data analysis (探索的データ解析) Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

DM Methodology Exploratory data analysis (探索的データ解析) Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

1.Exploratory data analysis 統計的データ解析(SDA) 探索的データ解析(EDA) 東京工科大学 コンピュータサイエンス学部 2017

統計的データ解析(EDAの基礎) 視覚的分析 数値的分析 表: 度数分布表(frequency table) 図: ヒストグラム(histogram) 数値的分析 代表値: 平均 (mean) 中央値 (median) モード (mode,最頻値) ばらつき度:分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他 四分位数(quartile,第一・二・三) 外れ値 東京工科大学 コンピュータサイエンス学部 2017

統計的データ解析(EDAの基礎) 視覚的分析 数値的分析 表: 度数分布表(frequency table) 図: ヒストグラム(histogram) 数値的分析 代表値: 平均 (mean) 中央値 (median) モード (mode,最頻値) ばらつき度:分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他 四分位数(quartile,第一・二・三) 外れ値(outlier) 東京工科大学 コンピュータサイエンス学部 2017

探索的データ解析(EDA) 幹葉表示(stem-and-leaf display) 要約値(letter value display) 箱ヒゲ図(box-whisker plots) X-Y表示(X-Y plotting) 抵抗性のある直線回帰(registant line) 中央値分散分析(median polish) 時系列データのならし(smoothing) 東京工科大学 コンピュータサイエンス学部 2017

探索的データ解析(EDA) 幹葉表示(stem-and-leaf display) ヒストグラムに代わる手法 要約値(letter value display) 平均値・標準偏差に代わるもの 箱ヒゲ図(box-whisker plots) 分布の形と外れ値の図的表示 東京工科大学 コンピュータサイエンス学部 2017

DM Methodology Exploratory data analysis (探索的データ解析) Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

3.Statistical data mining Statistic models(統計モデル) Statistic inference(統計的推論) Non-parametric model General linear model Log-linear model Graphical model etc. 東京工科大学 コンピュータサイエンス学部 2017

DM Methodology Exploratory data analysis (探索的データ解析) Computational data mining (計算論的データマイニング) Statistical data mining (統計的データマイニング) 東京工科大学 コンピュータサイエンス学部 2017

2.Computational data mining Cluster analysis(クラスター分析) Tree models(木モデル) Linear regression(線形回帰) Logistic regression(ロジスティック回帰) Neural networks(ニューラルネットワーク) ILP(Inductive Logic Programming;   帰納論理プログラミング) SVM(support vector machines) etc. 東京工科大学 コンピュータサイエンス学部 2017

2.Computational data mining Tree models(木モデル) Cluster analysis(クラスター分析) Linear regression(線形回帰) Logistic regression(ロジスティック回帰) Neural networks(ニューラルネットワーク) ILP(Inductive Logic Programming;   帰納論理プログラミング) etc. 東京工科大学 コンピュータサイエンス学部 2017

a.クラスター分析 Hierarchical methods(階層型法) Non-hierarchical methods(非階層型法) 東京工科大学 コンピュータサイエンス学部 2017

a.クラスター分析(2) 基本的考え方: 近いデータをかき集めてグループを作る。 近いグループ同士をかき集めて新たなグループを作る。 これの繰り返し。 東京工科大学 コンピュータサイエンス学部 2017

クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

クラスター分析(例) 東京工科大学 コンピュータサイエンス学部 2017

クラスター分析(2) 基本的考え方: 近いデータをかき集めてグループを作る。 近いグループ同士をかき集めて新たなグループを作る。 近い => 距離(distance)が主要な役割を果たす 東京工科大学 コンピュータサイエンス学部 2017

距離って何だっけ? 東京工科大学 コンピュータサイエンス学部 2017

距離(distance) 空間Sの任意の2点x,yの間に、1つの実数d(x,y)が定義されていて、これが次の4つの条件を満たしているとき、d(x,y)を2点x,y間の距離という。 東京工科大学 コンピュータサイエンス学部 2017

東京工科大学 コンピュータサイエンス学部 2017

2点間の距離 空間S x 2点間の距離d(x,y) y 東京工科大学 コンピュータサイエンス学部 2017

2グループ間の距離は? 東京工科大学 コンピュータサイエンス学部 2017

2グループ間の距離は? グループA グループB 東京工科大学 コンピュータサイエンス学部 2017

2グループ間の距離 グループA グループB 距離d(A,B) 東京工科大学 コンピュータサイエンス学部 2017

2グループ間の距離 グループA 平均値・中央値 グループB 距離d(A,B) 東京工科大学 コンピュータサイエンス学部 2017

2グループ間の距離 代表値間の距離 グループA 平均値・中央値 グループB 距離d(A,B) 東京工科大学 コンピュータサイエンス学部 2017

クラスター分析法の種類 最短距離法 最長距離法 群平均法 重心法 ウォード法 東京工科大学 コンピュータサイエンス学部 2017

いろいろな距離(関数) 東京工科大学 コンピュータサイエンス学部 2017

いろいろな距離(関数)(2) Euclidean distance(ユークリッド距離) Mahalanobis disntance(マハラノビス距離) Edit distance(エディト距離) etc. 東京工科大学 コンピュータサイエンス学部 2017

b.木モデル 決定木(decision tree) 東京工科大学 コンピュータサイエンス学部 2017

次回の予定 ここまでの総復習 決定木(decision tree)の話 決定木作成・解釈の演習 (特に予習は必要ありません。)  (特に予習は必要ありません。) 東京工科大学 コンピュータサイエンス学部 2017

決定木の用途 分類問題 診断問題 予測問題 制御問題 パターン認識問題 etc. 東京工科大学 コンピュータサイエンス学部 2017

その前に、ちょっと確認 東京工科大学 コンピュータサイエンス学部 2017

木とは? 東京工科大学 コンピュータサイエンス学部 2017

東京工科大学 コンピュータサイエンス学部 2017

東京工科大学 コンピュータサイエンス学部 2017

東京工科大学 コンピュータサイエンス学部 2017

これらをひっくり返すると… 東京工科大学 コンピュータサイエンス学部 2017

東京工科大学 コンピュータサイエンス学部 2017

これらを抽象化すると… 東京工科大学 コンピュータサイエンス学部 2017

木とは 東京工科大学 コンピュータサイエンス学部 2017

木とは(2) 枝(branch) 東京工科大学 コンピュータサイエンス学部 2017

木とは 根(root) 節(node) 東京工科大学 コンピュータサイエンス学部 2017

木とは 根(root) 葉(leaf) 節(node) 東京工科大学 コンピュータサイエンス学部 2017

決定木の例(その1) クレジット利用者 1000人 適切利用者 700人 負債あり 500人 負債なし 200人 不適切利用者 300人 ブラックリスト者 10人 非ブラックリスト者 290人 利用状況 負債状況 履歴状況 東京工科大学 コンピュータサイエンス学部 2017

決定木作成のための生データ 東京工科大学 コンピュータサイエンス学部 2017

決定木の例(その2) あり 白 なし 白黒 赤 大 中 小 サイレン 車体の色 車体の大きさ 大型トラック 普通自動車 消防車 パトカー 救急車 軽自動車 なし 白黒 赤 大 中 小 東京工科大学 コンピュータサイエンス学部 2017

決定木の作成(学習) 決定木の作成 大量の例 決定木 東京工科大学 コンピュータサイエンス学部 2017

決定木の作成(学習) 決定木の作成 大量の例 決定木 分類問題の解 東京工科大学 コンピュータサイエンス学部 2017

予習 決定木について調べてきなさい 情報エントロピーについて調べてきなさい。 東京工科大学 コンピュータサイエンス学部 2017