もう少し高い位置から統計応用のひとつの風景. Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科.

もう少し高い位置から統計応用のひとつの風景

Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科

Data Mining とは

大量のデータから規則性を発見するためのデータ解析処理のこと。

Data Mining とは大量のデータから＝＞少なくとも 1,000 個規則性を発見するためのデータ解析処理のこと。

Data Mining とは大量のデータから => 少なくとも 1,000 個規則性を発見するための => どんな？データ解析処理のこと。 => どうやって？

大量のデータ (1) Digital library Image archive Bioinformatics Medical imagery Health care Finance and investment Manufacturing and production

大量のデータ (2) Business and marketing Telecommunication network Scientific domain The World Wide Web (WWW) Biometrics etc.

具体例もう少しイメージを持ってもらうために、テキストデータ関連の実例を見てみよう。 – 方丈記 – 徒然草 – 広辞苑 –Bacon エッセイ集 (Gutenberg Project) –BNC (British National Corpus) => Data Warehouse

規則性  雨が降れば桶屋が儲かる。  アメリカがくしゃみをすれば、日本は風邪をひく。  世帯主の年齢が 30 歳～３５歳ならば、マンションを購入する。  自動車が写っている写真の 80 ％には、青空も写っている。  文は主語と述語とからなる。 etc.

解析法従来の統計解析手法との共通点が多い。（探索的データ解析, Exploratory Data Analysis; EDA ）現在、多様な手法が提案されている。＝＞本講義で紹介する。

DM に関連する諸手法マルチメディアデータ圧縮 (Multimedia Data Compression) 文字列照合 (string Matching) 分類手法 (Classification) クラスタリング (Clustering) 統計的手法（予測・検定 etc. ）

統計的手法基本統計量（平均・分散・標準偏差・中央値・最頻値・最大値・最小値 etc. ）度数分布表ヒストグラム散布図、相関図 etc. （統計の基本的知識は不可欠！）

統計基礎復習データ解析の演習 1. 度数分布表の作成 2. ヒストグラムの作成 3. グラフの分析（データの）代表値（データの）散らばり

新生児６０人の体重（１９９８）単位はグラム表. 新生児の体重 (1998 年）

手順１： EXCEL の起動 [ スタート ]-[ すべてのプログラム ]- [Microsoft Excel] 手順２：データの入力

手順１： EXCEL の起動 [ スタート ]-[ すべてのプログラム ]- [Microsoft Excel] 手順２：データの入力手順３：度数分布表の作成

度数分布表の作成

度数分布表とはデータをいくつかのグループに分類し、各グループに属するデータ数を添えた表。

度数分布表とはイメージとしては右図のようなもの。キャプション・表頭・表側・区間（階級）・区間幅（階級幅）区間度数０－９９２０１００－１９９５０２００－２９９１２０３００－３９９６５表．度数分布表の例

度数分布表の作成 1. 最大値と最小値を求める。 2. 最大値と最小値の差 R （範囲）を求める。 3. 区間の個数（棒グラフの棒の本数） k を決める。 k=√n k=1 + 3.32 log 10 (n) 簡単に、 k=7 ～ 10 ぐらいにする。 4. 区間幅 h を求める。 1.h=R÷k 2.h の値を見て、きりのいい数字に設定する。

度数分布表の作成 1. 最大値 =____ ，最小値 =___ 2. 範囲 R= 最大値－最小値 3. 区間数 k=____ 4. 区間幅 h=____ 5. 最小値と最大値とを勘案して、区間の両端を決める。

体重 (g) 人数～ 2000 0 2000 ～ 2400 3 2400 ～ 2800 14 2800 ～ 3200 16 3200 ～ 3600 14 3600 ～ 4000 7 4000 ～ 4400 4 4400 ～ 4800 2 新生児の体重（

今日の話例題

例題１：ある高校での学生 20 名の成績。 65 41 55 38 42 39 46 40 49 49 93 63 55 46 57 64 57 47 62 55

データのクリーニングと外れ値外れ値：異常に飛び離れた値クリーニング：外れ値に対応すること

外れ値の判断基準平均値 ± ３ × 標準偏差から外れている

平均平均 (mean) とは、「データの中心」、あるいは、「データの代表値」を表す。数学的定義： – データ： – 定義：

データの散らばり平均が同じでも、データの様子が異なることがある。例： – データ１： {-0.2, 0, 0.2} – データ 2 ： {-20, 0,20} ( どちらも平均 m=0 だけど、データの散らばりは違う。このことをどのように表現したらいいのだろうか？ )

データの散らばりの尺度（１） (Idea 1) データの散らばりは、平均を基準として測る。（妥当性）次の関数の最小値は、平均ｍ。

データの散らばりの尺度（２） (Idea 2) データの散らばりを以下の式で表現する。この式は常にゼロになってしまうので意味がない！

データの散らばりの尺度（３） (Idea ３ ) データの散らばりを以下の式で表現する。この式には、絶対値が含まれており、解析学的に（美積分学的に）取り扱いにくい。アイデアはいいけれど、数学的にはチョットねぇ。

データの散らばりの尺度（４） (Idea ４ ) データの散らばりを以下の式で表現する。これを分散 (variance) といい、データの散らばりの程度を表現している。元のデータとの次元 (dimension) をそろえるためにルートを取ったものが標準偏差である。

データの散らばりの尺度（５） (Idea ５ ) データの散らばりを以下の式で表現する。これを標準偏差 (standard deviation) と呼ぶ。

（注意！）分散・標準偏差の定義式には、分母が n のものと (n-1) のものとがある。この辺りは、後日改めて説明する。

例題１についての解析例題１のデータの平均と標準偏差をもとめると、 93 が外れ値（異常値）であることが分かる。（各自確認してみること）

例題２：（練習問題として各自分析せよ。） 52 75 49 82 87 49 93 69 38 55 41 62 57 71 67 82 78 43 65 60

範囲・中央値・最頻値範囲（ range, レンジ） = 最大値ー最小値中央値：データを大きさの順番に並べてとき、真ん中に来るデータ値。データが偶数のときは、真ん中に来る２つのデータの平均を中央値とする。最頻値：最も出現回数の多いデータ。

例：データ： {2,5,-4,-2,3,1,1,-6} – 平均 m=(2+5-4-2+3+1+1-6) / 8 = 0 – 最大値 max=5 – 最小値 min=-6 – 範囲 r=max-min=11 – 中央値（ Median ） Med=1 なぜなら、 {-6,-4,-2, 1, 1,2,5} 最頻値（モード,mode)mode=1

ここまでは復習 Let’s go farther!

Advanced Data Mining 高度データマイニング（ 3 ）東京工科大学大学院バイオニクス・情報メディア学専攻科

階級度数 0-92 10-190 20-292 30-391 40-491 50-591 1 2 25 41 20 32 57 38 データ群度数分布表 Histogram

データ群データ全体としての性質を数値化すると – 平均（データの代表値, mean ） – 分散（データの散らばり, variance ） – 標準偏差（データの散らばり, standard deviation ） – 中央値（データの代表値, median ） – 最頻値（データの代表値, mode ） – 最大値＆最小値 – 範囲（データの散らばり, range ） etc.

これらの改良版幹葉表示 (stem-leaf-and-forget-display) – 度数分布表５数表示 (five number display) – 基本統計量箱ヒゲ図 – 基本統計量の図示

4 2 0 3 1 0 2 3 0 3 2 0 4 3 0 3 1 0 幹葉表示 427 313 232 323 434 317 311 4 2 7 3 1 3 2 3 2 3 2 3 4 3 4 3 1 7 3 1 1 基本的考え方幹 (stem) Most Significant Digit 葉 (leaf ) 端数 (forget)

幹葉表示（例）

５数表示

箱ヒゲ図

Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科 Version 2

ＤＭ Methodoogy

ＤＭ Methodology 1.Exploratory data analysis （探索的データ解析） 2.Computational data mining （計算論的データマイニング） 3.Statistical data mining （統計的データマイニング）

１． Exploratory data analysis a. 統計的データ解析 (SDA) b. 探索的データ解析 (EDA)

統計的データ解析 (SDA の基礎 ) 1. 視覚的分析表：度数分布表 (frequency table) 図：ヒストグラム (histogram) 2. 数値的分析代表値：平均 (mean) 中央値 (median) モード (mode, 最頻値）ばらつき度：分散 (variance) 平均偏差 (mean deviation; MD) 標準偏差 (standard deviation) 範囲 (range = 最大値ー最小値 ) その他四分位数 (quartile, 第一・二・三）外れ値

1. 幹葉表示 (stem-and-leaf display) 2. 要約値 (letter value display) 3. 箱ヒゲ図 (box-whisker plots) 4. Ｘ－Ｙ表示 (X-Y plotting) 5. 抵抗性のある直線回帰 (registant line) 6. 中央値分散分析 (median polish) 7. 時系列データのならし (smoothing) 探索的データ解析 (EDA)

1. 幹葉表示 (stem-and-leaf display) ヒストグラムに代わる手法 2. 要約値 (letter value display) 平均値・標準偏差に代わるもの 3. 箱ヒゲ図 (box-whisker plots) 分布の形と外れ値の図的表示

３． Statistical data mining a.Statistic models （統計モデル） b.Statistic inference （統計的推論） c.Non-parametric model d.General linear model e.Log-linear model f.Graphical model etc.

２． Computational data mining 1.Cluster analysis （クラスター分析） 2.Tree models （木モデル） 3.Linear regression （線形回帰） 4.Logistic regression （ロジスティック回帰） 5.Neural networks （ニューラルネットワーク） 6.ILP(Inductive Logic Programming; 帰納論理プログラミング） 7.SVM(support vector machines) etc.

a.Tree models （木モデル） b.Cluster analysis （クラスター分析） c.Linear regression （線形回帰） d.Logistic regression （ロジスティック回帰） e.Neural networks （ニューラルネットワーク） f.ILP(Inductive Logic Programming; 帰納論理プログラミング） etc. ２． Computational data mining

もう少し高い位置から統計応用のひとつの風景. Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科.

Similar presentations

Presentation on theme: "もう少し高い位置から統計応用のひとつの風景. Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

もう少し高い位置から 統計応用のひとつの風景. Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科.

Similar presentations

Presentation on theme: "もう少し高い位置から 統計応用のひとつの風景. Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科."— Presentation transcript:

Similar presentations

About project

フィードバック

もう少し高い位置から統計応用のひとつの風景. Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科.

Presentation on theme: "もう少し高い位置から統計応用のひとつの風景. Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科."— Presentation transcript: