もう少し高い位置から 統計応用のひとつの風景. Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科.

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
EXCEL 講習会 2014 年 5 月 1 日,2 日 OSIPP NWC ① 11 : 00 ~ 12 : 00 ② 13 : 00 ~ 14 : 00 1 政策データ分析.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
確率と統計 2007 平成 20 年 1 月 10 日 ( 木 ) 東京工科大学 亀田弘之. 復習.
先進的データ分析法 Advanced Data Analysis 東京工科大学大学院 バイオニクス・情報メディア学専 攻科 担当: 亀田 弘之.
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
第2章 1変量データの記述 統計学基礎 2011年度.
データ解析 静岡大学工学部 安藤和敏
統計学 第3回 「データの尺度・データの図示」
第1回 担当: 西山 統計学.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
生物統計学・第3回 全体を眺める(2) 主成分分析
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
統計学 第3回 10/11 担当:鈴木智也.
統計学 10/19 鈴木智也.
統計学 11/08(木) 鈴木智也.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
統計リテラシー育成のための数学の指導方法に関する実践的研究
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
人工知能特論2009.
人工知能特論2011 平成24年1月13日(金) 東京工科大学大学院 亀田 弘之.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
確率と統計2008 平成20年12月4日(木) 東京工科大学 亀田弘之.
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
数量分析 第2回 データ解析技法とソフトウェア
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
Advanced Data Analysis 先進的データ分析法2017
ex-8. 平均と標準偏差 (Excel 実習シリーズ)
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
先進的データ分析法 Advanced Data Analysis
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
代表値と散らばり.
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
散らばり 本時の目標 資料の傾向をみるときは、代表値だけでなく散らばりを考える必要があることを理解する。
第2章 統計データの記述 データについての理解 度数分布表の作成.
プログラミング論 相関
ex-8. 平均と標準偏差 (Excel を演習で学ぶシリーズ)
データ分布の特徴 基準化変量 歪度 尖度.
回帰分析入門 経済データ解析 2011年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

もう少し高い位置から 統計応用のひとつの風景

Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科

Data Mining とは

大量のデータから 規則性を発見するための データ解析処理のこと。

Data Mining とは 大量のデータから => 少なくとも 1,000 個 規則性を発見するための データ解析処理のこと。

Data Mining とは 大量のデータから => 少なくとも 1,000 個 規則性を発見するための => どんな ? データ解析処理のこと。 => どうやっ て?

大量のデータ (1) Digital library Image archive Bioinformatics Medical imagery Health care Finance and investment Manufacturing and production

大量のデータ (2) Business and marketing Telecommunication network Scientific domain The World Wide Web (WWW) Biometrics etc.

具体例 もう少しイメージを持ってもらうために、 テキストデータ関連の実例を見てみよう。 – 方丈記 – 徒然草 – 広辞苑 –Bacon エッセイ集 (Gutenberg Project) –BNC (British National Corpus) => Data Warehouse

規則性  雨が降れば桶屋が儲かる。  アメリカがくしゃみをすれば、 日本は風邪をひく。  世帯主の年齢が 30 歳~35歳ならば、 マンションを購入する。  自動車が写っている写真の 80 %には、 青空も写っている。  文は主語と述語とからなる。 etc.

解析法 従来の統計解析手法との共通点が多い。 (探索的データ解析, Exploratory Data Analysis; EDA ) 現在、多様な手法が提案されている。 =>本講義で紹介する。

DM に関連する諸手法 マルチメディアデータ圧縮 (Multimedia Data Compression) 文字列照合 (string Matching) 分類手法 (Classification) クラスタリング (Clustering) 統計的手法(予測・検定 etc. )

統計的手法 基本統計量(平均・分散・標準偏差・中 央値・最頻値・最大値・最小値 etc. ) 度数分布表 ヒストグラム 散布図、相関図 etc. (統計の基本的知識は不可欠!)

統計基礎復習 データ解析の演習 1. 度数分布表の作成 2. ヒストグラムの作成 3. グラフの分析 (データの)代表値 (データの)散らばり

新生児60人の体重(199 8) 単位はグラム 表. 新生児の体重 (1998 年 )

手順1: EXCEL の起動 [ スタート ]-[ すべてのプログラム ]- [Microsoft Excel] 手順2:データの入力

手順1: EXCEL の起動 [ スタート ]-[ すべてのプログラム ]- [Microsoft Excel] 手順2: データの入力 手順3: 度数分布表の作成

度数分布表の作成

度数分布表とは データをいくつかのグループに分類し、 各グループに属するデータ数を添えた表。

度数分布表とは イメージとしては右 図のようなもの。 キャプション・ 表頭・表側・ 区間(階級)・ 区間幅(階級幅) 区 間度 数 0-9 9 20 100-1 99 50 200-2 99 120 300-3 99 65 表.度数分布表の 例

度数分布表の作成 1. 最大値と最小値を求める。 2. 最大値と最小値の差 R (範囲)を求める。 3. 区間の個数(棒グラフの棒の本数) k を決める。 k=√n k= log 10 (n) 簡単に、 k=7 ~ 10 ぐらいにする。 4. 区間幅 h を求める。 1.h=R÷k 2.h の値を見て、きりのいい数字に設定する。

度数分布表の作成 1. 最大値 =____ , 最小値 =___ 2. 範囲 R= 最大値-最小値 3. 区間数 k=____ 4. 区間幅 h=____ 5. 最小値と最大値とを勘案して、区間の両 端を決める。

体重 (g) 人数 ~ ~ ~ ~ ~ ~ ~ ~ 新生児の体重(

今日の話 例題

例題1:ある高校での学生 20 名の成績。

データのクリーニングと外れ値 外れ値:異常に飛び離れた値 クリーニング:外れ値に対応すること

外れ値の判断基準 平均値 ± 3 × 標準偏差 から外れている

平均 平均 (mean) とは、「データの中心」、ある いは、「データの代表値」を表す。 数学的定義: – データ: – 定義:

データの散らばり 平均が同じでも、データの様子が異なる ことがある。 例: – データ1: {-0.2, 0, 0.2} – データ 2 : {-20, 0,20} ( どちらも平均 m=0 だけど、データの散らばり は 違う。このことをどのように表現したらい いのだ ろうか? )

データの散らばりの尺度(1) (Idea 1) データの散らばりは、平均を基準として 測る。 (妥当性) 次の関数の最小値は、平均m。

データの散らばりの尺度(2) (Idea 2) データの散らばりを以下の式で表現する。 この式は常にゼロになってしまうので意味がな い!

データの散らばりの尺度(3) (Idea 3 ) データの散らばりを以下の式で表現する。 この式には、絶対値が含まれており、解析学的に (美積分学的に)取り扱いにくい。アイデアはい いけれど、数学的にはチョットねぇ。

データの散らばりの尺度(4) (Idea 4 ) データの散らばりを以下の式で表現する。 これを分散 (variance) といい、データの散らばり の程度を表現している。元のデータとの次元 (dimension) をそろえるためにルートを取ったもの が標準偏差である。

データの散らばりの尺度(5) (Idea 5 ) データの散らばりを以下の式で表現する。 これを標準偏差 (standard deviation) と呼ぶ。

(注意!) 分散・標準偏差の定義式には、分母が n のものと (n-1) のものとがある。 この辺りは、後日改めて説明する。

例題1についての解析 例題1のデータの平均と標準偏差をもと めると、 93 が外れ値(異常値)であるこ とが分かる。 (各自確認してみること)

例題2:(練習問題として各自分析せ よ。)

範囲・中央値・最頻値 範囲( range, レンジ) = 最大値ー最小値 中央値:データを大きさの順番に並べて とき、真ん中に来るデータ値。データが 偶数のときは、真ん中に来る2つのデー タの平均を中央値とする。 最頻値:最も出現回数の多いデータ。

例: データ: {2,5,-4,-2,3,1,1,-6} – 平均 m=( ) / 8 = 0 – 最大値 max=5 – 最小値 min=-6 – 範囲 r=max-min=11 – 中央値( Median ) Med=1 なぜなら、 {-6,-4,-2, 1, 1,2,5} 最頻値(モード,mode)mode=1

ここまでは復習 Let’s go farther!

Advanced Data Mining 高度データマイニング( 3 ) 東京工科大学大学院 バイオニクス・情報メディア学専 攻科

階級度数 データ群 度数分布表 Histogram

データ群 データ全体としての性質を数値化すると – 平均(データの代表値, mean ) – 分散(データの散らばり, variance ) – 標準偏差(データの散らばり, standard deviation ) – 中央値(データの代表値, median ) – 最頻値(データの代表値, mode ) – 最大値&最小値 – 範囲(データの散らばり, range ) etc.

データ群 データ全体としての性質を数値化すると – 平均(データの代表値, mean ) – 分散(データの散らばり, variance ) – 標準偏差(データの散らばり, standard deviation ) – 中央値(データの代表値, median ) – 最頻値(データの代表値, mode ) – 最大値&最小値 – 範囲(データの散らばり, range ) etc.

これらの改良版 幹葉表示 (stem-leaf-and-forget-display) – 度数分布表 5数表示 (five number display) – 基本統計量 箱ヒゲ図 – 基本統計量の図示

幹葉表示 基本的考え方 幹 (stem) Most Significant Digit 葉 (leaf ) 端数 (forget)

幹葉表示(例)

5数表示

箱ヒゲ図

Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科 Version 2

DM Methodoogy

DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)

DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)

1. Exploratory data analysis a. 統計的データ解析 (SDA) b. 探索的データ解析 (EDA)

統計的データ解析 (SDA の基礎 ) 1. 視覚的分析 表:度数分布表 (frequency table) 図:ヒストグラム (histogram) 2. 数値的分析 代表値:平均 (mean) 中央値 (median) モード (mode, 最頻値) ばらつき度:分散 (variance) 平均偏差 (mean deviation; MD) 標準偏差 (standard deviation) 範囲 (range = 最大値ー最小値 ) その他四分位数 (quartile, 第一・二・三) 外れ値

統計的データ解析 (SDA の基礎 ) 1. 視覚的分析 表:度数分布表 (frequency table) 図:ヒストグラム (histogram) 2. 数値的分析 代表値:平均 (mean) 中央値 (median) モード (mode, 最頻値) ばらつき度:分散 (variance) 平均偏差 (mean deviation; MD) 標準偏差 (standard deviation) 範囲 (range = 最大値ー最小値 ) その他四分位数 (quartile, 第一・二・三) 外れ値

1. 幹葉表示 (stem-and-leaf display) 2. 要約値 (letter value display) 3. 箱ヒゲ図 (box-whisker plots) 4. X-Y表示 (X-Y plotting) 5. 抵抗性のある直線回帰 (registant line) 6. 中央値分散分析 (median polish) 7. 時系列データのならし (smoothing) 探索的データ解析 (EDA)

1. 幹葉表示 (stem-and-leaf display) ヒストグラムに代わる手法 2. 要約値 (letter value display) 平均値・標準偏差に代わるもの 3. 箱ヒゲ図 (box-whisker plots) 分布の形と外れ値の図的表示

DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)

3. Statistical data mining a.Statistic models (統計モデル) b.Statistic inference (統計的推論) c.Non-parametric model d.General linear model e.Log-linear model f.Graphical model etc.

DM Methodology 1.Exploratory data analysis (探索的データ解析) 2.Computational data mining (計算論的データマイニング) 3.Statistical data mining (統計的データマイニング)

2. Computational data mining 1.Cluster analysis (クラスター分析) 2.Tree models (木モデル) 3.Linear regression (線形回帰) 4.Logistic regression (ロジスティック回帰) 5.Neural networks (ニューラルネットワーク) 6.ILP(Inductive Logic Programming; 帰納論理プログラミング) 7.SVM(support vector machines) etc.

a.Tree models (木モデル) b.Cluster analysis (クラスター分析) c.Linear regression (線形回帰) d.Logistic regression (ロジスティック回 帰) e.Neural networks (ニューラルネットワー ク) f.ILP(Inductive Logic Programming; 帰納論理プログラミング) etc. 2. Computational data mining