Presentation is loading. Please wait.

Presentation is loading. Please wait.

Advanced Data Analysis 先進的データ分析法2017

Similar presentations


Presentation on theme: "Advanced Data Analysis 先進的データ分析法2017"— Presentation transcript:

1 Advanced Data Analysis 先進的データ分析法2017
平成29年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之

2 Advanced Data Analysis
2017 1st quarter Tokyo University of Technology Graduate School of Bio-media-information Dr. of Eng. Hiroyuki KAMEDA

3 教員紹介

4 はじめに 行動指針 明るく楽しく前向きの姿勢で、自ら進んで学ぶ。 (Learn positively, curiously and constaltly! ) 他利的に行動する。 ( Behave altruisticly! ) 皆と積極的に討論する。 ( Discuss together aggressively! )。 後回しにしない。 (Don’t procrastinate! Do right now what you should ne doing now. )

5 シラバス

6 授業概要  インターネット、スーパーコンピュータ、並列計算、大規模メモリ装置などの出現により、現代現代社会では情報やデータの大氾濫 が起こっている。しかしながらこれらの情報やデータは適切に分析しなければ我々に何も語ってくれない。このような問題意識のもと、 統計的手法や機械学習手法の基礎を体験しながら学ぶことを目指す。その結果、データを単なる数字や文字列の集まりではなく、新 たな価値ある情報を語りかけてくれる宝の山へと変貌させる能力を涵養する。  学習目標は、   1)データ分析の重要性と有効性を理解すること、   2) 統計学の基礎である平均と分散の真意と意義を理解すること、   3)基本的な統計手法を実際のデータに適用しその結果の解釈ができること、   4) 決定木等をツールを用いて作成し解釈することができること、   5) 帰納論理プログラミングの有効性を知ること、   6) 構造方程式モデリング(共分散分析)の重要性を知ること、   7) 各種ツールの用途を説明できること。  データ分析能力は修士論文研究などでも重要な技能であるので、多くの履修者が受講することを期待する。 なお、ツールとしてはR、Wekaを予定しているが、時間があればHadoopなどの話題にも触れたい。  

7 授業概要  インターネット、スーパーコンピュータ、並列計算、大規模メモリ装置 などの出現により、現代社会では情報やデータの大氾濫が起こって いる。しかしながらこれらの情報やデータは適切に分析しなければ 我々に何も語ってくれない。このような問題意識のもと、統計的手法 や機械学習手法の基礎を体験しながら学ぶことを目指す。その結果、 データを単なる数字や文字列の集まりではなく、新たな価値ある情報 を語りかけてくれる宝の山へと変貌させる能力を涵養する。  学習目標は、   1)データ分析の重要性と有効性を理解すること、   2) 統計学の基礎である平均と分散の真意と意義を理解すること、   3)基本的な統計手法を実際のデータに適用しその結果の解釈が できること、   4) 決定木等をツールを用いて作成し解釈することができること、   5) 帰納論理プログラミングの有効性を知ること、   6) 構造方程式モデリング(共分散分析)の重要性を知ること、   7) 各種ツールの用途を説明できること。  データ分析能力は修士論文研究などでも重要な技能であるので、 多くの履修者が受講することを期待する。 なお、ツールとしてはR, Wekaを予定しているが、時間があればPython, Hadoopなどの話題にも触れたい。

8 授業方法  データ分析の解説に基づき、各自で実際にデータ の分析を行う。基本となる知識は講義形式で行うが、 各自が主体的に学ぶことが望まれる。統計解析ソフ トウェア“R”は事前にPCにインストールしてあること が望ましいが、授業でも一応説明をする。毎回個人 で何らかの演習問題に取り組む形式であるので、欠 席・遅刻はしないこと。  

9 評価方法・基準 データ分析の意義、データ分析の各種手法、 データ分析の基礎的用語・概念を自分の言葉で 説明できること、および
簡単なデータ分析が自力で行えること が合格のための最低要件である。 昨年度のレポート課題を参照のこと。 

10 平成27年度 授業日程(確認) 第1日目(4月14日) 教室はKE304 (毎回PCとネットワークを使います) 第2日目(4月21日) 第3日目(4月28日) 第4日目(5月12日) 第5日目(5月19日) 第6日目(5月26日) 第7日目(6月2日) 第8日目(6月9日)

11 データ分析の重要性(デモ) データサイエンス Open Data Big Data AI (Machine Learning; ML)
その他

12 データサイエンスの可能性

13 Youtubeを参照のこと。 http://www.youtube.com/watch?v=WNccLBzR_I4
 (Research Matters - Carolyn McGregor) (Rio de Janeiro City Operation Center)  Data Analytics が Health Informatics で  役立った実例。  皆さんはデータ分析技術を何に役立てますか?

14 データ分析の重要性

15 Data Mining とは 大量のデータから 知識(事実と規則・法則)を発見するための データ解析処理のこと。

16 従来の統計学の考え方 知りたい対象 (未知な調査対象) 得られたデータ (分析可能) 調査 確率(sampling) 記述統計 推測
確率(推定・検定) 確率と統計2011

17 大量のデータ IoT(Internet of Things) IoE(Internet of Everything)

18 Data Mining とは 大量のデータから => 少なくとも1,000個(?) 規則性を発見するための データ解析処理のこと。

19 Data Mining とは 大量のデータから => 少なくとも1,000個 規則性を発見するための => どんな ?
大量のデータから => 少なくとも1,000個 規則性を発見するための => どんな ? データ解析処理のこと。 => どうやって?

20 大量のデータ(1) Digital library Image archive Bioinformatics Medical imagery
Health care Finance and investment Manufacturing and production

21 大量のデータ(2) Business and marketing Telecommunication network
Scientific domain The World Wide Web (WWW) Biometrics etc.

22 具体例 もう少しイメージを持ってもらうために、テキスト データ関連の実例を見てみよう。 方丈記 徒然草 広辞苑
Baconエッセイ集 (Gutenberg Project) BNC (British National Corpus) => Data Warehouse

23 規則性 雨が降れば桶屋が儲かる。 アメリカがくしゃみをすれば、日本は風邪をひく。
世帯主の年齢が30歳~35歳ならば、マンションを 購入する。 自動車が写っている写真の80%には、青空も写っ ている。 文は主語と述語とからなる。 etc.

24 解析法 従来の統計解析手法との共通点が多い。 (探索的データ解析, Exploratory Data Analysis; EDA)
現在、多様な手法が提案されている。  =>本講義で紹介する。

25 DMに関連する諸手法 マルチメディアデータ圧縮 (Multimedia Data Compression)
文字列照合 (string Matching) 分類手法 (Classification) クラスタリング (Clustering) 統計的手法(予測・検定 etc.)

26 マルチメディアデータ圧縮 Image compression (JPEG)
Text compression (LZ77, LZ78, LZW) etc.

27 文字列照合 Brute force string matching Knuth-Morris-Pratt algorithm
Boyer-Moore-Horspool algorithm Karp-Rabin algorithm Wagner-Fisher algorithm etc. (参考書) 佐良木・新田:正規表現とテキスト・マイニ ング,明石書店,ISBN ,\2,800(2003).

28 分類手法 決定木 (Decision tree) ベイズ統計 (Bayesian classifier) 事例ベース推論
SVM (Support Vector Machine) ファジー決定木 (Fuzzy Decision Tree) 帰納的論理プログラミング (ILP) etc.

29 クラスタリング ファジー集合 (Fuzzy sets)
ニューラルネット (Neural networks)   深層学習 (Deep Learning) ウェイブレット (Wavelets) 進化論的アルゴリズム (Evolutionary algorithm) etc.

30 統計的手法 基本統計量(平均・分散・標準偏差・中央値・最頻 値・最大値・最小値 etc.) 度数分布表 ヒストグラム
(統計の基本的知識は不可欠!)

31 統計基礎復習 データ解析の演習 度数分布表の作成 ヒストグラムの作成 グラフの分析 (データの)代表値 (データの)散らばり

32 新生児60人の体重(1998) 表. 新生児の体重(1998年) 単位はグラム

33 手順1: EXCELの起動 [スタート]-[すべてのプログラム]- [Microsoft Excel] 手順2:データの入力

34

35 手順1: EXCELの起動 [スタート]-[すべてのプログラム]- [Microsoft Excel] 手順2: データの入力 手順3: 度数分布表の作成

36 度数分布表の作成

37 度数分布表とは データをいくつかのグループに分類し、 各グループに属するデータ数を添えた表。

38 度数分布表とは イメージとしては右図の ようなもの。 キャプション・ 表頭・表側・ 区間(階級)・ 区間幅(階級幅) 表.度数分布表の例
区  間 度 数   0-99 20 100-199 50 200-299 120 300-399 65

39 度数分布表の作成 最大値と最小値を求める。 最大値と最小値の差R(範囲)を求める。 区間の個数(棒グラフの棒の本数)kを決める。
k=√n k= log10(n) 簡単に、k=7~10ぐらいにする。 区間幅hを求める。 h=R÷k hの値を見て、きりのいい数字に設定する。

40 度数分布表の作成 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____
最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端を決 める。

41 新生児の体重( 体重(g) 人数 ~2000 2000~2400 3 2400~2800 14 2800~3200 16 3200~3600 3600~4000 7 4000~4400 4 4400~4800 2

42

43 歴史的概観 統計学 記述統計学 推測統計学(推定論・検定論)

44 理論家の風景 1950年代 統計的推定論の理論的枠組み (WaldやLehman) 理論の精密化 具体的な検定法の開発
1950年代 統計的推定論の理論的枠組み (WaldやLehman) 理論の精密化 具体的な検定法の開発 理論家と利用者との乖離が発生(理論を使いたい が難しすぎる!) 研究テーマ自体が研究対象化?

45 データ解析現場の風景 より多くのデータがほしい(もっとデータを!)
インターネットの出現により、多くのデータが得ら れるようになった(Deluge of Information) 結果として、検定論が破綻。大量のデータに対し ては、「高度に有意」という結果しか返せない。 分布論 大標本理論は100年前に理論は確立。 中小標本理論の研究が進められた。 1970年のブートストラップ法により意義は消滅。 データの大規模化に伴ってブートストラップ法も苦境に。

46 では、どうすればいいのか? 最近では、因果論 (causality) にも関心が 深まりつつある。
疫学的手法(Epidemiology)も参考にして 考えるべき?


Download ppt "Advanced Data Analysis 先進的データ分析法2017"

Similar presentations


Ads by Google