Advanced Data Analysis 先進的データ分析法2017

Slides:



Advertisements
Similar presentations
もう少し高い位置から 統計応用のひとつの風景. Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専 攻科.
Advertisements

計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
講義案内 経済情報処理演習II (2004秋). 今年度から開講の新科目 現時点での皆さん ( 受講生 ) の・・・ コンピュータ習熟度 経済学や統計グラフ・データ処理の基礎に関する知識・理 解度 がわからないので、 多少まごつくことがあるかも知れないが、どうか寛 容に。 演習内容は受講生全体の平均習熟度より少し上のレ.
コンピュータサイエンス 概論 2015 平成 27 年 4 月 13 日(月) 担当教員:亀田弘之.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
新設科目:応用数学 イントロダクション 情報工学科 2 年前期 専門科目 担当:准教授 青木義満.
先進的データ分析法 Advanced Data Analysis 東京工科大学大学院 バイオニクス・情報メディア学専 攻科 担当: 亀田 弘之.
エンジニアのためのリテラシー 学生番号順に着席する (クラスa) 1 列 12 人で 前 方
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
第1回 担当: 西山 統計学.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
How to Become a Supply Chain Analyst with Free
経済情報処理ガイダンス 神奈川大学 経済学部.
コンピュータリテラシ (1) 学習目標(到達目標) ・計算機実習室を正しく利用できる。 ・文書作成ソフトの利用方法を学び、報告作成が
情報科学1(G1) 2016年度.
統計学 10/19 鈴木智也.
統計学 第1週 9/27(木) 担当:鈴木智也.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
経済情報処理ガイダンス 神奈川大学 経済学部.
2010年度 コンピュータリテラシー クラス:  B1 講義日: 前学期 月曜日7時限.
プログラミング言語論 プログラミング言語論 ガイダンス 水野 嘉明 ガイダンス 1 1.
統計リテラシー育成のための数学の指導方法に関する実践的研究
生物統計学・第1回 統計解析を始める前に -妥当なデータかどうかを判断する-
1変量データの記述 経済データ解析 2006年度.
ワークショップ ユーザーとメーカーの公開相談会
経済情報処理ガイダンス 神奈川大学 経済学部.
確率と統計 Probability & Statistics
確率と統計 Probability & Statistics
統計学の基礎と応用 張 南   今日の話:序   論          履修の注意事項.
地理情報システム論演習 地理情報システム論演習
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
形式言語とオートマトン Formal Languages and Automata 第4日目
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
形式言語とオートマトン Formal Languages and Automata 第4日目
データ解析 静岡大学工学部 安藤和敏
数量分析 第2回 データ解析技法とソフトウェア
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
平成29年5月8日(月)第4日目 担当教員:亀田弘之
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
統計解析 第1回 条件付き独立性と確率的グラフィカルモデル 本講義の全体像
分散分析、判別分析、因子分析.
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
先進的データ分析法 Advanced Data Analysis
法数学のための 機械学習の基礎 京大(医) 統計遺伝学分野 山田 亮 2017/04/15.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
平成29年4月10日(月) 東京工科大学 コンピュータサイエンス学部 担当教員:亀田弘之
シミュレーション論 Ⅱ 第1回.
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
平成28年4月25日(月)第3日目 担当教員:亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
平成28年4月11日(月) 東京工科大学 コンピュータサイエンス学部 担当教員:亀田弘之
自然言語処理2015 Natural Language Processing 2015
1変量データの記述 (度数分布表とヒストグラム)
平成23年12月22日(木) No.9 東京工科大学 担当:亀田弘之
形式言語とオートマトン Formal Languages and Automata 第5日目
自然言語処理2016 Natural Language Processing 2016
Presentation transcript:

Advanced Data Analysis 先進的データ分析法2017 平成29年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之

Advanced Data Analysis 2017 1st quarter Tokyo University of Technology Graduate School of Bio-media-information Dr. of Eng. Hiroyuki KAMEDA

教員紹介

はじめに 行動指針 明るく楽しく前向きの姿勢で、自ら進んで学ぶ。 (Learn positively, curiously and constaltly! ) 他利的に行動する。 ( Behave altruisticly! ) 皆と積極的に討論する。 ( Discuss together aggressively! )。 後回しにしない。 (Don’t procrastinate! Do right now what you should ne doing now. )

シラバス

授業概要  インターネット、スーパーコンピュータ、並列計算、大規模メモリ装置などの出現により、現代現代社会では情報やデータの大氾濫 が起こっている。しかしながらこれらの情報やデータは適切に分析しなければ我々に何も語ってくれない。このような問題意識のもと、 統計的手法や機械学習手法の基礎を体験しながら学ぶことを目指す。その結果、データを単なる数字や文字列の集まりではなく、新 たな価値ある情報を語りかけてくれる宝の山へと変貌させる能力を涵養する。  学習目標は、   1)データ分析の重要性と有効性を理解すること、   2) 統計学の基礎である平均と分散の真意と意義を理解すること、   3)基本的な統計手法を実際のデータに適用しその結果の解釈ができること、   4) 決定木等をツールを用いて作成し解釈することができること、   5) 帰納論理プログラミングの有効性を知ること、   6) 構造方程式モデリング(共分散分析)の重要性を知ること、   7) 各種ツールの用途を説明できること。  データ分析能力は修士論文研究などでも重要な技能であるので、多くの履修者が受講することを期待する。 なお、ツールとしてはR、Wekaを予定しているが、時間があればHadoopなどの話題にも触れたい。  

授業概要  インターネット、スーパーコンピュータ、並列計算、大規模メモリ装置 などの出現により、現代社会では情報やデータの大氾濫が起こって いる。しかしながらこれらの情報やデータは適切に分析しなければ 我々に何も語ってくれない。このような問題意識のもと、統計的手法 や機械学習手法の基礎を体験しながら学ぶことを目指す。その結果、 データを単なる数字や文字列の集まりではなく、新たな価値ある情報 を語りかけてくれる宝の山へと変貌させる能力を涵養する。  学習目標は、   1)データ分析の重要性と有効性を理解すること、   2) 統計学の基礎である平均と分散の真意と意義を理解すること、   3)基本的な統計手法を実際のデータに適用しその結果の解釈が できること、   4) 決定木等をツールを用いて作成し解釈することができること、   5) 帰納論理プログラミングの有効性を知ること、   6) 構造方程式モデリング(共分散分析)の重要性を知ること、   7) 各種ツールの用途を説明できること。  データ分析能力は修士論文研究などでも重要な技能であるので、 多くの履修者が受講することを期待する。 なお、ツールとしてはR, Wekaを予定しているが、時間があればPython, Hadoopなどの話題にも触れたい。

授業方法  データ分析の解説に基づき、各自で実際にデータ の分析を行う。基本となる知識は講義形式で行うが、 各自が主体的に学ぶことが望まれる。統計解析ソフ トウェア“R”は事前にPCにインストールしてあること が望ましいが、授業でも一応説明をする。毎回個人 で何らかの演習問題に取り組む形式であるので、欠 席・遅刻はしないこと。  

評価方法・基準 データ分析の意義、データ分析の各種手法、 データ分析の基礎的用語・概念を自分の言葉で 説明できること、および 簡単なデータ分析が自力で行えること が合格のための最低要件である。 昨年度のレポート課題を参照のこと。 

平成27年度 授業日程(確認) 第1日目(4月14日) 教室はKE304 (毎回PCとネットワークを使います) 第2日目(4月21日) 第3日目(4月28日) 第4日目(5月12日) 第5日目(5月19日) 第6日目(5月26日) 第7日目(6月2日) 第8日目(6月9日)

データ分析の重要性(デモ) データサイエンス Open Data Big Data AI (Machine Learning; ML) その他

データサイエンスの可能性

Youtubeを参照のこと。 http://www.youtube.com/watch?v=WNccLBzR_I4  (Research Matters - Carolyn McGregor) http://www.youtube.com/watch?v=APdZHNIJDnU (Rio de Janeiro City Operation Center)  Data Analytics が Health Informatics で  役立った実例。  皆さんはデータ分析技術を何に役立てますか?

データ分析の重要性

Data Mining とは 大量のデータから 知識(事実と規則・法則)を発見するための データ解析処理のこと。

従来の統計学の考え方 知りたい対象 (未知な調査対象) 得られたデータ (分析可能) 調査 確率(sampling) 記述統計 推測 確率(推定・検定) 確率と統計2011

大量のデータ IoT(Internet of Things) IoE(Internet of Everything)

Data Mining とは 大量のデータから => 少なくとも1,000個(?) 規則性を発見するための データ解析処理のこと。

Data Mining とは 大量のデータから => 少なくとも1,000個 規則性を発見するための => どんな ? 大量のデータから => 少なくとも1,000個 規則性を発見するための => どんな ? データ解析処理のこと。 => どうやって?

大量のデータ(1) Digital library Image archive Bioinformatics Medical imagery Health care Finance and investment Manufacturing and production

大量のデータ(2) Business and marketing Telecommunication network Scientific domain The World Wide Web (WWW) Biometrics etc.

具体例 もう少しイメージを持ってもらうために、テキスト データ関連の実例を見てみよう。 方丈記 徒然草 広辞苑 Baconエッセイ集 (Gutenberg Project) BNC (British National Corpus) => Data Warehouse

規則性 雨が降れば桶屋が儲かる。 アメリカがくしゃみをすれば、日本は風邪をひく。 世帯主の年齢が30歳~35歳ならば、マンションを 購入する。 自動車が写っている写真の80%には、青空も写っ ている。 文は主語と述語とからなる。 etc.

解析法 従来の統計解析手法との共通点が多い。 (探索的データ解析, Exploratory Data Analysis; EDA) 現在、多様な手法が提案されている。  =>本講義で紹介する。

DMに関連する諸手法 マルチメディアデータ圧縮 (Multimedia Data Compression) 文字列照合 (string Matching) 分類手法 (Classification) クラスタリング (Clustering) 統計的手法(予測・検定 etc.)

マルチメディアデータ圧縮 Image compression (JPEG) Text compression (LZ77, LZ78, LZW) etc.

文字列照合 Brute force string matching Knuth-Morris-Pratt algorithm Boyer-Moore-Horspool algorithm Karp-Rabin algorithm Wagner-Fisher algorithm etc. (参考書) 佐良木・新田:正規表現とテキスト・マイニ ング,明石書店,ISBN4-7503-1800-0,\2,800(2003).

分類手法 決定木 (Decision tree) ベイズ統計 (Bayesian classifier) 事例ベース推論 SVM (Support Vector Machine) ファジー決定木 (Fuzzy Decision Tree) 帰納的論理プログラミング (ILP) etc.

クラスタリング ファジー集合 (Fuzzy sets) ニューラルネット (Neural networks)   深層学習 (Deep Learning) ウェイブレット (Wavelets) 進化論的アルゴリズム (Evolutionary algorithm) etc.

統計的手法 基本統計量(平均・分散・標準偏差・中央値・最頻 値・最大値・最小値 etc.) 度数分布表 ヒストグラム (統計の基本的知識は不可欠!)

統計基礎復習 データ解析の演習 度数分布表の作成 ヒストグラムの作成 グラフの分析 (データの)代表値 (データの)散らばり

新生児60人の体重(1998) 表. 新生児の体重(1998年) 単位はグラム

手順1: EXCELの起動 [スタート]-[すべてのプログラム]- [Microsoft Excel] 手順2:データの入力

手順1: EXCELの起動 [スタート]-[すべてのプログラム]- [Microsoft Excel] 手順2: データの入力 手順3: 度数分布表の作成

度数分布表の作成

度数分布表とは データをいくつかのグループに分類し、 各グループに属するデータ数を添えた表。

度数分布表とは イメージとしては右図の ようなもの。 キャプション・ 表頭・表側・ 区間(階級)・ 区間幅(階級幅) 表.度数分布表の例 区  間 度 数   0-99 20 100-199 50 200-299 120 300-399 65

度数分布表の作成 最大値と最小値を求める。 最大値と最小値の差R(範囲)を求める。 区間の個数(棒グラフの棒の本数)kを決める。 k=√n k=1 + 3.32 log10(n) 簡単に、k=7~10ぐらいにする。 区間幅hを求める。 h=R÷k hの値を見て、きりのいい数字に設定する。

度数分布表の作成 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端を決 める。

新生児の体重( 体重(g) 人数 ~2000 2000~2400 3 2400~2800 14 2800~3200 16 3200~3600 3600~4000 7 4000~4400 4 4400~4800 2

歴史的概観 統計学 記述統計学 推測統計学(推定論・検定論)

理論家の風景 1950年代 統計的推定論の理論的枠組み (WaldやLehman) 理論の精密化 具体的な検定法の開発 1950年代 統計的推定論の理論的枠組み (WaldやLehman) 理論の精密化 具体的な検定法の開発 理論家と利用者との乖離が発生(理論を使いたい が難しすぎる!) 研究テーマ自体が研究対象化?

データ解析現場の風景 より多くのデータがほしい(もっとデータを!) インターネットの出現により、多くのデータが得ら れるようになった(Deluge of Information) 結果として、検定論が破綻。大量のデータに対し ては、「高度に有意」という結果しか返せない。 分布論 大標本理論は100年前に理論は確立。 中小標本理論の研究が進められた。 1970年のブートストラップ法により意義は消滅。 データの大規模化に伴ってブートストラップ法も苦境に。

では、どうすればいいのか? 最近では、因果論 (causality) にも関心が 深まりつつある。 疫学的手法(Epidemiology)も参考にして 考えるべき?