Advanced Data Analysis 先進的データ分析法2017

Slides:

Advertisements

Similar presentations

もう少し高い位置から統計応用のひとつの風景. Advanced Data Mining 高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科.

Advertisements

計量的手法入門人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日奥西好夫

1 変量データの記述（度数分布表とヒストグラム）経済データ解析 2009 年度後期. あるクラスのテストの点数が次のようになっていたとする。このように出席番号と点数が並んでいるものだけでは、このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.

Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

社会福祉調査論第 8 講統計の基本的整理 12 月７日. 【目標】量的調査の集計方法、結果の示し方について、基礎的な手法を習得する。統計値を捉えるための諸指標を理解する。

講義案内経済情報処理演習ＩＩ（２００４秋）. 今年度から開講の新科目現時点での皆さん ( 受講生 ) の・・・コンピュータ習熟度経済学や統計グラフ・データ処理の基礎に関する知識・理解度がわからないので、多少まごつくことがあるかも知れないが、どうか寛容に。演習内容は受講生全体の平均習熟度より少し上のレ.

コンピュータサイエンス概論 2015 平成 27 年 4 月 13 日（月）担当教員：亀田弘之.

生体情報論演習 - 統計法の実践第 1 回京都大学情報学研究科杉山麿人.

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

新設科目：応用数学イントロダクション情報工学科 2 年前期専門科目担当：准教授青木義満.

先進的データ分析法 Advanced Data Analysis 東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

エンジニアのためのリテラシー学生番号順に着席する（クラスa） 1 列 12 人で前方

寺尾敦青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp

データ解析基礎 2. 度数分布と特性値 keyword データの要約度数分布表，ヒストグラム分布の中心を表す基本統計量

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

情報学類吉田光男アドバイザー教官：山本幹雄先生

第１回担当：　西山統計学.

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈データ入力データ分析報告書の作成.

How to Become a Supply Chain Analyst with Free

経済情報処理ガイダンス神奈川大学　経済学部.

コンピュータリテラシ (1) 学習目標（到達目標）・計算機実習室を正しく利用できる。・文書作成ソフトの利用方法を学び、報告作成が

情報科学１（G1）２０１６年度.

統計学 10/19 鈴木智也.

統計学　第１週 9/27（木）担当：鈴木智也.

メディア学部 2011年9月29日(木) 担当教員：亀田弘之

経済情報処理ガイダンス神奈川大学　経済学部.

2010年度コンピュータリテラシークラス：　　Ｂ１講義日：　前学期　月曜日7時限.

プログラミング言語論プログラミング言語論ガイダンス水野嘉明ガイダンス 1 1.

統計リテラシー育成のための数学の指導方法に関する実践的研究

生物統計学・第1回統計解析を始める前に－妥当なデータかどうかを判断する－

1変量データの記述経済データ解析　2006年度.

ワークショップユーザーとメーカーの公開相談会

経済情報処理ガイダンス神奈川大学　経済学部.

確率と統計 Probability & Statistics

確率と統計 Probability & Statistics

統計学の基礎と応用張　南　　今日の話：序　　　論　　　　　　　　　履修の注意事項.

地理情報システム論演習地理情報システム論演習

パターン認識とニューラルネットワーク栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.

形式言語とオートマトン Formal Languages and Automata 第４日目

東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之

第８回授業（5/29日）の学習目標検定と推定は、１つの関係式の見方の違いであることを学ぶ。第３章のWEB宿題の説明

モデルの逆解析明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

形式言語とオートマトン Formal Languages and Automata 第４日目

データ解析静岡大学工学部安藤和敏

数量分析第２回データ解析技法とソフトウェア

東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之

平成29年5月8日（月）第4日目担当教員：亀田弘之

確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）.

統計解析第1回条件付き独立性と確率的グラフィカルモデル本講義の全体像

分散分析、判別分析、因子分析.

確率と統計2009 第12日目(A).

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

先進的データ分析法 Advanced Data Analysis

法数学のための機械学習の基礎京大(医)　統計遺伝学分野山田　亮 2017/04/15.

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

都市・港湾経済学（総）国民経済計算論（商）

平成29年4月10日（月）東京工科大学コンピュータサイエンス学部担当教員：亀田弘之

シミュレーション論 Ⅱ 第1回.

メディア学部 2010年9月30日(木) 担当教員：亀田弘之

情報の集約記述統計記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。

平成28年4月25日（月）第3日目担当教員：亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

平成28年4月11日（月）東京工科大学コンピュータサイエンス学部担当教員：亀田弘之

自然言語処理2015 Natural Language Processing 2015

1変量データの記述（度数分布表とヒストグラム）

平成23年12月22日(木) No.9 東京工科大学担当：亀田弘之

形式言語とオートマトン Formal Languages and Automata 第５日目

自然言語処理2016 Natural Language Processing 2016

Presentation transcript:

Advanced Data Analysis 先進的データ分析法2017 平成29年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之

Advanced Data Analysis 2017 1st quarter Tokyo University of Technology Graduate School of Bio-media-information Dr. of Eng. Hiroyuki KAMEDA

教員紹介

はじめに行動指針明るく楽しく前向きの姿勢で、自ら進んで学ぶ。（Learn positively, curiously and constaltly! ）他利的に行動する。（ Behave altruisticly! ）皆と積極的に討論する。（ Discuss together aggressively! ）。後回しにしない。（Don’t procrastinate! Do right now what you should ne doing now. ）

シラバス

授業概要　インターネット、スーパーコンピュータ、並列計算、大規模メモリ装置などの出現により、現代現代社会では情報やデータの大氾濫が起こっている。しかしながらこれらの情報やデータは適切に分析しなければ我々に何も語ってくれない。このような問題意識のもと、統計的手法や機械学習手法の基礎を体験しながら学ぶことを目指す。その結果、データを単なる数字や文字列の集まりではなく、新たな価値ある情報を語りかけてくれる宝の山へと変貌させる能力を涵養する。　学習目標は、　　1)データ分析の重要性と有効性を理解すること、　　2) 統計学の基礎である平均と分散の真意と意義を理解すること、　　3)基本的な統計手法を実際のデータに適用しその結果の解釈ができること、　　4) 決定木等をツールを用いて作成し解釈することができること、　　5) 帰納論理プログラミングの有効性を知ること、　　6) 構造方程式モデリング(共分散分析)の重要性を知ること、　　7) 各種ツールの用途を説明できること。　データ分析能力は修士論文研究などでも重要な技能であるので、多くの履修者が受講することを期待する。なお、ツールとしてはR、Wekaを予定しているが、時間があればHadoopなどの話題にも触れたい。

授業概要　インターネット、スーパーコンピュータ、並列計算、大規模メモリ装置などの出現により、現代社会では情報やデータの大氾濫が起こっている。しかしながらこれらの情報やデータは適切に分析しなければ我々に何も語ってくれない。このような問題意識のもと、統計的手法や機械学習手法の基礎を体験しながら学ぶことを目指す。その結果、データを単なる数字や文字列の集まりではなく、新たな価値ある情報を語りかけてくれる宝の山へと変貌させる能力を涵養する。　学習目標は、　　1)データ分析の重要性と有効性を理解すること、　　2) 統計学の基礎である平均と分散の真意と意義を理解すること、　　3)基本的な統計手法を実際のデータに適用しその結果の解釈ができること、　　4) 決定木等をツールを用いて作成し解釈することができること、　　5) 帰納論理プログラミングの有効性を知ること、　　6) 構造方程式モデリング(共分散分析)の重要性を知ること、　　7) 各種ツールの用途を説明できること。　データ分析能力は修士論文研究などでも重要な技能であるので、多くの履修者が受講することを期待する。なお、ツールとしてはR, Wekaを予定しているが、時間があればPython, Hadoopなどの話題にも触れたい。

授業方法　データ分析の解説に基づき、各自で実際にデータの分析を行う。基本となる知識は講義形式で行うが、各自が主体的に学ぶことが望まれる。統計解析ソフトウェア“R”は事前にPCにインストールしてあることが望ましいが、授業でも一応説明をする。毎回個人で何らかの演習問題に取り組む形式であるので、欠席・遅刻はしないこと。

評価方法・基準データ分析の意義、データ分析の各種手法、データ分析の基礎的用語・概念を自分の言葉で説明できること、および簡単なデータ分析が自力で行えることが合格のための最低要件である。昨年度のレポート課題を参照のこと。

平成27年度授業日程（確認）第1日目(4月14日) 教室はKE304 （毎回PCとネットワークを使います）第2日目(4月21日) 第3日目(4月28日) 第4日目(5月12日) 第5日目(5月19日) 第6日目(5月26日) 第7日目(6月2日) 第8日目(6月9日)

データ分析の重要性（デモ）データサイエンス Open Data Big Data AI (Machine Learning; ML) その他

データサイエンスの可能性

Ｙｏｕｔｕｂｅを参照のこと。 http://www.youtube.com/watch?v=WNccLBzR_I4 　（Research Matters - Carolyn McGregor） http://www.youtube.com/watch?v=APdZHNIJDnU （Rio de Janeiro City Operation Center）　Data Analytics が Health Informatics で　役立った実例。　皆さんはデータ分析技術を何に役立てますか？

データ分析の重要性

Data Mining とは大量のデータから知識（事実と規則・法則）を発見するためのデータ解析処理のこと。

従来の統計学の考え方知りたい対象（未知な調査対象）得られたデータ（分析可能）調査確率（sampling）記述統計推測確率（推定・検定）確率と統計2011

大量のデータ IoT(Internet of Things) IoE(Internet of Everything)

Data Mining とは大量のデータから　＝＞　少なくとも1,000個(?) 規則性を発見するためのデータ解析処理のこと。

Data Mining とは大量のデータから => 少なくとも1,000個規則性を発見するための => どんな？大量のデータから　=>　少なくとも1,000個規則性を発見するための => どんな？データ解析処理のこと。　=> どうやって？

大量のデータ(1) Digital library Image archive Bioinformatics Medical imagery Health care Finance and investment Manufacturing and production

大量のデータ(2) Business and marketing Telecommunication network Scientific domain The World Wide Web (WWW) Biometrics etc.

具体例もう少しイメージを持ってもらうために、テキストデータ関連の実例を見てみよう。方丈記徒然草広辞苑 Baconエッセイ集 (Gutenberg Project) BNC (British National Corpus) => Data Warehouse

規則性雨が降れば桶屋が儲かる。アメリカがくしゃみをすれば、日本は風邪をひく。世帯主の年齢が30歳～３５歳ならば、マンションを購入する。自動車が写っている写真の80％には、青空も写っている。文は主語と述語とからなる。 etc.

解析法従来の統計解析手法との共通点が多い。（探索的データ解析, Exploratory Data Analysis; EDA）現在、多様な手法が提案されている。　＝＞本講義で紹介する。

DMに関連する諸手法マルチメディアデータ圧縮 (Multimedia Data Compression) 文字列照合 (string Matching) 分類手法 (Classification) クラスタリング (Clustering) 統計的手法（予測・検定 etc.）

マルチメディアデータ圧縮 Image compression (JPEG) Text compression (LZ77, LZ78, LZW) etc.

文字列照合 Brute force string matching Knuth-Morris-Pratt algorithm Boyer-Moore-Horspool algorithm Karp-Rabin algorithm Wagner-Fisher algorithm etc. (参考書) 佐良木・新田：正規表現とテキスト・マイニング，明石書店,ISBN4-7503-1800-0,\2,800(2003).

分類手法決定木 (Decision tree) ベイズ統計 (Bayesian classifier) 事例ベース推論 SVM (Support Vector Machine) ファジー決定木 (Fuzzy Decision Tree) 帰納的論理プログラミング (ILP) etc.

クラスタリングファジー集合 (Fuzzy sets) ニューラルネット (Neural networks) 　　深層学習 (Deep Learning) ウェイブレット (Wavelets) 進化論的アルゴリズム (Evolutionary algorithm) etc.

統計的手法基本統計量（平均・分散・標準偏差・中央値・最頻値・最大値・最小値 etc.）度数分布表ヒストグラム（統計の基本的知識は不可欠！）

統計基礎復習データ解析の演習度数分布表の作成ヒストグラムの作成グラフの分析（データの）代表値（データの）散らばり

新生児６０人の体重（１９９８）表. 新生児の体重(1998年）単位はグラム

手順１： EXCELの起動 [スタート]-[すべてのプログラム]- [Microsoft Excel] 手順２：データの入力

手順１： EXCELの起動 [スタート]-[すべてのプログラム]- [Microsoft Excel] 手順２：データの入力手順３：度数分布表の作成

度数分布表の作成

度数分布表とはデータをいくつかのグループに分類し、各グループに属するデータ数を添えた表。

度数分布表とはイメージとしては右図のようなもの。キャプション・表頭・表側・区間（階級）・区間幅（階級幅）表．度数分布表の例区　　間度　数　　０－９９２０１００－１９９５０２００－２９９１２０３００－３９９６５

度数分布表の作成最大値と最小値を求める。最大値と最小値の差R（範囲）を求める。区間の個数（棒グラフの棒の本数）kを決める。 k=√n k=1 + 3.32 log10(n) 簡単に、k=7～10ぐらいにする。区間幅hを求める。 h=R÷k hの値を見て、きりのいい数字に設定する。

度数分布表の作成最大値=____，最小値=___ 範囲R=最大値－最小値区間数k=____ 区間幅h=____ 最大値=____，　最小値=___ 範囲R=最大値－最小値区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端を決める。

新生児の体重（体重(g) 人数～2000 2000～2400 3 2400～2800 14 2800～3200 16 3200～3600 3600～4000 7 4000～4400 4 4400～4800 2

歴史的概観統計学記述統計学推測統計学（推定論・検定論）

理論家の風景 1950年代統計的推定論の理論的枠組み（WaldやLehman）理論の精密化具体的な検定法の開発 1950年代　統計的推定論の理論的枠組み（WaldやLehman）理論の精密化具体的な検定法の開発理論家と利用者との乖離が発生（理論を使いたいが難しすぎる！）研究テーマ自体が研究対象化？

データ解析現場の風景より多くのデータがほしい（もっとデータを！）インターネットの出現により、多くのデータが得られるようになった（Deluge of Information）結果として、検定論が破綻。大量のデータに対しては、「高度に有意」という結果しか返せない。分布論大標本理論は100年前に理論は確立。中小標本理論の研究が進められた。 1970年のブートストラップ法により意義は消滅。データの大規模化に伴ってブートストラップ法も苦境に。

では、どうすればいいのか？最近では、因果論 (causality) にも関心が深まりつつある。疫学的手法(Epidemiology)も参考にして考えるべき？