クラスター分析入門 高崎経済大学 宮田 庸一.

Slides:



Advertisements
Similar presentations
図示、可視化モジュール ~ pylab と numpy を ちょっと~. pylab とは? ・数学や統計的なグラフを生成するモ ジュール ・インストール pip や easy install からのインストールを推奨 →numpy モジュールなどの前提としている。 Anaconda の場合は標準.
Advertisements

コンピュータと情報 第10回 Excel を使ってみる. Excel の起動 ① 「スタート」ボタンをク リック ② すべてのプログラムにマ ウスカーソルをあわせる ③ 「 Microsoft Office 」 → 「 Microsoft Excel 2003 」 にマウスをあわせて,ク リック ④.
コーディングとデータ入力 1. データ入力の手順 2. データ・クリーニングの方法 3. データの送付 1.
情報処理 第 13 回. 今日の内容 練習用ファイルのダウンロードデータの入力 – データベースに適したデータの入力方法 – ウィンドウ枠の固定 ( 見出し行の固定 ) データの並べ替え –1 つの列の値で並べ替え – 複数の列の値で並べ替え.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
「わかりやすいパターン認識」 第1章:パターン認識とは
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
JavaScript プログラミング入門 2006/11/10 神津.
Data Clustering: A Review
Rによる回帰分析 高崎経済大学 宮田 庸一.
林俊克&廣野元久「多変量データの活用術」:海文堂
電子情報工学科5年(前期) 7回目(21/5/2015) 担当:古山彰一
徳山豪 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
国際政治経済特殊研究Ⅷ  飯野光浩 本・資料の読み方(英語編).
マーケティング戦略の決定.
11.1 表の作成 表の各部名称 列 行 セル 罫線.
データ構造とアルゴリズム論 第6章 探索のアルゴリズム
形状を平行移動や回転移動させて位置を変えたり,拡大・縮小して変形させる方法を説明する.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
C言語 配列 2016年 吉田研究室.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
情報科学1(G1) 2016年度.
主成分分析                     結城  隆   .
問題 1 キーボードから入力した数の合計を計算するプログラムを 作成せよ。最初に、何個の数を入力するかその数を入力 するようにする。
マーケティング戦略.
情報処理 第13回.
補数 n:桁数、b:基数 bの補数 bn-x 253(10進数)の10の補数は、 =747
精密工学科プログラミング基礎 第9回資料 (12/11 実施)
この資料は、テキストをもとに、講義のために作成したものです.学習用に活用してください.
第5回 統計処理(2) 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時 経済学部・法学部
マーケティング戦略の決定.
第10回 プログラミングⅡ 第10回
クラスタリング 距離と分類の考え方.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
情報処理A 第?回 Excelを使ってみる.
二分木説明 点Cの座標を求めよ。.
Fuzzy c-Means法による クラスター分析に関する研究
ホップフィールドネットワーク演習 2018年12月14日.
IIR輪講復習 #17 Hierarchical clustering
前回の練習問題.
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
生  物  数  学 斉木 里恵.
アルゴリズムとプログラミング (Algorithms and Programming)
宝 探 し 本時の目標 これまで学習してきた作図を利用して、条件を満たす点の作図をすることができる。
精密工学科プログラミング基礎Ⅱ 第4回資料 今回の授業で習得してほしいこと: 文字列の扱い ファイル入出力の方法 コマンドライン引数の使い方
第4章 社会構造概念はどのように豊穣化されるか
Data Clustering: A Review
第2回課題 配布した通り.氏名・学生番号を忘れないこと.
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
(別紙1) プレゼンテーション の実施方法 ・期末試験期間の後,1組,2組, 夜間主の全グループが一会場で行う.
12 Microsoft Word(3) 12.1 表の作成 表の各部名称 列 行 セル 罫線.
第3回 基礎作図 基本的な作図法をしっかりと学ぶ! 本日の課題.
先進的データ分析法 Advanced Data Analysis
自己組織化マップ Self-Organizing Map SOM
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
地理情報システム論(総)/ 国民経済計算論(商)
地理情報システム論 第4回 コンピュータシステムおける データ表現(2)
メソッドの同時更新履歴を用いたクラスの機能別分類法
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
情報処理 第13回.
ヒープソート.
Copyright 2002 守屋悦朗 オートマトンって? (Turing machine) (アニメーションで実行のこと)
blossom取り扱い説明書 <基本説明> <各種設定> 初期画面→ノードの初期化 入力データの選択 学習開始 学習終了 マップの見方
Data Clustering: A Review
3.テキストボックスによる データ入力 データ入力と表示のプログラム.
第3章 関係データベースの基礎 3.1 関係とは 3.2 関係代数.
Presentation transcript:

クラスター分析入門 高崎経済大学 宮田 庸一

データ 番号 ラベル x1 x2 1 A 2 B 3 C 4 D 6 5 E 8 7 F 9 G 10

クラスター分析 直感的に3 つのグループに分けられることがわかる クラスター分析≒ ”データが近いものは同じグループ”と考える

類似度 データとデータの”近さ”を測る 2点間の距離を”近さ”として考える 【例】 点A と点B の近さ Aには1, B には2,Cには3 と、数を割り振り、点A とC の距離であればd13とする

類似度行列 A B C D E F G 1 2 7.07 9.22 8 9.06 2.24 6.4 8.6 8.06 9 5.83 7.81 6 5.66 6.08 5.39 1.41 d23 d13

群平均法 A とB が一番近いことがわかる 2 つの点をまとめて1 つの群にする. これは(A,B) という記号で表す 次に(A,B),C,D,E,F,G それぞれの近さを測る A とB という点を含んだ群1 と点C との距離をd(1,2)3 と表す

群と点の距離 A d13 C B d23

群と群の距離 d14 D A d13 d24 C B d23

クラスタリングの一連の作業 A,B,C,D,E,F,G 一番近いのはA とB の距離d12=1 →(A,B),C,D,E,F,G 2番目に近いのはF とG の距離d67=1.4 (A,B)とCの距離d(1,2)3=2.12 その他の距離も計算→ F とG の距離が近い →(A,B),C,D,E,(F,G) →(A,B,C),D,E,(F,G)

デンドログラム きりの良い場所で線を引く d(1,2)3=2.12

Ward法(クラスター内平方和) 群2 群1 A(x1,y1) D(x4,y4) B(x2,y2) C(x3,y3) E(x5,y5)

Ward法(クラスター内平方和) 群2 群1 A(x1,y1) D(x4,y4) B(x2,y2) C(x3,y3) E(x5,y5)

Ward法 群1 と群2 を合わせたものと, 群1 と点E を合わせたものなど, どのクラスター内平方和が小さくなるのかを調べ, 最も小さくなるほうの群と結合する 最初は与えられたn 個のデータはそれぞれ別のクラスターだと考えて, その中で上の基準で群と群をまとめていって最後には1 つのクラスターにまとめる方法をWard法と言う.

R(インポート) データのインポート と入力しEnterを押す data02<-read.csv("c:\\Program Files \\R\\principal_data02.csv",header=T,row.name="name") と入力しEnterを押す name 国語 社会 数学 物理 英語 相川 英之 91 98 63 72 88 吾妻 博 57 70 83 79 阿部 美穂 64 78 82 66 飯田 卓也 67 40 上原 広幸 55 59 内田 弓子 95 81 76 14

Rによる実行 群平均法 hc<-hclust(dist(data02),"ave") plot(hc,xlab="",ylab="高さ",sub="") Ward法 hc<-hclust(dist(data02),“ward")