情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章

Slides:



Advertisements
Similar presentations
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
Advertisements

統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第3回 配列(1) 情報・知能工学系 山本一公
  スケジュール管理手法PERT-Time      解 説    “最早開始時間計算のアルゴリズム”
人工知能特論 8.教師あり学習と教師なし学習
「わかりやすいパターン認識」 第1章:パターン認識とは
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
林俊克&廣野元久「多変量データの活用術」:海文堂
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
マーケティング戦略の決定.
生物統計学・第3回 全体を眺める(2) 主成分分析
情報知能学科「アルゴリズムとデータ構造」
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
C言語 配列 2016年 吉田研究室.
人工知能概論 第10回 学習と認識(1) クラスタリング
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
回帰分析.
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
EMアルゴリズム クラスタリングへの応用と最近の発展
統計学 第3回 10/11 担当:鈴木智也.
データ分析入門(13) 第13章 主成分分析 廣野元久.
マーケティング戦略.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
回帰分析/多変量分析 1月18日.
マーケティング戦略の決定.
論理回路 第8回
大規模アドホックネットワークにおける 階層的な名前解決法
プログラミング基礎a 第8回 プログラムの設計 アルゴリズムとデータ構造
クラスタリング 距離と分類の考え方.
Fuzzy c-Means法による クラスター分析に関する研究
第9章 混合モデルとEM 修士2年 北川直樹.
プログラミング 平成23年12月21日 森田 彦.
Broad Institute GenePattern
IIR輪講復習 #17 Hierarchical clustering
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
プログラミング基礎a 第8回 プログラムの設計 アルゴリズムとデータ構造
プログラミング 4 整列アルゴリズム.
クラスター分析入門 高崎経済大学 宮田 庸一.
部分的最小二乗回帰 Partial Least Squares Regression PLS
第4章 社会構造概念はどのように豊穣化されるか
第5章 計算とプログラム 本章で説明すること ・計算の概観と記述法 ・代表的な計算モデル ・プログラムとプログラム言語.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
自己組織化マップ Self-Organizing Map SOM
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
アルゴリズムとプログラミング (Algorithms and Programming)
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
データ解析 静岡大学工学部 安藤和敏
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
コストのついたグラフの探索 分枝限定法 A*アルゴリズム.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
生物統計学・第14回 全体を眺める(6) -相関ネットワーク解析-
Data Clustering: A Review
プログラミング 平成24年12月11日 森田 彦.
テクニカル・ライティング 第4回 ~文章の設計法「KJ法」について~.
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
Presentation transcript:

情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章 情報知能学科 白井 英俊

前回のコメント・質問 連関規則を作る時に、信頼度、サポートの下限の値を記入しますが、信頼度は事前確率より高くないといけないので、itemFrequenryで出した値の中で、一番高いのより、少し高くしといたほうがいいでしょうか。 itemFrequencyPlotとすることによって一行前にあったitemFrequencyという変数(?)をplotしてるのでしょうか? 温泉のデータマイニングの時、効能的には一緒なのにヘッドとボディの部分を入れ替えるだけで確率が変わるのが少し納得がいかなかった 信頼度とか前提確率とかはわかるのですがsupport(サポート)っていったい何なんだろうと思った

前回のコメント・質問(続き) inspect(SORT(雨ルール, “support”)[1:10, ]) について [1:10,]ってところは1~10まで並べるって意味なのでしょうか? options(digits=2)での表示桁数の変更はなぜ行っているのでしょうか? print(inspect(温泉ルール[c(20,21, 70, 69, 3, 4, 127, 83, 61), ]), digits=3)で、表示の最後にNULLと表示されるのはなぜでしょうか? Rを開きなおさずに、それまでの実行をなかったことにできるようなコマンドやツールはないのですか?

6章 クラスター分析 クラスター分析: 観測対象を、互いに似たもの同士(「類似度」)でグループ分け 二つの分類: 6章 クラスター分析 クラスター分析: 観測対象を、互いに似たもの同士(「類似度」)でグループ分け 二つの分類: 階層的: 「階層」とは動植物の体系のように、分類が大分類から小分類へと段階的に分類が細かくなっているようなもの 非階層的

6.1 階層的クラスター分析 類似度の定義 ユークリッド距離(日常的な感覚の「距離」) 2変数の場合: と の 距離dij = 6.1 階層的クラスター分析 類似度の定義   ユークリッド距離(日常的な感覚の「距離」) 2変数の場合:  と       の     距離dij =    多変量の場合(n次元)

6.1.2 動物の分類を例に 階層的クラスター分類の手順 変数を用いて個々の対象間の距離をすべて計算し、その中で距離が最も短い対象同士を併合して、最初のクラスターを作成 新しく併合されたクラスターと他の対象間の距離を再度計算し、手順1で計算された対象間の距離を含めてもっとも近いものを併合する。 手順2を繰り返して、すべてのクラスターが統合されるまで計算 クラスターが併合される過程を表すデンドログラムを描く

動物の分類を例にした距離 標準化(平均0.0、分散1.0) 動物 体重(kg) 脳の重さ(g) 牛 465 423 馬 521 655 ゴリラ 207 406 人間 62 1320 チンパンジー 52 440 動物 体重 脳の重さ 牛 0.921 -0.581 馬 1.175 0.016 ゴリラ -0.246 -0.625 人間 -0.902 1.727 チンパンジー -0.947 -0.537 距離を求める 「牛」と「馬」を一つのクラスターにする 牛 馬 ゴリラ 人間 0.65 1.17 1.56 2.94 2.69 2.44 チンパンジー 1.87 2.19 0.71 2.26 最小値

クラスター間の距離 最短距離法: クラスター内の要素からの最短距離 最長距離法: クラスター内の要素からの最長距離 C1:牛+馬 ゴリラ 人間 2.44 チンパンジー 0.71 2.26 1.34 2.80 最小値 2.01 「ゴリラ」と「チンパンジー」を 一つのクラスターにする  重心法: クラスターの重心(平均)からの距離  最短距離法: クラスター内の要素からの最短距離  最長距離法: クラスター内の要素からの最長距離  群平均法: クラスター内の要素からの距離の平均

デンドログラム

6.1.4 ウォード法 ウォード法:2つのクラスターを併合する時に、クラスター内の平方和を最小にするようにクラスターを併合する クラスター間の距離:2つのクラスターを併合した時の平方和(散布度)の増加量で定義 平方和の増加量が大きい⇒2つのクラスターが類似していない   ⇒平方和の増加量が小さいものから併合することで、似たもの同士がまとまる 散らばりの変化量=併合後の平方和 - ∑(それぞれの平方和)

ウォード法(続き) 利点:鎖効果が起こりにくい 鎖効果:ある一つのクラスターに対象が一つずつ順番に吸収されて、クラスターの形成がなされていく減少。   特に最短距離法でこれが起こりやすい   重心法は、クラスター併合後に距離が短くなる場合があり、距離の単調性が保証されない クラスター法は実用場面でよく使われ、お勧め

ヒートマップ (図6.5)

6.2 非階層的クラスター分析 非階層的手法では、あらかじめ指定したクラスター数で観測対象を分類 利点:計算が速い。大量のデータを処理する場合は、クラスター数の大体の目星をつけて、クラスター数を変えて非階層的手法を数回実施した方が効率が良い(場合が多い) 欠点: クラスター数を指定しなければ分析できない

k-means法 MacQueen(1967)による提案 N個の観測対象をK個の初期クラスターに任意に分類しておく 各クラスターの中心点を計算 N個の観測対象のK個のクラスターの中心点への距離を計算(N*K個) すべての観測対象に関して、その時点で各自が所属しているクラスターへの距離が、K個のクラスターの中で一番近ければ計算終了。さもなければ、一番近いクラスターに割り当てなおして2へ。

k-means法の確認 4つの観測対象、2次元の特徴量 この観測対象を2つのクラスターに 分ける(K=2) AB と CD に分類 x1 x2 A 6 4 B -2 2 C D AB と CD に分類 クラスターの中心点を      求める: AB = (2,3), CD = (-1,-1)

k-means法の確認(続) (3) それぞれの観測対象から、これらの中心点への距離を計算(右表、赤字は各行の最小値) (AB) (CD) A 17 74 B 10 C 29 2 D 25 (4) Bが誤分類されているため、 クラスターを(A)と(BCD)に分類し、中心点を計算:(A)=(6,4), (BCD)=(-1.3, 0 ) 観測対象 (A) (BCD) A 69.8 B 68 4.44 C 72 5.78 D 80 0.44 (5)それぞれの観測対象から、これらの中心点への距離を計算(右表)⇒終了

非階層法の注意 クラスターの解釈は分析者の責任 初期クラスターの初期値に依存するため、出力はいつも同じとは限らない 分析者の判断により、適切なクラスター数を決定して解釈を行う