データ工学特論 第三回 木村昌臣.

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
コンピュータ演習 Excel 入門 岡田孝・山下雅啓 Excel の機能は膨大 その中のごく一部を紹介 表計算機能 – データの入力、表の作成、計算など グラフ機能 – 棒グラフ、円グラフなどグラフ作成 データベース機能 – 並べ替え(ソート)、検索、抽出など マクロ機能 – VBA で自動化したマクロを作成可能.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
人工知能特論 8.教師あり学習と教師なし学習
最新ファイルの提供を保証する代理FTPサーバの開発
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
「わかりやすいパターン認識」 第1章:パターン認識とは
クラスタ分析手法を用いた新しい 侵入検知システムの構築
プログラミング基礎I(再) 山元進.
第11回 整列 ~ シェルソート,クイックソート ~
Scalable Collaborative Filtering Using Cluster-based Smoothing
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
統計解析 第9回 第9章 正規分布、第11章 理論分布.
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
EMアルゴリズム クラスタリングへの応用と最近の発展
マイクロシミュレーションにおける 可変属性セル問題と解法
第11回 整列 ~ シェルソート,クイックソート ~
プログラミング基礎a 第8回 プログラムの設計 アルゴリズムとデータ構造
ボンドの効果 ―法と経済学による分析― 桑名謹三 法政大学政策科学研究所
プログラム実行履歴を用いたトランザクションファンクション抽出手法
プログラム実行時情報を用いたトランザクションファンクション抽出手法
ソースコードの変更履歴における メトリクス値の変化を用いた ソフトウェアの特性分析
決定木とランダムフォレスト 和田 俊和.
第9章 混合モデルとEM 修士2年 北川直樹.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
音高による音色変化に着目した音源同定に関する研究
IIR輪講復習 #17 Hierarchical clustering
第14章 モデルの結合 修士2年 山川佳洋.
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東京図書)第6章
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
言語XBRLで記述された 財務諸表の分析支援ツールの試作
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
アルゴリズムとプログラミング (Algorithms and Programming)
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
Data Clustering: A Review
プログラミング基礎a 第8回 プログラムの設計 アルゴリズムとデータ構造
不確実データベースからの 負の相関ルールの抽出
部分的最小二乗回帰 Partial Least Squares Regression PLS
プログラミング 4 探索と計算量.
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
データ解析 静岡大学工学部 安藤和敏
Data Clustering: A Review
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
ISO23950による分散検索の課題と その解決案に関する検討
構造的類似性を持つ半構造化文書における頻度分析
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
データ解析 静岡大学工学部 安藤和敏
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
メソッドの同時更新履歴を用いたクラスの機能別分類法
精密工学科プログラミング基礎 第7回資料 (11/27実施)
4.プッシュダウンオートマトンと 文脈自由文法の等価性
マーケティング.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Data Clustering: A Review
精密工学科プログラミング基礎Ⅱ 第2回資料 今回の授業で習得してほしいこと: 配列の使い方 (今回は1次元,次回は2次元をやります.)
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

データ工学特論 第三回 木村昌臣

本日の話題 マーケットバスケット分析 記憶ベース推論 クラスタリング

マーケットバスケット分析

マーケットバスケット分析 買い物かごや 取引レコードでどの アイテムが一緒に 買われる傾向があるかを分析 分析をもとにアクションをとりやすい(実行可能) レイアウト計画 特売商品の品目調整 製品のバンドルの仕方 など ビール おむつ つまみ

マーケットバスケット分析で得られるもの 結果はアソシエーションルールとして得られる 商品Pを買う ⇒ 商品Qを買う  一緒に買われるものがわかるので実行に移しやすい ただし、すべての結果(アソシエーションルール)が有益とは限らない 木曜日には顧客はビールと紙おむつを一緒に買う 製品保証契約をつけた顧客は大型家電を買う 店のオープン時にはトイレットリングがよく売れる

マーケットバスケット分析で得られるもの 結果はアソシエーションルールとして得られる 商品Pを買う ⇒ 商品Qを買う  一緒に買われるものがわかるので実行に移しやすい ただし、すべての結果(アソシエーションルール)が有益とは限らない 木曜日には顧客はビールと紙おむつを一緒に買う 大型家電を買う顧客は製品保証契約をつける 店のオープン時にはトイレットリングがよく売れる 有益! 説明はつくが得られていなかった知識 既存の知識 説明不可能

マーケットバスケット分析の方法 オレンジジュース⇒炭酸飲料 信頼性: 2/4 = 0.5 (50%) サポート: 2/5 = 0.4 (40%) 炭酸飲料⇒オレンジジュース 信頼性: 2/3 = 0.67 (67%) サポート: 2/5=0.4(40%) オレンジジュース を買ったときに それぞれを 買った回数 信頼性・サポート・リフト の値が大きいルールのみ 採用する

信頼性・サポート・リフト 信頼性=商品Bが買われたときの商品Aの購入確率(条件付確率) サポート=商品Aと商品Bの同時購入確率 リフト=商品B購入が条件の商品Aの購入確率と、商品Aの購入確率の比(商品Bを購入したという事実が商品Aの購入確率をどれだけ改善するかの指標)

手順 アイテムの水準と内容を正しく設定 同時購買表を解読してルールを生成 実行上の制限の克服 「ピザ」をアイテムにする? トッピングに応じて別アイテムにする? 同時購買表を解読してルールを生成 実行上の制限の克服

手順1. アイテムの水準と内容を適切に選ぶ ピザ チーズ増量ピザ オニオンピザ マッシュルームピザ ○ 分析しやすい ○ 分析しやすい (組み合わせが少なくてすむ) × 詳細な情報が落ちる  抽象 チーズ増量ピザ ○ 特定のアイテムに焦点を当てた    分析ができる × ルールが複雑になり、    分析に時間がかかる  オニオンピザ 具体 マッシュルームピザ

バーチャルアイテム バーチャルアイテム コカコーラ製品 支払方法 ダイエットコーク コカコーラ 季節 コカコーラC2 実際には商品そのものとして 存在しないが 含めると解析が便利になる 仮想アイテム コカコーラ製品 まとめたもの 支払方法 (カード?現金?) ダイエットコーク コカコーラ 季節 コカコーラC2

(買ったものが)もし「オレンジジュース」であれば (いっしょに買うのは)「炭酸飲料」である 手順2.同時購買表を解読してルールを生成 ルール: もし「前件部」が成立すれば「後件部」も成立する 「前件部 ⇒ 後件部」と書く 例) (買ったものが)もし「オレンジジュース」であれば (いっしょに買うのは)「炭酸飲料」である 同時購買表には、「アイテムのどの組合わせがもっとも多いか」についての情報が 提供されている

手順3. 実行上の制限の克服 アソシエーションルールの生成は多段階 以下同様。アイテム数をAとすると、 単一のアイテムについての同時出現表を作成 2つのアイテムについての同時出現表を作成し、2アイテム間のルールを生成 3つのアイテムについての同時出現表を作成し、3アイテム間のルールを生成 4つのアイテムについての同時出現表を作成し、4アイテム間のルールを生成 以下同様。アイテム数をAとすると、 全部で 2A 程度のルールを扱わなければならない

マーケットバスケット分析の長所 結果が明確に理解できる 探索的なデータマイニングができる 可変長のデータで使える 計算方法が単純で理解しやすい

マーケットバスケット分析の短所 問題の規模が大きくなると指数関数的に計算量が増大する データの属性が限定的にしか扱えない(ひとつの特徴で識別されるデータ向き) 適切なアイテム数の決定が難しい まれにしか買われないアイテムの説明ができない

記憶ベース推論

2.記憶ベース推論(Memory Based Reasoning) 与えられた情報に対し、既知のデータから一番近い事例を探し出し、分類や属性値を予測 保険金請求のデータベースで、知りたい事例にちかいものを調べ、即座に請求に応じるべきか、調査を詳細に行うべきか判断 距離関数(事例間の距離)と結合関数(事例と予測を結びつけるもの)があればよい 既知のものの なかで 一番近い事例 与えられた 事例

手順 データの値の標準化 距離関数による与えられたデータに近い既存データの探索 2.によって得られた既存データ組より得た結合関数の値から予測

手順(1) 入力データの尺度変換 データをあらわすベクトル列の各成分の値を標準化する 下式のように入力ベクトルの第i成分についての平均μiと分散σiを用いて標準化する(各成分が平均0、分散1となる) もしくは、第i成分の最大値と最小値の間の幅Dを用いて標準化する(最小値が0、最大値が1)

手順(2) 距離関数による近傍データの取得 データ間の遠近を定義する距離関数より、与えられたデータに近い既存のデータを得る 同一性: 距離関数は、通常は以下の公理を満たすことが要請される ただし、実用上は遠近さえ定義できればよいのでこれらの公理のいくつかを満たさない距離を利用することもある 同一性: if and only if 交換可能性: 三角不等式:

距離関数(1) 連続データについては以下のものが代表的: Euclid距離: Manhattan距離: 標準化絶対値 による距離:

距離関数(2) カテゴリカルデータの場合は、適宜決める必要がある。例えば、同一であれば1、異なれば0とする方法がある 例)

距離関数(3) 連続データとカテゴリカルデータが混在する場合、以下のようにして全体の距離を定義することが多い 合計(すべての距離の和をとる) ユークリッド距離(すべての距離の2乗和の平方根をとる) 標準化合計(すべての距離の和をその最大値で割って標準化する)

手順(3) 結合関数による予測 距離関数で近いとされたデータにもとづき予測を与える結合関数を使って結果を予測する 結合関数の例) など 与えられたデータに一番近いデータによる事例の結果を返す関数 与えられたデータの近傍データk個による結果の平均を返す関数 (このことからMBRをk-NN法と呼ぶことがある) 与えられたデータの近傍データk個の結果に対して重みつき和をとり、その値を返す関数 など

記憶ベース推論の長所・短所 長所 短所 似ている事例を用いて予測するためわかりやすい どのような形式のデータにも距離関数・結合関数が定義可能であれば適用可能 短所 過去の事例をすべて探索するため、処理時間が事例数に比例して長くかかる 過去の全事例を保存する記憶領域が必要

クラスタリング

クラスタリング 類似している塊(クラスタ)に、レコードを分類する手法 探索的データマイニング 未知のデータを分類するため

2種類のクラスタリング 分割型 階層型 与えられたデータ群を複数のまとまり(=クラスタ)に分割 クラスタ間に共通部分を設けないのが普通 似ている(=距離が近い)ものは先に、似ていないものは後にデータをまとめていく方法 デンドログラムを使って表現

K-means法 1967年 J.B.MacQueenが発表 分割型の代表的手法 あらかじめクラスタの数(=K)を指定する必要あり 通常、数値データ(ベクトル)群の分割に利用される

K-means法の手順 K個のデータをseedとする 各データをどのseedに近いかにもとづいてグループ化する 各グループ毎に、含まれるデータの重心を計算する 2.のseedの代わりに3.の重心を指定し、2.および3.を重心が収束するまで繰り返す

K-means法の手順 K=分類(クラスタ)の個数 重心を導出* 重心間の垂直二等分線(面) により再分類 収束するまで繰り返し   種とする。

凝集型階層的クラスタ 距離が近いもの同士をまとめていく その工程をグラフ化したものがデンドログラム データ間の距離は記憶ベース推論のときと同様のものを使う クラスタ間の距離の定義によって結果が変わる 単一連結法(single linkage: 最近隣法) 完全連結法(complete linkage: 最遠隣法) セントロイド法(comparison of centroids)

クラスタ間距離 simple centroids complete

凝集型クラスタリングの手順 各データ間の距離を計算し、類似度行列を作成する もっとも距離が短いデータ組を見つけ、クラスタとして置き換える クラスタから他のデータまでの距離を計算して、類似度行列を更新する 2.と3.をすべてのデータがひとつのクラスタの中に含まれるまで繰り返す

簡単な例(1) 単一連結法 1 2 3 4 1 2 3 4

簡単な例(2) 単一連結法 1 C1 2 3 1 4 1 2 3 4

簡単な例(3) 単一連結法 1 C2 2 3 4 2 1 4 1 2 3 4

クラスタリングの長所・短所 長所 短所 データの構造を把握しやすい 距離尺度(類似度)が与えられればどのようなデータに対しても適用可能 距離尺度の定義が困難な場合に適用できない K-means法ではseedの選び方によって結果が変わる場合がある 得られたクラスタの意味づけが難しい場合がある