データ工学特論第三回木村昌臣.

データ工学特論第三回木村昌臣

本日の話題マーケットバスケット分析記憶ベース推論クラスタリング

マーケットバスケット分析

マーケットバスケット分析買い物かごや取引レコードでどのアイテムが一緒に買われる傾向があるかを分析
分析をもとにアクションをとりやすい（実行可能）レイアウト計画特売商品の品目調整製品のバンドルの仕方などビールおむつつまみ

マーケットバスケット分析で得られるもの結果はアソシエーションルールとして得られる
商品Pを買う　⇒　商品Qを買う　一緒に買われるものがわかるので実行に移しやすいただし、すべての結果（アソシエーションルール）が有益とは限らない木曜日には顧客はビールと紙おむつを一緒に買う製品保証契約をつけた顧客は大型家電を買う店のオープン時にはトイレットリングがよく売れる

マーケットバスケット分析で得られるもの結果はアソシエーションルールとして得られる
商品Pを買う　⇒　商品Qを買う　一緒に買われるものがわかるので実行に移しやすいただし、すべての結果（アソシエーションルール）が有益とは限らない木曜日には顧客はビールと紙おむつを一緒に買う大型家電を買う顧客は製品保証契約をつける店のオープン時にはトイレットリングがよく売れる有益! 説明はつくが得られていなかった知識既存の知識説明不可能

マーケットバスケット分析の方法オレンジジュース⇒炭酸飲料信頼性: 2/4 = 0.5 (50%)
サポート: 2/5 = 0.4 (40%) 炭酸飲料⇒オレンジジュース信頼性:　2/3 = 0.67 (67%) サポート： 2/5=0.4(40%) オレンジジュースを買ったときにそれぞれを買った回数信頼性・サポート・リフトの値が大きいルールのみ採用する

信頼性・サポート・リフト信頼性=商品Bが買われたときの商品Aの購入確率（条件付確率）サポート=商品Aと商品Bの同時購入確率
リフト=商品B購入が条件の商品Aの購入確率と、商品Aの購入確率の比(商品Bを購入したという事実が商品Aの購入確率をどれだけ改善するかの指標)

手順アイテムの水準と内容を正しく設定同時購買表を解読してルールを生成実行上の制限の克服「ピザ」をアイテムにする？
トッピングに応じて別アイテムにする？同時購買表を解読してルールを生成実行上の制限の克服

手順1. アイテムの水準と内容を適切に選ぶピザチーズ増量ピザオニオンピザマッシュルームピザ ○ 分析しやすい
○　分析しやすい（組み合わせが少なくてすむ） ×　詳細な情報が落ちる　抽象チーズ増量ピザ ○　特定のアイテムに焦点を当てた　　　分析ができる ×　ルールが複雑になり、　　分析に時間がかかる　オニオンピザ具体マッシュルームピザ

バーチャルアイテムバーチャルアイテムコカコーラ製品支払方法ダイエットコークコカコーラ季節コカコーラC2
実際には商品そのものとして存在しないが含めると解析が便利になる仮想アイテムコカコーラ製品まとめたもの支払方法（カード？現金？）ダイエットコークコカコーラ季節コカコーラC2

（買ったものが）もし「オレンジジュース」であれば（いっしょに買うのは）「炭酸飲料」である
手順2.同時購買表を解読してルールを生成ルール：もし「前件部」が成立すれば「後件部」も成立する「前件部　⇒　後件部」と書く例）（買ったものが）もし「オレンジジュース」であれば（いっしょに買うのは）「炭酸飲料」である同時購買表には、「アイテムのどの組合わせがもっとも多いか」についての情報が提供されている

手順3. 実行上の制限の克服アソシエーションルールの生成は多段階以下同様。アイテム数をAとすると、
単一のアイテムについての同時出現表を作成 2つのアイテムについての同時出現表を作成し、2アイテム間のルールを生成 3つのアイテムについての同時出現表を作成し、3アイテム間のルールを生成 4つのアイテムについての同時出現表を作成し、4アイテム間のルールを生成以下同様。アイテム数をAとすると、全部で 2A 程度のルールを扱わなければならない

マーケットバスケット分析の長所結果が明確に理解できる探索的なデータマイニングができる可変長のデータで使える
計算方法が単純で理解しやすい

マーケットバスケット分析の短所問題の規模が大きくなると指数関数的に計算量が増大する
データの属性が限定的にしか扱えない（ひとつの特徴で識別されるデータ向き）適切なアイテム数の決定が難しいまれにしか買われないアイテムの説明ができない

記憶ベース推論

2.記憶ベース推論(Memory Based Reasoning)
与えられた情報に対し、既知のデータから一番近い事例を探し出し、分類や属性値を予測保険金請求のデータベースで、知りたい事例にちかいものを調べ、即座に請求に応じるべきか、調査を詳細に行うべきか判断距離関数（事例間の距離）と結合関数（事例と予測を結びつけるもの）があればよい既知のもののなかで一番近い事例与えられた事例

手順データの値の標準化距離関数による与えられたデータに近い既存データの探索 2.によって得られた既存データ組より得た結合関数の値から予測

手順(1) 入力データの尺度変換データをあらわすベクトル列の各成分の値を標準化する
下式のように入力ベクトルの第i成分についての平均μiと分散σiを用いて標準化する（各成分が平均0、分散1となる）もしくは、第i成分の最大値と最小値の間の幅Dを用いて標準化する（最小値が0、最大値が1）

手順(2) 距離関数による近傍データの取得データ間の遠近を定義する距離関数より、与えられたデータに近い既存のデータを得る同一性:
距離関数は、通常は以下の公理を満たすことが要請されるただし、実用上は遠近さえ定義できればよいのでこれらの公理のいくつかを満たさない距離を利用することもある同一性: if and only if 交換可能性: 三角不等式:

距離関数(1) 連続データについては以下のものが代表的： Euclid距離: Manhattan距離: 標準化絶対値による距離:

距離関数(2) カテゴリカルデータの場合は、適宜決める必要がある。例えば、同一であれば1、異なれば0とする方法がある例)

距離関数(3) 連続データとカテゴリカルデータが混在する場合、以下のようにして全体の距離を定義することが多い合計（すべての距離の和をとる）
ユークリッド距離（すべての距離の2乗和の平方根をとる）標準化合計（すべての距離の和をその最大値で割って標準化する）

手順(3) 結合関数による予測距離関数で近いとされたデータにもとづき予測を与える結合関数を使って結果を予測する結合関数の例) など
与えられたデータに一番近いデータによる事例の結果を返す関数与えられたデータの近傍データk個による結果の平均を返す関数（このことからMBRをk-NN法と呼ぶことがある）与えられたデータの近傍データk個の結果に対して重みつき和をとり、その値を返す関数など

記憶ベース推論の長所・短所長所短所似ている事例を用いて予測するためわかりやすい
どのような形式のデータにも距離関数・結合関数が定義可能であれば適用可能短所過去の事例をすべて探索するため、処理時間が事例数に比例して長くかかる過去の全事例を保存する記憶領域が必要

クラスタリング

クラスタリング類似している塊（クラスタ）に、レコードを分類する手法探索的データマイニング未知のデータを分類するため

2種類のクラスタリング分割型階層型与えられたデータ群を複数のまとまり(=クラスタ)に分割クラスタ間に共通部分を設けないのが普通
似ている（=距離が近い）ものは先に、似ていないものは後にデータをまとめていく方法デンドログラムを使って表現

K-means法 1967年 J.B.MacQueenが発表分割型の代表的手法あらかじめクラスタの数(=K)を指定する必要あり
通常、数値データ（ベクトル）群の分割に利用される

K-means法の手順 K個のデータをseedとする各データをどのseedに近いかにもとづいてグループ化する
各グループ毎に、含まれるデータの重心を計算する 2.のseedの代わりに3.の重心を指定し、2.および3.を重心が収束するまで繰り返す

K-means法の手順 K=分類（クラスタ）の個数重心を導出* 重心間の垂直二等分線(面) により再分類収束するまで繰り返し
　　種とする。

凝集型階層的クラスタ距離が近いもの同士をまとめていくその工程をグラフ化したものがデンドログラム
データ間の距離は記憶ベース推論のときと同様のものを使うクラスタ間の距離の定義によって結果が変わる単一連結法（single linkage: 最近隣法）完全連結法（complete linkage: 最遠隣法）セントロイド法（comparison of centroids）

クラスタ間距離 simple centroids complete

凝集型クラスタリングの手順各データ間の距離を計算し、類似度行列を作成するもっとも距離が短いデータ組を見つけ、クラスタとして置き換える
クラスタから他のデータまでの距離を計算して、類似度行列を更新する 2.と3.をすべてのデータがひとつのクラスタの中に含まれるまで繰り返す

簡単な例(1) 単一連結法 1 2 3 4 1 2 3 4

簡単な例(2) 単一連結法 1 C1 2 3 1 4 1 2 3 4

簡単な例(3) 単一連結法 1 C2 2 3 4 2 1 4 1 2 3 4

クラスタリングの長所・短所長所短所データの構造を把握しやすい距離尺度（類似度）が与えられればどのようなデータに対しても適用可能
距離尺度の定義が困難な場合に適用できない K-means法ではseedの選び方によって結果が変わる場合がある得られたクラスタの意味づけが難しい場合がある

データ工学特論第三回木村昌臣.

Similar presentations

Presentation on theme: "データ工学特論第三回木村昌臣."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

データ工学特論 第三回 木村昌臣.

Similar presentations

Presentation on theme: "データ工学特論 第三回 木村昌臣."— Presentation transcript:

Similar presentations

About project

フィードバック

データ工学特論第三回木村昌臣.

Presentation on theme: "データ工学特論第三回木村昌臣."— Presentation transcript: