Scalable Collaborative Filtering Using Cluster-based Smoothing

Slides:



Advertisements
Similar presentations
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
世帯マイクロデータの適合度評価における 重みの決定手法
顔表情クラスタリングによる 映像コンテンツへのタギング
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
「わかりやすいパターン認識」 第1章:パターン認識とは
Data Clustering: A Review
国内線で新千歳空港を利用している航空会社はどこですか?
データモデリング 推薦のための集合知プログラミング.
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
中間発表用スライド 田中健太.
時空間データからのオブジェクトベース知識発見
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
第6章 数量化I類.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
サポートベクターマシン によるパターン認識
Fuzzy c-Means法による クラスター分析に関する研究
第9章 混合モデルとEM 修士2年 北川直樹.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
音高による音色変化に着目した音源同定に関する研究
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
第14章 モデルの結合 修士2年 山川佳洋.
予測に用いる数学 2004/05/07 ide.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
主成分分析 Principal Component Analysis PCA
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
部分的最小二乗回帰 Partial Least Squares Regression PLS
Number of random matrices
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
Data Clustering: A Review
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
データ解析 静岡大学工学部 安藤和敏
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
分枝カット法に基づいた線形符号の復号法に関する一考察
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Webページタイプによるクラスタ リングを用いた検索支援システム
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
自己縮小画像と混合ガウス分布モデルを用いた超解像
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合ガウスモデル Gaussian Mixture Model GMM
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

Scalable Collaborative Filtering Using Cluster-based Smoothing 集団に基づくスムージングを使った拡張性のある協調フィルタリング まとめ?編

2.背景(予備知識) 協調フィルタリング ・メモリーベース メモリーベースのアプローチは最もポピュラーな予測技術の1つ。 基本的な考え あるアイテムについてのアクティブユーザーの予測される評価を 他の類似したユーザーの多数決、 またはK近傍法(KNN)による評価の加重平均として計算すること。 一般に、メモリーベースでは ピアソン相関係数アルゴリズム(PCC)[16] ベクトル空間類似度アルゴリズム(VSS)[4] を利用する。

2.背景(予備知識) 協調フィルタリング ・モデルベース モデルベースの人気のあるアルゴリズム ・協調フィルタリングのためのクラスタリング[13][21] ・アスペクトモデル[12] クラスタリング技術は類似した好みを持つと思われる ユーザー達のグループを特定することによって機能する。 一度クラスタが作成されると、 個人に対する予測はそのクラスタ内の他のユーザー達の 評価の平均をとることによってもたらされる。 いくつかのクラスタリング技術は、 いくつかのクラスタへの部分的な関係で各々のユーザーを表現する。 予測はそれから、そのクラスタらに対する平均である。 そして関係の程度によって重み付けがされる。 アスペクトモデルは確率的潜在空間モデルである。 そしてそれは個々の選択を選択要因の凸結合と考える。 潜在的なクラス変数は、ユーザーとアイテムの各々の情報のペアと関係付けられる。 アスペクトモデルは潜在的クラス変数が与えられると、 ユーザーとアイテムが互いに独立であると仮定する。

2.背景(予備知識) 協調フィルタリング ・ハイブリッドモデル Pennockたち[15]はメモリーベースとモデルベースの複合型のアプローチを提案した。 いくつかのアイテムに対するユーザーの好みが与えられれば これらは全ての取り得る評価全体を一様分布として未評価を割り当てることによって 同じ「個性診断」に属するユーザーである確率を計算する。 以前の実験による研究はその手法がPCC手法、VSS手法とベイジアンネットワークアプローチを含む、協調フィルタリングのための他のいくつかのアプローチより 性能が優れていることを示した。 しかし、未評価のアイテムを評価するとき、トレーニングデータベースの情報の集合全体も、ユーザー間の多様性も考慮しない。 ・他の関連研究 ・次元削減手法 ・コンテントブースとCFアプローチ ・Sarwarらのアイテムベースのアプローチ

3クラスタベース協調フィルタリングフレームワーク ・表記法の定義 アイテムの集合T={t1,t2,...,tm} データベース内のユーザーの集合U={u1,u2,...,un} アクティブユーザーua トレーニングデータベース内でみつかる全ての評価{(u(1),i(1),r(1)),...,(u(k),i(k),r(k))} ((u(i),t(i),r(i)))はアイテムt(i)がユーザーu(i)によってr(i)と評価されることを意味する。 ユーザーuごとに、Ru(t)はユーザーuによるアイテムtの評価 Ruはユーザーuの平均評価を意味している。 評価の度合いは1からrmaxに及ぶ。

・クラスタリングベースのスムージングアルゴリズム アルゴリズム:クラスタ-スムーズCF ・前処理:ユーザークラスタCを作成(K-meansアルゴリズムを使用する。) ・アクティブユーザーuaと評価されたアイテムi、アイテムt、最も近い近傍の数である整数Kが与えられたら 1.uaに最も類似したグループらからs人のユーザーを選びグループGに入れる。 2.uの評価がRu(t)とRcu(t)の組み合わせであるGでuごとに類似度sim(ua,u)を計算する。 3.最も近い近傍としてtopK人の最も類似したユーザーを選ぶ。 4.K人の近傍のふるまいによってuaのための特定のアイテムtの評価を予測する。

3.1クラスタリングアルゴリズム ・K-meansアルゴリズムを用いる 数字kはクラスタの数を指定する入力。 最初のステップで最初のk人のユーザーをk個のユニークなクラスタの重心として利用する。 残りの各々のユーザーたちは、それから最も近い重心と比較される。 次のステップでクラスタの重心は前のステップで作られたクラスタの重心に基づいて再計算される、そしてクラスタの帰属関係は再評価される。 ユーザーたちがN個のグループにクラスタわけされると仮定すると、ユーザーたちUのクラスタリング結果は、{Cu1,Cu2,...,Cuk}と表現される。

われわれはピアソン相関係数関数を類似度計算関数として利用する。 ユーザーuとユーザーu'との類似度は次のように定義される。 この式は共分散をそれぞれの標準偏差で割ったものに等しい。

3.2データスムージング データの疎は協調フィルタリングのための基本的な問題である。 データセット内の未評価を埋めるために、スムージング手法としてクラスタの明示的な利用を行う。 クラスタリングの結果に基づいて、スムージング計画(方法)を未知の評価データに適用する。 まず、特別な評価値を次のように定義する。 ここでRu(t)^はあるアイテムtに対するユーザーuの評価のためにスムージングされた値を意味する。 ユーザーuが与えられたら、Cu∈{Cu1,Cu2,...Cuk}はユーザーが属するクラスタに属しているとする。

個人の多様性を考慮することによってRu(t)^を計算するために以下の式を使用することを提案する。 ここでΔRCu(t)はアイテムtに対するクラスタCu内の全てのユーザーに対する平均偏差である。 そして以下で定義される: ここでCu(t)∈CuはクラスタCu内でアイテムtを評価したユーザーのユーザーセットである。 |Cu(t)|はくラスタCuないでアイテムtを評価したユーザーの人数である。

3.3近傍事前選択 協調フィルタリングの重要なステップはアクティブユーザーの近傍を検索することだ。 従来の方法はデータベース全体を検索するので、 新しいユーザーやアイテムがデータベースに追加されるとき、 この方法は明らかにスケーラビリティの低下に苦しむ。 クラスタの概念を用いることによって、よりよく実行できる。 あるクラスタ内のユーザーのグループの特徴はそのクラスタの重心によって表現される。 この重心はそのクラスタ内の全てのユーザーに対する平均評価として表現される。 クラスタ内のユーザーの類似した集合を計算するためにユーザーらのグループCとアクティブユーザー間の類似度は以下の関数に基づいて計算される: 各々のグループとアクティブユーザー間の類似度を計算した後、 最も類似したグループら内のユーザーたちを候補者として利用する。 その過程から、 いくらかの無関係の情報を削除するのと同様に、類似度計算のスピードアップの手助けになる。

3.4近傍選択 事前選択の後、スムージングされた評価に関して、 候補者集合のユーザーとアクティブユーザー間の類似度を再計算する必要がある。 クラスタ情報によるスムージングの後、ユーザーの評価値は、 2つの部分(元の評価とグループ評価)からなる。 本論文では、候補者集合内のユーザーとアクティブユーザー間の類似度を計算するとき、 異なる重みはユーザーの元の評価とグループ評価の間で考慮される。 すなわち、Wutをアイテムtにユーザーuのための信頼重みとしてセットする。 ここでλは元の評価とグループ評価間の重さを調整するためのパラメーターである。 λの値は0から1まで変化する。

それからわれわれは、下記の類似度関数に基づいてtopK人の最も類似したユーザーたちを選ぶ。 λに異なった値を割り当てることによって、 総合的な類似度の異なる評価値の重みを調整することができる λ=0のときPCCアルゴリズム(類似度計算と予測のために評価された情報を使うだけの) λ=1のときクラスタベースの協調フィルタリングアルゴリズム (類似度計算と予測のためにクラスタリングの平均評価を使う)

3.5予測 予測する際、K人の最も類似したユーザーたちの部分集合は、 アクティブユーザーに対する彼らの類似度に基づいて選ばれる、 そして彼らの評価の重み付けされた集合は下記のように アクティブユーザーのための予測を生成するのに用いられる。 予測は、近傍の平均値からの偏差の重み付け平均として計算される。 ここでsimua,uはアクティブユーザーuaとトレーニングユーザーu間の類似度、 そしてKは近傍内のユーザーの数である。

表で示すように、われわれのフレームワークは近傍事前選択とスムージングの組み合わせにより、非常に柔軟性が高い。 PCC・・・ピアソン相関係数アルゴリズム CBCF・・・クラスタベースの協調フィルタリング CBPCC・・・スムージングのためにクラスタを使用するような クラスタベースのピアソン相関係数アルゴリズム SPCC・・・スケーラブルなピアソン相関係数アルゴリズム 近傍事前選択のためにクラスタを用いる SCBPCC・・・近傍事前選択とスムージングのためにクラスタを用いるような アルゴリズム

4実験 スケーラビリティと推薦の質に関して協調フィルタリングのための新しいスキームの 有効性を調査するために実験を行った 結果 提案したフレームワークはスケーラビリティ問題を解決することと同様に 予測の精度を改善することができました、と。