中間発表用スライド 2008.12.20 田中健太.

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

協調フィルタリングに基づく ソフトウェア開発技術の推薦 ソフトウェアサイエンス研究会@信州大学 2005 年 6 月 23 日 奈良先端科学技術大学院大学 情報科学研究科 秋永 知宏,大杉 直樹,柿元 健,角田 雅照, 門田 暁人,松本 健一.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
楽観主義・悲観主義が映画満足度に与える影響 -気分の上昇時・下降時に着目して- 2005 年度 卒業研究 情報システム学科 小宮山研究室 阿部洋平.
Writter: slip0110 Tester: kioa341
相互作用図 FM11010 田中健太.
「わかりやすいパターン認識」 第1章:パターン認識とは
極小集合被覆を列挙する 実用的高速アルゴリズム
秘匿積集合プロトコルの 推薦システムへの応用
Scalable Collaborative Filtering Using Cluster-based Smoothing
相関係数 植物生態学研究室木村 一也.
Shelf-Navigator ユーザ動作による書籍相関抽出機構
データモデリング 推薦のための集合知プログラミング.
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
回帰分析.
ソフトウェア工学サマースクール(3) ソフトウェア工学の新潮流(1) リポジトリマイニング
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
シミュレーション物理7 乱数.
第4日目第2時限の学習目標 検査(テスト)の信頼性について学ぶ。 (1)検査得点の構成について知る。 (2)検査の信頼性の定義を知る。
方程式と不等式 1次方程式 1次不等式.
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
現金に替わる電子マネーの実装 200702894 大城 翔太 木下研究室.
Graduate School of Information Science and Technology, Osaka
IPv6アドレスによる RFIDシステム利用方式
フィージビリティスタディにおける シミュレーション
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
 統計学講義 第11回     相関係数、回帰直線    決定係数.
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
デザイン情報学科 メディア情報設計 河原英紀
プログラム動作理解支援を目的とした オブジェクトの振舞いの同値分割手法
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
予測に用いる数学 2004/05/07 ide.
主成分分析 Principal Component Analysis PCA
コードクローンの動作を比較するためのコードクローン周辺コードの解析
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
関数の再帰呼び出しとは ハノイの塔 リダイレクト レポート課題
GPGPUによる 飽和高価値 アイテム集合マイニング
Scintillator と Gas Cherenkovと Lead Glass のデータ解析
不確実データベースからの 負の相関ルールの抽出
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
プログラミング 4 探索と計算量.
1.目的 サプライチェーンにおいて重要なこと ・商品のコスト ・商品の充填率 需要が予測できれば、 充填率を下げずに在庫が減らせる 在庫
コンピュータにログイン 第1章 コンピュータにログイン 啓林館 情報A最新版 (p.6-13)
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
データ解析 静岡大学工学部 安藤和敏
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
設計情報の再利用を目的とした UML図の自動推薦ツール
停止ストリームの検知(2).
保守請負時を対象とした 労力見積のためのメトリクスの提案
データ解析 静岡大学工学部 安藤和敏
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
プログラミング論 相関
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
統計現象 高嶋 隆一 6/26/2019.
第4日目第2時限の学習目標 検査(テスト)の信頼性について学ぶ。 (1)検査得点の構成について知る。 (2)検査の信頼性の定義を知る。
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

中間発表用スライド 2008.12.20 田中健太

本日の予定 レコメンドシステムとは ・協調フィルタリングとは メモリーベースのアプローチ ・ユーザーベースの協調フィルタリング ・アイテムベースの協調フィルタリング ・試しに実行してみた

ユーザーがまだ購入、レンタルしたことがなく、 きっとそのユーザーが満足するであろう商品を推薦、 提案しようというものである。 レコメンドシステムとは レコメンドシステムは、 ユーザーの趣味嗜好、購入履歴から ユーザーがまだ購入、レンタルしたことがなく、 きっとそのユーザーが満足するであろう商品を推薦、 提案しようというものである。

レコメンドシステムとは ・実際にどんなところに使われているか この部分

協調フィルタリングとは 過去のユーザーの評価や行動履歴などを利用して 推薦対象のユーザーの嗜好を推測するものである。 ここで重要になっている考え 推薦対象のユーザーと趣味嗜好が似ているユーザーが好むアイテムを推薦対象のユーザーも好むであろうという 協調フィルタリングには大きく分けて ・メモリーベース ・モデルベース というものが存在する

協調フィルタリングとは メモリーベース 基本的な考え あるアイテムについて推薦対象のユーザーの予測される評価を 他の類似したユーザーたちによる評価の加重平均を用いて計算する 一般に使われるアルゴリズムとして ピアソンの相関係数 ベクトル類似度 などが挙げられる メモリーベースの問題点 データセットの密度が疎の場合 →精度が悪くなる スケーラビリティの問題 →データセットが大きくなると計算が困難になる

メモリーベースのアプローチ ユーザーベースのアプローチ 推薦対象のユーザーと他のユーザー間の類似度を求める 推薦対象のユーザーの未評価アイテムについて 他のユーザーとの類似度とそのユーザーの評価で予測をする アイテムベースのアプローチ 各アイテム間の類似度を求める 推薦対象となるユーザーの未評価アイテムについて 推薦対象のユーザーが評価したアイテムとの類似度とその評価で予測する

表記法の定義 アイテムの集合 I = {i1,i2,...,im} データセット内のユーザーの集合 U = {u1,u2,...,un} 推薦対象ユーザー ua ユーザーuごとに、Ru(i)はユーザーuによるアイテムiの評価 Ruはユーザーuの平均評価

(1) ua と他のユーザーu との類似度を計算する。 ユーザーベースの協調フィルタリング (1) ua と他のユーザーu との類似度を計算する。 (2) ua の未評価アイテムごとに ua と各ユーザーu の 類似度× u の評価値の総和 を求める。 そしてuaの未評価アイテムごとに総和を 各ユーザーu の 類似度の和で割る。(正規化)

データの持ち方

(1) ua と他のユーザーu との類似度を計算する。 今回は類似度を求めるのにピアソンの相関係数を用いた。 相関係数の値について 相関係数の値の範囲は-1~1 -1に近い:ユーザー間の類似度が低い 1に近い:ユーザー間の類似度が高い

(2) ua の未評価アイテムごとに ua と各ユーザーu の 類似度× u の評価値の総和 を求める。 そしてuaの未評価アイテムごとに総和を 各ユーザーu の 類似度の和で割る。(正規化) 式で表現するならば下のような式

(2) ua の未評価アイテムごとにua の未評価アイテムと ua の評価済みアイテムとの類似度×ua の評価 アイテムベースの協調フィルタリング (1) 各アイテムi 間の類似度を計算する (2) ua の未評価アイテムごとにua の未評価アイテムと ua の評価済みアイテムとの類似度×ua の評価 済みアイテムの評価値の総和を求める。 そしてuaの未評価アイテムごとに総和を ua の未評価アイテムとua の評価済みアイテムとの 類似度の和 で割る(正規化)

データの持ち方

(1) 各アイテムi 間の類似度を計算する ユーザーベースの協調フィルタリングと同様に 類似度を求めるのにピアソンの相関係数を用いた 相関係数の値について 相関係数の値の範囲は-1~1 -1に近い:アイテム間の類似度が低い 1に近い:アイテム間の類似度が高い

(2) ua の未評価アイテムごとにua の未評価アイテムと 済みアイテムの評価値の総和を求める。 そしてuaの未評価アイテムごとに総和を ua の未評価アイテムとua の評価済みアイテムとの 類似度の和で割る(正規化) 式で表現するならば下のような式

試しに実行してみた 使用したデータセットについて。 MovieLens データセットの中身 943人のユーザー、1682の映画、評価数10万 100000/(943×1682)=0.06・・・

試しに実行してみた ユーザーIDが1番の人のデータをいくつか抜いて そのアイテムの評価を2つの協調フィルタリングで予測させてみた

試しに実行してみた結果 ぱっとみユーザーベースのほうが精度がよさそう。 疎のデータに対してはアイテムベースのほうが精度がいいらしいのだが (集合知プログラミングより)

今後の課題 ・実装したプログラムの見直し ・自分なりの工夫をしてみる ・実験の方法を考える などなど