データモデリング 推薦のための集合知プログラミング.

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

協調フィルタリングに基づく ソフトウェア開発技術の推薦 ソフトウェアサイエンス研究会@信州大学 2005 年 6 月 23 日 奈良先端科学技術大学院大学 情報科学研究科 秋永 知宏,大杉 直樹,柿元 健,角田 雅照, 門田 暁人,松本 健一.
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
SlothLib.LinearAlgebra.FeatureVector 特徴ベクトル. SlothLib.LinearAlgebra.FeatureVector でできること ► 特徴ベクトル  次元は可変に増やすことができる  次元としてあらゆるデータ型が利用可能 ► string 型がよく使われる=文書の特徴ベクトル.
なぜ貧しい国はなくならないの か 第 1 章 開発経済学とは何か 1. まず定義から始めよう 筆者による定義 「貧しい開発途上国 の貧困削減に貢献する 戦略を研究する学問分 野」 2.
1 運動方程式の例2:重力. 2 x 軸、 y 軸、 z 軸方向の単位ベクトル(長さ1)。 x y z O 基本ベクトルの復習 もし軸が動かない場合は、座標で書くと、 参考:動く電車の中で基本ベクトルを考える場合は、 基本ベクトルは時間の関数になるので、 時間で微分して0にならない場合がある。
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
配偶者選択による グッピー (Poecilia reticulata) の カラーパターンの進化 :野外集団を用いた研究 生物多様性進化分野 A1BM3035 吉田 卓司.
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
楽観主義・悲観主義が映画満足度に与える影響 -気分の上昇時・下降時に着目して- 2005 年度 卒業研究 情報システム学科 小宮山研究室 阿部洋平.
平成14年2月8日 卒業研究報告 相関行列に基づく非計量多次元尺度法 に関する研究
「わかりやすいパターン認識」 第1章:パターン認識とは
多々納 裕一 京都大学防災研究所社会システム研究分野
・力のモーメント ・角運動量 ・力のモーメントと角運動量の関係
伝達事項 皆さんに数学と物理の全国統一テストを受けても らいましたが、この時の試験をまた受けていただ きます。
Scalable Collaborative Filtering Using Cluster-based Smoothing
相関係数 植物生態学研究室木村 一也.
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
心理的財布から見た大学生の支出の満足と痛み
夢見る図書館情報システム The Cards Challenge !
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
中間発表用スライド 田中健太.
1DS04168E 梅根綾花 1DS04184E 清 泰裕 1DS04197P 福井千尋
大阪工業大学 情報科学部 情報システム学科 宇宙物理研究室 B 木村悠哉
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
テキストの類似度計算
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
1変量データの記述 経済データ解析 2006年度.
プログラミング入門2 総合演習課題 2008年 1/7, 1/21 実施 これまでの講義内容についての腕試し
10. 積分 積分・・確率モデルと動学モデルで使われる この章は計算方法の紹介 積分の定義から
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
ミクロ経済学第4回 中村さやか.
3次元での回転表示について.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
二分木説明 点Cの座標を求めよ。.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
物価指数とデフレーター(deflator)
プリムのアルゴリズム 重み付きグラフG=(V,E)の任意の点集合 U⊂Vに対して一方の端点がUの中にあり、他方の端点がV-Uの中にあるような枝の中で最小の重みを持つものをlとすれば、枝lを含むような最小木が存在する。
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
3次元での回転表示について.
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
主成分分析 Principal Component Analysis PCA
プログラミング論 主成分分析
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
統計学の入門講義における 達成動機,自己効力感,およびテスト成績の関連
第4章 社会構造概念はどのように豊穣化されるか
第3章 線形回帰モデル 修士1年 山田 孝太郎.
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
発表会用テンプレート このテンプレートの枚数で発表をすれば、ほぼ15分で終了するであろう。
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
8方向補間ブロックマッチングの実装 福永研究室 数理科学コース 学部4年 能城 真幸.
配偶者選択による グッピー(Poecilia reticulata)の カラーパターンの進化 :野外集団を用いた研究
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
Winston cone を用いた チェレンコフカウンター
1変量データの記述 (度数分布表とヒストグラム)
欅田 雄輝 S 北陸先端科学技術大学院大学 知識科学研究科
行列 一次変換,とくに直交変換.
プログラミング論 相関
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析入門 経済データ解析 2011年度.
Presentation transcript:

データモデリング 推薦のための集合知プログラミング

協調フィルタリング お勧め商品を推薦してもらうための方法 協調フィルタリング 友人にその商品について 聞いてみる 友人にその商品について 聞いてみる 商品が増えれば増えるほど、推薦は困難 その商品を知っている友人 が必ずいるとは限らない 協調フィルタリング あなたの好みに似た人々 を、大規模な人々の集団から発見する これらの人々が好む商品で、あなたが知らない 商品を推薦する

好みの商品の収集 映画を例に説明 各人が5段階評価 見ていないものには、評価を与えない [注] ユーザ名は架空のもので、実在する人名とは一切関係がありません。

似ているユーザを探し出す 類似性を測る尺度が必要 いろいろな尺度 ユークリッド距離 コサイン類似度 ピアソン相関 各ユーザを、映画の数だけの次元のベクトルで表現 2つのベクトル間の距離を計算 距離が短いほど、2つのベクトルは似ている コサイン類似度 2つのベクトルの方向が似ていることを利用 ピアソン相関 各映画に対する2人の評価について、一方が好きなら他方も好きであるという相関性を利用

ユークリッド距離 2つのベクトル間の距離を計算 距離が短いほど、2つのベクトルは似ている a |b – a | = = 16 + 1 + 1 (1, 3, 0) |b – a | = = 16 + 1 + 1  =  18   = 3 2   = 3 x 1.414 = 4.243 (5-1)2+(2-3)2+(1-0)2 b (5, 2, 1)

コサイン類似度 2つのベクトル a, b のなす角度θを考えると a b 同じ方向を向いているとき cosθ = 1.0 似ていれば似ているほど大きな値 a (1, 3, 0) 内積(a, b) は  (a, b) = |a| |b| cosθ = (a1b1+a2b2+…) だから、cosθは (a, b) |a| |b| θ b (5, 2, 1) cosθ = この場合は cosθ = (1・5+3・2+0・1) 12+32+02 52+22+12

コサイン類似度を使った 似た人の並び替え 映画の数だけの次元を考える 各ユーザを6次元のベクトルで表現 この場合、6次元 各ユーザを6次元のベクトルで表現 任意の2つのユーザの組について、コサイン類似度を計算 計算結果に基づき、ソート 問題 見ていない映画についてはどう考えるか?

ピアソン相関 2つの項目の相関を示す[-1, 1]の値 値が1に近づけば、正の相関 が強い 値が-1に近づけば、負の相関 が強い 値が1に近づけば、正の相関 が強い 一方の値が大きくなると他方も大きくなる 値が-1に近づけば、負の相関 が強い 一方の値が大きくなると他方は小さくなる ユーザ2 ユーザ2 正の相関 ピアソン相関は1に近づく 負の相関 ピアソン相関は-1に近づく アバタの評価はユーザ1が3.0でユーザ2は1.2 1.2 ユーザ1 ユーザ1 3.0

ピアソン相関の意味 3つの映画の場合を例とする ユーザ1とユーザ2で映画の評価の 平均 をとる。 a1 = (r1 + s1 + t1) / 3, a2 = (r2 + s2 + t2) / 3 すべての映画の評価の平均からの、各映画の評価の 偏差 を考える。 ユーザ2 千と千尋(s1, s2) s2 - a2 平均(a1, a2) t2 – a2 タイタニック(t1, t2) r2 – a2 ラピュタ(r1, r2) ユーザ1 t1 - a1 r1 - a1 s1 - a1

ユーザ1,2の偏差のベクトル pをピアソン相関 (Peason corelataion)という ユーザ1の偏差のベクトル d1 = ( r1 - a1, s1 - a1, t1 - a1 ) ユーザ2の偏差のベクトル d2 = ( r2 – a2, s2 – a2, t2- a2 ) ベクトル d1, d2 のコサイン類似度 p p = (d1, d2) / |d1| |d2|   は、 d1と d2 が 同方向を向いているとき 1 に近づき、 逆方向を向いているとき -1 に近づく pをピアソン相関 (Peason corelataion)という ユーザ1

相関  一方が高ければ… d1と d2 が同方向とは、ユーザ1が平均より高い方向に評価するものは、ユーザ2も平均より高い方向に評価することを意味する 正の相関 d1と d2 が逆方向とは、ユーザ1が平均より高い方向に評価するものは、ユーザ2は平均より低い方向に評価することを意味する 負の相関 ピアソン相関は、大きな点をつける人と小さな点をつける人でも傾向が同じであれば類似しているとみなす S(千と千尋)についての偏差 ユーザ2の 偏差ベクトル d2 ユーザ1の 偏差ベクトル d1 θ r(ラピュタ) についての偏差 t(タイタニック)についての偏差

アイテムを推薦する 自分が見ていなくて、自分が面白いと思う映画を推薦してもらうためにはどうすればよいか? 自分以外の全評価者の評価点を集める。 ある人の、それぞれの映画の評価点を、その人と自分との類似性で重みづける。 重みづけられた評点を各映画ごとにすべての評価者で合計し、合計点が高いものから推薦する。

おすすめ度の計算表 各映画の評価に類似性をかけ、重みづけ評価を計算 これを映画ごとにすべての評価者で合計する 丸山のラピュタの評価は3.0で、類似性は0.92だから  3.0 x 0.92 = 2.77 これを映画ごとにすべての評価者で合計する ラピュタの評価は 8.38 多くの人が見た映画が高く評価されるので、不公平 この合計値を、映画をみた評価者の類似度の合計で割る 映画をみた評価者の類似度の合計は  0.99+0.38+0.92+0.66=2.95 ラピュタについてのおすすめ度は  8.38 ÷ 2.95 = 2.83

使用した類似性の合計で割る理由 値v1, v2, v3があるとして、これに重みw1, w2, w3をかけて、加重平均をとるとき       w1 v1 + w2 v2 + w3 v3             w1 + w2 + w3 前スライドでの計算は、これを実施しただけ。 類似性で重みつけられた評価値の合計は定式の分子、類似性の合計は上記の分母

計算結果を使って推薦 第1位 Mission Impossible 第2位 天空の城 ラピュタ 第3位 Minority Report