A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング
菊池研究室相羽研次

研究背景みんなどういう検索してるのかな？検索履歴から僕と似たような趣味を持った人を調べられないかな？とても見せられないよ！＞＜；

研究目的検索履歴を暗号化して、自分と似たような傾向のある人を抽出できるツールを開発しよう！検索の傾向が近い！

開発概要使用言語：Java 暗号化：Paillier暗号クラスタリング：コサイン尺度を用いた最短距離法
データ：GoogleやYahooなどの検索履歴を対象

暗号化について問題点：情報を暗号化したまま利用するには？解決策：準同型性暗号復号する事なく比較・演算ができなくてはならない
情報を秘匿したまま、演算可能な暗号方式今回はPaillier暗号を利用 (情報を秘匿したまま、乗算が可能)

クラスタリングについてデータ解析手法の1つ特定の傾向を持った集団(クラスタ)を生成する事今回は最短距離法を使用、類似度の近さで形成 2
4 7 クラスタリング例 11 13 20

データ(検索履歴)について利点 ”嗜好や性格などが反映されやすい”個人情報のほうが欠点検索意図の解釈が困難、単語の解析etc…
クラスタ生成に利用しやすい (具体例：amazonのリコメンドシステム) 欠点検索意図の解釈が困難、単語の解析etc… (例：検索単語”Youtube”→音楽？映像？)

データ(検索履歴)について解決策検索履歴のジャンル分けを行い、傾向を抽出するジャンル分けの方法「Yahooカテゴリー」の分類を利用
検索履歴の単語を約15項目から選択データをカテゴリー別の検索割合に分けることで検索傾向・意図が把握しやすくなる

実験について目的検索履歴を秘匿したままクラスタリングし、形成したクラスタの傾向が被験者の特徴と一致するか被験者
東海大学の学生5名(文系2名・理系3名) 期間・データ量 1ヶ月分の検索履歴約200件精度の調査方法理系を正解とみなし、適合率・再現率を算出理系={A、B、D} 文系={C、E}

実験の流れ相手自分検索データ検索データ Step1 Step3 Step2 Enc 計算 Step4 クラスタリング計算
類似度

実験中… ツールはCUI形式データファイルを読み込み、暗号化 15項目を暗号化時間がかかる (1回約25秒x10≒250秒)

実験結果 - 類似度 Dさんはみんなと異なる傾向？ Aさんは一般性が最も高い A B C D E 0.912 0.785 0.183
0.713 0.613 0.152 0.725 0.258 0.673 0.269 類似度最大類似度最小

実験結果 - クラスタリングクラスタ文系クラスタ理系
0.183 0.725 0.785 0.912 クラスタ文系クラスタ理系 A B C E D 適合率=2/4(クラスタ内の理系/クラスタ内全体)=50% 再現率=2/3(クラスタ内の理系/理系人数)=66%

検索履歴比率最も類似度が平均的に高かった被験者A 最も類似度が低かった被験者D

より大量のデータ・期間・人で実験を行う必要がある
実験結果 – まとめマイナージャンルに偏った検索者Dは孤立 AB間が最も類似性高く、BD間が最も低い検索は人気カテゴリーに集中文・理での区分けはそれなりの精度だったしかし、理系としての傾向での繋がりはあまり無かったより大量のデータ・期間・人で実験を行う必要がある

今後の課題検索履歴の収集自動化検索カテゴリーの細分化暗号化ツールの改善点(GUI化など) より細分化したクラスタ構築方法の模索

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

Similar presentations

Presentation on theme: "A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング

Similar presentations

Presentation on theme: "A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング"— Presentation transcript:

Similar presentations

About project

フィードバック

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

Presentation on theme: "A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング"— Presentation transcript: