A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング

Slides:



Advertisements
Similar presentations
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
Advertisements

利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
顔表情クラスタリングによる 映像コンテンツへのタギング
電子透かしにおける マスキング効果の主観評価
Building text features for object image classification
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
パネル型クエリ生成インタフェース画像検索システムの改良
クラスタ分析手法を用いた新しい 侵入検知システムの構築
メソッド周辺の識別子と メソッド本体のAPI利用実績に基づいたAPI集合推薦手法
Shelf-Navigator ユーザ動作による書籍相関抽出機構
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
中間発表用スライド 田中健太.
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
卒業研究 先輩の経験談に基づいた就職活動の目標管理方法
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
ノードの情報を動的に反映したオーバレイネットワークの構築
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
プログラム実行履歴を用いたトランザクションファンクション抽出手法
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
Javaクラスの利用関係を用いた ソフトウェア部品のカテゴリ階層構築法
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
識別子の共起関係に基づく類似コード検索法の提案と 欠陥検出への適用
視点移動カメラにおけるカメラキャリブレーション
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
雑音環境下における 非負値行列因子分解を用いた声質変換
社会シミュレーションのための モデル作成環境
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
A03 音声インターフェイスによる インスタントメッセージング エージェントの開発
音声データにおける 墨塗り署名ツール“SANI”の開発
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
データマイニングって何だろう? 新美研究室 m 大都宣弥.
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
秘匿リストマッチングプロトコルとその応用
プログラムスライスを用いた凝集度メトリクスに基づく 類似メソッド集約候補の順位付け手法
設計情報の再利用を目的とした UML図の自動推薦ツール
プログラムの差分記述を 容易に行うための レイヤー機構付きIDEの提案
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
データマイニングアルゴリズム「アプリオリ」と「ID3」の比較
メソッドの同時更新履歴を用いたクラスの機能別分類法
C10:秘匿共通集合計算プロトコルを用いた 就職活動支援システム“JHT”
Webページタイプによるクラスタ リングを用いた検索支援システム
プログラムの一時停止時に 将来の実行情報を提供するデバッガ
原口和也 高橋隆一 丸岡章 石巻専修大学 理工学部 情報電子工学科
Data Clustering: A Review
識別子の読解を目的とした名詞辞書の作成方法の一試案
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
Presentation transcript:

A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング 菊池研究室 相羽研次

研究背景 みんなどういう検索してるのかな? 検索履歴から僕と似たような趣味を持った人を調べられないかな? とても 見せられないよ! ><;

研究目的 検索履歴を 暗号化して、 自分と似たような傾向のある人を抽出できるツールを開発 しよう! 検索の傾向が 近い!

開発概要 使用言語:Java 暗号化:Paillier暗号 クラスタリング:コサイン尺度を用いた最短距離法 データ:GoogleやYahooなどの検索履歴を対象

暗号化について 問題点:情報を暗号化したまま利用するには? 解決策:準同型性暗号 復号する事なく比較・演算ができなくてはならない 情報を秘匿したまま、演算可能な暗号方式 今回はPaillier暗号を利用 (情報を秘匿したまま、乗算が可能)

クラスタリングについて データ解析手法の1つ 特定の傾向を持った集団(クラスタ)を生成する事 今回は最短距離法を使用、類似度の近さで形成 2 4 7 クラスタリング例 11 13 20

データ(検索履歴)について 利点 ”嗜好や性格などが反映されやすい”個人情報のほうが 欠点 検索意図の解釈が困難、単語の解析etc… クラスタ生成に利用しやすい (具体例:amazonのリコメンドシステム) 欠点 検索意図の解釈が困難、単語の解析etc… (例:検索単語”Youtube”→音楽?映像?)

データ(検索履歴)について 解決策 検索履歴のジャンル分けを行い、傾向を抽出する ジャンル分けの方法 「Yahooカテゴリー」 の分類を利用 検索履歴の単語を 約15項目から選択 データをカテゴリー別の検索割合に分けることで 検索傾向・意図が把握しやすくなる

実験について 目的 検索履歴を秘匿したままクラスタリングし、 形成したクラスタの傾向が被験者の特徴と一致するか 被験者 東海大学の学生5名(文系2名・理系3名) 期間・データ量 1ヶ月分の検索履歴約200件 精度の調査方法 理系を正解とみなし、適合率・再現率を算出 理系={A、B、D} 文系={C、E}

実験の流れ 相手 自分 検索 データ 検索 データ Step1 Step3 Step2 Enc 計算 Step4 クラスタリング 計算 類似度

実験中… ツールはCUI形式 データファイルを 読み込み、 暗号化 15項目を暗号化 時間がかかる (1回約25秒x10≒250秒)

実験結果 - 類似度 Dさんは みんなと異なる 傾向? Aさんは 一般性が最も 高い A B C D E 0.912 0.785 0.183 0.713 0.613 0.152 0.725 0.258 0.673 0.269 類似度 最大 類似度 最小

実験結果 - クラスタリング クラスタ 文系 クラスタ 理系 0.183 0.725 0.785 0.912 クラスタ 文系 クラスタ 理系 A B C E D 適合率=2/4(クラスタ内の理系/クラスタ内全体)=50% 再現率=2/3(クラスタ内の理系/理系人数)=66%

検索履歴比率 最も類似度が平均的に高かった被験者A 最も類似度が低かった被験者D

より大量のデータ・期間・人で実験を行う 必要がある 実験結果 – まとめ マイナージャンルに偏った検索者Dは孤立 AB間が最も類似性高く、BD間が最も低い 検索は人気カテゴリーに集中 文・理での区分けはそれなりの精度だった しかし、理系としての傾向での繋がりはあまり無かった より大量のデータ・期間・人で実験を行う 必要がある

今後の課題 検索履歴の収集自動化 検索カテゴリーの細分化 暗号化ツールの改善点(GUI化など) より細分化したクラスタ構築方法の模索