組織間プライバシー保護 データマイニングの考察

Slides:



Advertisements
Similar presentations
効率的に計算可能な 加法的誤りの訂正可能性 安永 憲司 九州先端科学技術研究所 SITA 2012 @ 別府湾ロイヤルホテル
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
利用者のプライバシを保護す る協調フィルタリング方式の 提案 7adrm011 木澤寛厚. 背景 商品の量が多い 見つからな い orz ネットショップ.
生体情報を利用したオンライン認証システムに関する研 究 情報工学科 大山・山口・小尾研究室 学士課程4年田中 丈登.
潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
配列の宣言 配列要素の初期値 配列の上限 メモリ領域 多次元配列 配列の応用
Building text features for object image classification
セキュアネットワーク符号化構成法に関する研究
プログラミング言語としてのR 情報知能学科 白井 英俊.
秘匿積集合プロトコルの 推薦システムへの応用
IaaS 仮想マシン(VM)をネットワーク経由で提供 負荷に応じてVM数や性能を変更できる ハードウェアの導入・管理・維持コストの削減
秘密のリンク構造を持つグラフのリンク解析
2006/11/30 山下 諒蔵 佐藤 春旗 前田 俊行 大山 恵弘 佐藤 秀明 住井 英二郎
プライバシ協調フィルタリングにおける 利用者評価行列の次元削減
C言語 配列 2016年 吉田研究室.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
ランダムプロジェクションを用いた 音声特徴量変換
配列の扱い、探索 有効範囲と記憶域期間 第12回 [7月10日、H.15(‘03)] 今日のメニュー 1 前回の課題の復習
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
【小暮研究会2】 「ベイズのアルゴリズム」:序章 【1,2:計量経済分析と統計分析】 【 3:ベイズ定理】
黒澤 馨 (茨城大学) 情報セキュリティ特論(7) 黒澤 馨 (茨城大学)
IPv6アドレスによる RFIDシステム利用方式
第6章 カーネル法 修士2年 藤井 敬士.
サポートベクターマシン によるパターン認識
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
k 個のミスマッチを許した点集合マッチング・アルゴリズム
プログラミング論 関数ポインタ と 応用(qsort)
ニューラルネットは、いつ、なぜ、どのようにして役立つか?
2. 論理ゲート と ブール代数 五島 正裕.
Q q 情報セキュリティ 第5回:2005年5月13日(金) q q.
PGP インターネットで 広く使われている暗号技術
ディジタル回路 2. ブール代数 と 論理ゲート 五島 正裕.
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
第14章 モデルの結合 修士2年 山川佳洋.
Basic Tools B4  八田 直樹.
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
予測に用いる数学 2004/05/07 ide.
Q q 情報セキュリティ 第8回:2005年6月3日(金) q q.
Q q 情報セキュリティ 第7回:2006年6月2日(金) q q.
プログラミング言語論 第四回 理工学部 情報システム工学科 新田直也.
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
複数回通信可能なChaffing and Winnowingのテーブルによる可視化
音声データにおける 墨塗り署名ツール“SANI”の開発
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
不完全な定点観測から 真の不正ホストの分布が分かるか?
確率と統計2009 第12日目(A).
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
復習 2次元配列 4列 j = 0 j = 1 j = 2 j = 3 i = 0 i = 1 i = 2 3行
秘匿リストマッチングプロトコルとその応用
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
Diffie-Hellman 鍵共有 ElGamal 暗号 楕円曲線暗号,量子コンピュータ
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
情報工学Ⅱ (第9回) 月曜4限 担当:北川 晃.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
情報工学概論 (アルゴリズムとデータ構造)
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
C10:秘匿共通集合計算プロトコルを用いた 就職活動支援システム“JHT”
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
Q q 情報セキュリティ 第6回:2005年5月26日(金) q q.
Q q 情報セキュリティ 第8回:2004年5月28日(金) の補足 q q.
:: の扱い 長谷川啓.
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
CSS符号を用いた量子鍵配送の安全性についての解析
Presentation transcript:

組織間プライバシー保護 データマイニングの考察 9adrm009 香川大介 

背景: 異業種間の連携 u1 u2 u3 高松に行かれるのでしたら評判の高い讃岐うどんのお店を紹介します 個人情報漏洩 店舗・利用履歴 連携 背景: 異業種間の連携 個人情報漏洩 店舗・利用履歴 連携 B A A B 組織 高松に行かれるのでしたら評判の高い讃岐うどんのお店を紹介します u1 u2 u3 利用者

従来技術:垂直分割PPDM Vaidya, Clifton 2003 秘匿内積評価プロトコル ナイーブベイズ推論器 P(テニス|晴,高) A B 日にち 天気 気温 湿度 テニス 1/19 晴 高 低 Yes 1/20 No 1/21 雨 1/22

問題点:分割の非同期性 A B ID 天気 気温 湿度 テニス 1 晴 高 低 Yes 2 3 雨 4 5 No 100 … 問題1. 欠損値 * * * 問題3. 非効率 問題2. 重複 N

研究目的 目的 仮定: 要求条件 非同期垂直分割のデータセットに対するナイーブベイズ推論器 評価値数 nA ≈ nB ≪ N (ID空間数) 欠損値,(重複),効率性

従来研究1. [VC03] 秘匿内積 Protocol Alice has X = (x1,..,xn) Bob has Y = (y1,..,yn) Wish to compute sA + sB = X.Y Protocol A sends E[x1], E[x2] to B B chooses sB and sends c = E[x1]y1E[x2]y2/E[sB] A decrypts D[c] = x1y1 + x2y2 – sB = sA

従来研究2. [AES03] 照合タグ(可換性を満たす一方向性関数) A B X = { 1, 2, 3} Y = {2, 3, 4} 乱数 u  Zq 2. 乱数 v  Zq H(1)u, H(2)u, H(3)u H(2)v, H(3)v, H(4)v H(1)uv, H(2)uv, H(3)uv 3. 照合 H(2)vu, H(3)vu, H(4)vu マッチ数 z = 2 = |X∩Y| H(1)uv, H(2)uv, H(3)uv

照合タグの問題 ナイーブベイズ推論への適用検討 問題点: z= |X∩Y|が組織Aに分かってしまう. VC03では,途中結果は nA + nB = a.b と分散されていた.

提案方式 方式1 方式2. 再ソートして共通部分だけにVC03を適用. 欠損値の近似値で置換 チャフ付き照合タグ (AES03ベース) 途中結果を不明にするようにチャフを混入

提案方式2. チャフ付照合タグ A B X = { 1, 2, 3} Y = {2, 3, 4} 乱数 u  Zq 2. 乱数 v  Zq, sB [0,n] H(1)u, H(2)u, H(3)u H(2)v, H(3)v, H(4)v ti = H(yi)v w/p= sB/n ri w/p= 1-p 3. 照合 H(2)vu, H(3)vu, H(4)vu H(1)uv, H(2)uv , H(3)uv r2 H(1)uv, r2 , H(3)uv マッチ数 sA = 1 = |X∩Y| sB/n = 1/2 SFE2 |X∩Y| = sA * n/sB = 2

出力 分散された積集合 秘匿関数計算により

評価 パフォーマンス 精度 安全性

暗号化処理(方式1) tE = 1.1 [s] 暗号化 tD = 1.6 [s] 複号 tP = 0.15 [s] べき乗

2. Fairplay (Yao’s SFE) Fairplay secure two-party computation system,by D Malkhi, N Nisan, B Pinkas, Y Sella, Usenix Security Symp. 2004. Compiler for SFDL to Boolean circuit (1. 8-bit AND, 2. 32-bit 比較,3. 16項目の24-bit暗号化データ検索,4. 16-bit メジアン)

FairPlayでの実装例 分散和比較 SA0 + SB0 > SA1 + SB1 SharedSum (分散した和の比較) program SharedCmp { const size = 2; type int = Int<8>; type AliceInput = int[size]; type BobInput = int[size]; type AliceOutput = int; type BobOutput = int; type Output = struct {AliceOutput alice, BobOutput bob}; type Input = struct {AliceInput alice, BobInput bob}; function Output output(Input input) { if(input.alice[0] + input.bob[0] > input.alice[1] + input.bob[1]){ output.alice = input.alice[0]; output.bob = input.bob[0]; }else{ output.alice = input.alice[1]; output.bob = input.bob[1]; }

SFE処理時間 10bit = 1024の定義域 SFE1 (加算) = 1.6 秒 SFE2 (乗算) = 15.3 秒

処理時間の比較 方式1. 内積 方式2. 照合タグ n/N = 0.1 n/N = 0.01

精度と安全性 真の Z = |X ∩ Y| = 10 観測値 sB

まとめ 方式1 [VC03] 秘匿内積 方式2 [AES03] チャフ照合 入力単位 N次元ベクトル n要素の集合 X 計算量 (tE 暗号化,tD 複号化,tP べき乗) T1 = tE N + tD +SFE1 T2 = tP n +SFE2 精度 誤差なし sB/n 安全性 P(z | x.y) = 1/N P(z | sA) > 1/n

結論 方式1(再ソート法)はID空間が狭いとき有効.精度も高く,安全性も保証.

分散比較 問題

安全性 P(a|c)の分布

方式1. 秘匿内積評価の処理時間 Secure scalar product n encryption + n exponentiations + n multiplications + 1 decryption n = 1000,1024 bit enc.の時: 270s = 4m

1. Naïve Bayes Vaidya Clifton 2004 [27] 識別(スパム判定) 最大尤度 CMAP = argmax(cj in {Y,N}) P(cj | a1,a2) P(yes | sunny, hot) = ½ P(no | sunny, hot) = ½ CMAP = yes (no)

Naïveな仮定: 全属性は独立 Naïve Bays CNB = argmax P(cj | a1, a2) = argmax P(a1, a2 | cj) P(cj)/ P(a1, a2) = argmax P(a1|cj) P(a2|cj) P(cj)/ P(a1) P(a2) = argmax P(a1|cj) P(a2|cj) P(cj) P(sunny|y) = 2/9, P(hot|y) = 2/9, P(y) = 9/14 P(sunny|n) = 3/5, P(hot|n) = 2/5, P(n) = 5/14 P(s|y)P(n|y)P(y) = 2/63 < P(s|n)P(h|n)P(n) = 2/35 より, argmax = n Class変数を持つサイトと 秘匿内積計算

方式1. 再ソート

加法の準同型暗号 rはランダムな値 ElGamal暗号の場合