GPGPUによる 飽和高価値 アイテム集合マイニング

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
情報基礎 A 第 4 週 データベースと表計算 情報基礎 A 第 4 週 データベースと表計算 1 徳山 豪 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野.
在庫管理問題の動的計画法による 解法とCUDA を用いた高速化
テンソル積展開 宮崎大輔.
MPIを用いたグラフの並列計算 情報論理工学研究室 藤本 涼一.
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
テキストデータベースからの 構文構造のマイニング
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
セキュアネットワーク符号化構成法に関する研究
久保幹雄 東京海洋大 宇野 毅明 国立情報学研究所 藤澤 克樹 中央大学 宮本 裕一郎 上智大学
ラベル付き区間グラフを列挙するBDDとその応用
シーケンシャルパターンマイニングに基づくオブジェクト指向プログラムのための 欠陥検出手法
三重対角化アルゴリズムの性能評価 早戸拓也・廣田悠輔.
全体ミーティング (4/25) 村田雅之.
局所探索に基づく 原子炉燃料装荷パターンの最適化
I: Tokyo Olympics Center
知能システム論 ー アソシエーションルール -.
テキストマイニング, データマイニングと 社会活動のトレース
中間発表用スライド 田中健太.
はじめてのCUDA 〜CUDA事始め〜 はるにゃん Lv1くまー.
疑似頻出アイテム集合の 多項式遅延列挙アルゴリズム
クリークマイニングとその応用 ~ 大規模データの活用 ~
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
論理回路 第8回
分散処理を用いた大規模ソフトウェアに対するコーディングパターン検出ツール
正方行列向け特異値分解の CUDAによる高速化
Handel-Cを用いた ちょっとレトロ な 「よけゲー」 の設計
高速剰余算アルゴリズムとそのハードウェア実装についての研究
ソードコードの編集に基づいた コードクローンの分類とその分析システム
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
RoboCupサッカーにおける 戦術的パターンの抽出
はじめてのCUDA 〜CUDA事始め〜 はるにゃん Lv1くまー.
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
わんくま同盟茶藝部顧問 Microsoft MVP for VC episthmh
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
移動エントロピーによる 動的ネットワーク化を用いた SNSと商品購買の相互関係の分析
階層的境界ボリュームを用いた 陰関数曲面の高速なレイトレーシング法
テキストマイニング, データマイニングと 社会活動のトレース
不確実データベースからの 負の相関ルールの抽出
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
頻出・飽和・極大頻出集合の効率的な列挙アルゴリズムとその実装
長さの制限付きギャップと 文字クラスを含むパタンに対する 照合アルゴリズムの改善
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
コーディングパターンの あいまい検索の提案と実装
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
論理回路 第12回
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
構造的類似性を持つ半構造化文書における頻度分析
全体ミーティング (5/23) 村田雅之.
データマイニングアルゴリズム「アプリオリ」と「ID3」の比較
分散処理を用いたコーディングパターン検出ツールの実装
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
アルゴリズム入門 (Ver /10/07) ・フローチャートとプログラムの基本構造 ・リスト ・合計の計算
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
Q q 情報セキュリティ 第8回:2004年5月28日(金) の補足 q q.
回帰テストにおける実行系列の差分の効率的な検出手法
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
グラフの列挙 中野 眞一    (群馬大学) 2019/9/14 列挙学校.
プログラム依存グラフを用いた ソースコードのパターン違反検出法
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
Presentation transcript:

GPGPUによる 飽和高価値 アイテム集合マイニング 尾崎 研究室 5410010 栗山 裕介

GPGPU による 飽和 高価値 アイテム集合 マイニング 圧縮表現 購入回数から 購入金額へ 飽和+高価値 高速化

アイテム集合マイニング A,C: 2 Database: D Tr1, Tr2に出現 ・ユーザーが決めた購入回数 以上買われたパタ-ン。 Tid 商品名(価格) Tr1  (300),B(500), (100),D(200), E(15000) Tr2  (500), (150), E(10000) Tr3 C(200),E(5000), F(400) ・・ TrN A A,C: 2 C Tr1, Tr2に出現 パターン 頻度 (購入回数) A C       頻出パターン ・ユーザーが決めた購入回数 以上買われたパタ-ン。 購入回数が最小購入回数以上出現するパターンを見つけたい! 最小購入回数を20回以上とした場合 A:35, B:35, C:42, D:29, AB:35, AC:26, BD:25, CD:29, ACD:26, BCD:25, ・・・

高価値アイテム集合マイニング CE : 3, 30450 Tr1,Tr2,Tr3に出現 高価値アイテムパターン Tid 商品名(価格) Tr1 A(300),B(500),  (100), (200),  (15000) Tr2 A(500), (150),  (10000) Tr3  (200), (5000), F(400) ・・・ TrN Tr1,Tr2,Tr3に出現 CE : 3, 30450 C D E パターン 支持度 価値 C E 高価値アイテムパターン C E ・ユーザーが決めた最小金額以上  出現したパターン ・・・ 購入価格が最小金額以上のパターンを求めたい! 最小購入金額を10000円以上とした場合の高価値パターン た A:35,150000 B:35,180000 C:42,215000 D:29,185500 E:5,1000000 AB:35,330000 CD:29,340000 BCE:5,1300000 ・・・ 得られる高価値パターンの 数が膨大になる

飽和・高価値アイテム集合マイニング 飽和・高価値パターン 高価値パターンの圧縮表現 高価値パターン Tid 商品名(価格) Tr1 A(300),B(500), C(100),D(200), E(15000) Tr2 A(500),C(100), E(10000) Tr3 C(200),E(5000), F(400) ・・ TrN 飽和・高価値パターン 高価値パターンの圧縮表現 高価値パターン A:35,150000 B:35,180000 C:42,215000 D:29,185500 E:5,1000000 AB:35,330000 CD:29,340000 BCE:5,1300000 ・・・ 高価値パターンを 経由せずに導出 頻度が同じものを グループ化(同値類) AB:35,330000 飽和・高価値アイテム集合 A:35,150000 B:35,180000 D:29,185500 CD:29,340000 E:5,1000000 BCE:1,1300000 極大限のみ 求める C:42,215000

アルゴリズム CHUD [Wu2011] a b c d a,c b,c a,b a,b,c 集合列挙木の縦型探索 1 ・上界値による枝刈り 2 ・左の枝刈り a,c b,c ・・・ a,b 3 ・右の枝刈り ・・・ ・・・ a,b,c ・・・ ・・・

上界値による枝刈り a b b b c d a,b b,c b,c b,d b,c,d b,c,d b,c,e Tr1 Tr2 Tr3 ・・・ 500 100 400 300 600 200 e 合計 b b a b b b c d + + + c c 3, 1000 + + + d d a,b ・・・ b,c b,c b,d ・・・ ・・・ + + + 2, 1400 + + + b,c,d b,c,d b,c,e 800 1000 1500 ・・・ 1, 600 ・・・ ・・・ ・・・ ・・・ 最小金額 ≥ 上界値

左の枝刈り a b c a,b a,c b,c a,b,c Tr1 Tr2 Tr3 ・・・ a 600 400 800 b 500 100 300 d 200 e 合計 ・・・ a b c 頻度 a,b a,c b,c ・・・ 頻度 a,b,c ・・・ ・・・ ・・・

ここでちょっと一息 これから本番です!

GPGPU Tr[1] Tr[2] Tr[3] Tr[4] Tr[5] wm 1 1 1 1 1 ・・・ GPGPU:General-Purpose computing on Graphics Processing Units GPU(Graphics Processing Units)を 汎用目的に使用 Tr[1] Tr[2] Tr[3] Tr[4] Tr[5] wm 1 1 1 1 1 ・・・ Tr[ threadIdx.x ] = 1; 配列の添え字として利用し, 並列化することが多い スレッド ID1 スレッド ID2 スレッド ID3 スレッド ID4 スレッド ID5 ・・・

実装 合計(reduce関数) CUDA:GPU向けの統合開発環境、C言語をベースに拡張 ・現在のパターンに対してトランザクションごとに評価値を並列に計算 上界値の計算, パターンの評価値 左右の枝刈りチェック Tr[1] Tr[2] Tr[3] Tr[4] Tr[5] wm 合計(reduce関数) スレッド ID1 スレッド ID2 スレッド ID3 スレッド ID4 スレッド ID5 ・・・

実装 1 1 1 a 1 b 左の枝刈り, 右の枝刈りの条件確認 1.現在のパターンに対してトランザクション ・・・ ごとに1でビットを立てる b 1 1 1 ・・・ Tr1 Tr2 Tr3 Tr4 Tr5 2.対象のアイテムに対してトランザクションごとに0でビットを立てる 0 ・・・aとb両方持っている     又はaのみ持っている a 1 ・・・ 1 ・・・bのみ持っている 3.全て0になれば,カバー出来てることが分かるので枝刈りを行う

実験結果 性能 データセット1 データセット2 GPU : GPU nVIDIA GeForce GT680 2GB CPU : MICRO INTEL 2011 Core i7 - 3820 3.6GHz データセット1 : 中国の小売業のデータが10万件 データセット2 :Twitterのデータ3千万件 ツイッターからネガティブな用語を抽出(評価値:ネガティブ度合い) ※下記の辞書使用 ※高村大也, 乾孝司, 奥村学 "スピンモデルによる単語の感情極性抽出", 情報処理学会論文誌ジャーナル, Vol.47 No.02 pp. 627--637, 2006. llll 畜生道 : 0.990359 愚か : 0.999303 グロテスク : 0.996421 ネガティブ単語 点数

結論 今後の課題 飽和・高価値アイテム集合マイニングのGPGPUによる実装 中国の小売業のデータ 10万件 Twitterデータ3千万件 中国の小売業のデータ 10万件 Twitterデータ3千万件 今後の課題 ・探索アルゴリズムの高速化 ・大規模な実験を目指す

以上で終わります. ご静聴ありがとう御座いました.