不確実データベースからの 負の相関ルールの抽出

Slides:



Advertisements
Similar presentations
言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Advertisements

言語情報を利用したテキストマイニ ング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治.
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
紹介担当: 石尾 隆(大阪大学) Q11.  Feature Model によって定義される「プロダクトの集合」 (プロダクトライン)の振舞いを検証する手法の拡張 ◦ 通常の振舞い検証: たとえば Promela を使って,1プロダクトの 振舞いを表現したオートマトンの取りうる状態遷移を調べる ◦
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
MPIを用いたグラフの並列計算 情報論理工学研究室 藤本 涼一.
テキストデータベースからの 構文構造のマイニング
個別化サービス提供のための 行動認識における 背景情報の活用
CCC DATAset における マルウェアの変遷
シーケンシャルパターンマイニングに基づくオブジェクト指向プログラムのための 欠陥検出手法
重回帰分析入門 経済データ解析 2009年度.
Myoungkyu Song and Eli Tilevich 発表者: 石尾 隆(大阪大学)
重回帰分析入門 経済データ解析 2011年度.
中間発表用スライド 田中健太.
Semantics with Applications
マイクロシミュレーションにおける 可変属性セル問題と解法
疑似頻出アイテム集合の 多項式遅延列挙アルゴリズム
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
UML入門 UML PRESS vol.1 より 時松誠治 2003年5月19日.
朝日大学大学院 経営学研究科 奥山 徹 データベース論 朝日大学大学院 経営学研究科 奥山 徹 2006/05/29 データベース論(7回目)
分散処理を用いた大規模ソフトウェアに対するコーディングパターン検出ツール
小標本検査データを元にした 疲労破損率のベイズ推定
相関ルールマイニングを用いた メソッドの命名方法の分析
静的情報と動的情報を用いた プログラムスライス計算法
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
RoboCupサッカーにおける 戦術的パターンの抽出
オブジェクト指向プログラムにおける エイリアス解析手法の提案と実現
インラインスクリプトに対するデータフロー 解析を用いた XHTML 文書の構文検証
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
社会シミュレーションのための モデル作成環境
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
プログラム動作理解支援を目的とした オブジェクトの振舞いの同値分割手法
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
R12 マルウェアの連携感染パターンの自動検出方式
コードクローンの動作を比較するためのコードクローン周辺コードの解析
コードクローン検出に基づくデザイン パターン適用支援手法の提案と実現
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
GPGPUによる 飽和高価値 アイテム集合マイニング
近畿大学理工学部情報学科 情報論理工学研究室 赤井 隆純
建築模型制作支援のための ソフトウェア研究開発
バイトコードを単位とするJavaスライスシステムの試作
パターンマイニング技術を 用いた実時間プログラムの コーディングパターン検出
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
コーディングパターンの あいまい検索の提案と実装
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
秘匿リストマッチングプロトコルとその応用
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
依存関係の局所性を利用した プログラム依存グラフの 効率的な構築法
A02 計算理論的設計による知識抽出モデルに関する研究
データマイニングアルゴリズム「アプリオリ」と「ID3」の比較
メソッドの同時更新履歴を用いたクラスの機能別分類法
分散処理を用いたコーディングパターン検出ツールの実装
重回帰分析入門 経済データ解析 2008年度.
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
コードクローン解析に基づく デザインパターン適用候補の検出手法
分散ハニーポット観測からのダウンロードサーバ間の相関ルール抽出
木構造の比較に基づく メソッド呼び出し履歴の変化の可視化手法
オブジェクト指向言語における セキュリティ解析アルゴリズムの提案と実現
識別子の読解を目的とした名詞辞書の作成方法の一試案
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Presentation transcript:

不確実データベースからの 負の相関ルールの抽出 情報システム解析学科4年 藤田岳行

ソーシャルネットワーク 個人情報保護 センサーネットワーク データの正確性 不確実データの増加 不確実データベースの分析への要求増 分析手法の拡張を提案

既存研究との関係 表現の拡張 不確実データベースへの対応 負の 相関ルール 相関ルール 確率的 相関ルール 確率的負の 相関ルール

目次 相関ルール 負の相関ルール 確率的相関ルール 確率的負の相関ルール 定義と計算方法 探索の方針 実験と結果 まとめ 既存研究

表現の拡張 不確実データベースへの対応 負の 相関ルール 相関ルール 確率的 相関ルール 確率的負の 相関ルール

相関ルール 2つの集合の共起をルールの形で表したもの

評価基準 支持度(同時確率) 前件 確信度(条件付き確率) 後件 *前件Xおよび後件Yは集合

sup( ) = 3 支持度とはパターンが出現した数である

conf( ) = 3/4 確信度とは前件が出現したうち後件が出現する確率である

有効な相関ルールの定義 mc(最小確信度),ms(最小支持度)は ユーザーが任意に定める閾値 支持度においてX⇒YとXYは同じである

表現の拡張 不確実データベースへの対応 負の 相関ルール 相関ルール 確率的 相関ルール 確率的負の 相関ルール

負の相関ルール 出現(X)と否出現(¬X)の組み合わせをルールとして表したもの

有効な負の相関ルールの定義 mc(最小確信度),ms(最少支持度)は ユーザーが任意に定める閾値

表現の拡張 不確実データベースへの対応 負の 相関ルール 相関ルール 確率的 相関ルール 確率的負の 相関ルール

確率的相関ルール 確率的相関ルールとは不確実データベースを対象とした相関ルール What is 不確実データベース? データが存在するか否かの確率(存在確率)を持つ データベース

不確実データベースの種類 アイテムに基づく不確実データベース トランザクションに基づく不確実データベース

可能世界意味論 可能世界とは? 可能世界意味論(possible world semantics) 存在確率に従い複数の世界を考える 各データが存在する世界と存在しない世界に分ける 各世界が確率的に存在する

可能世界による場合分け アイテムに基づく不確実データベースの例 W

イチゴの支持度は? sup(イチゴ)=2 sup(イチゴ)=1 sup(イチゴ)=0

評価尺度 確率(%) イチゴの支持度 支持度は確率変数となる

評価尺度 パターンXが支持度i以上である確率 S(X,wj)は世界wjにおけるパターンXの支持度

評価尺度 ユーザーの定めた閾値ms,mpを満たすものを 確率的頻出パターンと言う

確率的相関ルール 普通の相関ルールは… 支持度同様に確率を考慮すると… P 可能世界に展開することで計算可能

表現の拡張 不確実データベースへの対応 負の 相関ルール 相関ルール 確率的 相関ルール 確率的負の 相関ルール

確率的負の相関ルール 同様に負の相関ルールは… P 原理的には可能世界に展開することで計算可能

確率的負の相関ルール この定義を満たすもの計算するために 式変形を行う 既存研究を用いて可能世界に展開することなく計算可能!

探索の方針 定義の一部に着目し前件,後件の条件に 前件,後件共に確率的頻出なパターンのみを 対象にする.

木構造の探索 既存手法により確率的頻出パターンを抽出 抽出されたパターンを木に配置 前件 後件

実験結果 Java言語を用いて実装 利用したデータ Frequent Itemset Mining Dataset Repository から入手したretail データ twitterより入手したツイートのデータ TaFengDataset より入手した買い物データ 1000件(ms:10,mp:0.2,mc:0.2),227個,1997秒 1000件(ms:10,mp:0.2,mc:0.2),607個,7987秒 1000件(ms:5,mp:0.2,mc:0.2),8632個,25382秒

実験結果 前件 後件 フォロー ます,おはよう 楽天 裏ワザ 楽天,本 私 相互,初心者 ♪ 月,年 おはよう,ます

まとめ 不確実データベースから確率的負の相関ルールの抽出方法を提案した 提案に沿って実装をし,実験を行い結果を得た 今後の課題 もう1つの形式の不確実データベースに対して 同様の計算及び実装や,実装面では並列計算による 高速化が可能であるかを検証が必要.