アルゴリズム理論的な データ近似へのアプローチとデータマイニング

Slides:



Advertisements
Similar presentations
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Advertisements

世帯マイクロデータの適合度評価における 重みの決定手法
人工知能特論 8.教師あり学習と教師なし学習
2009/12/4 グラフ (2) 第10講: 平成21年12月4日 (金) 4限 E252教室 コンピュータアルゴリズム.
ネットワーク理論講義補助資料 Text. 組合せ最適化とアルゴリズム 4.5 節 主・双対法 pp
ラベル付き区間グラフを列挙するBDDとその応用
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
Pattern Recognition and Machine Learning 1.5 決定理論
Extremal Combinatorics 14.1 ~ 14.2
Reed-Solomon 符号と擬似ランダム性
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
Bias2 - Variance - Noise 分解
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
マイクロシミュレーションにおける 可変属性セル問題と解法
Probabilistic Method 6-3,4
第11講: 平成18年12月 8日 (金) 4限 E352教室 グラフ (1).
10. 積分 積分・・確率モデルと動学モデルで使われる この章は計算方法の紹介 積分の定義から
Yuri Y. Boykov Marie-Pierre Jolly
A First Course in Combinatorial Optimization Chapter 3(前半)
第Ⅱ部 協力ゲームの理論 第9章 シャープレイ値.
発表日:平成15年4月25日 担当者:時田 陽一 担当箇所:第3章 誤差評価に基づく学習 3.1 Widrow-Hoffの学習規則
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
サポートベクターマシン によるパターン認識
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
領域分割手法について 2008年2月26日 中島研吾.
点素パス問題に対するアルゴリズム 小林 佑輔 東京大学 大学院情報理工学系研究科 組合せ最適化セミナー 2012 年 7月 13日
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
決定木とランダムフォレスト 和田 俊和.
奈良女子大集中講義 バイオインフォマティクス (9) 相互作用推定
プログラミング論 II 2008年吉日 主成分分析 数値積分
アルゴリズムとデータ構造 2013年7月16日
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
第9章 混合モデルとEM 修士2年 北川直樹.
7.4 Two General Settings D3 杉原堅也.
確率伝搬法と量子系の平均場理論 田中和之 東北大学大学院情報科学研究科
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
Curriki原典
第14章 モデルの結合 修士2年 山川佳洋.
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
第3回 アルゴリズムと計算量 2019/2/24.
東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当: 亀田 弘之
量子系における 確率推論の平均場理論 田中和之 東北大学大学院情報科学研究科
First Course in Combinatorial Optimization
Data Clustering: A Review
連続領域におけるファジィ制約充足問題の 反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.
不確実データベースからの 負の相関ルールの抽出
First Course in Combinatorial Optimization
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
14. The Basic Method M1 太田圭亮 14.3 Spaces of polynomials
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
Max Cut and the Smallest Eigenvalue 論文紹介
A02 計算理論的設計による知識抽出モデルに関する研究
ポッツスピン型隠れ変数による画像領域分割
情報工学概論 (アルゴリズムとデータ構造)
2009/11/27 グラフ (1) 第9講: 平成21年11月27日 (金) 4限 E252教室 コンピュータアルゴリズム.
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
発表者: 稲葉 一浩 複雑ネットワーク・地図グラフ セミナー 2017/1/19
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
識別子の読解を目的とした名詞辞書の作成方法の一試案
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

アルゴリズム理論的な データ近似へのアプローチとデータマイニング アルゴリズム理論的な  データ近似へのアプローチとデータマイニング ピラミッド階層構造構築を例にして Pictures from web page of Institute of Egyptology, Waseda University, Japan

データマイニング データベースからの知識抽出 関係データベース 属性: 収入、年齢、血圧、血液型、性別など  属性: 収入、年齢、血圧、血液型、性別など  タプル(データ行): 属性値のベクトル 属性間の一般的(統計的)な関連法則を知りたい  目的: 自動診断、自動推定、自動調整システム  既知の属性値から未知の属性値を推定する  制御可能な属性値を変更して目的属性値を改良する 法則は、正確で判りやすく,汎用性があるものが良い

カテゴリー属性結合ルール:簡単な法則の形態 (Blood = AB) ⇒ (Car = Honda)  (Blood =AB) ∧ (Car = Honda) ⇒(Accident = No) 高速生成アルゴリズム Aggrawal 他 1993  数値結合ルール  (400<Income<800) ⇒ (Car = Honda) (500 < Income) ∧(Age > 25) ⇒(Accident<0.01) ((Age, Income) ∈R) ⇒ (Accident < 0.01)

((Age, Income) ∈R) ⇒ (Accident= No) 確信度とサポート:ルールの評価基準  A ⇒ C ((Age, Income) ∈R) ⇒ (Accident= No) サポート: 左辺が成立する確率 Prob(A=yes) ヒット:両辺とも成立する確率Prob(A∧C =yes) 確信度:   ヒット/サポート            Prob(A∧C =yes) / Prob(A=yes) サポートが大きく、確信度も大きいルールが良い

Output of SONAR data mining system ( System for Optimized Numeric Association Rules) Given a database that contains 3.54% of unreliable customers ( Age, Balance) ∈ R ⇒ ( CardLoanDelay = yes) R contains about 10% of customers and maximizes the probability (14.39%) of unreliable customers.

福田-森本-森下-徳山 の手法 ‘96 ((Age, Income) ∈R) ⇒ (Accident= No) サポートも確信度も高い領域Rを求める Support(R) : Rに入るデータ数 Hit (R): Rに入るヒットデータ数 パラメトリックな利得 Gain(R,t) = Hit (R) – t ・ Support(R) 良いグリッド領域族の利用 パラメトリック利得を最大化するRの高速計算 良いパラメタ t の自動推定

Output of SONAR data mining system ( System for Optimized Numeric Association Rules) Given a database that contains 3.54% of unreliable customers ( Age, Balance) ∈ R ⇒ ( CardLoanDelay = yes) R contains about 10% of customers and maximizes the probability (14.39%) of unreliable customers.

問題点 と解決  領域Rの内部と外部に分けるルールは強すぎる (データの位置情報の消失、過学習)  3 つ以上の条件属性を考えると計算量が爆発する (次元の制限) 最適な階層構造でのデータの近似 統計的なアプローチ 計算理論的なアプローチ

Pyramidic (or layered) rule

数学的定式化 Input:  d変数サポート関数μ、確信度関数 ρ      d次元のグリッド領域族 F Output (階層ルール):  確信度関数の近似 f 単峰、もしくは与えられた数のピークを持つ 水平スライス({x:f(x)<h})がFに属する 目的: f とρ の(μを測度にする)L2距離最小化 確信度による“玉ねぎ”構造

サポート関数が定数関数なら、地形図をならしてピラミッド(山)に最適近似することに対応

困難と解決  1次元なら線形時間で解ける  目的関数を水平切りと垂直切りで考える  リーマン積分とルベーグ積分のようなもの  2次元以上で?  解決策 良いグリッド領域族を定義する パラメトリック手法(高さがパラメタ) グラフアルゴリズムの利用

What is the region family for this pyramid ? U(p)= ピクセルp を含む長方形の和集合たちの族 (stabbed union of rectangles at p)

p p Rectangle containing a given point p Rectangles containing p Union of rectangles stabbed at p Corresponding pyramid

 d次元 (d個の数値属性)の階層構造の計算 Fd(p) = d次元voxel グリッドにおいて、voxel p を含む軸方向長方形の和集合たちの族 定理. Fd(p) に関する最適階層ルールは     O(t(n,n) log N) 時間で計算される, ここで t(n,m) は n頂点m辺の有向重みつきグラフの  minimum s-t cut の計算時間. T(n,n)=O(n 1.5 log N) (Goldberg-Rao 97) N: weight sum=database size

出力の高さhでのスライスの計算 t 4 4 4 4 3 3 1 1 - - 1 1 -1 3 3 3 3 - - 1 1 3 3 -2 2 2 - - 1 1 - - 3 3 2 2 2 2 - - 2 2 - - 4 4 1 1 - - 1 1 - - 2 2 - - 2 2 - - 4 4 s グリッドの接続グラフに、p への向きと、パラメトリック利得情報から得られる頂点重みをつけたグラフG で、支配集合が最大重みを持つカットを求める

The cut in G minimizing the sum of node weights of dominated vertices = minimum s-t cut in a modified directed graph G’ (Hochbaum(01)) Positive weighted nodes s Negative weighted nodes G t

Construction of G’ (an example) -1 2 3 1 -2 -3 s 1 1 2 3 1 2 3 1 t

すべての階段の高さtでの最大パラメトリック利得領域の計算→プロセスの分岐手法を用いる 最大利得領域の計算 = 最小カットの手間 すべての階段の高さtでの最大パラメトリック利得領域の計算→プロセスの分岐手法を用いる O(t(n,n) log N)時間アルゴリズム 2分探索で全ての段を探す  あるtで 高さ3t/2で 高さt/2で

 どのような領域族なら良いか? 集合演算について閉じている領域族 グリッドの接続グラフの部分グラフのカットの支配集合に対応していれば良い. 中心pを固定した星型領域の族 グリッド超曲面で切られた下半領域の族

-1 -1 -2 -1 1 -1 1 2 1 -2 2 2 -1 - - 3 1 2 2 - 4 4 - 1 2 -1 - - - 4

-1 -2 1 1 1 -1 1 2 1 -2 2 -1 2 - - 3 1 2 2 - 4 4 - 1 2 - - 2 - - 4

まとめ アルゴリズム理論的なデータ近似 自由度の高い、高精度の近似 欠点(?):グリッドをベースにする        領域族に依存した最適化 利用法:  データの視覚化         ファジーな決定構造