大規模データ処理に対する列挙アルゴリズムの活用

Slides:

Advertisements

Similar presentations

組合せ最適化輪講 2.3 連結性川原純. 2.3 連結性内容 – グラフ上の節点をすべてたどるアルゴリズム計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズムトポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.

Advertisements

平面三角分割グラフを列挙するアルゴリズムの改良中野眞一（群馬大学）宇野毅明（情報学研究所） 2002 年 6 月 24 日コンピューテーション研究会.

A Simple Constant Time Enumeration Algorithm for Free Trees 中野眞一宇野毅明群馬大学情報学研究所 2003 年 9 月 19 日アルゴリズム研究会.

模擬国内予選2013 Problem F テトラ姫のパズル原案：須藤解答：大友、須藤解説：須藤.

到着時刻と燃料消費量を同時に最適化する船速・航路計画

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム

極小集合被覆を列挙する実用的高速アルゴリズム

データ構造とアルゴリズム第十二回知能情報学部知能情報学科新田直也.

ラベル付き区間グラフを列挙するBDDとその応用

　　　　有限幾何学　　　　　　第8回.

On the Enumeration of Colored Trees

頻出集合列挙アルゴリズムに対する実用的高速化技術について

An Algorithm for Enumerating Maximal Matchings of a Graph

組合せ最適化輪講第1回 ERATO研究員　川原純.

集中講義（九州大学数理学研究院）バイオ構造データに対する数理モデルとアルゴリズム（３）＋数理談話会木構造および画像データの文法圧縮

Approximation of k-Set Cover by Semi-Local Optimization

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

列挙問題列挙問題の定義アルゴリズムの速度バックトラッキング分割法逆探索.

遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~

宇野毅明（国立情報学研究所＆総合研究大学院大学）

９．ＮＰ完全問題とNP困難問題.

宇野毅明（国立情報学研究所＆総合研究大学院大学）

データ構造とアルゴリズム論第６章探索のアルゴリズム

宇野毅明国立情報学研究所 2002年3月東北大大学院情報科学研究科ワークショップ

疑似頻出アイテム集合の多項式遅延列挙アルゴリズム

クリークマイニングとその応用～大規模データの活用～

最短路問題のための LMS(Levelwise Mesh Sparsification)

高山建志五十嵐健夫テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp

頻出パターン発見アルゴリズム入門－アイテム集合からグラフまで－ Part 1

大規模データに対する効率的な列挙アルゴリズム

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

二分探索木によるサーチ.

プログラム実行履歴を用いたトランザクションファンクション抽出手法

サポートベクターマシンによるパターン認識

奈良女子大集中講義バイオインフォマティクス (9) 相互作用推定

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

近年の列挙技術の進展ー計画立案と解法ー宇野毅明（情報学研究所）有村博紀（北海道大学）中野眞一（群馬大学）

第3回アルゴリズムと計算量 2019/2/24.

Introduction to Soft Computing （第11回目）

頻出集合発見問題に対するアルゴリズム技術

計算量理論輪講　chap5-3 M1　高井唯史.

決定木 Decision Tree DT 明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

A Simple Algorithm for Generating Unordered Rooted Trees

論文紹介 - Solving NP Complete Problems Using P Systems with Active Membranes 2004/10/20(Wed)

情報生命科学特別講義III （13）固定パラメータアルゴリズムと部分k木

連続領域におけるファジィ制約充足問題の反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

数独の解生成と解に対する番号付け理学部　情報科学科　渡辺研究室戸神星也.

頻出・飽和・極大頻出集合の効率的な列挙アルゴリズムとその実装

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

ナップサック問題クマさん人形をめぐる熱いドラマの結末.

列挙問題列挙問題の定義アルゴリズムの速度バックトラッキング分割法逆探索.

宇野毅明（国立情報学研究所＆総合研究大学院大学）

第16章　動的計画法アルゴリズムイントロダクション.

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

大規模ネットワークに対する実用的クラスタ発見アルゴリズムの開発

構造的類似性を持つ半構造化文書における頻度分析

人工知能特論II　第8回二宮　崇.

A02 計算理論的設計による知識抽出モデルに関する研究

擬似クリークを列挙する多項式時間遅延アルゴリズム

半正定値計画問題（SDP)の工学的応用について

分枝カット法に基づいた線形符号の復号法に関する一考察

生命情報学特論（６）固定パラメータアルゴリズムと部分k木

コストのついたグラフの探索分枝限定法 A*アルゴリズム.

13．近似アルゴリズム.

グラフの列挙中野　眞一　　　（群馬大学） 2019/9/14 列挙学校.

生物情報ソフトウェア特論（１０）固定パラメータアルゴリズムと部分k木

分子生物情報学(0) バイオインフォマティクス

Presentation transcript:

大規模データ処理に対する列挙アルゴリズムの活用中野眞一（群馬大学）房延慎二（九州大学）浅井達哉（富士通研究所）有村博紀（北海道大学）宇野毅明（情報学研究所） 2005年 2月28日データ工学ワークショップ

極大クリークの列挙で、クラスタ発見ができる巨大なデータからのクラスタ発見・ 90年代以降に巨大な関係グラフが出現　－数百万頂点　－データベースの関係ある項目を枝で結んだグラフ　－ Web グラフ・［関連した／似た］項目の集合はグラフのクリークで表される極大クリークの列挙で、クラスタ発見ができる論文キーワード著者 Google で調べると… ・遺伝子の分類・遺伝ネットワーク・ネットワーク分析・テキストマイニング・ web コミュニティー　　　　・・・ホンダカワサキヤマハバイク好き趣味バイクバイク万歳バイク人生サイト

列挙にかかる時間・ web コミュニティーを列挙する ⇒頂点数 500万、枝数 5000万程度標準的な PC で　⇒頂点数 500万、枝数 5000万程度標準的な PC で・素朴なアルゴリズムだと、1年くらい・洗練されたアルゴリズムなら、2時間程度　[宇野ら02]、[富田ら04] 　　　(スループット：　秒速10万コミュニティー） Web ページデータベース Enumerations from databases solve many problems and give new knowledge Enumerations from databases solve many problems and give new knowledge Enumerations from databases solve many problems and give new knowledge Enumerations from databases solve many problems and give new knowledge データマイニングへの応用可能いい技術があれば、近似をせずとも素直な方法で、巨大な問題が短時間で解ける

データマイニングへの応用可能

列挙動機列挙は中間に位置する・シンプルかつ小規模なら、最適化が有効（きれいな問題の良質な解を１つ求める）　　　（きれいな問題の良質な解を１つ求める）・複雑あるいは大規模ならばシミュレーションが有効　　　（複雑・大規模な問題の多数の解を見つける）モデルが列挙列挙は中間に位置する良質な解を多数見つけるシンプルなモデルをじっくり解く複雑なモデルを粗く解くシミュレーション線形計画最適化アドホックネットワーク局所探索組合せ最適化物理現象の計算

■列挙問題■ 与えられた問題の解を全て見つけ、出力する問題（いかに役立つ構造を高速に列挙するか）本発表の内容 ■列挙問題■ 　与えられた問題の解を全て見つけ、出力する問題　　（いかに役立つ構造を高速に列挙するか）・列挙問題と列挙アルゴリズムについて　－どのような目的で使われるか　－どのようなアルゴリズムを作りたいか　－どのような応用研究があるか　－どのようなアプローチで解けるか

基礎的な構造に対してアルゴリズムが作られる列挙研究の歴史 1960 1990 2000 計算機パワーの増大アルゴリズム黎明期：基礎的な構造に対してアルゴリズムが作られる実用的なアルゴリズムの発達（疎な構造の利用、巨大データの処理、など）逆探索など、高度な列挙法の出現応用で使われ始める（データマイニングなど）

列挙アルゴリズムの応用研究

Web コミュニティ発見 Webコミュニティ：内容や嗜好が似ているweb サイトの集合だろう　　（リンクは、似た内容・嗜好のページに貼られるから）サイトサイトラーメン好きラーメン命趣味バイクホンダバイク好きカワサキ博多ラーメン札幌ラーメンバイク万歳ヤマハバイク人生 Web マイニングでは基礎的な問題

Webグラフ: ・パワー則が成り立つ・局所的・大域的に密な部分がある ⇒ 極大なクリークは意外と大きくその数は意外と少ない Web コミュニティ発見　(cond.) Webグラフ: ・パワー則が成り立つ・局所的・大域的に　　密な部分がある　⇒ 極大なクリークは意外と大きく　　　その数は意外と少ない次数頂点列(次数の昇順) 効率良く列挙できる (秒速 10万個。500万点でも 2時間程度) ・ Kumar、村田(NII)、浅野(東北大)、豊田(東大) など

頻出パターン：与えられたデータベースの、多くの項目に現れるパターン頻出パターン発見頻出パターン：　　　与えられたデータベースの、多くの項目に現れるパターンデータマイニングの基礎的な問題 1,2,5,6,7 2,3,4,5 1,2,7,8,9 1,7,9 2,7,9 売上データ故障事例データアクセスログトランザクションデータベース XML ・これらデータベースの　特徴、概要が知りたい root id txt ref pic cap

頻出パターン発見－見つけるものデータベースアイテム集合：Agrawal、Bayardo アイテム集合 POS,web-log 頻出パターン発見　－見つけるものデータベースアイテム集合：Agrawal、Bayardo 飽和集合 Pasquier、Zaki 極大集合 Han、Zhu 文字列シークエンスパス Wang & Liu 順序木浅井ら、Zaki 無順序木浅井ら、Termierら、 Nijssen & Kok、Ruckert & Kramer,Chi グラフ鷲尾、猪口ら、Kuramochi & Karypis、Yan & Han などアイテム集合 POS,web-log グラフ化合物、関係グラフ、web 木 XML、化合物文字列テキスト,ゲノム時系列データ観測データなど実際のデータは、大きくて疎なものが多い良い列挙法と問題の疎性の利用で、高速な求解が可能

・新たな化合物が得られたときに、その組成は比較的容易に得られるが、結合の構造は容易に計測できず、さらに立体的な構造の計測はもっと難しい化合物の立体構造の推定・新たな化合物が得られたときに、その組成は比較的容易に得られるが、結合の構造は容易に計測できず、さらに立体的な構造の計測はもっと難しい NO2 NO2 OH C6H5NO4 O O OH 組成平面構造立体構造化合物すでに構造がわかっている化合物のデータを検索して、構造を推定する

化合物の立体構造の推定－・推定する化合物と部分的な平面構造が一致する化合物をデータベースから探し出す ⇒ 大域的な構造が拾えない化合物の立体構造の推定　－・推定する化合物と部分的な平面構造が一致する化合物をデータベースから探し出す　⇒ 大域的な構造が拾えない・検索結果を、環構造の複雑さ　　で絞り込む環構造（コードレスサイクル）の数が似ているもので絞り込むと、精度が上がるコードレスサイクル数は爆発せず、効率的・佐藤寛子（NII）＆越野（理研）

単調関数の学習 1 ・集合 E の部分集合上に定義された01単調関数 f があるとする（単調関数： f(B) = 0 ならば、　（CNF ⇔ DNF の変換、極小集合被覆・極小横断の列挙と等価）問題（学習）： f が陰に与えられたとき、f の全ての極大元を列挙 1 （極大頻出アイテム集合マイニング）

単調関数の学習 1 ・集合 E の部分集合上に定義された01単調関数 f があるとする（単調関数： f(B) = 0 ならば、　（CNF ⇔ DNF の変換、極小集合被覆・極小横断の列挙と等価）問題（学習）： f が陰に与えられたとき、f の全ての極大元を列挙 1 （極大頻出アイテム集合マイニング）

単調関数の学習 (cond.) ・双対化・学習は、計算量的に未解決な問題ー（入力＋出力数）の多項式時間アルゴリズムがあるか不明　ー（入力＋出力数）の多項式時間アルゴリズムがあるか不明　ー O（（入力＋出力数）log（入力＋出力数））のアルゴリズムは存在・実際には、ほぼ全ての問題は、１つ定数時間で列挙できる・「ある種のアルゴリズムを用いると必ず指数時間かかる問題」　を作ること自体が難しい Khachiyan、Eiter、牧野(阪大)… 何が難しいのか、なぜ多項式時間で解けないのか、よくわからない計算量的にも、効率良い実装上も、面白い問題

・線形不等式、あるいは他の陰的な表現で与えられた多面体の端点を列挙する問題－多面体上の最適化、性質の解析など多面体の端点列挙・線形不等式、あるいは他の陰的な表現で与えられた多面体の　　端点を列挙する問題　－多面体上の最適化、性質の解析など Seidel、Avis、福田応用例：自動車の各部品が、どの範囲を動けるか調べる　 ← 他の部品とぶつかる可能性を調べたい・どの方向にどれだけ動けるか（回転を含む）を与えると、　部品が動きうる範囲が多面体で表される・この多面体の端点を列挙すると、他の部品と　ぶつかるかどうかが判定できる　[福田2004]

列挙アルゴリズム構築法の研究

・列挙は、解を逐次的に見つける ⇒ 列挙は、解空間に効率良い探索ルートを作る問題探索ルートは基本戦略・列挙は、解を逐次的に見つける ⇒ 列挙は、解空間に効率良い探索ルートを作る問題探索ルートは　・解のみを通るものが良い　（効率化）・連結が良い　（見つけ損なわないため）・非巡回的が良い　（重複を避ける）・枝が少ないほうが良い　（重複を避ける＆効率化）探索ルートは全域木（あるいは全域森）が良い

apriori ・単調な集合族（独立集合）の列挙などに使う・大きさ k の解を、大きさ k-1 の解から生成する　　　重複を回避 1,2,3,4 1,2,3 1,2,4 1,3,4 2,3,4 1,2,3 1,2,4 1,3,4 2,3,4 1,3 1,2 1,4 2,3 3,4 2,4 1,2 1,3 1,4 2,3 2,4 3,4 1 2 3 4 1 2 3 4 解1つあたり＝ 1反復の計算時間メモリ使用量　＝解集合の大きさデータベースの頻出集合、頻出文字列、頻出シークエンスなど φ φ

バックトラック・単調な集合族（独立集合）の列挙などに使う・空集合から出発し、現在解にアイテムを１つ加えて新しい解を作る　　　１つ加えて新しい解を作る・現在解の末尾より大きなアイテム　　　のみを追加して重複を回避 1,2,3,4 1,2,3 1,2,4 1,3,4 2,3,4 1,2 1,3 1,4 2,3 2,4 3,4 1 2 3 4 解1つあたり＝ 1反復の計算時間メモリ使用量　＝ 1反復のメモリ使用量グラフのパス、有向パス、木、根付き木、連結成分　　　クリーク、独立集合、マッチング、2部マッチング、頂点被覆ナップサック問題の解、集合被覆　など φ

枝狩り・単調性が成り立たない場合解でないものをたどる・先に解がないときには枝狩りができる・完全な枝狩りができれば、　　解でないものをたどる・先に解がないときには枝狩りができる・完全な枝狩りができれば、　　　解1つあたり（木の深さ）×（1反復の時間） 1,2,3,4 1,2,3 1,2,4 1,3,4 2,3,4 1,2 1,3 1,4 2,3 2,4 3,4 1 2 3 4 極大頻出集合、極小集合被覆、　極大クリーク、SATの充足解、など φ

・探索木を動的に生成・各反復で、解集合を2つの非空な集合に再帰的に分割する（完全な枝狩りを常にしていることに相当する）分割法・探索木を動的に生成・各反復で、解集合を2つの非空な集合に再帰的に分割する（完全な枝狩りを常にしている　ことに相当する） 1,2,3,4 1,2,3 1,2,4 1,3,4 2,3,4 1,2 1,3 1,4 2,3 2,4 3,4 1 2 3 4 グラフの、パス・サイクル・有向パス・有向サイクル・木・根付き木・全張木・全域森・完全マッチング・完全2部マッチング　など解1つあたりの計算時間は（解の数）×（1反復の時間）使用メモリは1反復のメモリ使用量 φ

・ほぼ全ての列挙アルゴリズムは再帰型・各反復で複数の再帰呼び出しをする ⇒ 計算木は、下に行くほど大きくなる実装時の計算速度の向上・ほぼ全ての列挙アルゴリズムは再帰型・各反復で複数の再帰呼び出しをする　⇒ 計算木は、下に行くほど大きくなる・・・効率良い実装の多くがこの手法を利用（例えばFIMIの多くの実装）再帰呼び出しの際に問題（入力）を縮約して子供の仕事を軽くすると、その子孫全てが恩恵を受け、劇的に高速化される

難しい問題・バックトラック、分割法では難しい問題－単調性が成り立っていない－枝狩りが困難－同型なものが多数ある　－単調性が成り立っていない　－枝狩りが困難　－同型なものが多数ある例）　極大クリークの枝狩りは NP-complete 　－指定した複数の頂点を含まない極大クリークは存在するか？極大／極小なもの、グラフクラス、多面体の面、 NP-complete問題の解

・各解に対して、その親を非巡回的になるよう定義する逆探索　（効率良い探索木を直接生成）・各解に対して、その親を非巡回的になるよう定義する・木型の探索ルートができる・この木を深さ優先探索する　 ⇒ 全ての解が列挙できる解1つあたり＝ 1反復の計算時間メモリ使用量　＝ 1反復のメモリ使用量＋木の深さ　　木、根付き木、直並列グラフ、コーダルグラフ、フロアプラン　　グラフの極大クリーク、多面体の頂点、三角形分割　など

親の定義：左が重くなるように子供をソートし、一番右の葉を除去する根付き木親の定義：左が重くなるように子供をソートし、一番右の葉を除去する

親の定義：左上の部屋の右か下の壁をスライドして左上の部屋をつぶすフロアプラン（長方形による部屋分け）親の定義：左上の部屋の右か下の壁をスライドして左上の部屋をつぶす

まとめ・列挙問題の応用を紹介（クラスタリング、データマイニング、評価値計算、計算幾何学）・列挙アルゴリズムの基礎的な手法を解説・列挙問題の応用を紹介　　（クラスタリング、データマイニング、評価値計算、計算幾何学）・列挙アルゴリズムの基礎的な手法を解説　（探索木の構築、バックトラック、枝狩り、逆探索）・列挙は、手法の中でまだまだ発展途上・これから利用価値が高まり、モデル・アルゴリズムともに、　　これから面白いものが出てくるだろう