近年の列挙技術の進展ー計画立案と解法ー宇野毅明（情報学研究所）有村博紀（北海道大学）中野眞一（群馬大学）

Slides:

Advertisements

Similar presentations

組合せ最適化輪講 2.3 連結性川原純. 2.3 連結性内容 – グラフ上の節点をすべてたどるアルゴリズム計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズムトポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.

Advertisements

平面三角分割グラフを列挙するアルゴリズムの改良中野眞一（群馬大学）宇野毅明（情報学研究所） 2002 年 6 月 24 日コンピューテーション研究会.

A Simple Constant Time Enumeration Algorithm for Free Trees 中野眞一宇野毅明群馬大学情報学研究所 2003 年 9 月 19 日アルゴリズム研究会.

到着時刻と燃料消費量を同時に最適化する船速・航路計画

区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム

3次元nクイーン問題の解に関する研究論理工学研究室伊藤精一

いいプログラムはコーディング技術だけではない

2009/12/4 グラフ (2) 第１０講: 平成21年12月4日 (金) 4限 E252教室コンピュータアルゴリズム.

「わかりやすいパターン認識」第１章：パターン認識とは

極小集合被覆を列挙する実用的高速アルゴリズム

データ構造とアルゴリズム第十二回知能情報学部知能情報学科新田直也.

ラベル付き区間グラフを列挙するBDDとその応用

近似アルゴリズム第１０章終了時刻最小化スケジューリング

On the Enumeration of Colored Trees

サブグラフ列挙と頻出パターンマイニング－データサイエンスで活躍する列挙アルゴリズム

頻出集合列挙アルゴリズムに対する実用的高速化技術について

An Algorithm for Enumerating Maximal Matchings of a Graph

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

列挙問題列挙問題の定義アルゴリズムの速度バックトラッキング分割法逆探索.

遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~

データ構造とアルゴリズム第二回知能情報学部新田直也.

宇野毅明（国立情報学研究所＆総合研究大学院大学）

９．ＮＰ完全問題とNP困難問題.

宇野毅明（国立情報学研究所＆総合研究大学院大学）

宇野毅明国立情報学研究所 2002年3月東北大大学院情報科学研究科ワークショップ

疑似頻出アイテム集合の多項式遅延列挙アルゴリズム

第11講: 平成18年12月 8日 (金) 4限 E352教室グラフ (1).

クリークマイニングとその応用～大規模データの活用～

最短路問題のための LMS(Levelwise Mesh Sparsification)

高山建志五十嵐健夫テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp

頻出パターン発見アルゴリズム入門－アイテム集合からグラフまで－ Part 1

大規模データに対する効率的な列挙アルゴリズム

二分探索木によるサーチ.

プログラム実行履歴を用いたトランザクションファンクション抽出手法

７－３．高度な木（平衡木）ＡＶＬ木平衡２分木。回転操作に基づくバランス回復機構により平衡を保つ。Ｂ木

ネットワーク理論 Text. Part 3 pp 最短路問題 pp 最大流問題 pp.85-94

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

人工知能特論９．パーセプトロン北陸先端科学技術大学院大学　鶴岡慶雅.

第14章　モデルの結合修士２年山川佳洋.

WWW上の効率的なハブ探索法の提案と実装

第3回アルゴリズムと計算量 2019/2/24.

トーリックイデアルのグレブナ基底を求めるアルゴリズム – F4およびF5 –

頻出集合発見問題に対するアルゴリズム技術

計算量理論輪講　chap5-3 M1　高井唯史.

A Simple Algorithm for Generating Unordered Rooted Trees

連続領域におけるファジィ制約充足問題の反復改善アルゴリズムによる解法 Solving by heuristic repair Algorithm of the Fuzzy Constraint Satisfaction Problems with Continuous Domains 北海道大学.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

数独の解生成と解に対する番号付け理学部　情報科学科　渡辺研究室戸神星也.

GPGPUによる飽和高価値アイテム集合マイニング

頻出・飽和・極大頻出集合の効率的な列挙アルゴリズムとその実装

新しい高速相同検索アルゴリズムを用いたゲノム解析ツールの開発

ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部佐々木稔

生物情報ソフトウェア特論（２）たたみ込みとハッシュに基づくマッチング

ナップサック問題クマさん人形をめぐる熱いドラマの結末.

列挙問題列挙問題の定義アルゴリズムの速度バックトラッキング分割法逆探索.

宇野毅明（国立情報学研究所＆総合研究大学院大学）

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

大規模ネットワークに対する実用的クラスタ発見アルゴリズムの開発

構造的類似性を持つ半構造化文書における頻度分析

A02 計算理論的設計による知識抽出モデルに関する研究

大規模データ処理に対する列挙アルゴリズムの活用

擬似クリークを列挙する多項式時間遅延アルゴリズム

大規模データ処理に対するアルゴリズム理論からのアプローチ

分枝カット法に基づいた線形符号の復号法に関する一考察

４．プッシュダウンオートマトンと文脈自由文法の等価性

Q q 情報セキュリティ第７回：２００５年５月２７日（金） q q.

グラフの列挙中野　眞一　　　（群馬大学） 2019/9/14 列挙学校.

グラフの帯域幅連続多重彩色を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室西川和秀.

プログラミング論バイナリーサーチ 1.

Presentation transcript:

近年の列挙技術の進展ー計画立案と解法ー宇野毅明（情報学研究所）有村博紀（北海道大学）中野眞一（群馬大学）有村博紀（北海道大学）中野眞一（群馬大学）佐藤寛子（情報学研究所）佐藤健（情報学研究所）清見礼（情報学研究所） 2006年 9月11日 OR学会第56回シンポジウム

列挙問題：与えられた問題の解を全て重複なく見つけ出す問題・グラフの2点間を結ぶパス・数の合計の可能性．．．列挙問題とは何でしょう列挙問題：与えられた問題の解を全て重複なく見つけ出す問題・グラフの2点間を結ぶパス・数の合計の可能性．．． A B ・ 1,3,5,8,14 の中から数字を選んでできる合計を列挙せよ・頂点 A と B を結ぶパスを列挙せよ解） … 解） 0, 1, 3, 4, 5, 6, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 25, 26, 27, 28, 30, 31 情報科学の基礎的な問題近年、広く使われ始めている

今日の講演内容・列挙問題、列挙アルゴリズムの特徴問題の難しさ、研究の動向、歴史・応用事例（モデル化とアルゴリズムのキモ）　　問題の難しさ、研究の動向、歴史・応用事例（モデル化とアルゴリズムのキモ）　－クリークの列挙　－頻出パターンの列挙　－サイクルの列挙　－類似項目ペアの列挙

列挙とその応用の基本

・最適化は問題の一部分を見つける  列挙は問題の全ての部分を見つける列挙は多面的・最適化は問題の一部分を見つける 　列挙は問題の全ての部分を見つける列挙では解の全てを見つけるため、問題の構造を全体的に把握することができる「最適ではないが、役に立つ解」を、見つけ損なわない問題の構造を調べたいとき、数理的にクリアでない目的関数で解を得たいときに、列挙が有効

あいまいな目的 web ページの検索（見つけたいページを見つける） ① キーワードを指定 ② キーワードを含むページを列挙　① キーワードを指定　② キーワードを含むページを列挙　③ 見つかったページを実際に検証 Enumerations from databases solve many problems and give new knowledge キーワード検索候補 Enumerations from databases solve many problems and give new knowledge 実際にページを見て検証 Web ページデータベース・数理的な部分をコンピュータで解く　（候補の列挙）・残りはユーザに任せる　（候補の絞込み）

列挙モデルから見ると列挙は中間に位置する・シンプルかつ小規模なら、最適化が有効（きれいな問題の良質な解を１つ求める）　　　（きれいな問題の良質な解を１つ求める）・複雑あるいは大規模ならばシミュレーションが有効　　　（複雑・大規模な問題の多数の解を見つける）モデルが列挙列挙は中間に位置する良質な解を多数見つける最適化シミュレーションシンプルなモデルをじっくり解く複雑なモデルを粗く解く線形計画局所探索組合せ最適化アドホックネットワーク物理現象の計算

解が多いため、実際に動かすという観点はなし近年の研究の流れの変化が、列挙の役割を大きくしている列挙研究の歴史計算機パワーの増大実用の可能性が発現 1960 1990 2000 黎明期：基礎的な構造に対する計算量（多項式性）の研究解が多いため、実際に動かすという観点はなし実用的なアルゴリズムの発達（疎な構造の利用、巨大データの処理、など）逆探索など、高度な列挙法の出現応用で使われ始める（データマイニングなど）近年の研究の流れの変化が、列挙の役割を大きくしている

典型的なOR的なアプローチは、データ収集でつまづくことが多い問題発見定式化解法（最適化）典型的な OR（＋数理計画）的アプローチデータ収集（システム構築）求解運用できたモデルを実際に使うここがボトルネックであることが多いその一方で、データがあふれている場所もある

・近年、IT技術の発達で、大規模なデータが半自動的に収集できるようになった（POS、web、文書、顧客データ、財務、利用者、人事…）データ中心の科学・近年、IT技術の発達で、大規模なデータが半自動的に収集できるようになった　　（POS、web、文書、顧客データ、財務、利用者、人事…）ならば、データがそろっているところでモデルを作ればいいデータの選別モデル化データ処理いわば、データを出発点とした問題解決の科学（人工知能、データマイニング、自然言語処理、セマンティックweb…）

データ中心科学の特徴つまり、列挙組合せの検索・データが整形されていない　目的がはっきりしない、あるいは異なる目的のために集められたデータを用いるため、必要なものがすぐ取り出せるとは限らない。また、ノイズや不正確な情報も含まれうる。・目的関数があいまい　データが情報の塊のようなものなので、そこから得られるものはやはり情報であることが多い（知識、特徴分析といったもの）。それら情報の価値は数理的な尺度では計りにくい。また、従来の最適化とは異なる尺度を用いることが多い。（グラフクラス、シークエンス、情報量、隣接性、類似度、頻出度・・・）・データが巨大で、構造を持つ半自動で集められたデータであるので、データは通常、巨大である。しかし各項目が持つ属性は少なく、疎である。・データ処理は比較的簡単なものが多いデータ処理の計算は、最適化のような複雑ではなく、組合せの検索や整形などいくつかの簡単な処理の組合せつまり、列挙組合せの検索

応用事例で実際に使える技術が出てきている近年の列挙研究の方針・解が少ないようなモデルの構築　短時間で求解が終わる上に、解の解析にかかる時間も短くなる　　－パスの代わりに最短パス　　－クリークの代わりに極大クリーク・入力データは巨大だが、解は多くない問題を短時間で解く　　－パワー則や疎性の利用　　－計算オーダーの減少と再帰構造の良質化アルゴリズムの性能の向上：標準的な PC で・素朴なアルゴリズムでクリークを列挙　 100年以上・洗練されたアルゴリズムで極大クリーク  2時間程度　　　(スループット：　秒速10万個）応用事例で実際に使える技術が出てきている

極大・極小なもの、代表者をいかに選ぶかが重要列挙モデルの難しさ・組合せ的に選択可能な箇所があると、解数が爆発例）　2点を結ぶパス  最短路のみを列挙すれば、回避できうる例）　グラフのクリーク  極大クリークのみを列挙すれば、回避できうる大きなクリーク極大・極小なもの、代表者をいかに選ぶかが重要

指数個解のある問題は、現実的には解く意味がない列挙アルゴリズムの難しさ・解は多いが、総当りは非効率　列挙は解が指数個存在するので、ほぼ全ての組合せが解になりうる  総当り的な検索が計算量の意味で最適　例）　2点間を結ぶパスは指数個ありうる　　　2点間を結ぶパスは、枝の組合せ全てより指数分の１である指数個解のある問題は、現実的には解く意味がないボトルネック＝解の個数＝出力の時間  解が少なければ速く、解が多ければ遅いアルゴリズムが望ましい－解１つあたりの計算時間が短い（定数）－ 1秒あたりの出力数が大きい（スループット）

いかに効率よい探索ルートを作り、短時間で移動するかが課題効率的な探索が重要例題） (3,2) から１つ、(9,3,5) から1つ、(4,1,3) から１つ、 (0,7,1) から１つ、合計4つの数字を選んでできる組合せの中で、合計が10以下のものを求める　（予算10以下の組合せ） 4 1 3 7 9 3,9,4,0 3,9,4,7 3,9,4,1 3,9,1,0 3,9,1,7 3,9,1,1 3,9,3,0 3,9,3,7 3,9,3,1 3,3,4,0 3,3,4,7 3,3,4,1 3,3,1,0 3,3,1,7 3,3,1,1 3,3,3,0 3,3,3,7 3,3,3,1 5 3,5,4,0 3,5,4,7 3,5,4,1 3,5,1,0 3,5,1,7 3,5,1,1 3,5,3,0 3,5,3,7 3,5,3,1 2 2,9,4,0 2,9,4,7 2,9,4,1 2,9,1,0 2,9,1,7 2,9,1,1 2,9,3,0 2,9,3,7 2,9,3,1 2,3,4,0 2,3,4,7 2,3,4,1 2,3,1,0 2,3,1,7 2,3,1,1 2,3,3,0 2,3,3,7 2,3,3,1 2,5,4,0 2,5,4,7 2,5,4,1 2,5,1,0 2,5,1,7 2,5,1,1 2,5,3,0 2,5,3,7 2,5,3,1 全ての組合せよりはるかに少ないいかに効率よい探索ルートを作り、短時間で移動するかが課題

事例研究の評価モデル入力の大きさ、事後処理のコストに対して、解数が十分小さいかデータの性質などから解数を見積もり、求解時間を算定　データの性質などから解数を見積もり、求解時間を算定　　－極大性、代表解の選出などがうまく使えているかアルゴリズム解１つあたりの計算時間が十分短いか　計算量と理論的根拠に基づく計算時間の算定　　－出力数依存の計算手法になっているか　　－余計な組合せを見ない、効率よい探索　　－疎性、パワー則などの上手な利用　　－末広がり性を利用した反復的な問題縮小

列挙事例：　クリークの列挙

グラフのクリーク：部分グラフで、全ての頂点間に枝があるものクリーク列挙問題グラフのクリーク：部分グラフで、全ての頂点間に枝があるもの・ 2部クリークの列挙問題は、グラフの変換でクリーク列挙に帰着できる・最大クリークを求める問題はNP完全・極大クリークは簡単に求められる・最適化を中心に非常に多くの研究がある

対象：データの関連を現すグラフ（データの項目が頂点、関係のある、類似する項目間に枝）応用：クラスタリング対象：　データの関連を現すグラフ（データの項目が頂点、関係のある、類似する項目間に枝）互いに背反だが、立場が同じ項目のグループ類似する、あるいは互いに関連するグループ・データの種類・規模で大きさが変わる・通常、それほど密ではない（次数高々100）・局所的に密な部分が存在・パワー則、スモールワールドが成り立つことが多い

対象：ウェブネットワーク（ウェブページが頂点、リンクが枝）応用：ウェブコミュニティーの発見対象：　ウェブネットワーク（ウェブページが頂点、リンクが枝）リンク先（同種のテーマ）リンク元（似た興味）グループになっている・グラフの大きさは世界全体で100億ページ・ある種のドメインに区切ったり、意味のないページを除くと　1/10 から 1/1000 に小さくなる・平均次数は10程度だが、局所的に密な部分が存在・パワー則、スモールワールドが成り立つ

対象：単語ネットワーク（単語が頂点、単語AとB を組合せて複合語ができるとき、枝を張る）類義語群の発見対象：　単語ネットワーク（単語が頂点、単語AとB を組合せて複合語ができるとき、枝を張る）関東関西中国北陸地方地区電力 2部クリークの片側が、似た意味を持つ単語の集合・大きなものでも、15万語程度・通常、それほど密ではない（次数高々200）・局所的に密な部分が存在・パワー則、スモールワールドが成り立つ

対象：論文・アブストラクトグラフ（論文が片側の頂点、単語がもう片側の頂点で、論文のアブストラクトが単語を含むときに枝を張る）類似論文のグループ化論文A 論文論文C 論文D 語1 語2 語3 対象：　論文・アブストラクトグラフ（論文が片側の頂点、単語がもう片側の頂点で、論文のアブストラクトが単語を含むときに枝を張る）語：　研究分野を表す単語群論文：　その分野の論文のグループ・大きなものでも、10万語程度・通常、それほど密ではない（平均次数高々200）・局所的に密な部分が存在・パワー則、スモールワールドが成り立つ

SQL でもかけるが、巨大データでは長時間クリークの単調性・クリークの部分集合はクリーク  単調性が成り立つ  原点を出発して山を登り、クリークでなくなったら、戻って、他の方向に登る、というバックトラック式の列挙ができるクリークであるかどうかのチェックはO(n2) 時間、最高 n 方向に登る  １つあたり O(n3) 時間 111…1 クリーク 000…0 φ 1,3 1,2 1,2,3 1,2,4 1,3,4 2,3,4 1 2 3 4 3,4 2,4 1,4 2,3 1,2,3,4 SQL でもかけるが、巨大データでは長時間

追加できる候補を絞り込む・追加できる頂点を効率よく見つけたい追加できる  クリークの全ての頂点に隣接追加できる  クリークの全ての頂点に隣接あらかじめ、追加できる候補を調べておくと楽・さらに、新しい頂点を１つ追加したとき、候補に残る頂点  新しい頂点に隣接候補の集合の更新は、追加する頂点に隣接する頂点と、候補の共通部分をとればいいクリーク一個あたり、頂点の次数の時間

・バックトラックは、各反復で複数の再帰呼び出しをする  計算木は、下に行くほど大きくなる  計算時間を支配するのは一番下の数レベル末広がり性・バックトラックは、各反復で複数の再帰呼び出しをする　 計算木は、下に行くほど大きくなる  計算時間を支配するのは一番下の数レベル・・・次数大きい頂点次数小さい頂点ほぼ全ての反復が短時間で終了（1秒間におよそ100万個）多くの列挙アルゴリズムが似たような再帰構造を持つので、下のレベルの仕事を上のレベルがやれば、同様の改良ができる

クリークの個数・実データには、比較的大きなクリークがよくある・大きなクリークの任意の部分集合はやはりクリークなので、個数は大きくなる・極大クリークのみを列挙しよう　－数が1/10～1/1000 に減る　－任意のクリークは極大クリークに含ま　　　　　れるので、情報の損失がない　－極大なほうが、中途半端なグループを含みにくく、　　　　　モデルとして的確クリーク極大なクリークだけを上手に列挙できるか

探索の難しさと枝刈り・極大クリークは山の頂上に対応  単純な操作では行きあえない・そもそも、原点のそばに極大クリークがない・バックトラックが通じないが、枝刈りをすると実に効率が良い（上に登っても、以前見つけた極大クリークに含まれるクリークしかみつからないとき、枝刈りをする） 111…1 クリーク 000…0 現実的には１つあたり定数時間で列挙できる（1秒間におよそ10万個）

現実的な疎データでは、だいたい全列挙可能と考えてよい計算時間・疎なグラフであれば、極大クリークの数は通常非常に小さい（頂点数の 10から100倍くらい）ソーシャルネットワークデータ： 4万頂点 6万枝  3秒辞書データ： 4万頂点 10万枝  50秒 webデータ： 500万頂点 5000万枝  1時間くらい？ … 現実的な疎データでは、だいたい全列挙可能と考えてよい

参考文献など・築山らのアルゴリズム (‘78) 初の多項式時間アルゴリズム・築山らのアルゴリズム (‘78)　　初の多項式時間アルゴリズム・宇野らのアルゴリズム (‘03) 改良版。大きく疎なデータでも速い・富田らのアルゴリズム (‘04) 枝刈りを用いた列挙。密でも速い・クリークの応用の文献は星の数ほど(Nature などにもある) 　　　　　 “クラスタリング” + “クリーク” などで検索・実装 MACE: (MAximal Clique Enumerator) 宇野のHP http:research.nii.ac.jp/~uno/

列挙事例：　頻出パターンの列挙

頻出パターンの列挙データベースの中に多く現れるパターンを頻出パターンという  データの解析、特徴分析、知識・ルール発見頻出するデータベース：トランザクション、ツリー、グラフ、多次元ベクトルパターン：部分集合、木、パス・サイクル、グラフ、図形  データの解析、特徴分析、知識・ルール発見データベース頻出するパターンを抽出・実験1● ,実験3 ▲ ・実験2● ,実験4● ・実験2●, 実験3 ▲, 実験4● ・実験2▲ ,実験3 ▲ 　　　　．実験1 実験2 実験3 実験4 　● 　▲ ATGCGCCGTA TAGCGGGTGG TTCGCGTTAG GGATATAAAT GCGCCAAATA ATAATGTATTA TTGAAGGGCG ACAGTCTCTCA ATAAGCGGCT ・ ATGCAT ・ CCCGGGTAA ・ GGCGTTA ・ ATAAGGG 　　　　．実験結果ゲノム情報

多く現れる  頻出する多く現れるものを見つけるために、多く現れるとは何か、を決める・データベースが項目の集まりだとする多く現れる  頻出する多く現れるものを見つけるために、多く現れるとは何か、を決める・データベースが項目の集まりだとする・パターンに対して、そのパターンを含む項目を出現という・出現の数（頻出度）が閾値より大きければ、良く現れるとする（含む、の定義は、集合で行ったり、文字列の包含、グラフの埋め込みなどで定義する）パターン XYZ {A,C,D} 項目 AXccYddZf {A,B,C,D,E}

トランザクションデータベースパターンとして、集合を考えるトランザクションデータベース：各トランザクション T がアイテム集合 E の部分集合になっているようなデータベース　つまり、　T , ∀T ∈T , T ⊆ E ・ POSデータ（各項目が、客1人の購入品目）・アンケートのデータ（1人がチェックした項目）・ web log （1人が1回のwebサーフィンで見たページ）・オプション装備（車購入時に1人が選んだオプション） 1,2,5,6,7 2,3,4,5 1,2,7,8,9 1,7,9 2,7,9 2 T ＝実際のデータは、大きくて疎なものが多いパワー則、スモールワールドが成り立つ

集合の出現と頻出度集合K に対して： K の出現： K を含むT のトランザクション K の出現集合 I(K)：　 K を含むT のトランザクション全ての集合 K の頻出度 frq(K)：　 K の出現集合の大きさ　{1,2}の出現集合＝　{ {1,2,5,6,7,9}, {1,2,7,8,9} } 1,2,5,6,7,9 2,3,4,5 1,2,7,8,9 1,7,9 2,7,9 2 T ＝　{2,7,9}の出現集合＝　{ {1,2,5,6,7,9}, 　　　　{1,2,7,8,9}, {2,7,9} }

頻出集合・頻出集合：T の定数θ個以上のトランザクションに含まれる集合（頻出度がθ以上の集合）（ θを最小サポートとよぶ）　（頻出度がθ以上の集合）（ θを最小サポートとよぶ）例）データベースT の3つ以上のトランザクションに含まれる集合３つ以上に含まれるもの {1} {2} {7} {9} {1,7} {1,9} {2,7} {2,9} {7,9} {1,7,9} {2,7,9} 1,2,5,6,7,9 2,3,4,5 1,2,7,8,9 1,7,9 2,7,9 2 T ＝

バスケット分析・スーパーなどの小売店舗で、同時に購入される事の多い品物の組を知りたい・客が購入した品目  トランザクション・客が購入した品目  トランザクション・品目の組で、多くの客が購入したもの  多くのトランザクションに含まれるアイテム集合  （あるθに対する）頻出集合 ● 牛乳、弁当 ● お茶、弁当 ● おにぎり、雑誌 ● はさみ、のり ● ラーメン、はし ● こっぷ、皿 ● 弁当、おにぎり　　　．．．「おむつとビールの組合せが良く売れる」という発見が有名

データベースの比較・２つのデータベースが、意味的にどの程度似ているか知りたい  大きさの違い、ノイズは無視したい・各アイテム、属性などの総数だけでは、組合せがわからない・組合せを細かく見ると、ノイズに振り回されるデータベース頻出集合を列挙することで、組合せ的な特徴を比較できる・いろいろな言語の辞書データ・異なる種のゲノムデータ・文書集合の単語データ（新聞のデータ、雑誌のデータなど）・顧客のデータ

分類ルール、特性の発見・データの特徴を現す規則、あるいは正例・負例を分類するような規則が知りたい（A,B,C が含まれている、A,B が含まれれば、C が含まれる、など）・多く現れる組合せを用いないと、仮定部分を満たすものが少なく、ルールとして意味がない・組合せを細かく見ると、ノイズに振り回される頻出集合を仮定に用いることで、信頼度の高いルールを効率良く見つけられるデータベースデータベース正例・実験データ・利用者履歴データ、マーケッティング負例

頻出パターンの単調性・頻出パターンの部分パターンは頻出 111…1  単調性が成り立つ  バックトラック法を適用できる頻出集合であるかどうかのチェックはO(||T ||) 時間、最高 n 方向に登る  １つあたり O(||T ||n) 時間頻出 111…1 000…0 φ 1,3 1,2 1,2,3 1,2,4 1,3,4 2,3,4 1 2 3 4 3,4 2,4 1,4 2,3 1,2,3,4 多項式時間ではあるが、 ||T || も n も大きすぎる

末広がり性の利用１つあたり定数時間で列挙（1秒100万個くらい）・パターン X の出現集合を T とする X＋e の出現は X を含む（＝ X の出現） T の中で e を含むもの  X＋e の出現集合・出現集合を更新すれば、データ全体を見なくて良い・反復が深くなると、見るべき出現集合は小さくなる  末広がり性が活用できる・ θが大きいと、下のレベルでも多くの出現を見ることになるが、不要な要素を除き、同一になったトランザクションをまとめることでデータベースを小さくできる１つあたり定数時間で列挙（1秒100万個くらい）

頻出集合の問題点・面白い頻出集合を見つけようとすると、θを小さくする必要がある  大量の頻出集合が出てくる  大量の頻出集合が出てくる・情報を失わずに、頻出集合的な、数の少ないものを　　　見つけるようにモデルを変えたい１．極大頻出集合：他の頻出集合に含まれない頻出集合２．飽和集合：出現集合が等しいものの中で極大なもの 111…1 000…0

極大頻出集合と飽和集合の例・頻出集合を出現集合で分類３つ以上に含まれるもの {1} {2} {7} {9} {1,7} {1,9} {1} {2} {7} {9} {1,7} {1,9} {2,7} {2,9} {7,9} {1,7,9} {2,7,9} 1,2,5,6,7,9 2,3,4,5 1,2,7,8,9 1,7,9 2,7,9 2 T ＝頻出飽和集合極大頻出集合

両者とも、１つあたりほぼ定数時間、1秒間に1～10万個極大頻出集合と飽和集合極大頻出集合・多項式時間で列挙できるかどうか、未解決・クリークと同じように枝刈りをすると、高速に列挙できる・数が少ないがθによる解のぶれが大きい飽和集合・逆探索という探索手法で多項式時間列挙可能・離散アルゴリズムと末広がり性を用いて、高速列挙可能・出現の意味で情報の損失がない・ノイズが多いと出現集合が等しいものが少なくなり、　　　解の減少効率が悪くなる両者とも、１つあたりほぼ定数時間、1秒間に1～10万個

飽和集合の隣接関係・飽和集合から、添え字の大きい順に要素を抜いていく・どこかで出現集合が大きくなる・その出現集合の飽和集合を求める・こうして求めた飽和集合を、親とする　（一意的に定まる）・親の頻出度は必ず真に大きいので、親子関係は非巡回的　 親子関係は有向根付き木を導出する

逆探索親子関係は有向根付き木を導出するこの木を深さ優先探索すれば全ての解を見つけられる・探索には、子供を見つけるアルゴリズムがあれば十分・子供が１つあたり多項式時間で見つかれば、全体も多項式時間（親に要素を１つ加えて極大をとった飽和集合が子供になる）非巡回的な親子関係と、子供を見つける多項式時間アルゴリズムがあれば、なんでも多項式時間列挙ができる

・データベースの全ての飽和集合とその親子関係親子関係の例・データベースの全ての飽和集合とその親子関係 φ 1,7,9 2,7,9 1,2,7,9 7,9 2,5 2 2,3,4,5 1,2,7,8,9 1,2,5,6,7,9 1,2,5,6,7,9 2,3,4,5 1,2,7,8,9 1,7,9 2,7,9 2 T ＝出現集合が隣接親子関係

親の定義：左が重くなるように子供をソートし、一番右の葉を除去する逆探索の例：　根付き木親の定義：左が重くなるように子供をソートし、一番右の葉を除去する

逆探索の例：フロアプラン（長方形による部屋分け）逆探索の例：　フロアプラン（長方形による部屋分け）親の定義：左上の部屋の右か下の壁をスライドして左上の部屋をつぶす

・実データからとった、著名なベンチマーク問題でテスト・項目数は 1万～ 100万・属性数は 1000 ～ 1万実験結果・実データからとった、著名なベンチマーク問題でテスト・項目数は 1万～ 100万・属性数は 1000 ～ 1万 Pen. M 1GHz 256MB メモリデータ種別 POS クリック Web閲覧顧客単語項目数 51万 99万 7.7万 8.8万 6万データサイズ 330万 800万 31万 90万 23万出力数 460万 110万 53万 37万 100万計算時間 80 秒 34 秒 3 秒 6 秒単純なスキャンは1秒で100パターン程度

参考文献など・頻出集合およびその応用 (’90～) 星の数ほど・頻出集合およびその応用 (’90～)　　星の数ほど　　 “frequent pattern”、”frequent itemset” で検索すると出てくる・極大頻出集合およびその応用 (’90～)　　やはり多い　　 “maximal frequent itemset” などで検索すると出てくる・ pasquerらのアルゴリズム (‘99) 飽和集合の導入・宇野らのアルゴリズムLCM (‘04) 現在最速のアルゴリズム・実装 LCM: (Linear time Closed itemset Miner) 宇野のHP http:research.nii.ac.jp/~uno/ ・レポジトリ　（実装、論文、比較実験の数々） http://fimi.cs.helsinki.fi/

列挙事例：　コードレスサイクルの列挙

・新たな化合物が得られたときに、その組成は比較的容易に得られるが、結合の構造は容易に計測できず、さらに立体的な構造の計測はもっと難しい化合物の立体構造の推定・新たな化合物が得られたときに、その組成は比較的容易に得られるが、結合の構造は容易に計測できず、さらに立体的な構造の計測はもっと難しい NO2 NO2 OH C6H5NO4 O O OH 組成平面構造立体構造化合物すでに構造がわかっている化合物のデータを検索して、構造を推定する

化合物の立体構造の推定・推定する化合物と部分的な平面構造が一致する化合物をデータベースから探し出す  大域的な構造が拾えない　 大域的な構造が拾えない・検索結果を、環構造の複雑さ　　で絞り込む　 立体構造の要因が入り、精度が増す

遺伝ネットワークの依存関係の解析・遺伝子を頂点とし、遺伝子Aが発現すると、遺伝子Bに影響を与え、発現するときに枝を引いたグラフを遺伝ネットワークという・循環している系を見ようとすると、サイクルの構造が必要　 サイクルを列挙することで、どのような構造があるかを解析する A B F C E D

分割法による列挙 111…1 ・サイクルの集合は、単調性を満たさない  バックトラックは適用できない・分割法というアルゴリズムを使う　 バックトラックは適用できない・分割法というアルゴリズムを使う・最初の枝を選ぶ・片方の端点に接続する枝それぞれについて、「その枝を使うサイクル」を再帰的に列挙する・ただし、サイクルができない枝は行わない・最初の枝の、もう片方の端点に帰ってきたところでサイクルがひとつ見つかる 000…0

サイクルの存在のチェック・効率良く列挙するためには、選択した枝を含むサイクルが存在するかどうかを短時間でチェックする必要がある・今まで選択した枝でできるパスの内点を全ての抜いたグラフで、端点から端点へ行ければサイクルが存在グラフ探索1回でできる探索1回で、加える枝全てをチェックできる１つあたりグラフの大きさの時間で列挙できる

実用的には、１つあたり定数時間で列挙できる（1秒10万個）末広がり性の利用・再帰構造の下の部分では、選択したパスの両端点が近い　 幅優先探索でチェックを行えば、　小さい範囲しか探索しない・再帰が深くなるほど、　　反復が短時間で終了するグラフ実用的には、１つあたり定数時間で列挙できる（1秒10万個）・しかし、通常サイクルの数は多い

化合物データのコードレスサイクル数は小さいコードレスサイクルの利用・ショートカットを持たないサイクルをコードレスサイクルという・冗長なサイクルはコードレスにならない（ある意味で極小）・サイクルの本質部分が見える応用上もありがたい・少々の変更で、同様に列挙できる（すでに通った頂点の隣を通ると、コードができてしまうので、それを避ける）化合物データのコードレスサイクル数は小さい 400原子程度の化合物でも高々10万程度  1-2秒

列挙事例：　類似項目ペアの列挙

・類似の他の尺度、ベクトルデータ、包含関係などでも同様の問題データベースから類似する項目を見つける・データベースの、何と何が似ているか、構造が知りたい（近接グラフを作る、クラスタリング、アラインメント、部分比較）・全部のペアが似ていると、２乗の時間がかかる 　単純な全対比較が（計算量の意味で）最適 ATGCCGCG GCGTGTAC GCCTCTAT TGCGTTTC TGTAATGA 　　．．．・ ATGCCGCG と AAGCCGCC ・ GCCTCTAT と GCTTCTAA ・ TGTAATGA と GGTAATGG 　　　　．．．項目数が 1000万個程度でも、素直に全対比較は1年以上かかる・類似の他の尺度、ベクトルデータ、包含関係などでも同様の問題

応用：類似する文字列のペア・長い文字列を比較するとき、どこが似ているか検出できる（似ている部分は、多量の似ているペアを含む）応用：　類似する文字列のペア・多数の短い文字列の中で，類似する（異なりがd文字以下）ペアを全て見つける　　長い文字列データ（ゲノム情報）の，類似部分の候補を絞り込む　　多数の長い文字列データの，類似するペアの候補を絞り込む ATGCCGCG GCGTGTAC GCCTCTAT TGCGTTTC TGTAATGA 　　．．．・ ATGCCGCG と AAGCCGCC ・ GCCTCTAT と GCTTCTAA ・ TGTAATGA と GGTAATGG 　　　　．．．・長い文字列を比較するとき、どこが似ているか検出できる（似ている部分は、多量の似ているペアを含む）・大量の文書データのどの項目のどの部分とどこが似ている、という情報が得られる

基本のアイデア：多方向からの分類・２つの文字列の異なりが、どこにあるか、に注目する基本のアイデア：　多方向からの分類・２つの文字列の異なりが、どこにあるか、に注目する・逆に、「異なりの場所がこことこことここ」と指定したときに、類似するペアを見つける問題を考える　　文字列ソートで線形時間・「異なりの場所」の組合せ全てを尽くすと全ての似ているペアが見つかる・さらに、再帰的な分類、末広がり性、枝刈りを用いると、相当に高速化される AC T CG T AC G CG A GA G TG A GA C TG C TG G TG A

ゲノムの比較ヒト21番染色体とチンパンジー22番染色体の比較・ 3000万文字の文字列×2 から、30文字の切片を3000万個取る・類似するペアを見つける・横方向がヒト、縦方向がチンパンジー、というマトリクスを作って、類似するペアがたくさんあるセルの色を白くする・白い部分が「似ている可能性のある部分」・黒い部分が「(絶対に)似ていない部分」ヒト 21番染色体チンパンジー22番染色体 PCで 3-4時間で可能

最後に：難しい問題・組合せ的でないもの（解がベクトルなど、連続値を取るもの）（施設配置問題の局所最適解、など）最後に：　難しい問題・組合せ的でないもの（解がベクトルなど、連続値を取るもの）（施設配置問題の局所最適解、など）・そもそも解を１つ見つけるのすら困難なもの（最短順回路の列挙、最大安定集合の列挙、など）・同型なものが多数あり、判定が難しいもの　（グラフの列挙、2部グラフの列挙）・データが大きな上、求解に疎性が使えない場合

まとめ・列挙は多面的で、データの全体を解析できる・出力数依存アルゴリズム、解数の小さいモデルの重要性・データ中心の科学：　あいまいな目的に対する解候補の列挙　・極大、代表の利用で解数が小さく意味的に良いモデルの構築・分割法・逆探索により効率な探索・分類、末広がり性の利用が大規模データに対する高速処理の鍵・列挙は、手法の中でまだまだ発展途上・これから利用価値が高まり、モデル・アルゴリズムともに、　　面白いものが出てくるだろう