k 個のミスマッチを許した点集合マッチング・アルゴリズム

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

生物情報ソフトウェア特論 (3)近似文字列マッチング 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター.
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
HBSP モデル上での 行列積を求めるアルゴリ ム 情報論理工学 吉岡健太.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
情報生命科学特別講義III (1) 文字列マッチング
( ) ( ) 行 列 式 置 換 n文字の置換σ: n個の文字{1,2,・・・,n}から自分自身への1対1の写像 1 2 ・・・ n
Bipartite Permutation Graphの ランダム生成と列挙
Lexical Permutation Sorting Algorithm
近似アルゴリズム 第10章 終了時刻最小化スケジューリング
情報生命科学特別講義III (8)木構造の比較: 順序木
Permutationグラフと Distance-Hereditaryグラフの 再構築アルゴリズム
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(3) + 数理談話会 木構造および画像データの文法圧縮
Approximation of k-Set Cover by Semi-Local Optimization
Reed-Solomon 符号と擬似ランダム性
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
京都大学 化学研究所 バイオインフォマティクスセンター
集中講義(九州大学数理学研究院) バイオ構造データに対する数理モデルと アルゴリズム(5) 木構造データ間の編集距離
生物情報ソフトウェア特論 (1) 文字列マッチング・データ構造
情報生命科学特別講義III (11) RNA二次構造予測
生物情報ソフトウェア特論 (8) RNA二次構造予測
生物情報ソフトウェア特論 (3)近似文字列マッチング
情報生命科学特別講義III (4)近似文字列マッチング
喜田 拓也,竹田 正幸,篠原 歩 九州大学大学院システム情報科学府 情報理学専攻
生命情報学入門 配列のつなぎ合わせと再編成
決定木とランダムフォレスト 和田 俊和.
Fast Pattern Matching Algorithms in Compressed Texts
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
情報生命科学特別講義III (12) タンパク質立体構造の比較と予測
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
Hough変換 投票と多数決原理に基づく図形の検出
Proceedings of the Third South American Workshop on String Processing.
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
Extractor D3 川原 純.
九州大学大学院 情報学専攻特別講義 (3) 配列解析
計算量理論輪講 chap5-3 M1 高井唯史.
分子生物情報学(2) 配列のマルチプルアライメント法
情報生命科学特別講義III (13) 固定パラメータアルゴリズムと 部分k木
A Dynamic Edit Distance Table
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
計算の理論 II 前期の復習 -有限オートマトン-
計算の理論 I ε-動作を含むNFA 月曜3校時 大月 美佳.
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター
九州大学大学院 情報学専攻特別講義 (2) 配列アラインメント
九州大学大学院 情報学専攻特別講義 (6) 固定パラメータアルゴリズムと 部分k木
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
九州大学大学院 情報学専攻特別講義 (5)タンパク質立体構造の比較と予測
B03 量子論理回路の 最適化に関する研究 西野哲朗,垂井淳,太田和夫,國廣昇 電気通信大学 情報通信工学科.
サポートベクターマシン Support Vector Machine SVM
生物情報ソフトウェア特論 (8) RNA二次構造予測
直並列グラフの連続多重彩色 西関研究室 吉田進太郎.
人工知能特論II 第8回 二宮 崇.
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
ソートのプログラムの流れ 配列の中身を小さい順に並び替える a[1],a[2],…a[n]の値を順に出力する
4.プッシュダウンオートマトンと 文脈自由文法の等価性
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
生命情報学特論 (6) 固定パラメータアルゴリズムと 部分k木
パターン認識特論 カーネル主成分分析 和田俊和.
生物情報ソフトウェア特論 (4)配列解析II
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
計算の理論 I ー ε-動作を含むNFA ー 月曜3校時 大月 美佳.
グラフの列挙 中野 眞一    (群馬大学) 2019/9/14 列挙学校.
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
生物情報ソフトウェア特論 (10)固定パラメータアルゴリズムと 部分k木
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
空間図形の取り扱いについて.
Presentation transcript:

k 個のミスマッチを許した点集合マッチング・アルゴリズム 阿久津達也 京都大学 化学研究所 バイオインフォマティクスセンター

点集合合同性判定 最大共通部分点集合

研究の背景 (1) 合同性判定 最大共通部分点集合 [Akutsu,Tamaki,Tokuyama, 1998] 研究の背景 (1) 合同性判定 O(n log n) (3次元以下) [Atkinson, 1987] O(nd-2 log n) [Alt et al. 1988] O(n(d-1)/2 log n) (randomized) [Akutsu, 1998] O(nd/4+O(1) log n) (randomized) [Matousek, 1998] 最大共通部分点集合 [Akutsu,Tamaki,Tokuyama, 1998] 2次元で O(n3.2 log n) 3次元で O(n4.69 log n) ⇒ 二つの問題の時間計算量の間に大きな差 (両者ともパターン認識などにおける基本的問題)

研究の背景 (2) ⇒ 点集合で誤りの個数を制限した場合は? 文字列マッチング Exact マッチング: O(m+n) 研究の背景 (2) 文字列マッチング Exact マッチング: O(m+n) 近似マッチング: O(mn) k 個の誤りのみを許した場合: O(kn) ⇒ 点集合で誤りの個数を制限した場合は?

本研究の結果 最大共通部分点集合問題においてマッチしない点の個数を k 以下とした場合の効率的アルゴリズム 数値列に対する近似マッチング

近似文字列マッチング 近似文字列マッチング 編集距離(edit distance)が最小のマッチを求める 距離=置換(substitution)+挿入(insertion)+削除(deletion) 動的計画法により O(mn)時間(|P|=m, |Q|=n) 距離がk以下の時、 O(kn)時間 [Landau & Vishkin 1989] 動的計画法+suffix tree

動的計画法による近似文字列マッチ

距離がk以下の場合の近似文字列マッチ L[d,e]: D[i,j]=e かつ j-i=d となる最大の行 i Suffix tree を用いて  定数時間で実行可能  ⇒ O(kn) 時間

点集合マッチング問題: LCP-kDIFF 入力 d-次元空間上の点集合 P , Q (|P|=m, |Q|=n, m≦n) 非負整数 k 出力: 以下の等長変換 T (無い場合は No) (i.e., 共通部分に含まれない点の個数が高々 k 個)

1次元の場合(1): mmsp(pi,qj) mmsp(pi,qj) 補題: O(n log n) 時間の前処理により、 |mmsp(pi,qj)|は O(1) 時間で計算可能 証明:Σ={ |pi+1 – pi|, |qj+1 – qj| }として suffix treeを構成

1次元の場合(2): アルゴリズム

1次元の場合(3): 計算量 定理1: 1次元 LCP-kDiff ⇒ O(k3 + n log n)時間 ランダムサンプリングの利用 各(pi0,qj0)あたり O(k)時間、  全部で O(k2)個のペア  ⇒  O(k3)時間 mmsp の前処理 ⇒ O(n log n)時間 ランダムサンプリングの利用 Pからランダムにサンプルすれば、その点は高確率でLCPに所属 ⇒ O(k)時間を節約可能 系1: 1次元 LCP-kDiff ⇒ 高確率で O((k2 + n) log n) 時間

2次元の場合(1): 点の順序づけ 点に適切な順序 ⇒ suffix tree が利用可能 pi ≺ pi’ ⇔ θ(pi) < θ(pi’) or ( θ(pi) =θ(pi’) and | pi – p0| < | pi’ – p0| )

2次元の場合(2): 計算量 定理2: 2次元LCP-kDiff ⇒ O(k3n4/3+ kn2 log n)時間 Pから O(k2) ペア ⇒ 一つのペアは LCP に所属 (p0,p1) と合同な Q のペア (q0,q1) の個数: O(n4/3) 各 ((p0,p1), (q0,q1)) あたり、O(k) 時間 ランダムサンプリングの利用 Pからペアをランダムにサンプルすれば、そのペアは高確率でLCPに所属 ⇒ O(k2)時間を節約可能 系3: 2次元 LCP-kDiff ⇒ 高確率で O(kn4/3 log n + n2log2n) 時間

3次元の場合(1): 点の順序づけ 以下の情報を用いて順序づけ 平面 pi1, pi2, pi と、平面 pi1, pi2, pi3 のなす角度 pi - pi1 と pi2 - pi1 の内積 pi と直線 pi1 pi2 の距離

3次元の場合(2): 計算量 定理3: 3次元LCP-kDiff ⇒ O(k4n1.8log n + k2n5/2 log2n) 時間 Pから O(k3) 個の三つ組 ⇒ 一つは LCP に所属 (pi1, pi2 , pi3) と合同な Q の三つ組の個数: O(n1.8 log n) (pi1, pi2)と合同な Q のペアの個数: O(n3/2 log n) 各ペアについて suffix tree を構成: O(n log n) ランダムサンプリングの利用 Pから三つ組をランダムにサンプル ⇒ O(k3)時間を節約可能 系4: 3次元 LCP-kDiff ⇒ 高確率で O(k n1.8 log2n + n5/2 log3n) 時間

1次元数値列の近似マッチング (1) 入力: 数値列 P, Q 最大誤差 ε 出力: P との編集距離が k 以下の Q の位置 1次元数値列の近似マッチング (1) 入力: 数値列 P, Q 最大誤差 ε 出力: P との編集距離が k 以下の Q の位置     ただし、pi と qj がマッチ ⇔ |pi-qj|<ε

1次元数値列の近似マッチング (2) 誤差としてミスマッチのみを許した場合 1次元数値列の近似マッチング (2) 誤差としてミスマッチのみを許した場合 O(m1/2n log m)時間 [Amir, Farach, 1995] Convolution を利用

1次元数値列の近似マッチング (3) 定理4: 数値列の近似マッチング ⇒ O(k1/3m2/3 n log m) 時間 1次元数値列の近似マッチング (3) Don’t careつき近似マッチング [Akutsu, 1995] Suffix tree が利用できないので、テーブルを利用 [Amir, Farach, 1995]との組合せで、以下が成立 定理4: 数値列の近似マッチング ⇒          O(k1/3m2/3 n log m) 時間

結論 課題 高次元の場合の検討 相似マッチの場合の検討 誤差を許した場合の検討