酒居敬一(sakai.keiichi@kochi-tech.ac.jp) アルゴリズムとデータ構造 2011年7月12日酒居敬一(sakai.keiichi@kochi-tech.ac.jp) http://www.info.kochi-tech.ac.jp/k1sakai/Lecture/ALG/2011/index.html.

Slides:

Advertisements

Similar presentations

山元進.  for 文  while 文  do ~ while 文  文のネスト  break 文  continue 文.

Advertisements

アルゴリズムとデータ構造 2011年7月7日

プログラミング基礎I(再) 山元進.

アルゴリズムとデータ構造 2012年6月27日

アルゴリズムとデータ構造1 2008年7月22日

アルゴリズムとデータ構造 2012年7月26日

プログラミング基礎I(再) 山元進.

アルゴリズムとデータ構造 2012年7月19日

プログラミング基礎I(再) 山元進.

アルゴリズムとデータ構造第9回演習解答.

第２回：Javaの変数と型の宣言プログラミングII 2007年10月2日.

String - 文字列 2009年10月9日 7ADD2116　佐藤洋輔.

文字列探索 2011/5/30.

アルゴリズムとデータ構造 2011年6月13日

第20章 Flyweight ～同じものを共有して無駄をなくす～

アルゴリズムとデータ構造 2011年6月20日

アルゴリズムとデータ構造 2013年7月18日

アルゴリズムとデータ構造 2012年7月12日

データ構造とプログラミング技法（第10回）ー文字列照合（KMP法、BM法）ー.

アルゴリズムとデータ構造 2011年7月4日

アルゴリズムとデータ構造 2012年6月28日

アルゴリズムとデータ構造 2011年6月27日

アルゴリズムとデータ構造 2013年7月16日

データ構造とアルゴリズム第14回文字列の照合.

プログラミング 4 記憶の割り付け.

アルゴリズムとデータ構造1 2005年7月15日

アルゴリズムとプログラミング (Algorithms and Programming)

暗号技術～JAVAプログラム①～（５週目）

コンパイラ 2012年11月15日

アルゴリズムとデータ構造1 2005年7月1日

P n ポインタの基礎 5 q m 5 7 int* p; int 型の変数を指すポインタ int* q; int 型の変数を指すポインタ int n=5, m=7; int 型の変数 int array[3]; int* pArray[3]; p = &n; ポインタにアドレスを代入しているのでOK.

アルゴリズムとデータ構造 2012年7月17日

アルゴリズムとデータ構造1 2009年7月9日

アルゴリズムとデータ構造1 2005年7月5日

アルゴリズムとデータ構造1 2005年6月24日

アルゴリズムとデータ構造 2010年6月21日

アルゴリズムとデータ構造 2011年7月21日

オブジェクト指向プログラミング第六回知能情報学部新田直也.

アルゴリズム論（第１２回）佐々木研（情報システム構築学講座）講師　山田敬三

アルゴリズムとデータ構造1 2006年7月11日

アルゴリズムとデータ構造 2011年6月23日

アルゴリズムとプログラミング (Algorithms and Programming)

オブジェクト指向プログラミング第六回知能情報学部新田直也.

プログラミング言語論第十一回理工学部情報システム工学科新田直也.

アルゴリズムとデータ構造 2012年7月2日

アルゴリズムとデータ構造 2012年6月11日

アルゴリズムとデータ構造 2011年7月11日

アルゴリズムとプログラミング (Algorithms and Programming)

暗号技術～JAVAプログラム②～（６週目）

アルゴリズムとデータ構造 2011年6月28日

アルゴリズムとデータ構造1 2006年6月23日

アルゴリズムとデータ構造 2013年7月1日

アルゴリズムとデータ構造 2013年7月2日

アルゴリズムとデータ構造 2013年7月8日

アルゴリズムとデータ構造1 2009年6月15日

アルゴリズムとデータ構造 2012年6月25日

オブジェクト指向プログラミング第四回知能情報学部新田直也.

アルゴリズムとデータ構造 2012年6月21日

アルゴリズムとデータ構造 2010年6月17日

Javaとは Javaとはオブジェクト指向言語でJava VM(Java仮想マシン)と呼ばれるプログラム上で動作します。

データ構造とアルゴリズム第14回文字列の照合.

アルゴリズムとデータ構造1 2005年7月12日

アルゴリズムとデータ構造1 2007年7月6日

プログラミング演習II 2004年11月 16日（第5回）理学部数学科・木村巌.

８．文字列処理８．１　Ｃ＃の文字列Ｃ＃では， “ABCD”のように文字列を２重引用符で挟んで指定します。ASCIIコード体系のとき，以下のような内部形式となります。 1 1 文字 ‘A’ ナル文字 1 1 文字 ‘B’ A B C D \ 文字 ‘C’ 1 1 文字 ‘D’ ナル文字‘\0’

オブジェクト指向プログラミング第六回知能情報学部新田直也.

ねらい数値積分を例題に、擬似コードのアルゴリズムをプログラムにする。

計算機プログラミングI 第10回 2002年12月19日(木) メソッドの再定義と動的結合クイズメソッドの再定義 (オーバーライド)

計算機プログラミングI 第5回 2002年11月7日(木) 配列: 沢山のデータをまとめたデータどんなものかどうやって使うのか

アルゴリズムとデータ構造 2012年7月9日

Presentation transcript:

酒居敬一(sakai.keiichi@kochi-tech.ac.jp) アルゴリズムとデータ構造 2011年7月12日酒居敬一(sakai.keiichi@kochi-tech.ac.jp) http://www.info.kochi-tech.ac.jp/k1sakai/Lecture/ALG/2011/index.html

文字列の照合（２９８ページ）テキストとパターンの長さをそれぞれｎ，ｍとしたとき、それぞれ次のように配列で与えられているとする。ｃｈａｒ［］　ｔｅｘｔ＝ｎｅｗｃｈａｒ［ｎ］；ｃｈａｒ［］　ｐａｔｔｅｒｎ＝ｎｅｗｃｈａｒ［ｍ］；文字列照合あるいは文字列探索とは、テキストとパターンに関して次のような関係の成り立つｐｏｓを求めることである。

素朴なアルゴリズム素朴なアルゴリズムでは、テキストの最初から順にパターンと一致する部分があるかどうかを調べていく。（２９９ページ） public class SimpleMatch { public static int match(char[] text, char[] pattern){ shift: for(int i = 0; i <= (text.length - pattern.length); i++){ for(int j = 0; j < pattern.length; j++){ if(text[i+j] != pattern[j]){ continue shift; } return i; return -1; 一致しなければ、１文字ずらしてやりなおし最後まで一致したら終了

「テキスト内でパターンが見付かったか」「パターン」 6 「計算量を気にしなければ、この問題の解法はいとも簡単である。」「テキスト」 -1 public static void main(String[] args) { String a, b; int c; a = "テキスト内でパターンが見付かったか"; b = "パターン"; c = match(a.toCharArray(), b.toCharArray()); System.out.println("「" + a + "」「" + b + "」 " + c); a = "計算量を気にしなければ、この問題の解法はいとも簡単である。"; b = "テキスト"; a = "KMPアルゴリズムの比較の回数は、最大2n回である。つまり計算量は…"; b = "、最大"; a = "Dijkstraって読むの難しいよね。ダイクストラって発音するんだよ。"; b = "偉い人なんだよ。"; a = "アルゴリズムとデータ構造"; b = "オペレーティングシステム"; } 「テキスト内でパターンが見付かったか」「パターン」 6 「計算量を気にしなければ、この問題の解法はいとも簡単である。」「テキスト」 -1 「KMPアルゴリズムの比較の回数は、最大2n回である。つまり計算量は…」「、最大」 16 「Dijkstraって読むの難しいよね。ダイクストラって発音するんだよ。」「偉い人なんだよ。」 -1 「アルゴリズムとデータ構造」「オペレーティングシステム」 -1

素朴なアルゴリズムは時間計算量はＯ（ｍｎ）。実装が簡単なので実行したときの性能はそう悪くない。ａａａａａａ＝＝＝＝＝ ≠ ≠ ≠ ａｂａｂａｂ一致したという情報を再利用すれば、比較回数が減る。そこで、ｔ文字一致した後に不一致が検出されたとき、パターンをテキストに対してどれだけ進めればいいか、パターンのどこから比較を開始すればいいかを求めておく。ａａａａａａテキストとパターンの比較は不一致のあったところからになる。テキストストリームの逆戻りがない。＝＝＝＝＝ ≠ ≠ ≠ ａｂａｂａｂ

Knuth-Morris-Pratt のアルゴリズム（３０１ページ）あらかじめパターンを調べておいて不一致が起きたときに、比較回数を減らすべく、次の比較位置を決定する。比較中のテキストの文字位置に戻りがない。後述のＢＭアルゴリズムほどではないが、素朴なアルゴリズムより実行性能は良い。

ａｂｃａａｂａｃｃｃｂテキストパターン３文字目で不一致ａｂａｂ２文字目で不一致ａｂ４文字目で不一致ａｂ１文字目で不一致ａｂ１文字目で不一致０１ Pascal的添え字ｎｅｘｔ配列の内容 -1 ０ Java的添え字

ａｂｄｅａａｂｃａｂｄｆａｂａｂパターン -1 1 1 2 1 2 3 1 2 1 変数ｔ先頭先頭から全く一致なし先頭から全く一致なし先頭から全く一致なし先頭から１文字一致先頭から１文字一致先頭から２文字一致先頭から全く一致なし先頭から１文字一致先頭から２文字一致先頭から３文字一致先頭から全く一致なし先頭から１文字一致先頭から２文字一致先頭から１文字一致先頭から２文字一致ｎｅｘｔ配列（Ｊａｖａ） -1 -1 1 2 -1 3 -1 2 パターンの中で、パターン先頭から始まる部分文字列が　パターン中に現れるかどうかを調べる。これまで一致していた部分文字列の有無、不一致文字が部分文字列　のどこ含まれているかどうかで操作を決定する。

パターンは先頭から、テキストは未比較の文字位置からそれぞれ比較するというフラグ。（ｊ-２）文字の一致が見られたときに、 public class KnuthMorrisPratt { private static void kmpinit(char[] pattern, int[] next){ int t = -1; next[0] = -1; for(int j = 1; j < pattern.length; j++){ while((t >= 0) && (pattern[j-1] != pattern[t])) t = next[t]; t++; if(pattern[j] != pattern[t]) next[j] = t; else next[j] = next[t]; } private static int kmpmatch(char[] text, char[] pattern, int[] next){ int i = 0; int j = 0; while((i < text.length) && (j < pattern.length)){ while((j >= 0) && (text[i] != pattern[j])){ j = next[j]; i++; j++; if(j < pattern.length) return -1; return i - j; public static int match(char[] text, char[] pattern){ int[] next = new int[pattern.length]; kmpinit(pattern, next); return kmpmatch(text, pattern, next); パターンは先頭から、テキストは未比較の文字位置からそれぞれ比較するというフラグ。（ｊ-２）文字の一致が見られたときに、パターンを少しずらせて比較を続けるテキストの中で、パターンと現在比較しているところを指す。ｉ＝０から単調増加である。

Boyer-Mooreのアルゴリズム（３０４ページ）あらかじめパターンを調べておいて不一致が起きたときに、比較回数を減らすべく、次の比較位置を決定する。２つの作戦により、比較回数を減らす。ＫＭＰアルゴリズムでは少なくとも１回は、テキストの文字を調べないといけないが、この方法では１回も調べない文字が存在する。その分速い。パターンは後ろから比較する。

作戦１ｘテキストパターンａｂｃ最初の比較で不一致ａｂｃ比べるだけ無駄ａｂｃ比べるだけ無駄新たなるテキストからならば、比べる意味はあるａｂｃ図５.１.５　作戦１（その１）ａテキストパターンａｂｃ最初の比較で不一致ａｂｃ比べるだけ無駄１文字目が一致するので、２文字目以降比べる意味はあるａｂｃ図５.１.５　作戦１（その２）

ハッシュテーブルを使うと簡単なので教科書の擬似プログラムを書き換えた。パターンに含まれる文字をキー、スキップ量を値としている。 public class BoyerMooreMap { private static void bminit(char[] pattern, Map<Character, Integer> skip){ for(int j = 0; j < pattern.length - 1; j++){ skip.put(pattern[j], pattern.length - j - 1); } public static int bmmatch(char[] text, char[] pattern, Map<Character, Integer> skip){ shift: for(int i = pattern.length - 1; i < text.length;){ for(int j = pattern.length - 1; j >= 0; i--, j--){ if(text[i] != pattern[j]){ // 教科書のプログラム5.1.8そのまま Integer s = skip.get(text[i]); if(s == null) i += pattern.length; else i += Math.max(s, pattern.length - j); continue shift; return ++i; return -1; public static int match(char[] text, char[] pattern){ Map<Character, Integer> skip = new HashMap<Character, Integer>(pattern.length*2); bminit(pattern, skip); return bmmatch(text, pattern, skip); ハッシュテーブルを使うと簡単なので教科書の擬似プログラムを書き換えた。パターンに含まれる文字をキー、スキップ量を値としている。

計算の手間はともかく、動作の理解にはいったん元に戻す方法も悪くない。 public class BoyerMooreMap { private static void bminit(char[] pattern, Map<Character, Integer> skip){ for(int j = 0; j < pattern.length - 1; j++){ skip.put(pattern[j], pattern.length - j - 1); } public static int bmmatch(char[] text, char[] pattern, Map<Character, Integer> skip){ shift: for(int i = pattern.length - 1; i < text.length;){ for(int j = pattern.length - 1; j >= 0; i--, j--){ if(text[i] != pattern[j]){ // 教科書の３０９ページにあるようにiを元に戻した場合。 i += pattern.length - 1 - j; Integer s = skip.get(text[i]); i += (s == null)? pattern.length: s; continue shift; return ++i; return -1; public static int match(char[] text, char[] pattern){ Map<Character, Integer> skip = new HashMap<Character, Integer>(pattern.length*2); bminit(pattern, skip); return bmmatch(text, pattern, skip); 計算の手間はともかく、動作の理解にはいったん元に戻す方法も悪くない。

パターンの比較を末尾から行うということを除けば、作戦２パターンの比較を末尾から行うということを除けば、ＫＭＰアルゴリズムと考え方は同じ。ｂａテキストｘｂ３文字目で不一致２文字目で不一致ａｂｃａｂａｂｃ無駄ａｂ無駄ａｂｃ無駄ａｂ無駄ａｂｃａｂ無駄図５.１.１０　作戦２（その１）ａｂ図５.１.１１　作戦２（その２）

× 文字の並びが同じ部分がある（ただし、○≠△）少しずらせる。 ○ 図５.１.１２　場合1 △ × 文字の並びが同じ部分が少しあるかなりずらせる。 ○ 図５.１.１３　場合２ × 文字の並びが同じ部分がない ○ 図５.１.１４　場合３

ｂｍｍａｔｃｈメソッドなどは次のページで… public class BoyerMoore { private static void bminit(char[] pattern, Map<Character, Integer> skip, int[] next){ int[] g = new int[pattern.length]; int j; for(j = 0; j < pattern.length; j++){ next[j] = 2*pattern.length - j - 1; // length + (length - j - 1) } j = pattern.length; for(int k = pattern.length - 1; k >= 0; k--, j--){ g[k] = j; while((j < pattern.length) && (pattern[j] != pattern[k])){ next[j] = Math.min(next[j], pattern.length - k - 1); j = g[j]; int s = j; next[j] = Math.min(next[j], s + pattern.length - j - 1); if(j >= s){ s = g[s]; for(j = 0; j < pattern.length - 1; j++){ skip.put(pattern[j], pattern.length - j - 1); ｎｅｘｔを求める教科書のｍ－ｊに相当するＪａｖａ表現ｓｋｉｐを求めるｂｍｍａｔｃｈメソッドなどは次のページで…

public static int bmmatch(char[] text, char[] pattern, Map<Character, Integer> skip, int[] next){ shift: for(int i = pattern.length - 1; i < text.length;){ for(int j = pattern.length - 1; j >= 0; i--, j--){ if(text[i] != pattern[j]){ Integer s = skip.get(text[i]); if(s == null){ i += Math.max(pattern.length, next[j]); } else { i += Math.max(s, next[j]); } continue shift; return ++i; return -1; public static int match(char[] text, char[] pattern){ Map<Character, Integer> skip = new HashMap<Character, Integer>(pattern.length*2); int[] next = new int[pattern.length]; bminit(pattern, skip, next); return bmmatch(text, pattern, skip, next);

期末試験教室: Ｃ１０１日時: ２０１１年７月２５日１６時３０分～１８時００分持ち込み可学生証必携入室限度: １６時５０分まで退出可能: １７時００分より持ち込み可教科書・資料(自筆・コピー問わず)は持ち込み可人間・パソコン・携帯電話・PHSなど持ち込み不可学生証必携持っていない場合は教務で発行してもらうこと