篠原 歩,石野 明 東北大学情報科学研究科 竹田 正幸 九州大学システム情報科学研究院 下薗 真一,坂本 比呂志 九州工業大学情報工学部

Slides:



Advertisements
Similar presentations
組合せ最適化輪講 2.3 連結性 川原 純. 2.3 連結性 内容 – グラフ上の節点をすべてたどるアルゴリズム 計算機上でのグラフの表現 – 強連結成分を求めるアルゴリズム トポロジカル順序を求める方法も – k- 連結、 k- 辺連結について – 2- 連結グラフの耳分解について.
Advertisements

効率的に計算可能な 加法的誤りの訂正可能性 安永 憲司 九州先端科学技術研究所 SITA 2012 @ 別府湾ロイヤルホテル
Division of Process Control & Process Systems Engineering Department of Chemical Engineering, Kyoto University
プログラミング言語論 第10回(演習) 情報工学科 木村昌臣   篠埜 功.
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
情報生命科学特別講義III (1) 文字列マッチング
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
LZ圧縮回路の設計とハード・ソフト 最適分割の検討 電子情報デザイン学科 高性能計算研究室 4回生 中山 和也 2009/2/27.
作成支援ツール“TTEdit”を用いた フォントの自作 -Webデザインコンテスト参加作品(2007)-
Bipartite Permutation Graphの ランダム生成と列挙
データ構造と アルゴリズム 第十二回 知能情報学部 知能情報学科 新田直也.
Lexical Permutation Sorting Algorithm
情報理論2 注意!! 11月26日(火)は休講 (小林が学会出張のため) 湘南工科大学情報工学科 准教授 小林 学 湘南工科大学
1/16 卒業研究中間発表 D2553  佐藤佳代子.
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
香川大学工学部 富永浩之 情報数学1 第5-2章 命題論理式の 同値変形とカルノー表 香川大学工学部 富永浩之
データ構造と アルゴリズム 第二回 知能情報学部 新田直也.
情報科学1(G1) 2016年度.
2012年度 情報数理 ~ QRコードを作ろう!(1) ~.
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
言語処理系(5) 金子敬一.
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
変更文の移動を可能にした 静的単一代入形式上の部分冗長性除去
データ構造とプログラミング技法 (第10回) ー文字列照合(KMP法、BM法)ー.
4. 組み合わせ回路の構成法 五島 正裕.
生物情報ソフトウェア特論 (1) 文字列マッチング・データ構造
k 個のミスマッチを許した点集合マッチング・アルゴリズム
喜田 拓也,竹田 正幸,篠原 歩 九州大学大学院システム情報科学府 情報理学専攻
形式言語の理論 5. 文脈依存言語.
スペクトル法の一部の基礎の初歩への はじめの一歩
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
データ構造とアルゴリズム 第14回 文字列の照合.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
6. ラプラス変換.
半構造化テキストに対する 文字列照合アルゴリズム
暗号技術 ~暗号技術の基本原理~ (1週目) 情報工学科  04A1004 石川 真悟.
データ圧縮技術による文字列照合処理の高速化に関する研究
情報処理Ⅱ 第2回:2003年10月14日(火).
プログラミング 4 探索と計算量.
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
長さの制限付きギャップと 文字クラスを含むパタンに対する 照合アルゴリズムの改善
プログラミング言語論 第9回 情報工学科 木村昌臣 篠埜 功.
生物情報ソフトウェア特論 (2)たたみ込みとハッシュに 基づくマッチング
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
5.チューリングマシンと計算.
第14回 前半:ラムダ計算(演習付) 後半:小テスト
プログラミング言語論 第10回 情報工学科 篠埜 功.
情報処理Ⅱ 2005年1月25日(火) レポート課題2の解説.
精密工学科プログラミング基礎 第7回資料 (11/27実施)
4.プッシュダウンオートマトンと 文脈自由文法の等価性
情報処理Ⅱ 第7回 2004年11月16日(火).
プログラミング基礎a 第3回 C言語によるプログラミング入門 データ入力
情報処理Ⅱ 2007年12月3日(月) その1.
香川大学工学部 富永浩之 情報数学1 第5-2章 命題論理式の 同値変形とカルノー表 香川大学工学部 富永浩之
コンパイラ 2012年10月11日
精密工学科プログラミング基礎Ⅱ 第2回資料 今回の授業で習得してほしいこと: 配列の使い方 (今回は1次元,次回は2次元をやります.)
情報数理Ⅱ 第10章 オートマトン 平成28年12月21日.
情報生命科学特別講義III (3)たたみ込みとハッシュに 基づくマッチング
データ構造とアルゴリズム 第14回 文字列の照合.
情報処理Ⅱ 2005年11月25日(金).
コンピュータの高速化により, 即座に計算できるようになってきたが, 手法的にはコンピュータ出現以前に考え出された 方法が数多く使われている。
2008年度 情報数理 ~ 授業紹介 ~.
グラフの帯域幅連続多重彩色 を求めるアルゴリズム (Bandwidth Consective Multicolorings of Graphs) 西関研究室 西川和秀.
アルゴリズム ~すべてのプログラムの基礎~.
Presentation transcript:

篠原 歩,石野 明 東北大学情報科学研究科 竹田 正幸 九州大学システム情報科学研究院 下薗 真一,坂本 比呂志 九州工業大学情報工学部 非明示的表現に対する アルゴリズムの開発 A09班 計算の対象が明示的に与えられるのではなく, それを生成する文法や論理式,数式などを用いて 非明示的に表現されて与えられたときに,それを効率よく処理するアルゴリズムの開発と計算量の解析を行う. 篠原 歩,石野 明     東北大学情報科学研究科 竹田 正幸    九州大学システム情報科学研究院 下薗 真一,坂本 比呂志  九州工業大学情報工学部

フィボナッチ文字列abaababaabaababaabaababaの さまざまな表現 f0 = b f1 = a fn = fn-1・ fn-2 (n≥2)  6 4 1 b a 2 7 3 5 漸化式,文法 f2=ab f3=aba f4=abaab f5=abaababa f6=abaababaabaab f7=abaababaabaababaababa OBDD風 方程式 compress gzip bzip2 : 圧縮 アルゴリズムの効率のよさや問題の計算量は通常,入力長に対する関数として評価される.したがって,問題の対象をどのように表現するか大きく依存する.例えば,単純な文字列照合問題を例にとってみても,入力となる文字列が圧縮された形式で与えられたとすると,そのためのアルゴリズムの開発や計算量の評価は全く違ったものとなる.本研究では,このような着想を一般化し,計算の対象が明示的に与えられるのではなく,それを生成する文法や論理式,数式などを用いて非明示的に表現されて与えられたときに,それを効率よく処理するアルゴリズムの開発と計算量の解析を行うことを目的とする.同時に,効率のよいアルゴリズムの開発に適した非明示的な表現法そのものについて,文字列やグラフなどの離散構造に力点をおいて研究を展開する.

BW変換すると b9a15 になる bzip2で 圧縮しやすい abaababaabaababaabaababa aabaababaabaababaabaabab aababaabaababaabaababaab abaabaababaabaababaabaab abaababaabaababaabaababa ababaabaababaabaababaaba baabaababaabaababaabaaba baababaabaababaabaababaa babaabaababaabaababaabaa BW変換すると b9a15 になる bzip2で 圧縮しやすい

フィボナッチ文字列はbzip2でよく縮む b1a1 b1a2 b2a3 b3a5 b5a8 b8a13 f2=ab f3=aba BW変換 f2=ab f3=aba f4=abaab f5=abaababa f6=abaababaabaab f7=abaababaabaababaababa b1a1  b1a2  b2a3  b3a5 b5a8  b8a13   BW逆変換

OBDDで表現された文字列に対する 圧縮パターン照合 [DLT2004] テキストの圧縮表現 パターンの圧縮表現 b a O(n2m)時間 節点数n b a 節点数m 圧縮パターン照合 アルゴリズム 出現位置は{6} 愚直に適用すると O(2m + 2n)時間かかる 仮想の世界 O(M+N)時間 abaababaabaababa パターン照合 アルゴリズム 1 2 3 4 5 6 7 8… 長さN abaababaabaababa abaabaab abaabaab 長さM

OBDD ⋍ MPMG  SLP OBDD X1 = a X2 = b X3 = X1 X2 X4 = X1 X1 X5 = X2 X1 T = abaababa x3 x2 x1 b a X2 X3 X1 a b X4 X5 X6 X7 X8 OBDD

T = (aaab)n Good Compression for Repetitive Text a X1 b X2 X6 X7 X3 X4

Example of MPM Grammar T = abaabababbaba X1 = a X2 = b X3 = X1 X2

OBDDで表現された文字列に対する 圧縮パターン照合 [DLT2004] テキストの圧縮表現 パターンの圧縮表現 b a O(n2m)時間 節点数n b a 節点数m 圧縮パターン照合 アルゴリズム 出現位置は{6} 愚直に適用すると O(2m + 2n)時間かかる 仮想の世界 O(M+N)時間 abaababaabaababa パターン照合 アルゴリズム 1 2 3 4 5 6 7 8… 長さN abaababaabaababa abaabaab abaabaab 長さM

一般の文章から回文はほとんど見つからない 回文の検出 第7回日本ことば遊び・回文コンテスト最優秀作品 出涸らしに 求める駄菓子 噛む夫婦 昔語る目 共に白髪で 英語の回文   A Santa lived as a devil at NASA 著者名-作品名 文字数 長さ6以上の回文 芥川 竜之介-戯作三昧 23815 1 平林 初之輔-文学方法論 20896 宮本 百合子-一連の非プロレタリア的作品 19180 最低限の回文の長さを入れる. 回文の作者を明記する. 57577の非常に面白い回文であると紹介する. 一般の文章から回文はほとんど見つからない 10

rev(SL)とSRのレーベンシュタイン距離が2 近似回文 レーベンシュタイン回文の例 (誤り2) SL ニ ハ タ ラ イ テ イ ツ タ ハ ン ニ SR 反転 イ ラ タ ハ ニ rev(SL) に働いて行った犯人(青空文庫より) rev(SL)とSRのレーベンシュタイン距離が2 誤りkのすべてのレーベンシュタイン回文を検出するO(k2n)時間アルゴリズム                                        [Porto et.al.2002] 誤りkのすべてのハミング回文を検出するO(kn)時間アルゴリズム 11 11

Webテキストからの近似回文検出 レーベンシュタイン回文検出アルゴリズムの適用 HTMLテキスト <h1>「竹やぶ」焼けた。</h1> HTMLタグの除去 漢字かなテキスト 「竹やぶ」焼けた。 MeCabにより変換 かなテキスト 「タケヤブ」ヤケタ。 濁音等を清音に置換 清音かなテキスト 「タケヤフ」ヤケタ。 HTMLから記号除去テキストまでのプロセスは省略して表示. 前処理が必要であることを説明すればよい. カナと長音以外の記号を除去 記号除去かなテキスト タケヤフヤケタ レーベンシュタイン回文検出アルゴリズムの適用 12

Webアプリケーションの実装 検索語を入力,誤りと長さを指定 回文検出位置を強調表示 13 入力:検索語 出力:検索語を含むページから検出した回文(検索語を含むとは限らない) ハイライト表示を実際に検索して出てきたページにする. 13 13

ただし,ハミング回文の方が対応を見つけやすい レベンシュタイン回文の検出結果 著者-作品名 文字数 誤0長6 誤1長7 誤2長8 芥川 竜之介-戯作三昧 23815 1 9 26 平林 初之輔-文学方法論 20896 11 39 宮本 百合子-一連の非プロレタリア的作品 19180 8 28 検出した誤り2の回文 回文に対応する原文 イセントトウヨウニトンテイ ヨクノカツシンシツノヒヨ シヨトクノチヨチクトシシ ンノシヨシヨシヨウエン 以前と同様に富んでいる 窮極のかつ真実の標準 所得の貯蓄と支出 自分の処女上演 誤りとか正しい文字の長さの部分がつながって見づらい. 実際,ここでは何文字の回文を検出したのかを明示する. 「リリカルなもの」の回文は繰り返し文字がカットされているのでよろしくない. より多くの回文を検出することができた ただし,ハミング回文の方が対応を見つけやすい 14 14

圧縮文字列を展開せずに回文検出 a b a a b a b a w wR, wcwR 入力: SLP 出力:すべての極大な回文の位置を     簡潔に表した構造    X1 = a X2 = b X3 = X1 X2 X4 = X1 X1 X5 = X2 X1 X6 = X3 X4 X7 = X5 X5 X8 = X6 X7 SLP a b a a b a b a O(n4)時間O(n2)領域アルゴリズム n : SLPの行数

a b a a b a b a 未解決 圧縮文字列を展開せずにスクエア検出 w w 入力: SLP 出力:すべてのスクエアの位置を     簡潔に表した構造    X1 = a X2 = b X3 = X1 X2 X4 = X1 X1 X5 = X2 X1 X6 = X3 X4 X7 = X5 X5 X8 = X6 X7 SLP a b a a b a b a 入力が通常のテキストならば O(n)時間で見つかることが知られている

フィボナッチ文字列の中の繰り返し構造 4回以上は繰り返さない 部分文字列          は どれだけ繰り返す? 部分文字列           は どこにある?

n-ボナッチ文字列の繰り返し構造 -ボナッチi定数 中の 繰り返し回数 [F.Mignosi ら, 1992] 回 回 = 2 + φ     中の  の繰り返し回数  回 回 = 2 + φ 黄金比 ビリヤードワードの図は書き直しだな… -ボナッチi定数

フィボナッチ文字列の一般化 フィボナッチ トリボナッチ n-ボナッチ

ひらめき☆ときめきサイエンス ~ようこそ大学の研究室へ~ KAKENHI (研究成果の社会還元・普及事業,日本学術振興会) アナウンス ひらめき☆ときめきサイエンス ~ようこそ大学の研究室へ~ KAKENHI (研究成果の社会還元・普及事業,日本学術振興会) 「アルゴリズムを体感しよう  ----- ロボットプログラミングを通じて –-----」 平成19年8月7日(火) 予定 東北大学 青葉山キャンパス 受講生 高校生10名を募集予定