東京工科大学コンピュータサイエンス学部亀田弘之

Slides:

Advertisements

Similar presentations

プログラミング言語論第３回 BNF 記法について（演習付き）篠埜功. 構文の記述プログラミング言語の構文はどのように定式化できるか？例１ : for ループの中に for ループが書ける。 for (i=0; i

Advertisements

システムソフトウェア第３回：２００７年１０月１７日（水）   . 2 本日学ぶこと文法  文字と文字列  無限集合  文法とそのクラス  オートマトン.

和田俊和資料保存場所 /2/26 文法と言語ー正規表現とオートマトンー和田俊和資料保存場所

プログラミング言語論第10回（演習）情報工学科　木村昌臣　篠埜　功.

コンパイラ 2011年10月17日

東京工科大学コンピュータサイエンス学部亀田弘之

言語体系とコンピュータ第6回.

5．チューリングマシンと計算.

5．チューリングマシンと計算.

形式言語とオートマトン2013 第１回目 -Formal Languages & Automata-

東京工科大学コンピュータサイエンス学部亀田弘之

計算の理論 II 文脈自由文法とプッシュダウンオートマトン

言語処理系（５）金子敬一.

言語プロセッサー第８回目ー.

スタック長の特徴付けによる言語の非DCFL性証明

コンパイラ 2012年10月15日

コンパイラ 2012年10月22日

言語プロセッサ2013 ー第7回目ー Tokyo University of Technology

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

コンパイラ 2011年10月24日

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

形式言語とオートマトン2013 ー有限オートマトンー第5日目

形式言語とオートマトン2011 第１回目 -Formal Languages & Automata-

形式言語とオートマトン Formal Languages and Automata 第４日目

形式言語とオートマトン2008 ー有限オートマトンー

プログラミング言語論第３回 BNF記法について（演習付き）

人工知能特論II　第2回二宮　崇.

正則言語 2011/6/27.

東京工科大学コンピュータサイエンス学部亀田弘之

形式言語の理論 5. 文脈依存言語.

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

形式言語とオートマトン2016 ～第10日目(形式文法2回目)～

東京工科大学コンピュータサイエンス学部亀田弘之

形式言語とオートマトン Formal Languages and Automata 第４日目

東京工科大学コンピュータサイエンス学部亀田弘之

言語プロセッサ2012 ー第6回目ー Tokyo University of technology

言語プロセッサー第9回目ー構文解析（続き）.

平成20年10月5日（月）東京工科大学コンピュータサイエンス学部亀田弘之

言語プロセッサ2016 ー第5回目(10月31日) ー Tokyo University of Technology

計算の理論 II 前期の復習 -有限オートマトン-

東京工科大学コンピュータサイエンス学部担当教員：亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

形式言語とオートマトン2017 ～第10日目(形式文法2回目)～

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

プログラミング言語論第9回情報工学科木村昌臣篠埜　功.

東京工科大学コンピュータサイエンス学部亀田弘之

形式言語とオートマトン中間試験解答例 2016年11月15実施中島毅.

平成26年4月22日（火）東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

計算の理論 I 決定性有限オートマトン(DFA) と非決定性有限オートマトン(NFA)

文法と言語ー文脈自由文法とLR構文解析ー

言語プロセッサ2015 ー第5回目(11月2日) ー Tokyo University of Technology

5．チューリングマシンと計算.

東京工科大学コンピュータサイエンス学部亀田弘之

形式言語とオートマトン第14回プッシュダウンオートマトンと全体のまとめ

４．プッシュダウンオートマトンと文脈自由文法の等価性

計算の理論 I NFAとDFAの等価性火曜３校時大月美佳平成16年5月18日佐賀大学理工学部知能情報システム学科.

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

コンパイラ 2012年10月11日

言語プロセッサー第9回目ー構文解析（続き）.

言語プロセッサー第７回目ー構文解析（続き）.

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

東京工科大学コンピュータサイエンス学部亀田弘之

Presentation transcript:

東京工科大学コンピュータサイエンス学部亀田弘之形式言語とオートマトン2008 ー第11日目ー東京工科大学コンピュータサイエンス学部亀田弘之だんだん終わりが見えてきました．そろそろ全体をまとめていきましょう．

今回も復習から今日はざっと見ていきましょう．

確認(1) 有限オートマトン(FA) FAの定義と記述法 FAの種類言語認識能力はどのFAでも同じ。テープ上を一方向に動くヘッド（テープ上の記号を順次読みながら内部状態を遷移） M = <K, Σ, δ, q0, F> 　（５つ組）状態遷移図様相（configuration） FAの種類決定性FA（DFA）非決定性FA（ε遷移のあるものとないもの）言語認識能力はどのFAでも同じ。正規言語（正規表現）を認識

確認（２）正規表現を認識するFAの存在とその構成法正規表現αが与えられる。正規表現αに対して、ε-NFA を構成する。 ε-NFA をDFAに書き換える。 DFAを状態数最少のDFA(Min-DFA)に書き換える。 Min-DFAをシミュレートするプログラムを作成する。 (上記５はまだ説明していません！)

確認（３）プッシュダウンオートマトン(PDA) スタックの定義 PDAの定義と記述法データ構造：・配列（またはアレイ）・リスト・スタック・キュー　などプッシュダウンオートマトン(PDA) スタックの定義スタックの構造と動作（pop-up と push-down） LIFO (Last-In First-Out) 型のメモリ PDAの定義と記述法テープ上を一方向に動くヘッド＋スタックメモリ（テープの記号を順次読み、スタック上の記号を準じ読み書きしながら内部状態を遷移） M = < K, Σ, Γ,δ, q0, Z0, F > 　（７つ組）状態遷移図様相（configuration）

確認（４）スタックとPDAのイメージ図 Pop up Push down LIFO (Last In First Out) 最後に入れたものが最初に取り出される。

確認（５）プッシュダウンオートマトン(PDA) PDAの種類言語認識能力はNPDAの方が高い。決定性プッシュダウンオートマトン Deterministic pushdown automaton (DPDA) 非決定性プッシュダウンオートマトン Nondeterministic pushdown automaton (NPDA) 言語認識能力はNPDAの方が高い。 FAは正規言語（正規表現）を認識 NPDAは文脈自由言語を認識 DPDAよりもNPDAの方が言語認識能力大

確認（６）チューリングマシン(Turing Machine; TM) TMの定義と記述法 TMの種類言語認識能力はどのTMでも同じ。テープ上を左右どちらにも動けるヘッド（テープ上の記号を順次読み、テープ上に時として記号を書き込みながら、そのたびごとに内部状態を遷移） M = < K, Γ, Σ, δ, q0, B, F > 　（７つ組）状態遷移図様相（configuration） TMの種類決定性TM（DTM）非決定性TM(NTM) 言語認識能力はどのTMでも同じ。句構造言語（句構造文法に適った文）を認識

確認（７）オートマトンと形式言語（形式文法）とは相互に密接な関係がある．したがって，形式言語も深く学ぶ価値がある．オートマトンの応用分野：計算モデル計算概念の定式化計算可能性計算量その他形式言語の応用分野：自然言語処理・音声処理カナ漢字変換システム機械翻訳システム自動通訳システムプログラミング言語とその処理コンパイラ設計プログラミング言語設計その他

確認（８）：言語の形式的定義単語ｗ： X1, X2, X3, ・・・, Xn （はじめに単語ありき）語彙V (Vocabulary) ：　単語の集合 V = { X1, X2, X3, ・・・, Xn } (有限集合) 文(sentence)：単語の並び（単語の列）（注） Vの要素( X1 や X2 など)は単語 Xa Xb Xc Xd など，単語の並びは何でも文と考える．でも何でも良いわけではない。

確認（９）：考察文は無限個存在する。言語L（例えば英語）として意味のあるものとそうでないものとが混ざっている。（単語は有限個） ⇒ 言語Lとして意味のある文をすべて集めた集合は、１つの言語（今の場合はL）を定める。 ⇒ 言語Lとして意味があるものとないものとを　区別したい。つまり、任意の文（単語列）に対して、それが　言語Lの文かそうではないのかを判定したい。

そんなことできるのだろうか？でも、人間はやっているよ！じゃあ、できるんだね！（信念）自動機械（オートマトン）を作ってみよう！

作成のためのアイデアはじめに言語Lの文すべてを知っているならば、下記のような機械ができる。 S1は言語Lの文だよ！文S1 オートマトン S1　S2　S3 … Sn

問題点１でも、「言語Lの文すべてを知っている」なんて、不可能だよ！例：「２００8年6月23日、形式言語とオートマトンの授業が、講実4０3教室で、パワーポイントを用いて行われた。」　という文をあなたは事前に知っていましたか？

問題点２もし何らかの方法により、事前に言語Lのすべての文を知っていたとしても．．． s = get_sentence(); 停止しないことがある！！！ s = get_sentence(); if ( s ∈ Lの文の集合 ) then s は　Lの文である else s は　Lの文ではない end if

それではどうしようか？！

ここまでのまとめ言語文法の必要性オートマトン意味のある文（言語Lの文）の集合ある言語（例えば日本語）の文すべてをあらかじめ知っているなんてことは不可能！オートマトンある文が対象としている言語Lの文なのかを自動判定する装置

どうも文法が大切らしい。もう少し文法について学んでみよう！どうも文法が大切らしい。もう少し文法について学んでみよう！

普遍文法という発想すべてのヒトは、言語に依存しない普遍的な処理能力をもった装置(device)を生得的に持っており、ホントにしゃべれるようになるのかなぁ普遍文法という発想すべてのヒトは、言語に依存しない普遍的な処理能力をもった装置(device)を生得的に持っており、個別言語に関する知識は後天的に獲得されるからだ。これが私の基本的考えです。僕にもこんな装置がほしいなぁ… 写真の出典：Wikipediaより

その知識は、「文法」という形で獲得される。 Chomskyはそのように考えた。それでは彼の考えを見てみよう。

文法の定義文法G=（ Vn, Vt, P, S ）：ただし、重要 Vn: 非終端記号の集合 Vt: 終端記号の集合

文法文法G=（ Vn, Vt, P, S ）：ただし、 Vn: 非終端記号の集合 <= 構文木構成要素の集合

例１-1 G=(Vn, Vt, P, S) Vn = { S, NPs, NPo, VP, PN, DET, N } Vt = { I, You, have, throw, a, the, book, ball } P = { ①：S → NPs VP, ②：NPs → PN, ③：PN → I, ④：PN → You, ⑤：NPo → DET N, ⑥：VP → V NPo, ⑦：DET → a, ⑧：DET → the, ⑨：N → book, ⑩：N → ball, ⑪：V → have, ⑫：V → throw }

例１-2 S => NPs VP by ① => PN VP by ② => I VP by ③ => I V NPo by ⑥ => I throw NPo by ⑫ => I throw DET N by ⑤ => I throw a N by ⑦ => I throw a ball by ⑩

例１-2 S => NPs VP by ① => PN VP by ② => I VP by ③ 開始記号適応規則 S => NPs VP by ① => PN VP by ② => I VP by ③ => I V NPo by ⑥ => I throw NPo by ⑫ => I throw DET N by ⑤ => I throw a N by ⑦ => I throw a ball by ⑩ 非終端記号終端記号

例１-2 S => NPs VP by ① => PN VP by ② => I VP by ③ => I V NPo by ⑥ => I throw NPo by ⑫ => I throw DET N by ⑤ => I throw a N by ⑦ => I throw a ball by ⑩ 終端記号のみの列文

例１-2に対する問題これは木(tree)として記述せよ。この文法Gにより生成される文をすべて列挙せよ。

言語の定義言語Lとは、文法Gにより生成されるあらゆる文の集合のこと。つまり、L＝L(G)。

問題（Palindrome） Palindromeのみを生成する文法を示せ。ただし、 G=( Vn, Vt, P, S ) Vn = { S }, Vt = { a, b, c } とする。

ここまでのまとめ人間の頭の中には、言語処理装置がある。すべての文を記憶しているわけではない。文法として記憶している。文法とは何か？規範文法(Prescriptive Grammar) 記述文法(Descriptive Grammar) 形式文法と形式言語

形式文法と形式言語文法G = （ Vn, Vt, P, S ）：言語L = L(G) = { x | S =*> x } ただし、 Vn（非終端記号の集合）: 0 < #Vn < +∞ Vt: 終端記号の集合: 0 < #Vt < +∞ P: 書き換え規則の集合 {α→β| α, β ∈ (Vn∪Vt)*} S: 開始記号(S∈Vn) 言語L = L(G) = { x | S =*> x } ただし、S => ・・・ => x　∈ Vt

形式文法と形式言語（例）文法G = （ Vn, Vt, P, S ）：言語L = L(G) = { x | S =*> x } Vn ={S}, Vt={} P={ } 言語L = L(G) = { x | S =*> x }

言語の階層（重要）言語は文法の種類に応じて、階層構造をなしている。句構造言語 ⇔ 句構造文法文脈依存言語 ⇔ 文脈依存文法句構造言語 ⇔ 句構造文法文脈依存言語 ⇔ 文脈依存文法文脈自由言語 ⇔ 文脈自由文法正規言語 ⇔ 正規文法一般的特殊的 Chomsky階層(Chomsky Hierarchy)とも言う。

句構造文法 (Phrase-Structure Grammar; PSG) 文法G = （ Vn, Vt, P, S ）： Vn（非終端記号の集合）: 0 < #Vn < +∞ Vt: 終端記号の集合: 0 < #Vt < +∞ P: 書き換え規則の集合 {α→β| α, β ∈ (Vn∪Vt)*} S: 開始記号(S∈Vn)

句構造文法 (Phrase-Structure Grammar; PSG) 文法G = （ Vn, Vt, P, S ）： Vn（非終端記号の集合）: 0 < #Vn < +∞ Vt: 終端記号の集合: 0 < #Vt < +∞ P: 書き換え規則の集合 {α→β| α, β ∈ (Vn∪Vt)*} S: 開始記号(S∈Vn)

句構造文法 (Phrase-Structure Grammar; PSG) 文法G = （ Vn, Vt, P, S ）： Vn（非終端記号の集合）: 0 < #Vn < +∞ Vt: 終端記号の集合: 0 < #Vt < +∞ P: 書き換え規則の集合 {α→β| α, β ∈ (Vn∪Vt)*} S: 開始記号(S∈Vn) ここに制限が付くと他の文法になる。

文脈依存文法 (Context-Sensitive Grammar; CSG) 文法G = （ Vn, Vt, P, S ）： Vn（非終端記号の集合）: 0 < #Vn < +∞ Vt: 終端記号の集合: 0 < #Vt < +∞ P: 書き換え規則の集合 {αXβ→αγβ| α, β ∈ (Vn∪Vt)*, X∈Vn, γ∈ (Vn∪Vt)+ } S: 開始記号(S∈Vn)

文脈自由文法 (Context-Free Grammar; CFG) 文法G = （ Vn, Vt, P, S ）： Vn（非終端記号の集合）: 0 < #Vn < +∞ Vt: 終端記号の集合: 0 < #Vt < +∞ P: 書き換え規則の集合 { X→α| α∈ (Vn∪Vt)*} S: 開始記号(S∈Vn)

正規文法 (Regular Grammar; RG) 文法G = （ Vn, Vt, P, S ）： Vn（非終端記号の集合）: 0 < #Vn < +∞ Vt: 終端記号の集合: 0 < #Vt < +∞ P: 書き換え規則の集合 {X→aY, X→b| X,Y∈Vn, a,b ∈ Vt*} S: 開始記号(S∈Vn)

生成規則部分の比較 PSG: α→β CSG: αXβ→αγβ CFG: X→α RG: X→aY, X→b ただし、 α，β∈V* ・γ∈V+ X, Y∈Vn ・a, b∈Vt ・V=Vn∪Vt

Chomsky階層重要 PSG CSG CFG RG

文法（言語）とオートマトン ----------------------------------------------------- 文　　法　　処理装置句構造文法(PSG) ⇔ ？文脈依存文法(CSG) ⇔ ？文脈自由文法(CFG) ⇔ ？正規文法(RG) ⇔ ？

文法（言語）とオートマトン ---------------------------------------------------------------- 文　　法　　処理装置句構造文法(PSG) ⇔ Turing 機械文脈依存文法(CSG) ⇔ 線形有界オートマトン文脈自由文法(CFG) ⇔ プッシュダウンオートマトン正規文法(RG) ⇔ 有限オートマトンこれも覚えておいてください．

言語の包含関係 L（PSG) ⊃ L(CSG) ⊃ L(CFG) ⊃ L(RG) このうち、大切なのはCFGとRG。なぜ大切かというと…

CFGとRG CFG（文脈自由文法）： RG（正規文法）：プログラミング言語設計コンパイラの構文解析自然言語処理（機械翻訳・仮名漢字変換） RG（正規文法）：正規表現（検索・コンパイラの語彙解析）

CFGの特徴 CFGには標準形がある。導出の過程を木で表現できる（導出木の存在）。解析手法が豊富に知られている。自然言語処理に部分的に適用できる。プログラミング言語設計に利用されている。

ここから新しい内容

１．CFGの標準形 Chomskyの標準形 Greibachの標準形教科書p.174

Chomskyの標準形どの書き換え規則も，という条件を満たしている．右辺がただ一つの終端記号になっているか，２個の非終端記号だけである　という条件を満たしている．つまり，… A →　BC A →　a ただし，A,B,Cは非終端記号，aは終端記号

Greibachの標準形どの書き換え規則も，その右辺がという条件を満たしている．左端にただ一つの終端記号を有し，かつ，その終端記号に続いて０個以上の非終端記号からなっている，　という条件を満たしている．つまり，… A →　a A → aB A → aBC A → aBCD … A → aBCD…E…F ただし，A～Fは非終端記号，aは終端記号

Chomskyの標準形任意のCFGにおける書き換え規則群Pは、A→BC　または　A→a　という形だけで表現できる。　

Greibachの標準形任意のCFGにおける書き換え規則群Pは、A→aα　という形だけで表現できる。ただし、X∈Vn, a∈Vt, α∈Vn*。　

Chomskyの標準形への変換方法（教科書 p.177 問題6.9）

例示 G=< { S, A, B }, { a, b }, P, S > S → bA A → a A → aS A → bAA B → b B → bS B → aBB これと等価なChomsky標準形文法を求めよう．

結果 S→C1A A→C2S A→C3D1 D1→AA S→C4B B→C5S B→C6D2 D2→BB C1→b C2→a C3→b A→a C4→a C5→b C6→a B→b

練習問題 G=< { S, T, L }, { a, b, +, -, ×, /, [, ] }, P, S > P: S→T+S T →L×T L →[S] S →T-S T →L/T L →a S →T T → L L →b 言語L(G)はどのようなものか？簡単に説明せよ． L(G)を生成するChomsky標準形文法を求めよ． L(G)を生成するGreibach標準形文法を求めよ．試験に出るかも？

ここまでのまとめ言語には階層がある（Chomsky階層）正規言語（正規文法）は語句解析に深い関係がある。文脈自由言語（文脈自由文法）は構文解析に深い関係がある。文脈自由文法には標準形が存在する．

その他の重要事項

定理１与えられたｃｆｇ Gによって生成される言語L(G)が，空集合かそうでないかを決定するアルゴリズムが存在する．

定理２与えられたｃｆｇ Gによって生成される言語L(G)が，有限集合か無限集合かを決定するアルゴリズムが存在する．（つまり，生成される文が有限個なのか無限個なのかを決定するアルゴリズムが存在する，ということ．）

定理３文法Gが自己埋め込みでないcfgであれば，L(G)は正規集合である．定義（自己埋め込み）：　どちらも空でない文字列α1，α2について　A ＝＞ α1 A α2 となるような非終端記号Aが存在すること．

注 G=< { S }, { a, b }, P, S > P: S→aSa S →aS S →bS S →a S →b

文法と言語とオートマトン句構造文法(PSG) 文脈依存文法(CSG) 文脈自由文法(CFG) 正規文法(RG)

言語の階層（重要）言語は文法の種類に応じて、階層構造をなしている。句構造言語 ⇔ 句構造文法文脈依存言語 ⇔ 文脈依存文法句構造言語 ⇔ 句構造文法文脈依存言語 ⇔ 文脈依存文法文脈自由言語 ⇔ 文脈自由文法正規言語 ⇔ 正規文法一般的特殊的 Chomsky階層(Chomsky Hierarchy)とも言う。