言語処理系（１）金子敬一.

言語処理系（１）金子敬一

１コンパイラ入門１．１コンパイラと翻訳系１．２翻訳系の必要性１．３コンパイラの構造１．４字句解析１．５構文解析
１　コンパイラ入門１．１　　　コンパイラと翻訳系１．２　翻訳系の必要性１．３　コンパイラの構造１．４　字句解析１．５　構文解析１．６　中間コード生成１．７　最適化１．８　コード生成１．９　記帳１．１０　誤り処理１．１１　　　コンパイラ作成道具１．１２　　　　始めるにあたって

１．１　コンパイラと翻訳系翻訳系　　1つのプログラミング言語(原始言語(source language)を別のプログラミング言語(目的言語(object languageあるいはtarget language))に変換するプログラムを一般に翻訳系(translator)とよぶ．

１．１　コンパイラと翻訳系コンパイラ　　目的言語がアセンブリ言語や機械語であるような翻訳系をコンパイラ(compiler)と呼ぶ．

１．１コンパイラと翻訳系コンパイルと実行コンパイルと実行は個別の２段階からなる．コンパイラ原始コード目的目的コード入力
１．１　コンパイラと翻訳系コンパイルと実行　　コンパイルと実行は個別の２段階からなる．コンパイラ原始コード目的目的コード入力出力

１．１コンパイラと翻訳系コンパイラの発展モジュール化手法の開発技法の開発
１．１　コンパイラと翻訳系コンパイラの発展モジュール化手法の開発技法の開発道具の開発コンパイルの過程を系統立てて，モジュール化する方法が分かった多くの作業に対して系統的な技法が見つかった有用なソフトウェアツールの開発

１．１コンパイラと翻訳系他の翻訳系プログラミング言語を中間コードへ翻訳し，解釈系(interpreter)で直接実行
１．１　コンパイラと翻訳系他の翻訳系中間コードアセンブラ前処理系プログラミング言語を中間コードへ翻訳し，解釈系(interpreter)で直接実行原始言語がアセンブリ言語で，目的言語が機械語高水準言語のプログラムを同一の高水準言語の別のプログラムへと翻訳

１．２　翻訳系の必要性機械語機械語プログラムは0と1の列であり，莫大な労力を必要とする割りに，非常に誤り易いという欠点をも持つ．

１．２　翻訳系の必要性記号アセンブリ言語命令コードやデータ番地に対して簡略名(mnemonic name)を用いてプログラミングの効率を向上させようとしている．記号アセンブリ言語は，最も機械語に近い「高水準」言語であり，機械語とほぼ1対1に対応する．しかしながら，計算機がアセンブリ言語を直接実行することはできず，翻訳系であるアセンブラを必要とする．

１．２翻訳系の必要性マクロアセンブリ言語などにあるテキストの置換機能のこと MACRO ADD2 X, Y LOAD Y ADD X
１．２　翻訳系の必要性マクロアセンブリ言語などにあるテキストの置換機能のこと MACRO ADD2 X, Y LOAD Y ADD X STORE Y ENDMACRO ADD2 a, b LOAD b ADD a STORE b

１．２　翻訳系の必要性高水準言語マクロ機能を備えたアセンブリ言語を用いても，プログラマは依然として特定の計算機に依存したコードを生成することしかできない．複雑な命令やデータ構造の内部表現を常に意識してプログラミングするには，莫大な労力を必要とする．高水準言語では，AとBを足すにはA＋Bでよい．コンパイラが必要．若干の性能低下．

１．３　コンパイラの構造フェーズ表管理字句解析構文解析中間コード生成コードの最適化コード生成誤り処理

１．３コンパイラの構造字句解析系最初のフェーズを字句解析系(lexical analyzer)と呼ぶ．
１．３　コンパイラの構造字句解析系最初のフェーズを字句解析系(lexical analyzer)と呼ぶ．原始言語の文字を字句(token)と呼ぶ論理的な塊ごとに分離する．字句にはDOとかIFとかの手掛かり語(keyword)，XやNUMとかいった識別子(identifier)，+や<=といった演算子記号(operator symbol)がある．

１．３　コンパイラの構造構文解析系構文解析系(syntax analyzer)は，字句解析系から　字句を受けとり，構文単位のまとまりを構成していく．例えばA+Bを表現している3つの字句は，式(expression)と呼ぶ1つの構文構造へまとめられる．式はさらに他の構文構造とまとめられて文を形成構文構造を葉が字句からなる木構造で表現することが多く，この木構造を解析木(parse tree)と呼ぶ．

１．３　コンパイラの構造中間コード生成系構文解析系の生成した構文構造を用いて，中間コード生成系(intermediate code generator)は，中間コードと呼ぶ一連の簡単な命令列を生成する．中間コードは，マクロのようなものであり，計算機の詳細とは独立な構造となっている．

１．３　コンパイラの構造コード最適化最終的な目的プログラムにおいて実行速度の向上や使用する記憶域の抑制などを目指して中間コードを改良するためのフェーズをコード最適化(code optimization)という．必ずあるとは限らない．

１．３　コンパイラの構造コード生成最後のフェーズであるコード生成(code generation)では，以下の項目などを決定し目的コードを生成：データ用の記憶位置；各々のデータをアクセスするためのコード；計算遂行のためのレジスタ．

１．３　コンパイラの構造表管理表管理(table management)では，プログラム中で使用される名前を登録し，型などの情報を記憶しておく．情報保持のデータ構造を記号表(symbol table)．

１．３コンパイラの構造誤り処理ソース中に誤りを検出したときに呼び出すフェーズ．
１．３　コンパイラの構造誤り処理ソース中に誤りを検出したときに呼び出すフェーズ．できるだけ先のフェーズに進めるように，誤り処理系(error handler)が調整する．

１．３コンパイラの構造パスいくつかのフェーズをまとめてパス(pass)という．パス間のデータのやり取りは中間ファイルで行う．
１．３　コンパイラの構造パスいくつかのフェーズをまとめてパス(pass)という．パス間のデータのやり取りは中間ファイルで行う．パス内のフェーズはコルーチンになりうる．原則は存在しない．

１．４字句解析字句解析系ソースプログラムとコンパイラとのインタフェース
１．４　字句解析字句解析系ソースプログラムとコンパイラとのインタフェース原始プログラムを１文字ずつ読み込み，字句(token)ごとにまとめる．

１．４字句解析字句単一の論理的対象として扱うことのできる文字列識別子，手掛り語，定数，演算子，区切り記号など．
１．４　字句解析字句単一の論理的対象として扱うことのできる文字列識別子，手掛り語，定数，演算子，区切り記号など．コンパイラ設計者による任意性を持つ．しかし，MAXをMとAXに分けるのは不自然

１．４字句解析字句の分類字句は，型と値からなる対として扱う．値を持たない型もある．値を持たないもの： IFや;など
１．４　字句解析字句の分類字句は，型と値からなる対として扱う．値を持たない型もある．値を持たないもの：　IFや;など値を持つもの：　識別子，定数，名札など

１．４字句解析字句の取出し IF(5.EQ.MAX)GOTO100 原始プログラムを走査し，取り出す．先読みが必要
１．４　字句解析字句の取出し原始プログラムを走査し，取り出す．先読みが必要 IF(5.EQ.MAX)GOTO100 5か，5.0か，あるいは5.E-10か？

［if,-] [(,-] [const,341] [eq,-] [id,729] [),-] [goto,-] [label,554]
１．４　字句解析字句の取出し原始プログラムを走査し，取り出す．先読みが必要 IF(5.EQ.MAX)GOTO100 ［if,-] [(,-] [const,341] [eq,-] [id,729] [),-] [goto,-] [label,554]

１．５　構文解析構文解析系字句が原始言語として許されるか検査字句を以降のフェーズで使用する木構造データに変換

１．５　構文解析検査プログラミング言語PL/IにおけるA + / Bのような式は，[id,…], [+,-], [/,-], [id,…]のような字句の並びとなる．演算子が２つ続くことはないので，誤りであることがわかる．

１．５構文解析解析木式A / B * Cの解釈 CやFortran： (A / B) * C APL: A / (B * C) 式式
１．５　構文解析解析木式A / B * Cの解釈 CやFortran： (A / B) * C APL: A / (B * C) 式式式式式式式式式式 A / B * C A / B * C

ちょっと休憩（雑談）

タヒチ（フレンチポリネシア）ディペンダブルコンピューティングに関する環太平洋国際会議（ＰＲＤＣ１０）２日（火）出発，同日タヒチ着
３日（水）～５日（金）会議４日（土）ホテルチェックアウト；することなし５日（日）０：０５位に出る飛行機で出発，６日帰国

タヒチ（フレンチポリネシア）

タヒチ（フレンチポリネシア）感想食事フランス料理，ワインなどおいしい物価
　フランス料理，ワインなどおいしい物価　ほとんどのものが輸入であり，観光地であるため，ものの値段が非常に高い文化　人は親切で，治安も良い

休憩おわり

１．６　中間コード生成中間コード生成系解析木を中間言語の表現へと変換する

１．６中間コード生成３番地コード代表的な３番地コード(three-address code)の文は， A := B op C 被演算子
１．６　中間コード生成３番地コード代表的な３番地コード(three-address code)の文は， A := B op C 被演算子演算子

１．６中間コード生成３番地コード while A>B & A<=2*B-5 do A:=A+B; L1:
１．６　中間コード生成３番地コード while A>B & A<=2*B-5 do A:=A+B; L1: if A>B goto L2 goto L3 L2: T1 := 2 * B T2 := T1 – 5 if A <= T2 goto L4 goto L3 L4: A := A + B goto L1 L3:

１．７　最適化最適化フェーズ中間コードを変換して，より速く，より小さなプログラムを目指す．

１．７最適化局所最適化(local optimization) L1: if A > B goto L2 goto L3 L2:
１．７　最適化局所最適化(local optimization) 局所的なプログラム変換による最適化 L1: if A > B goto L2 goto L3 L2: T1 := 2 * B T2 := T1 – 5 L1: if A <= B goto L3 L2: T1 := 2 * B T2 := T1 - 5

１．７最適化共通部分式の削除 A := B + C + D T1 := B + C E := B + C + F A := T1 + D
１．７　最適化共通部分式の削除 A := B + C + D E := B + C + F ループ最適化ループ内で不変な計算(loop invariant computation)をループの直前に移動 T1 := B + C A := T1 + D E := T1 + F

１．８コード生成コード生成系コード生成系は，中間コードを機械コードへと変換する．
１．８　コード生成コード生成系コード生成系は，中間コードを機械コードへと変換する．機械的で単純な変換は，冗長なデータ転送を多く含む非能率的な目的コードを生成する．

１．８コード生成レジスタ割当てコード生成系では，レジスタの内容を記憶しておき，不要なデータ転送命令を削除する．
１．８　コード生成レジスタ割当てコード生成系では，レジスタの内容を記憶しておき，不要なデータ転送命令を削除する．これらのレジスタを効率良く使うために，レジスタ割当て(register allocation)を行う．一般に最善な割当てを求めることはNP困難な問題⇒発見的な手法を用いる．

１．９記帳記号表原始プログラム中の全データ対象に関する情報を記入
１．９　記帳記号表原始プログラム中の全データ対象に関する情報を記入変数が，整数なのか実数なのか，配列の大きさはいくつか，関数の引数の数はいくつかなど．

１．９記帳情報の収集情報はいくつかのフェーズにまたがる．字句解析系で，識別子MAXを発見すると，記号表に未記入であれば登録
１．９　記帳情報の収集情報はいくつかのフェーズにまたがる．字句解析系で，識別子MAXを発見すると，記号表に未記入であれば登録さらに，integer MAXなる宣言を発見すると，記号表にMAXが整数型であることを記入

１．９記帳情報の利用収集した情報は多くのフェーズで利用される．型誤りの検出や，暗黙の型変換．
１．９　記帳情報の利用収集した情報は多くのフェーズで利用される．型誤りの検出や，暗黙の型変換．意味解析(semantic analysis)

１．１０誤り処理誤りの発生字句解析系：原始プログラムの字句の綴り誤り構文解析系：入力構造を確定できない構文上の誤り
１．１０　誤り処理誤りの発生字句解析系：　原始プログラムの字句の綴り誤り構文解析系：　入力構造を確定できない構文上の誤り中間コード生成系：　中間コードを生成できないような不適切な型の被演算子コード最適化系：　制御の解析の結果，到達不能な文の検出コード生成系：　目的機械の１語に合わない定数記帳：　多重宣言された識別子

１．１０誤り処理誤りメッセージ各フェーズは，誤りを見つけたときに誤り処理系に報告する．誤り処理系は，適切なメッセージを生成する．
１．１０　誤り処理誤りメッセージ各フェーズは，誤りを見つけたときに誤り処理系に報告する．誤り処理系は，適切なメッセージを生成する．処理の継続を試みる

１．１１　コンパイラ作成道具作成道具走査系生成系構文解析系生成系コンパイラコンパイラ

１．１１　コンパイラ作成道具入力仕様原始言語の字句および構文構造の記述原始言語の各構文要素に対して生成すべき出力の記述目的機械の記述

１．１１　コンパイラ作成道具コンパイラコンパイラの機能走査系生成系構文解析系生成系コード生成機能

１．１２始めるにあたって設計上の留意点原始言語の利用目的…力点はどこか？
１．１２　始めるにあたって設計上の留意点原始言語の利用目的…力点はどこか？コンパイル時間と出力コードの質とのバランス…コンパイル速度の重要性は？誤り診断と誤り回復の能力…目的は？目的機械の性質と操作環境…コード生成も重要実現言語コンパイラの作成環境変更や修正のしやすさ…改良コンパイラの生成期間

新しい言語Lを，機械語Aを持つ機械MAで使いたい．
１．１２　始めるにあたってブートストラッピング（最初のコンパイラは？） X　　　Y Z 言語Xから言語Yへの翻訳機能を持ち，言語Zで記述されたコンパイラ新しい言語Lを，機械語Aを持つ機械MAで使いたい．

さらに言語Lを，機械語Bを持つ機械MBでも使いたい．
１．１２　始めるにあたって L　　　A S L　　　A A S　　　A A ただし，S⊂L さらに言語Lを，機械語Bを持つ機械MBでも使いたい．

１．１２　始めるにあたってクロスコンパイラ L　　　B L L　　　B A L　　　A A L　　　B L L　　　B B L　　　B A

言語処理系（１）金子敬一.

Similar presentations

Presentation on theme: "言語処理系（１）金子敬一."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

言語処理系（１） 金子敬一.

Similar presentations

Presentation on theme: "言語処理系（１） 金子敬一."— Presentation transcript:

Similar presentations

About project

フィードバック

言語処理系（１）金子敬一.

Presentation on theme: "言語処理系（１）金子敬一."— Presentation transcript: