M2 吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp> 全体ミーティング 12/13 修士研究進捗報告 M2　吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>

M2 吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>
全体ミーティング 12/13 修士研究進捗報告 M2　吉野寿宏

Agenda 研究内容方針概略進捗報告今後の予定

研究内容「型付きアセンブリ言語の、複数アーキテクチャに向けた実装」というタイトル In other words…
「型付きアセンブリ言語の、複数アーキテクチャに　向けた実装」というタイトル In other words… アセンブリ言語のコード検証器を構築するためのフレームワークを作成特にプログラム変換の部分を扱う

背景ネットワーク越しのコード配布の隆盛どうしたらコードを信用できる/信用してもらえる？
ユーザーアプリケーション、OS のパッチ、ドライバ… 同時にセキュリティの脅威にもなっているトロイの木馬、アプリケーションの脆弱性への攻撃スパイウェアどうしたらコードを信用できる/信用してもらえる？信用できないものは実行しなければよいのだが、不便かといって、全てのソフトウェアを自作することは、現実的でないまず背景説明

型付きアセンブリ言語 (TAL)[1] 実マシンのアセンブリ言語に型システムを導入レジスタの型・メモリの中身の型などを静的に検証
メモリ安全性(範囲外のメモリをアクセスしないこと)などを保証 Code signing などよりも、中身に突っ込んだ検証を行う Java VM のバイトコード検証機構と類似実マシンのアセンブリ言語(バイナリコードでもよい)を直接検証できるため、OS パッチなどにも使用可 TALのプロジェクトはCornell Univ.でスタート。G. MorrisettもCornellの研究者(現在はHarvardにいるみたい。) この論文は、単純なRISC計算機上のアセンブリ言語に対して、System Fから型を維持したままコンパイルできるということを示している。 [1] G. Morrisett, et al. From System F to Typed Assembly Language. In 1998 ACM SIGPLAN-SIGACT Symposium on Principles of Programming Language.

TAL の問題点アーキテクチャ(CPU)ごとに処理系を用意する必要既存の処理系を他のアーキテクチャに移植するのが困難
命令の意味論はアーキテクチャごとに異なる既存の処理系を他のアーキテクチャに移植するのが困難既存の処理系は、CPU に特化した方向にしか進んでいない命令セットのフルサポートを念頭においており、移植性については二の次であることが多いそもそも書くべき量が多いモデル化が正しいかどうか？しかしながら、TALにはこのような問題点が… 実際TALx86は総実装70,000行くらいある。命令をvariantで全列挙していたり、アドレシングモードのスケーリングなどに対応するためにいろいろごちゃごちゃやっているので、どこを書き換えたものかかなり読み込まないと無理だと思う。

解決策共通言語を一つ固定し、その上に検証器を構築実際の(アセンブリ)言語からその言語に対して意味論のマッピングを構成
言語の semantics を固定実際の(アセンブリ)言語からその言語に対して意味論のマッピングを構成変換が「正しければ」(後ほど解説)、変換元のプログラムを検証しているのと等価検証器の構成とは独立性が確保できるとよい新しいアーキテクチャに対応する際に検証器を弄らない検証器を取り替えるときにマッピングルールを弄らない

型によるコード検証 (Normal) Compilation
x86 x86 用バイナリ型 PPC 用バイナリ高級言語・中間言語 PPC 通常、型情報は失われる

型によるコード検証 Type-Preserving Compilation
x86 用検証器 x86 x86 用バイナリ型型 PPC 用検証器 PPC 用バイナリ高級言語・中間言語 PPC

型によるコード検証本研究のアプローチ型型検証器アリマス型コンパイル逆コンパイル x86 高級言語共通言語 PPC x86

研究方針 3 つのステップ本研究は特に、このうち 1. と 2. に着目共通言語を設計実際のアーキテクチャから共通言語への変換器を作成
共通言語の semantics を用いて検証器を作成本研究は特に、このうち 1. と 2. に着目これまで 3. は数多く研究されてきているので、それらの成果を応用することができると考えられるしかし 2. についての記述性等を考慮している研究は(知る限り)ない「変換の正しさ」の議論を含める

本研究の特徴アセンブリ言語(≒機械語)のプログラムを検証検証器を載せ替え可能にする検証の理論は、多くがλ計算などの言語上に構築
その後機械語にコンパイルして実行 ⇒　コンパイラの正しさはどう保証するの？本研究は逆のアプローチ CPU エミュレータを記述するまた、そのための記述性を考慮する検証器を載せ替え可能にするプログラム検証に関する研究は数多い様々な目的のための検証系が提案されているメモリ安全性、インターフェイスの整合性 (つまりは安全性) 情報流解析　　…

共通言語の設計プログラムの変換対象となる言語記述性の確保変換元はアセンブリを念頭に置くので、アセンブリ言語の特徴を生かす
値は整数かポインタのみ (場合によっては整数だけでも可) 意味論は確定しておく検証器を作成しやすいようにインタプリタも作っておく (後で、変換の正しさの議論に用いる) 記述性の確保書けるプログラムはなるべく広くとるただし、行儀の悪いプログラムは必ずしも検証できずともよい

共通言語の設計アイデア C などの手続き型言語ライクな構文を選択実行フローに関わる命令は jump のみ
アセンブリ言語のプログラムは基本的に、破壊的代入により状態を書き換える実行フローに関わる命令は jump のみ while ループ等はなくてもよい Primitive にループを行う命令はあるが、他の方法でも書けるブロックの先頭へのみジャンプを許す基本ブロック単位の構成を明確に意識 If-then-else による条件実行を導入これと無条件分岐を組み合わせれば、条件分岐が書ける複雑な条件による分岐も可能条件代入なども記述が可能 → 検証の手間が減る(後述)

共通言語の設計アイデアコードとデータを明確に分離プログラムを構成するブロック同士は離れていると仮定データの実行・コードの変更を禁止
コードを動的生成するプログラムは表現できなくなる他の方法でも同じことが実現できるはず (Performance Degradation を気にしなければ) プログラムを構成するブロック同士は離れていると仮定通常ならば、範囲を超えてアクセスすると隣にはみ出すしかしバッファオーバーフローなどで悪用されやすいはみ出「せ」ないような semantics 設計コードブロックに関しては、末尾に暗黙の jump を入れることで fall-through を表現コード・データとも範囲を超えたアクセスはエラーになる

共通言語の設計機械の抽象モデル取り扱う値整数ポインタ Junk 浮動小数点数も IEEE-754 などを用いてエンコードできる
検証をしやすくするため、内部的には fat pointer で扱う Junk 静的に定まらない値例: ラベルに対する実際のポインタ値ポインタも実際は、ラベル→整数のマッピングが定められて、整数と同じように扱われるただし、このマッピングはアセンブリ言語レベルで判明する話ではなく、むしろリンカやローダなどが決定する

共通言語の設計機械の抽象モデル記憶領域レジスタとメモリ一時変数エンコード、デコードのルールはアーキテクチャごとに異なる
データをバイト列にエンコードして格納する一時変数こちらはエンコードをする必要は特にないエンコード、デコードのルールはアーキテクチャごとに異なる Endianness などインターフェイス: Atom[] encode (Value value, int length); Value decode (Atom[] data);

共通言語の設計レジスタとメモリレジスタメモリデータを入れる箱名前で識別され、それぞれ固定長のデータを含む
ラベルで識別され、任意長のデータまたはコードを格納コードは命令の列であるデータとコードは分離されている ⇒　命令をエンコード・デコードする必要はない通常は、バイト列を命令として解釈する関数を定義したりするので、アーキテクチャ記述の煩雑化を招くおそれがある本研究ではそこが必要なくなるので、シンプルになる

共通言語の設計レジスタとメモリレジスタ R、メモリ M それぞれバイト列(d)にエンコードされて格納
c* は命令(次で定義)列それぞれバイト列(d)にエンコードされて格納ルールはアーキテクチャ依存パラメータ m[n] は、アドレスの n バイト目をあらわすポインタ長もアーキテクチャ依存パラメータ

共通言語の設計計算言語

共通言語の設計意味論プログラムカウンタ = ラベル + 命令インデクス詳細は省略各命令に対して、副作用のある箇所は 1 箇所ずつ
代入または goto による無条件分岐「1 命令実行する関数」step を考えると、インタプリタは step の不動点として定式化される step :: ExecContext → ExecContext=(Reg, Mem, PC) 詳細は省略ほぼ、見て類推できるとおり一部エラーになることがある非ポインタを dereference しようとした場合データブロックにジャンプしようとした場合　　　など

共通言語の設計意味論ポインタ演算を行うと一部 junk が出ることがある変なデータをデコードすると junk になる
ポインタ同士の加算ポインタ+整数は、オフセット部に整数が加算されるのみラベルの異なるポインタの減算同一のラベルのポインタを減算するとオフセットの差になるそれ以外の、ポインタが関与する演算は junk になる乗除算、論理演算など変なデータをデコードすると junk になるポインタと整数が混じっている / ポインタの長さ不足 junk との演算は junk になる結果を汚染する可能性があるが、「行儀のよい」プログラムなら大丈夫と考えている

プログラムの例 Linked List 内の値の和
struct list_t { 　 int value; struct list_t *next; } list; --- x86 Assembly start: mov ebx, list xor eax, eax loop: or ebx, ebx jz end_loop add eax, [ebx] mov ebx, [ebx+4] jmp loop end_loop: jmp end_loop start: %ebx = &list; %eax = 0; goto &loop; loop: if %ebx == &null then goto &end_loop else ε; %eax = %eax + *4(%ebx); %ebx = *4(%ebx + 4); end_loop: goto &end_loop; 勝手に次のブロックには行かない

プログラムの例 Junk になってしまう例以下のような C のコード通常のアセンブリ言語この言語の意味論 p = &bar と同じ
char *p = &foo, *q = &bar; p += q - p; ... あまり行儀がよろしくないプログラム通常のアセンブリ言語 p = &bar と同じこの言語の意味論 &bar - &foo ⇒ junk したがって、実行後にはp は junk になるメモリアクセス発生時にエラー

検証器変換後の共通言語によるプログラムを検証このシステムでは、検証器内部はブラックボックス化されている
「プログラムを受け取り検証結果を返すもの」とのみ定義 void verify(Program program) throws VerificationException; 検証が通ったらそのまま return 失敗したら VerificationException が throw される中に原因の情報が格納されている

検証器 Pros and Cons of the Design
利点システムが拡張可能になる型理論やプログラム検証の、理論面における研究の進歩を反映できるプログラム変換と独立性を確保することにより、検証器を取り替えたときに、変換ルールを弄らなくてよい新しいアーキテクチャに対応するときに、変換ルールだけ書けば検証器はそのまま使える欠点このシステム単体では何も保証できない検証の正しさを保証するのは検証器の製作者の責任

検証器共通パターンの抽出検証ロジックに共通のパターンが見出せそう性質性質命令状態命令状態状態状態状態状態
仮定している言語は手続き型言語命令実行の傍系として、抽象化された状態による仮想実行を行ってゆくパターンが多いのでは (と想像) 性質性質命令状態命令状態状態状態状態状態：：

検証器共通パターンの抽出とりあえずシンプルな検証器を設計してみたある性質を持った値の集合を「型」として表す
“Typed” Assembly Language なので型レベルのインタプリタを定義意味論の定義は計算言語のインタプリタとほぼ同様ブロックごとに前提条件(prerequisite)を記述し、実行遷移が流入するところで条件に合致しているかを検査前提条件を満たしていると考えてブロックを型レベルで実行 goto 文がでてきたら検査これをブロックごとに繰り返す

検証器共通パターンの抽出共通パターンが抽出できると… 基本的なロジックを共通パターンとして分離
ブロックごとに計算するループ precondition から postcondition を計算し、goto について検証するループ … 検証器を作成する側としては、型の計算ルールを命令に対して書き下すだけでよくなる検証器を拡張する際に、必要なメソッドをオーバーライドするだけでよくなる OOP 的な考え方そのため、実装は Java で行っている

プログラム変換実際のアーキテクチャのアセンブリ言語を、先に設計した共通言語に変換命令 = コードのテンプレート + オペランド*
変換ルールの記述言語という仕事も考えられる命令 = コードのテンプレート + オペランド* mov( D , S ) { D := S ; } テンプレートを、オペランドによってインスタンス化オペランド = 即値 | レジスタ | メモリ即値以外は代入が可能 (出力引数)

プログラム変換設計 Reader, Writer を渡すと Reader から読んで変換必ずしも 1 命令が 1 文に対応しない
複数ブロックに跨る場合も起こりうる Reader は(命令+テンプレート引数 | データ | ラベル)のストリームとして考えられるただし lookahead ができる (delayed branch で利用) Writer は、イベントハンドラのようなものブロック区切りコード・データ

Delayed Branch の変換方法 Delayed Branch : 分岐命令の発行から実際の分岐成立までに他の命令を実行すること
パイプラインのクリアによるペナルティを避ける分岐命令の直後にある固定数の命令(delayed slot)は分岐成立如何に関わらず実行される SPARC では 1 つ Delayed slot にある命令が分岐命令のオペランドを書き換えるようだと… 一度分岐先をどこか(変数はこのためにある)に保存し delayed slot を実行して保存した分岐先にジャンプ

Delayed Branch の変換方法 Unconditional Branch
SPARC で次のコードを考えるコード 1 ba label1 mov 0, %l0 コード 2 ret　(* ba %i7 *) restore 　(* 複雑なので詳細略 *) コード 1 は単純に順序を入れ替えればよい %l0 = 0; goto &label1; コード 2 は保存が必要 var jmp_target = %i7; (* ここで restore の処理　%i7 も変更を受ける*) goto jmp_target; Fresh な変数を持ってくる

Delayed Branch の変換方法 Conditional Branch
同じく SPARC で ... bz l_zero sub %i0, 1, %i0 (* non-zero *) Delayed slot が分岐命令のオペランドに影響する場合も考慮上のコードは定数なので影響しませんがたとえば次のように変換 ... if ZF != 0 then var target = &l_zero else var target = &_thru; %i0 = %i0 – 1; (* delayed slot *) goto target; _thru:

プログラム変換の正しさプログラム = 機械の状態集合上の関数
変換の正しさ = 実機械の状態と、共通言語の抽象機械の状態の対応が任意のプログラムに関して保存状態 State 実機械プログラム変換後のプログラム状態’ State’

プログラム変換の正しさ実機械の状態 = (レジスタ, メモリ) 抽象機械の状態 = (レジスタ, メモリ, 変数)
実機械の状態 = (レジスタ, メモリ) 抽象機械の状態 = (レジスタ, メモリ, 変数) 状態集合の間に全単射が定義できる変数は、局所的(実機械の 1 命令に対応する範囲内)にのみ用いるのであれば、レジスタ・メモリの内容に従属これを保証する機構はないのだが、変換ルール側で fresh な変数を毎回作り、使いまわさないようにするラベルはリンカ・ローダによって整数にマップされるので、抽象機械側では整数のみを考えるポインタはいらない整数の演算で junk は生まれないので、junk も考えなくてよい

プログラム変換の正しさ正しさを保証するには
実機械の状態集合は有限したがって、全数検査すれば「理論的には」検証可能しかし「現実的ではない」かもしれない各命令の演算にかかわるオペランドのみを考慮すればよいので、各命令について 232 とか 264 とかの検査をすることにたいていの場合、境界例となる一部について検証すれば十分なことが多い計算結果が大きく変わる場所オーバーフローしたり、キャリーが出たり

FAQ 問: 本研究で提案されるシステムは、いったい何を保証してくれるの？答: 特に何も保証はしませんたとえば安全性とか？
問: 本研究で提案されるシステムは、いったい何を保証してくれるの？たとえば安全性とか？答: 特に何も保証はしません検証器がブラックボックス化されているので、中身の性質を外から知ることはできないプログラム変換によって意味論が保存されているならば、検証器が保証する何らかの性質が元のプログラムでも保証できる (はず)

FAQ 問: いくつか制限事項があるようだが、それによって検証対象を狭めているのでは？
問: いくつか制限事項があるようだが、それによって検証対象を狭めているのでは？答: たしかに狭まるが、安全性に対する要求などを考えればある程度は仕方ないと思うどちらかといえば、健全性が確保されていれば、完全性は必ずしも必要ではないというスタンス少なくとも最低限必要なことはそろっているはずつまり他にも同じことをやる道があるはず

進捗状況共通言語の設計、インタプリタの実装プログラム変換器・検証器のインターフェイスを設計簡単な検証器の設計プログラム変換器を作成中
いずれも Java にて簡単な検証器の設計実装中プログラム変換器を作成中とりあえず手元にある x86, SPARC あたり優先で

今後の予定モノ作り論文書き実装を完成させる QEmu を参考に、ARM, PPC なども記述してみる変換の正しさに関する議論
x86 くらいは検証してみたい QEmu の CPU エミュレータ部分などを流用して検証用フレームワークを作る??? (おそらくはfuture work) 論文書き

M2 吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp> 全体ミーティング 12/13 修士研究進捗報告 M2　吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>

Similar presentations

Presentation on theme: "M2 吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp> 全体ミーティング 12/13 修士研究進捗報告 M2　吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

M2 吉野 寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp> 全体ミーティング 12/13 修士研究進捗報告 M2 吉野 寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>

Similar presentations

Presentation on theme: "M2 吉野 寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp> 全体ミーティング 12/13 修士研究進捗報告 M2 吉野 寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>"— Presentation transcript:

Similar presentations

About project

フィードバック

M2 吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp> 全体ミーティング 12/13 修士研究進捗報告 M2　吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>

Presentation on theme: "M2 吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp> 全体ミーティング 12/13 修士研究進捗報告 M2　吉野寿宏 <tossy-2@yl.is.s.u-tokyo.ac.jp>"— Presentation transcript: