計算機構成第9回 POCOの性能評価と論理合成テキスト7章

計算機構成第9回 POCOの性能評価と論理合成テキスト7章
情報工学科天野英晴

ＣＰＵの性能評価プログラムを走らせてその実行時間を比較走らせるプログラムデスクトップ、ラップトップ：ＳＰＥＣベンチマーク
サーバー：TPC スーパーコンピュータ：Linpack, LLL 組み込み：EEMBC, MiBench 走らせるプログラム〇実プログラムによるベンチマーク集 △カーネル：プログラムの核となる部分 ×トイプログラム：Quicksort, 8queen, エラトステネスの篩 ×合成ベンチマーク：Whetstone, Dhrystone

評価のまとめ方、報告の仕方複数のプログラムからなるベンチマークの実行時間をどのように扱うか？結果の報告基準マシンを決めて相対値を取る
複数のプログラムに対しては相乗平均を取る〇プログラムの実行時間、基準マシンに依らない一貫性のある結果が得られる ×非線形が入る結果の報告再現性があるようにハードウェア：　動作周波数、キャッシュ容量、主記憶容量、ディスク容量などソフトウェア：OSの種類、バージョン、コンパイラの種類、オプションなど

MIPS, MFLOPS, MOPS MIPS (Million Instructions Per Second)
一秒間に何百万個命令が実行できるか？一命令がどの程度の機能を持っているかが入っていない異なる命令セット間の比較には無意味な基準しかし分かりやすいし、IntelやARM間の比較にならばそれなりに有効 MFLOPS (Million FLoating Operations Per Second) 一秒間に何百万回浮動小数演算ができるか？本来、MIPSより公平な基準だが、平方根や指数などの命令を持つかどうかで問題が生じる→正規化FLOPS MOPS(Million Operations Per Second)はDSP（信号処理用プロセッサ）など整数演算の実行回数で評価する（積和演算回数だったりする）。

FLOPS 10PFLOPS = 1秒に1京回浮動小数点演算を行う → 「京」の名前の由来 10の6乗 10の9乗 10の12乗
10の15乗 10の18乗 100万 M（メガ） 10億 G（ギガ） 1兆 T（テラ） 1000兆 P（ペタ） 100京 E（エクサ）スーパーコンピュータ数10TFLOPS-10PFLOPS iPhone4S 140MFLOPS ハイスペックなPC 50-80GFLOPS アクセラレータ数TFLOPS 注意！　スーパーコンピュータの性能向上率は1.9倍/年 10PFLOPS　=　1秒に1京回浮動小数点演算を行う →　「京」の名前の由来

ＣＰＵの性能、コスト、電力プログラム実行時間＝実行する命令数×CPI×クロック周期コスト：半導体上の面積
CPI (Clock cycles Per Instruction) 1命令を実行するのに何クロック掛かるか？今のPOCOはCPI=1 クロック周期：論理合成結果から求めるクロック周波数= 1/(クロック周期) コスト：半導体上の面積実装上一定の値以下にする必要があるコストは面積の4乗に比例とも言われる電力：動作電力(Dynamic)とリーク電力動作電力は放熱、電源設計に重要リーク電力はバッテリーの保持時間にとって重要 →　論理合成、圧縮結果から求める

プロセッサの動作周波数は2003年で限界に達した
クロック周波数の向上 Pentium4 3.2GHz Nehalem 3.3GHz 高速プロセッサのクロック周波数周波数京2GHz 1GHｚ年間40％プロセッサの動作周波数は2003年で限界に達した消費電力、発熱が限界に Alpha21064 150MHz 100MHｚ 1992 2008 2000 年

論理合成と圧縮ＶｅｒｉｌｏｇＨＤＬで記述しただけでは実際に動くシステムはできないチップ上でＣＰＵを実現するＦＰＧＡ上でＣＰＵで実現する
論理合成、圧縮が必要対象デバイスのゲート接続の形に変換チップ上でＣＰＵを実現する Synopsys社Design Compiler　→今回使うＦＰＧＡ上でＣＰＵで実現するＦＰＧＡベンダのツール　→情報工学実験第2

フロントエンド設計 System-CなどCレベル設計高位合成 Verilog-HDL, VHDLなどハードウェア記述言語でRTL設計
論理シミュレーションバグ論理合成・圧縮 Synopsys社 Design Compiler 論理合成後のネットリストバグ論理合成後シミュレーションバックエンド

バックエンド設計論理合成後ネットリストフロアプラン電源ネット生成レイアウトツール Synopsys社IC Compiler
Cadence社SoC Encounter 配置クロックツリー生成配線最適化レイアウトデータ（GDS) エラーエラー DRC, LVS, ERC Formulation検証実配線シミュレーション

Design Compilerによる論理合成
ライセンスの関係で天野研究室のマシン(sirius.am.ics.keio.ac.jp)を使うアカウント情報は注意して管理ＶＤＥＣのライセンスなので教育研究専用対象デバイスは、オクラホマ大のTSMC 0.18um CMOSプロセスを利用ライブラリのセル数が少ないプロセスが時代遅れしかし、商用プロセスのライブラリを利用するためにはＮＤＡ契約が必要、非常に高価バッチ処理で用いる tclファイル(ここではpoco.tcl)にやることを書いておく design_visionでゲート配線が見れるがこれは参考程度に使う実行 dc_shell-t –f poco.tcl | tee poco.rpt レポートファイルがpoco.rptに生成される

poco.tclの中身 set search_path [concat "/home/cad/lib/osu_stdcells/lib/tsmc018/lib/" $search_path] set LIB_MAX_FILE {osu018_stdcells.db } set link_library $LIB_MAX_FILE set target_library $LIB_MAX_FILE read_verilog alu.v read_verilog rfile.v read_verilog poco1.v current_design "poco" create_clock -period 8.0 clk ライブラリの設定ファイルの読み込みクロック周期の設定：８nsec →　125MHz

入出力遅延の設定 set_input_delay 2.5 -clock clk [find port "idatain*"]
set_input_delay 7.0 -clock clk [find port "ddatain*"] set_output_delay 7.5 -clock clk [find port "iaddr*"] set_output_delay 3.0 -clock clk [find port "ddataout*"] set_output_delay 3.0 -clock clk [find port "daddr*"] set_output_delay 3.0 -clock clk [find port "we"]

入力遅延の設定 Y S ext ext11 A B ＋＋ ext ext0 PC 2.5ns 7ns … … 命令メモリデータメモリ
‘0’ 2:0 00 Y THB 01 S 00 0１１0 pcsel ext ext11 ADD 10 A B alu_bsel ＋ comsel zero 7:0 10:0 00 01 10 ‘1’ zero ＋ ext ext0 7:0 rf_a rf_b １ pcjr aadr 10:8 badr PC cadr 1 ‘7’ rf_c rwe rf_csel casel 00 01 10 7:5 2.5ns idatain 7ns ddatain iaddr … … ddataout daddr 命令メモリデータメモリ we

出力遅延の設定 Y S ext ext11 A B ＋＋ ext ext0 PC 0.5nsくらいは必要 8-0.5=7.5ns 7ns
‘0’ 2:0 00 Y THB 01 S 00 0１１0 pcsel ext ext11 ADD 10 A B alu_bsel ＋ comsel zero 7:0 10:0 00 01 10 ‘1’ zero ＋ ext ext0 7:0 rf_a rf_b １ pcjr aadr 10:8 badr PC cadr 1 ‘7’ rf_c rwe rf_csel casel 00 01 10 0.5nsくらいは必要 8-0.5=7.5ns 7:5 idatain 7ns ddatain 5nsくらいは必要 8-5=3ns iaddr … … ddataout daddr 命令メモリデータメモリ we

残りの設定 set_max_fanout 12 [current_design] set_max_area 0
ファンアウトは12 set_max_fanout 12 [current_design] set_max_area 0 compile -map_effort medium -area_effort medium report_timing -max_paths 10 report_area report_power write -hier -format verilog -output poco.vnet quit 面積は小さいほど良いそこそこがんばって長い方から10本表示面積、電力を表示ネットリスト生成

クリティカルパスの表示クロックの立上りがスタート遅延時間の合計は7.79 クロックの立上りがエンドセットアップタイム0.18
Point Incr Path clock clk (rise edge) clock network delay (ideal) input external delay r idatain[12] (in) r … rfile_1/r7_reg[15]/D (DFFPOSX1) r data arrival time clock clk (rise edge) clock network delay (ideal) rfile_1/r7_reg[15]/CLK (DFFPOSX1) r library setup time data required time data arrival time slack (MET) クロックの立上りがスタート遅延時間の合計は7.79 クロックの立上りがエンドセットアップタイム0.18 スラック（余裕）が0.04 動作周波数＝１/（目標周期ースラック）　スラックがマイナスのときは加算する

クリティカルパス Y S ext ext11 A B ＋＋ ext ext0 PC 7ns … … 命令メモリデータメモリ ‘0’ 00
2:0 00 Y THB 01 S 00 0１１0 pcsel ext ext11 ADD 10 A B alu_bsel ＋ comsel zero 7:0 10:0 00 01 10 ‘1’ zero ＋ ext ext0 7:0 rf_a rf_b １ pcjr aadr 10:8 badr PC cadr 1 ‘7’ rf_c rwe rf_csel casel 00 01 10 7:5 idatain 7ns ddatain iaddr … … ddataout daddr 命令メモリデータメモリ we

面積と電力評価 Combinational area: 35211.000000
Noncombinational area: Net Interconnect area: undefined (No wire load specified) Total cell area: Total area: undefined （単位は多分um2：　0.2mm角くらい） Cell Internal Power = mW (76%) Net Switching Power = uW (24%) Total Dynamic Power = mW (100%) Cell Leakage Power = nW 組み合わせ回路Ｆ．Ｆ．ここはレイアウトしないとわからないネットを駆動する電力内部を含む全動作電力もれ電力は0.18umではあまり多くない１２５ＭＨｚ動作時、シミュレーションをしていないため、スイッチング率は50％で評価しており結果は目安に過ぎない

演習１．周期を7.8nsにしてＰＯＣＯを論理合成し、動作周波数、面積、電力を評価せよ。

計算機構成第9回 POCOの性能評価と論理合成テキスト7章

Similar presentations

Presentation on theme: "計算機構成第9回 POCOの性能評価と論理合成テキスト7章"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

計算機構成 第9回 POCOの性能評価と論理合成 テキスト7章

Similar presentations

Presentation on theme: "計算機構成 第9回 POCOの性能評価と論理合成 テキスト7章"— Presentation transcript:

Similar presentations

About project

フィードバック

計算機構成第9回 POCOの性能評価と論理合成テキスト7章

Presentation on theme: "計算機構成第9回 POCOの性能評価と論理合成テキスト7章"— Presentation transcript: