集積回路 9.スケーリング則と低消費電力設計 松澤 昭 2004年 9月 2004年 9月 新大VLSI工学.

Slides:



Advertisements
Similar presentations
DATE : 11. メモリ 五島 正裕 今日の内容 メモリ  SRAM  DRAM  Flash Memory.
Advertisements

第10章 マイコン機器とマイコンプロ グラム ● マイコン回路とプログラミン グ ● サーボモータ,直流モータ制 御以外のプログラム マイコンでどのようなことができるのか? モータのマイコン制御を使いこなす!
非対称レイアウトを用いた 60GHz 帯低 LO リーク アップコンバージョンミキサ ○ 佐藤 慎司, 津久井 裕基, 岡田 健一, 松澤 昭 東京工業大学大学院理工学研究科 2012/3/20.
FPGA 株式会社アプライド・マーケティング 大越 章司
VLSI設計論第4回 アキュムレータマシンと 仮遅延シミュレーション
小水力班/ Small Hydro Generation Group 研究背景 / Research background
10. メモリ 五島 正裕.
第10回 電力見積もりと省電力設計 慶應義塾大学 理工学部 天野.
発表内容 研究背景・目的 伝送線路の構造 伝送線路間カップリングシミュレーション - 1段増幅器シミュレーション
発表内容 研究背景と課題 クロスカップルキャパシタ PAの設計手法 測定結果 2010/03/01 H. Asada, Tokyo Tech.
北海道大学 理学院 宇宙理学専攻 惑星物理学研究室 M 2 齊藤 大晶
SOIピクセル検出器用 Digital Libraryの開発
ディジタル信号処理 Digital Signal Processing
Isao Matsushima, Toshihisa Tomie
発表内容 研究背景 Txリークの概念 測定・シミュレーションの方法 測定結果・誤差解析 Txリークの主な原因を特定 まとめ
JeeYoung Hong, Tokyo Tech.
日本・北九州研究拠点における 協力プロジェクトの簡単な紹介
Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ
Solid State Transformer (SST)
SP0 check.
11. 省電力 五島 正裕.
集積回路 6.回路・レイアウト設計 松澤 昭 2004年 9月 2004年 9月 新大VLSI工学.
5.アルミ板による磁界遮蔽 15 電気溶接環境における低周波磁界の 計測と解析 1.背景・目的 4.磁界計測 2.抵抗溶接
Tohoku University Kyo Tsukada
Power Electronics center
8. 順序回路の簡単化,機能的な順序回路 五島 正裕.
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
積分型SOI検出器INTPIX3の研究 東北大学4年素粒子加速器実験 葛山 浩教.
組み込み向けCPU 小型デバイスに搭載されるCPU 特徴 携帯電話,デジタルカメラ,PDA,センサデバイスなど 小型 低消費電力 多機能
第8回  論理ゲートの中身と性質 論理ゲートについて,以下を理解する 内部構成 遅延時間,消費エネルギー 電圧・電流特性 瀬戸.
ストップウォッチの カード ストップウォッチの カード
これからが面白いプロセッサアーキテクチャ
ダブルテールラッチ型コンパレータと プリアンプを用いたコンパレータの 性能比較
電気回路学Ⅱ エネルギーインテリジェンスコース 5セメ 山田 博仁.
電界効果トランジスタの動作原理 トランジスタを用いた回路のバイアス
Multi-Pixel Photon Counter(MPPC)の開発
ATLAS実験 SOI Transistor TEG の測定
電気回路学Ⅱ 通信工学コース 5セメ 山田 博仁.
高速剰余算アルゴリズムとそのハードウェア実装についての研究
電界効果トランジスタの動作原理 トランジスタを用いた回路のバイアス
1.コンピュータと情報処理 p.18 第1章第1節 2.コンピュータの動作のしくみ CPUと論理回路
動的な内部初期化機構による 低消費電力超伝導単一磁束量子回路の 高速化
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
60GHz帯CMOS差動増幅回路の 高CMRR化に関する検討
インダクタの自己共振補正を 考慮したLC-VCOの最適化
3 次元構造インダクタと底面配置回路を用いた484-mm2 21-GHz LC-VCO
ディジタル回路 5. ロジックの構成 五島 正裕.
FPGA 株式会社アプライド・マーケティング 大越 章司
低インピーダンス伝送線路を用いたミリ波帯VCOの低雑音化の検討
電気電子情報第一(前期)実験 G5. ディジタル回路
3. 論理ゲート の 実現 五島 正裕.

最新 IT トレンド ARM.
超伝導回路を用いた 物理乱数発生回路の研究
References and Discussion
ミリ波帯電力増幅器における 発振の検証 ○松下 幸太,浅田 大樹,高山 直輝, 岡田 健一,松澤 昭 東京工業大学
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
信号伝搬時間の電源電圧依存性の制御 による超伝導単一磁束量子回路の 動作余裕度の改善
Prof. Noriyoshi Yamauchi
コンピュータアーキテクチャ 第 9 回.
8. 順序回路の実現 五島 正裕.
エレクトロニクスII 第12回増幅回路(1) 佐藤勝昭.
Cソースコード解析による ハード/ソフト最適分割システムの構築
Cluster EG Face To Face meeting
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
第4回 CPUの役割と仕組み2 命令の解析と実行、クロック、レジスタ
圧電素子を用いた 高エネルギー素粒子実験用小型電源の開発
信号伝搬時間の電源電圧依存性の制御 による超伝導単一磁束量子回路の 動作余裕度の改善
並列処理プロセッサへの 実数演算機構の開発
自己ルーティングによるラベル識別 コリニア音響光学効果を用いたラベル識別 スケジューリング 経路制御 ラベル ラベル 識別 ラベル 処理
Presentation transcript:

集積回路 9.スケーリング則と低消費電力設計 松澤 昭 2004年 9月 2004年 9月 新大VLSI工学

集積回路 1. VLSIとは? 2.VLSIの設計から製造まで 3. MOSトランジスタとCMOS論理回路 4.メモリー回路 6. 回路・レイアウト設計 7. 論理設計とテスト 8. アナログ・デジタル混載集積回路 9. スケーリング則と低消費電力化設計 10.システムLSIとVLSIの今後 2004年 9月 新大VLSI工学

CMOS論理回路 論理回路 CMOSでの実現 Vdd Idsp Vin Vout CL Idsn IN OUT OUT IN CMOS論理回路は他の論理回路(たとえばECL)などと異なり、基本的に定常電流が流れない。したがって基本的に低消費電力回路である。 高速動作のために定常電流を増やす必要がないので実質的には高速化も可能である。 論理回路 IN ・動作 OUT VinがGNDの時はPMOSがON, NMOSがオフ。電流Idspが流れて負荷容量CLを充電し、出力電圧は上昇する。出力電圧がVddまで達するとPMOSのVds=0になり電流は遮断される。 VinがVddのNMOSがON, PMOSがオフ。電流Idsnが流れて負荷容量CLを放電し、出力電圧は下降する。出力電圧がGNDまで達するとNMOSのVds=0になり電流は遮断される。 CMOSでの実現 Vdd OUT Idsp Vin Vout Vdd Vdd IN GND CL GND Idsn 2004年 9月 新大VLSI工学

動作速度 どんなデバイスでも動作速度は論理電圧と駆動電流、容量の関係で決まる。 Vo Io CL t Io Vo VLT 遅延時間を短縮するには ・容量を下げる ・論理しきい値電圧を下げる ・出力電流を増加させる Vo Io CL 真性の微細化CMOSの場合は Io VLT Vo t Tpd VT/Vdd比を一定に取れればチャネル長Lに比例して遅延時間を短縮できる 2004年 9月 新大VLSI工学

消費電力 CMOS回路の消費電力 消費電力を下げる ・動作周波数を下げる ・容量を下げる ・電源電圧を下げる CMOS回路の優れたところ Vdd 容量のスイッチング電力 これは従来あまり大きくなかった 今後は影響が大きい 消費電力を下げる CL ・動作周波数を下げる ・容量を下げる ・電源電圧を下げる CMOS回路の優れたところ ・定常電流が流れない ・駆動電流を上げて速度を上げても消費電力は増加しない 2004年 9月 新大VLSI工学

LSI技術の黄金則:スケーリング則 Scaling スケーリング則はLSIの黄金則である 動作電圧も1/Sにする tox L W Scaling 動作電圧も1/Sにする Device/Circuit parameter Scaling Factor Device dimensions L, W, Tox 1/S Doping concentration S~S1.5 Voltage Field 1 Current Gate Delay Power dissipation/device 1/S3~ 1/S2 微細化・低電圧化により、 ・高密度化(低コスト) ・高速化 ・低消費電力 が同時に達成される R. H. Dennard, et al., IEEE, JSC, SC-9, p.256, 1974. 不純物濃度を上げるのは空乏層厚を下げるためである。 2004年 9月 新大VLSI工学

スケーリング則の検証 ・遅延時間 ・規格化消費電力=消費エネルギー スケールファクターの3乗に反比例する。 しかし実際は配線容量があまり下がらないので S2程度になる。 2004年 9月 新大VLSI工学

CMOS回路の速度と消費電力 CMOS回路の速度と消費電力 電源電圧・しきい値電圧と回路の速度 電源電圧制御 しきい値電圧とリーク電流 リーク電流対策回路 回路ブロックと消費電力 2004年 9月 新大VLSI工学

CMOS回路の消費電力 ローパワー化には各項の低減が必要 充放電電力の低減手法 要素 手法 トレードオフ要因 スイッチング確率 グリッジ低減 設計の煩雑さ増大 C L CMOS回路の電流成分 貫通電流 充放電電流 リーク電流 スイッチィング 時に発生 pt ゲーティドクロック 開発TAT 動作周波数 回路の並列化 チップ面積の増大 f 微細化 設計の煩雑さ増大 メモリ空間の階層化 する場合あり 負荷容量 トランジスタのサイジング C L パストランジスタロジック 動作スピードは改善 ダイナミック回路 DC-DCコンバータ 電源電圧 動作スピードの劣化 Vdd 2電源最適設計 2004年 9月 新大VLSI工学

トランジスタサイジング 配線容量などの負荷容量を駆動する場合は駆動用トランジスタの ゲート幅が小さければ消費電力は小さいが遅延時間は長い。 逆にゲート幅が大きければ遅延時間は短いが消費電力は大きい。 バランスを考えると[負荷容量=ゲート容量]あたりが最適である。 2004年 9月 新大VLSI工学

電源電圧と同時に閾値電圧スケーリング必要 CMOS回路の遅延時間 遅延時間の短縮: ・負荷容量の低減 ・電源電圧の増大 ・しきい値電圧の低減 α=1.3~1.5 動作スピード *MOSの飽和電流式 遅延は負荷容量の充放電速度で決まる Vdd Td GND 消費電力の抑制 動作スピードは劣化 には電源電圧の 閾値電圧の近傍で 低減が効果的 急激に遅延増大 電源電圧と同時に閾値電圧スケーリング必要 2004年 9月 新大VLSI工学 P∝ f・c・Vdd

等速度を与える電源電圧としきい値電圧 しきい値電圧を下げることで電源電圧を下げて消費電力を低減しながら速度を維持できる 2004年 9月 2004年 9月 新大VLSI工学

動作速度に応じて電源電圧を変化させればより低消費電力になる 電源電圧の制御 動作速度に応じて電源電圧を変化させればより低消費電力になる *消費電力 消費電力と動作スピードの関係 遅延に応じて動作周波数も変えた場合 1.6 1.4 動作周波数も下がることで Vddの2乗以上のローパワー効果 1.2 Vt=0.5V *エネルギー 1 Vdd一定 消費電力(a.u.) 処理に必要なエネルギー 0.8 周波数 f 変更 Vt=0.25V 処理時間に制約がなければ 0.6 Vdd下げるほど省エネルギー Vdd変更 Deadline 0.4 2 周波数 f 一定 Vdd、 f P=f・c・3.3 0.2 2 とも変更 2 P P P=( f)・c・2.5 3 0.2 0.4 0.6 0.8 1 1.2 1.4 T T 動作スピード(a.u.) 2004年 9月 新大VLSI工学

リーク電流問題 VTを下げるとリーク電流は指数的に増大 消費電力(a.u.) リーク電流を考慮した消費電力 *サブスレショルド領域の電流 I o:Vt=0Vのときのドレイン電流 s:Vgs-Ids特性の傾きの逆数 s=80~100mV W:オフTrのトータルゲート幅 I leak = Ids at Vgs=0V 低電圧での遅延抑制のための低Vt化で リーク電力が指数関数的に増大 → 電力が増え逆効果 適切な閾値電圧の設定が必要 2004年 9月 新大VLSI工学

微細化による遅延時間の増大 微細化によりかえって遅延時間が増大してきた 内部電源電圧 [V] プロセス世代[μm] 遅延時間 [相対値] 1.8V 3V 5V 1V 2.5V 1.2V 1.5V 内部電源電圧 [V] プロセス世代[μm] 5 100 遅延時間 [相対値] 0.1 1.0 0.2 0.3 0.5 10 50 高Vt オフ電流一定 低Vt Vt/VDD一定 中Vt Vtスケーリング 寄生効果で 遅延増加 Vt 一定 2004年 9月 新大VLSI工学

消費電力の危機 Power consumption (W) 高速CPUの消費電力 高速CPUの消費電力は100W (1V, 100A!!)を超えようとしている。 更にリーク電流が急激に上昇している。まさに消費電力の危機である。 ‘60 ‘70 ‘80 ‘90 2000 ‘10 0.001 0.01 0.1 1 10 100 1000 Power consumption (W) Dynamic current Leak current 高速CPUの消費電力 2004年 9月 新大VLSI工学

今後の0.1um, 1V時代ではそのままでは使えない リーク電流対策回路 今後の0.1um, 1V時代ではそのままでは使えない ・スイッチで回路を遮断する ・スタンバイ回路が別に必要 ・低電圧では使用しにくい ・スイッチとバックゲートの併用 ・微細TRでは十分なバックゲートが困難 ・低電圧では使用しにくい ・ゲートリークが遮断できない ・バックゲート印加でVTを上げる ・微細TRでは効果が減少 ・ゲートリークが遮断できない 2004年 9月 新大VLSI工学

回路ブロック毎の電力消費 どの回路が消費電力が大きいかはLSIの種類によって異なる。 低消費電力化設計はこの分析から始まる。 Clock ASSP1 Logic Memory I/O ASSP2 MPU1 MPU2 2004年 9月 新大VLSI工学

Power reduction: Example Power dissipation can be reduced to 1/10 Clock circuit consumes power of 75% of total Pd in this LSI. F/F reduction Gated CLK 100 Volt. lowering 3.0V->1.5V Cap. Lowering (0.6) Clock 80 1/2 75 60 Power consumption (A.U) 1/5 40 Interconnect 30.5 Macro 8 20 18 13 3 7 6.5 1.7 1 2 3 0.35um 0.35um 0. 18um 2004年 9月 新大VLSI工学

DRAM混載による低消費電力化 MPEG4 codec 外付けDRAMはI/O部分で電力を消費する。(内蔵メモリーの100倍程度) 高速信号はチップ外に出してはいけない! MPEG4 codec Separate chips 240mW DRAM Logic & memory DRAM on a chip Power DRAM - logic interface 16Mbit DRAM Speech codec Multiplexer MPEG-4 Video Codec Host I/F PLL Cam Display Pre- filter VT 891mW 70% power reduction by DRAM embedding alone Courtesy Toshiba, ISSCC 2000 2004年 9月 新大VLSI工学

低電力LSIアーキテクチャ 低電力LSIアーキテクチャ 電力効率の良い高速処理LSIの設計シナリオ 演算器の改良 クロックゲーティング 電源電圧制御 2004年 9月 新大VLSI工学

電力効率の良い高速処理LSIのシナリオ クロック当たりの処理量を増やし、クロック周波数と電源電圧を下げるのが基本 2004年 9月 2004年 9月 新大VLSI工学

マイクロプロセッサー マイクロプロセッサーの処理では命令がメモリーから読み出されALUの論理機能を変える。次にデータがメモリーから読み出され、ALUで論理処理されて、メモリーに返される。 特徴 ・ソフトを変えることで殆ど全ての論理処理が実現できる ・ハードは機能・用途にかかわらず共通である ・クロックに同期して動作し、基本的に1クロックで1処理行う ・メモリーからデータを読み出し、処理し、メモリーに返す 課題 ・処理速度を上げるにはクロック周波数を上げる必要がある ・データが負荷容量の大きなバスを通る →動作周波数の割には処理量が少なく消費電力が大きい 2004年 9月 新大VLSI工学

パイプライン動作と並列動作による低消費電力化 クロックあたりの演算処理量を上げる方法 2004年 9月 新大VLSI工学

LSIアーキテクチャによる演算速度と消費電力差 CPU DSP Dedicated LSI Clock frequency (MHz) 450 50 25 2 16 96 # of operations/clock 0.9 0.8 2.4 Operating speed (GOPS) Pd (mW) 7000 110 12 Pd (mW) 7800 138 5 Operating speed (GOPS) Pd/GOPS: 3 orders 2004年 9月 新大VLSI工学

演算器の改良 ・ベクトル演算ユニット:ある一定の長さの信号(ベクトル信号)に一連の処理を行う場合は  メモリからの信号を連続的に送り出して高速演算・低電力演算が可能になる。 ・専用ALU:差分処理などの特定の演算が多い回路では通常のALUにこのような専用演算器を追加すると高速・低電力演算が可能になる。 2004年 9月 新大VLSI工学

MPEG4 LSIの構成 DSPに各種ビデオコーディック専用回路を付加させた VPU(Video Processing Unit) VCE (Video Codec Engines) DRAM (2Mb) LM ME VLC DCT IDCT VLD PNR PAD CAD COMP HIF (Host I/F) Programmable DSP (16Mb) Main Video Input Video Output MIF (Memory I/F) Sub Graph. Filter Inst. Mem DSP Core Data This figure shows the block diagram of this LSI. This consists of a embedded DRAM, a programmable DSP, eight dedicated hardware engines and three interface units. The capacity of Instruction memory and data memory are 64Kbyte and 42Kbyte respectively. Total capacity of embedded DRAM is 20Mbit. 2004年 9月 新大VLSI工学

Performance for Core Decoding 画像Codecでは専用演算器を設けて演算処理速度を向上できる。 Decoding Performance : 5fps 20fps 5 PAD COMP 40 6.1% CAD Texture Decoding 100 Kcycles 200 Core@L1 Software HW Engine WITH the Engines 26.5% 6.8% 63% WITHOUT the Engines 24% Mcycles This figure shows the performance improvement by using the dedicated hardware engines. Compared with only software implementation, the execution cycles of CAD, padding and composite are reduced to 6.1%, 26.5% and 6.8%, respectively. Further, those of texture decoding are reduced by about 63%. In total, the number of cycles needed for Core@L1 decoding is reduced by about 50 million cycles compared with it without these engines for Core decoding, which is about 200 million cycles. This is the capability to perform Core@L1 decoding at about 20 frames per second. 2004年 9月 新大VLSI工学

クロックゲーティングの効果 使用しない回路へのクロックを停止するとこで大幅な低電力化が可能 Clock Gating Non Clock Gating WITH the Core Engines 100 200 [mW] 300 40% 37% The Effect of Core Engines The Effect of Clock Gating DSP VCE (not Core) VPU MIF PAD DRAM (Core) WITHOUT the Core Engines This figure shows the effectiveness of the clock gating for Simple@L1 simultaneous encoding and decoding,and the effectiveness of introducing the dedicated hardware engines for Core Profile decoding on the power consumption.   マルチマクロメモリ構成により, clocking to embedded DRAM is controlled delicately by the Memory I/F (MIF). As the result, the power consumption in the embedded DRAM is reduced from about 30mW to about 8mW. As shown in the “Performance for Core@L1 Decoding” figure, when the chip doesn‘t use the engines for Core Profile decoding, Core decoding capability is only 5 QCIF frames per second. So, it needs the three times operating frequency to do Core@L1 decoding at 15 QCIF frames per second. Consequently, the power consumption without Core Profile decoding engines will grow up to about 325mW. This is too large to use the chip in mobile application. On the other hand, the power consumption with Core Profile decoding engines is about 110mW. So, they reduce the power consumption by 66%. 2004年 9月 新大VLSI工学

電源電圧制御 こうすると大幅に消費電力が低減できる。 Energy consumption is proportional to Vdd固定ではクロック周波数を下げたときに消費電力は比例でしか変化しないが 遅くても良い処理の場合はクロック周波数を下げるとともにVddも下げる。 こうすると大幅に消費電力が低減できる。 Normalized workload 0.0 0.2 0.4 0.6 0.8 1.0 Normalized energy Variable Vdd Fixed Vdd Short channel (a=1.3) Long channel (a=2) Energy consumption is proportional to the square of VDD. VDD should be lowered to the minimum level which ensures the real-time operation. 2004年 9月 新大VLSI工学

電圧ホッピング リアルタイム画像エンコードを電圧ホッピングにより電力1/10を達成 VDD SH-4 Clock MPEG-4 video encoding Transition Delay TTD (ms) 0.0 0.2 0.4 0.6 0.8 1.0 Normalized Power P/PFIX 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 RVH: 2 levels (f,f/2) RVH : 3 levels (f,f/2,f/3) RVH : 4 levels (f,f/2,f/3,f/4) RVH : infinite levels post-simulation analysis VDD VDD SH-4 Modified Clock SH-4 Clock S.Lee and T.Sakurai, “Run-time Power Control Scheme Using Software Feedback Loop for Low-Power Real-time Applications,”ASPDAC'00, A5.2, pp.381~pp.386, Jan. 2000. S.Lee and T.Sakurai, “Run-time Voltage Hopping for Low-power Real-time Systems,” DAC'00, June 2000. 2004年 9月 新大VLSI工学

Vddによるリーク電流制御 電源電圧Vddを高くするとDIBL効果によりVTが下がりリーク電流が多くなる。 0.5 1 0.2 0.4 0.6 0.8 Normalized speed Normalized power s=0.1V/decade VTH/VDD,MAX=0.15 PDYNAMIC PLEAK (without DIBL) PLEAK (with DIBL) VDS Surface potential Source Drain Super-linear Changing VDD alone 2004年 9月 新大VLSI工学

今後のLSIの姿 LSI LSIコア Vdd制御 VT制御 fclk制御 (バックゲート) fclk制御 2004年 9月 新大VLSI工学

配線設計 配線設計 配線による信号遅延 配線スケーリング リピーターバッファーの挿入 階層化設計 配線のパラメータと速度 2004年 9月 2004年 9月 新大VLSI工学

配線問題 配線は高速化・低消費電力化の大敵である。 また、微細デバイスを接続するには微細配線が必要である。 距離 配線 駆動デバイス 受信デバイス ・配線によって生じること 高速化・低消費電力化 ・信号の遅延 ・信号の減衰 ・波形の変形 ・電力の消費 ・電磁波の輻射 ・配線抵抗を下げる ・誘電率を下げる しかし、いずれも限界がある 短い配線で接続できるようにすることが重要 2004年 9月 新大VLSI工学

配線遅延時間 配線遅延時間は配線の抵抗と容量の積に比例する Length: X Ro Cin Lu Ru Cu Vs このような単位回路の分布定数回路 Lu is negligible when 桜井のワイアーロードモデル Wire delay Gate delay T. Sakurai, IEEE, JSC, SC-18, No.4, p. 418, 1983. 2004年 9月 新大VLSI工学

配線容量 H w h d 容量は寸法比で与えられるため、微細化で縮小することは困難である。 低誘電率化が低容量化に最も効果がある。 Wire Other Metal or bulk w h d 配線ピッチを縮めると線間容量が増加 配線ピッチを緩めると対地容量が増加 →最適なピッチがある →単に横方向を微細化しても容量は減らない 容量値は寸法比で与えられ、絶対的な大きさに依存しない。 J. M. Rabaey, “Digital Integrated Circuits”, pp. 445 2004年 9月 新大VLSI工学

配線のスケーリング L R C 配線のスケーリングは極めて困難である。 S: Device scaling factor              更にチップサイズの増加がこれに拍車をかけている Tdrc will increase at 2x or 3x for one generation S: Device scaling factor Sc: Chip size scaling factor ローカル配線の容量は低下しているが、これは 配線長短縮の効果で、単位長さ当たりの容量は一定 L d w R h C H 2004年 9月 新大VLSI工学

ゲート遅延と配線遅延 Interconnection delay Delay time (ps) Gate delay 500 Delay time (ps) Design Rule (um) ゲート遅延は減少しているが配線遅延は増加している。 Interconnection delay Gate delay T. Mogami “LP & HS LSI Circuit & Technology” pp. 547-560, Realize Inc. 1998. 2004年 9月 新大VLSI工学

リーピーターバッファーの挿入 ro RuX Tpd1 CuX Tpd2 Cin RuX/n ro RuX/n ro Cin CuX/n 配線長の2乗に比例して遅延時間が増大するので、バッファーを入れて 配線長を短くすると、ゲート遅延が増加しても全体の遅延時間を短縮できる ro RuX Tpd1 CuX Tpd2 Cin RuX/n ro RuX/n ro Cin CuX/n CuX/n リピータバッファの挿入 最適数での遅延時間比 n(バッファー数) 2004年 9月 新大VLSI工学

Technology roadmap Insertion of repeater グローバル配線遅延はたとえ、リピータバッファを入れても微細化とともに増大する。 Insertion of repeater ITRS 2001 Edition, pp. 261. Global Global w/ repeater Repeater buffer Local Gate 2004年 9月 新大VLSI工学

(by changing the number & size of repeaters) 配線の高速化と消費電力 リピーターバッファーを増やして配線遅延を減少させることで高速化を図ろうとすると消費電力が急増する。限度を超えた高速化は消費電力の大敵である。 Normalized speed (by changing the number & size of repeaters) 0.9 0.95 1 0.7 0.8 Normalized power Super-linear 2004年 9月 新大VLSI工学

Interconnect Density Function 配線長分布 短い配線は多く、長い配線は少ない。 階層的な多層配線技術の導入 105 104 103 102 101 100 10-1 106 Lower layer: high density (Hi RC) Upper layer: low density (Lo RC) Theoretical Curve L = (142,742)1/2 = 377 [gate pitch] Actual Data Interconnect Density Function Chip length L Number of gate N=142,742 p = 0.8 k = 5.0 1 10 100 1000 Interconnect Length [Unit in Gate Pitch] Davis, De, and Meindl, IEEE ED-45(3) 580 (1998) 2004年 9月 新大VLSI工学

LSIのレイアウトと配線構造 LSI Global Intermediate Semi-global ローカル配線:  セル内のトランジスタノードの接続。 高密度、短い配線長 グローバル配線: マクロブロック間の接続。 低密度 低抵抗 長い配線長 LSI Global マクロブロック Intermediate ゲート (スタセル) Semi-global ブロック 2004年 9月 新大VLSI工学

階層配線 Current LSI technology uses hierarchical interconnection structure. Global interconnection uses thicker and wider metals. 2x to 3x ITRS 2001 Edition, pp. 262. 2004年 9月 新大VLSI工学

現在のSoC用多層配線 Current LSI uses hierarchical Cu interconnection technology, however the parameter ratio between Global and local is small. Ratio: 2x 2004年 9月 新大VLSI工学

配線の検討 C (fF/mm) 349 254 90 163 113 Rsq(Ohm/mm) 455 227 100 0.01 0.005 Local Global Above chip Module PWB C (fF/mm) 349 254 90 163 113 Rsq(Ohm/mm) 455 227 100 0.01 0.005 RC (ps/mm) 159 57.7 9.02 0.0016 0.00057 L (nH/mm) ---- 1.05 0.47 W (um) 0.22 0.44 1 60 h (um) 0.34 35 d (um) 0.20 0.40 H (um) 0.79 3.02 3000 180 2004年 9月 新大VLSI工学

配線の種類による動作周波数限界 Maximum operating frequency (Hz) Wire length (mm) 100G Local (1/4 clock) Module (1Clock) Module (1/4 Clock) 10G LC barrier Delay condition Maximum operating frequency (Hz) 1G PWB Local Attenuation condition 100M Global Above chip 10M 0.1 1 10 100 Wire length (mm) 2004年 9月 新大VLSI工学

リピーターバッファの効果 Maximum operating frequency (Hz) Wire length (mm) 0.1 10M 9 4 2 Buffer inserted (tpd=20ps) 1 10 100M 1G 100 10G 100G 14 11 15 5 Global Local Above chip Maximum operating frequency (Hz) Wire length (mm) Non-inserted 2004年 9月 新大VLSI工学

参考文献 [References] 2004年 9月 新大VLSI工学 [1] K. Ueda, T. Sugimura, et. al., " A 16-bit Digital Signal Processor with Specially Arranged Multiply- Accumulator for Low Power Consumption, " IEICETransaction, Vol. E78-C, No.12, pp.1709-1716, 1995. [2] K. Honma and O. Kato, " Trends of research and development in Europe and America, " Journal of The IEICE, Vol.78, no.2, pp.173-178, 1995. [3] H. Kabuo, M. Okamoto, et. al., " An 80 MOPS-Peak High-Speed and Low-Power-Consumption 16-bit Digital Signal Processor, " IEEE JSSC, Vol. 31, No. 4, pp.494-503, 1996. [4] A. P. Chandrakasan, S. Sheng, et. al., " Low-power CMOS digital design, " IEEE JSSC, Vol. 27, No. 4, pp.473-484, 1992. [5] I. Verbauwhede and M. Touriguian, " Low Power DSP Engine for Wireless Communications, " Journal of VLSI Signal Processing 18, pp.177-186, 1998. [6] N. Nakajima, H. Shibata, et al., " Baseband System LSI for Cellular Mobile Telephone, " Matsushita Technical Journal, pp.46-52, 1999. [7] M. Okamoto K. Stone, et. al., " A High Performance DSP Architecture for Next Generation Mobile Phone Systems, " IEEE DSP Workshop,1998. [8] T. Ishikawa, H. Suzuki, et al., " W-CDMA hardware-related issues, " IEEE ICCT,1998. [9] S. Kurohmaru, M. Matsuo, et. al., " A MPEG4 Programmable Codec DSP with an Embedded Pre/Post- processing Engine, " IEEE CICC,1999. 2004年 9月 新大VLSI工学

参考文献 J.M. Rabaey and M . Pedram, “Low Power Design Methodologies,” Kuluwer. K. Roy and S.C. Prasad, “Low-Power CMOS VLSI Circuit Design,” Wiley-interscience. 「低電力LSIの技術白書」日経BP 桜井貴康監修 「低消費電力、高速LSI技術」 リアライズ社 T. Hashimoto, et al., “A 90mW MPEG4 Video Codec LSI with the Capability for Core Profile,” ISSCC 2001, 9.1. 2004年 9月 新大VLSI工学