集積回路９．スケーリング則と低消費電力設計松澤　昭 2004年 9月 2004年　９月新大VLSI工学.

Slides:

Advertisements

Similar presentations

DATE : 11. メモリ五島正裕今日の内容メモリ  SRAM  DRAM  Flash Memory.

Advertisements

第１０章マイコン機器とマイコンプログラム ● マイコン回路とプログラミング ● サーボモータ，直流モータ制御以外のプログラムマイコンでどのようなことができるのか？モータのマイコン制御を使いこなす！

非対称レイアウトを用いた 60GHz 帯低 LO リークアップコンバージョンミキサ ○ 佐藤慎司, 津久井裕基, 岡田健一, 松澤昭東京工業大学大学院理工学研究科 2012/3/20.

FPGA 株式会社アプライド・マーケティング大越　章司

VLSI設計論第4回アキュムレータマシンと仮遅延シミュレーション

小水力班/ Small Hydro Generation Group 研究背景 / Research background

10. メモリ五島正裕.

第１０回　電力見積もりと省電力設計慶應義塾大学理工学部天野.

発表内容研究背景・目的伝送線路の構造伝送線路間カップリングシミュレーション - 1段増幅器シミュレーション

発表内容研究背景と課題クロスカップルキャパシタ PAの設計手法測定結果 2010/03/01 H. Asada, Tokyo Tech.

北海道大学理学院宇宙理学専攻惑星物理学研究室 M 2 齊藤大晶

SOIピクセル検出器用 Digital Libraryの開発

ディジタル信号処理 Digital Signal Processing

Isao Matsushima, Toshihisa Tomie

発表内容研究背景 Txリークの概念測定・シミュレーションの方法測定結果・誤差解析 Txリークの主な原因を特定まとめ

JeeYoung Hong, Tokyo Tech.

日本・北九州研究拠点における協力プロジェクトの簡単な紹介

Rearrangeable NoC: 配線遅延を考慮した分散ルータアーキテクチャ

Solid State Transformer (SST)

11. 省電力五島正裕.

集積回路６．回路・レイアウト設計松澤　昭 2004年 9月 2004年　９月新大VLSI工学.

５．アルミ板による磁界遮蔽 15 電気溶接環境における低周波磁界の計測と解析１．背景・目的４．磁界計測２．抵抗溶接

Tohoku University Kyo Tsukada

Power Electronics center

8. 順序回路の簡単化，機能的な順序回路五島正裕.

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

積分型SOI検出器INTPIX3の研究東北大学４年素粒子加速器実験葛山　浩教.

組み込み向けCPU 小型デバイスに搭載されるCPU 特徴携帯電話，デジタルカメラ，PDA，センサデバイスなど小型低消費電力多機能

第８回　論理ゲートの中身と性質論理ゲートについて，以下を理解する内部構成遅延時間，消費エネルギー電圧・電流特性瀬戸.

ストップウォッチのカードストップウォッチのカード

これからが面白いプロセッサアーキテクチャ

ダブルテールラッチ型コンパレータとプリアンプを用いたコンパレータの性能比較

電気回路学Ⅱ エネルギーインテリジェンスコース 5セメ山田博仁.

電界効果トランジスタの動作原理トランジスタを用いた回路のバイアス

Multi-Pixel Photon Counter（MPPC）の開発

ATLAS実験 SOI Transistor TEG の測定

電気回路学Ⅱ 通信工学コース 5セメ山田博仁.

高速剰余算アルゴリズムとそのハードウェア実装についての研究

電界効果トランジスタの動作原理トランジスタを用いた回路のバイアス

１．コンピュータと情報処理 p.18 第１章第１節２．コンピュータの動作のしくみＣＰＵと論理回路

動的な内部初期化機構による低消費電力超伝導単一磁束量子回路の高速化

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

60GHz帯CMOS差動増幅回路の高CMRR化に関する検討

インダクタの自己共振補正を考慮したLC-VCOの最適化

3 次元構造インダクタと底面配置回路を用いた484-mm2 21-GHz LC-VCO

ディジタル回路 5. ロジックの構成五島正裕.

FPGA 株式会社アプライド・マーケティング大越　章司

低インピーダンス伝送線路を用いたミリ波帯VCOの低雑音化の検討

電気電子情報第一（前期）実験 G5. ディジタル回路

3. 論理ゲートの実現五島正裕.

最新 IT トレンド ARM.

超伝導回路を用いた物理乱数発生回路の研究

References and Discussion

ミリ波帯電力増幅器における発振の検証 ○松下幸太,浅田大樹,高山直輝, 岡田健一,松澤昭東京工業大学

22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験高山誠指導教員小林泰秀

信号伝搬時間の電源電圧依存性の制御による超伝導単一磁束量子回路の動作余裕度の改善

Prof. Noriyoshi Yamauchi

コンピュータアーキテクチャ第 9 回.

8. 順序回路の実現五島正裕.

エレクトロニクスII 第12回増幅回路(1) 佐藤勝昭.

Cソースコード解析によるハード／ソフト最適分割システムの構築

Cluster EG Face To Face meeting

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似

第４回 CPUの役割と仕組み２命令の解析と実行、クロック、レジスタ

圧電素子を用いた高エネルギー素粒子実験用小型電源の開発

信号伝搬時間の電源電圧依存性の制御による超伝導単一磁束量子回路の動作余裕度の改善

並列処理プロセッサへの実数演算機構の開発

自己ルーティングによるラベル識別コリニア音響光学効果を用いたラベル識別スケジューリング経路制御ラベルラベル識別ラベル処理

Presentation transcript:

集積回路９．スケーリング則と低消費電力設計松澤　昭 2004年 9月 2004年　９月新大VLSI工学

集積回路 1. VLSIとは？ 2．VLSIの設計から製造まで 3. ＭＯＳトランジスタとCMOS論理回路 4．メモリー回路 6. 回路・レイアウト設計 7. 論理設計とテスト 8. アナログ・デジタル混載集積回路 9. スケーリング則と低消費電力化設計 10．システムLSIとVLSIの今後 2004年　９月新大VLSI工学

CMOS論理回路論理回路 CMOSでの実現 Vdd Idsp Vin Vout CL Idsn IN OUT OUT IN CMOS論理回路は他の論理回路（たとえばECL）などと異なり、基本的に定常電流が流れない。したがって基本的に低消費電力回路である。高速動作のために定常電流を増やす必要がないので実質的には高速化も可能である。論理回路 IN ・動作 OUT VinがGNDの時はPMOSがON, NMOSがオフ。電流Idspが流れて負荷容量CLを充電し、出力電圧は上昇する。出力電圧がVddまで達するとPMOSのVds=0になり電流は遮断される。 VinがVddのNMOSがON, PMOSがオフ。電流Idsnが流れて負荷容量CLを放電し、出力電圧は下降する。出力電圧がGNDまで達するとNMOSのVds=0になり電流は遮断される。 CMOSでの実現 Vdd OUT Idsp Vin Vout Vdd Vdd IN GND CL GND Idsn 2004年　９月新大VLSI工学

動作速度どんなデバイスでも動作速度は論理電圧と駆動電流、容量の関係で決まる。 Vo Io CL t Io Vo VLT 遅延時間を短縮するには・容量を下げる・論理しきい値電圧を下げる・出力電流を増加させる Vo Io CL 真性の微細化CMOSの場合は Io VLT Vo t Tpd VT/Vdd比を一定に取れればチャネル長Lに比例して遅延時間を短縮できる 2004年　９月新大VLSI工学

消費電力 CMOS回路の消費電力消費電力を下げる・動作周波数を下げる・容量を下げる・電源電圧を下げる CMOS回路の優れたところ Vdd 容量のスイッチング電力これは従来あまり大きくなかった今後は影響が大きい消費電力を下げる CL ・動作周波数を下げる・容量を下げる・電源電圧を下げる CMOS回路の優れたところ・定常電流が流れない・駆動電流を上げて速度を上げても消費電力は増加しない 2004年　９月新大VLSI工学

LSI技術の黄金則：スケーリング則 Scaling スケーリング則はLSIの黄金則である動作電圧も1/Sにする tox L W Scaling 動作電圧も1/Sにする Device/Circuit parameter Scaling Factor Device dimensions L, W, Tox 1/S Doping concentration S～S1.5 Voltage Field 1 Current Gate Delay Power dissipation/device 1/S3～ 1/S2 微細化・低電圧化により、・高密度化(低コスト）・高速化・低消費電力が同時に達成される R. H. Dennard, et al., IEEE, JSC, SC-9, p.256, 1974. 不純物濃度を上げるのは空乏層厚を下げるためである。 2004年　９月新大VLSI工学

スケーリング則の検証・遅延時間・規格化消費電力=消費エネルギースケールファクターの３乗に反比例する。しかし実際は配線容量があまり下がらないので S2程度になる。 2004年　９月新大VLSI工学

CMOS回路の速度と消費電力 CMOS回路の速度と消費電力電源電圧・しきい値電圧と回路の速度電源電圧制御しきい値電圧とリーク電流リーク電流対策回路回路ブロックと消費電力 2004年　９月新大VLSI工学

CMOS回路の消費電力ローパワー化には各項の低減が必要充放電電力の低減手法要素手法トレードオフ要因ｽｲｯﾁﾝｸﾞ確率ｸﾞﾘｯｼﾞ低減設計の煩雑さ増大ＣＬＣＭＯＳ回路の電流成分貫通電流充放電電流リーク電流ｽｲｯﾁｨﾝｸﾞ時に発生ｐｔｹﾞｰﾃｨﾄﾞｸﾛｯｸ開発TAT 動作周波数回路の並列化ﾁｯﾌﾟ面積の増大ｆ微細化設計の煩雑さ増大ﾒﾓﾘ空間の階層化する場合あり負荷容量ﾄﾗﾝｼﾞｽﾀのｻｲｼﾞﾝｸﾞ C L ﾊﾟｽﾄﾗﾝｼﾞｽﾀﾛｼﾞｯｸ動作ｽﾋﾟｰﾄﾞは改善ﾀﾞｲﾅﾐｯｸ回路 DC-DCｺﾝﾊﾞｰﾀ電源電圧動作ｽﾋﾟｰﾄﾞの劣化 Vdd ２電源最適設計 2004年　９月新大VLSI工学

トランジスタサイジング配線容量などの負荷容量を駆動する場合は駆動用トランジスタのゲート幅が小さければ消費電力は小さいが遅延時間は長い。逆にゲート幅が大きければ遅延時間は短いが消費電力は大きい。バランスを考えると[負荷容量=ゲート容量]あたりが最適である。 2004年　９月新大VLSI工学

電源電圧と同時に閾値電圧スケーリング必要 CMOS回路の遅延時間遅延時間の短縮：・負荷容量の低減・電源電圧の増大・しきい値電圧の低減 α=1.3～1.5 動作スピード＊MOSの飽和電流式遅延は負荷容量の充放電速度で決まる Vdd Td GND 消費電力の抑制動作スピードは劣化には電源電圧の閾値電圧の近傍で低減が効果的急激に遅延増大電源電圧と同時に閾値電圧スケーリング必要 2004年　９月新大VLSI工学 P∝ f・ｃ・Vdd

等速度を与える電源電圧としきい値電圧しきい値電圧を下げることで電源電圧を下げて消費電力を低減しながら速度を維持できる 2004年９月 2004年　９月新大VLSI工学

動作速度に応じて電源電圧を変化させればより低消費電力になる電源電圧の制御動作速度に応じて電源電圧を変化させればより低消費電力になる＊消費電力消費電力と動作スピードの関係遅延に応じて動作周波数も変えた場合 1.6 1.4 動作周波数も下がることで Vddの２乗以上のローパワー効果 1.2 Vt=0.5V ＊エネルギー 1 Vdd一定消費電力(a.u.) 処理に必要なエネルギー 0.8 周波数ｆ変更 Vt=0.25V 処理時間に制約がなければ 0.6 Vdd下げるほど省エネルギー Vdd変更 Deadline 0.4 2 周波数ｆ一定 Vdd、ｆ P=f･c･3.3 0.2 2 とも変更 2 P P P=( f)･c･2.5 3 0.2 0.4 0.6 0.8 1 1.2 1.4 T T 動作スピード（a.u.） 2004年　９月新大VLSI工学

リーク電流問題 VTを下げるとリーク電流は指数的に増大消費電力（a.u.）リーク電流を考慮した消費電力＊サブスレショルド領域の電流 I o：Vt=0Vのときのドレイン電流ｓ：Vgs－Ids特性の傾きの逆数 s=80～100mV W：オフTrのトータルゲート幅 I leak = Ids at Vgs=0V 低電圧での遅延抑制のための低Vt化でリーク電力が指数関数的に増大 → 電力が増え逆効果適切な閾値電圧の設定が必要 2004年　９月新大VLSI工学

微細化による遅延時間の増大微細化によりかえって遅延時間が増大してきた内部電源電圧［Ｖ］プロセス世代[μm] 遅延時間 [相対値] 1.8V 3V 5V 1V 2.5V 1.2V 1.5V 内部電源電圧　［Ｖ］プロセス世代[μm] 5 100 遅延時間　[相対値] 0.1 1.0 0.2 0.3 0.5 10 50 高Vt オフ電流一定低Vｔ Vt/VDD一定中VｔＶｔスケーリング寄生効果で遅延増加Ｖｔ一定 2004年　９月新大VLSI工学

消費電力の危機 Power consumption (W) 高速CPUの消費電力高速CPUの消費電力は100W (1V, 100A!!)を超えようとしている。更にリーク電流が急激に上昇している。まさに消費電力の危機である。 ‘60 ‘70 ‘80 ‘90 2000 ‘10 0.001 0.01 0.1 1 10 100 1000 Power consumption　(W) Dynamic current Leak current 高速CPUの消費電力 2004年　９月新大VLSI工学

今後の0.1um, 1V時代ではそのままでは使えないリーク電流対策回路今後の0.1um, 1V時代ではそのままでは使えない・スイッチで回路を遮断する・スタンバイ回路が別に必要・低電圧では使用しにくい・スイッチとバックゲートの併用・微細TRでは十分なバックゲートが困難・低電圧では使用しにくい・ゲートリークが遮断できない・バックゲート印加でVTを上げる・微細TRでは効果が減少・ゲートリークが遮断できない 2004年　９月新大VLSI工学

回路ブロック毎の電力消費どの回路が消費電力が大きいかはLSIの種類によって異なる。低消費電力化設計はこの分析から始まる。 Clock ASSP1 Logic Memory I/O ASSP2 MPU1 MPU2 2004年　９月新大VLSI工学

Power reduction: Example Power dissipation can be reduced to 1/10 Clock circuit consumes power of 75% of total Pd in this LSI. F/F reduction Gated CLK 100 Volt. lowering 3.0V->1.5V Cap. Lowering (0.6) Clock 80 1/2 75 60 Power consumption (A.U) 1/5 40 Interconnect 30.5 Macro 8 20 18 13 3 7 6.5 1.7 1 2 3 0.35um 0.35um 0. 18um 2004年　９月新大VLSI工学

DRAM混載による低消費電力化 MPEG4 codec 外付けDRAMはI/O部分で電力を消費する。（内蔵メモリーの100倍程度）高速信号はチップ外に出してはいけない！ MPEG4 codec Separate chips 240mW DRAM Logic & memory DRAM on a chip Power DRAM - logic interface 16Mbit DRAM Speech codec Multiplexer MPEG-4 Video Codec Host I/F PLL Cam Display Pre- filter VT 891mW 70% power reduction by DRAM embedding alone Courtesy Toshiba, ISSCC 2000 2004年　９月新大VLSI工学

低電力LSIアーキテクチャ低電力LSIアーキテクチャ電力効率の良い高速処理LSIの設計シナリオ演算器の改良クロックゲーティング電源電圧制御 2004年　９月新大VLSI工学

電力効率の良い高速処理LSIのシナリオクロック当たりの処理量を増やし、クロック周波数と電源電圧を下げるのが基本 2004年９月 2004年　９月新大VLSI工学

マイクロプロセッサーマイクロプロセッサーの処理では命令がメモリーから読み出されＡＬＵの論理機能を変える。次にデータがメモリーから読み出され、ALUで論理処理されて、メモリーに返される。特徴・ソフトを変えることで殆ど全ての論理処理が実現できる・ハードは機能・用途にかかわらず共通である・クロックに同期して動作し、基本的に１クロックで１処理行う・メモリーからデータを読み出し、処理し、メモリーに返す課題・処理速度を上げるにはクロック周波数を上げる必要がある・データが負荷容量の大きなバスを通る →動作周波数の割には処理量が少なく消費電力が大きい 2004年　９月新大VLSI工学

パイプライン動作と並列動作による低消費電力化クロックあたりの演算処理量を上げる方法 2004年　９月新大VLSI工学

LSIアーキテクチャによる演算速度と消費電力差 CPU DSP Dedicated LSI Clock frequency (MHz) 450 50 25 2 16 96 # of operations/clock 0.9 0.8 2.4 Operating speed (GOPS) Pd (mW) 7000 110 12 Pd (mW) 7800 138 5 Operating speed　(GOPS) Pd/GOPS: 3 orders 2004年　９月新大VLSI工学

演算器の改良・ベクトル演算ユニット：ある一定の長さの信号（ベクトル信号）に一連の処理を行う場合は　メモリからの信号を連続的に送り出して高速演算・低電力演算が可能になる。・専用ALU：差分処理などの特定の演算が多い回路では通常のALUにこのような専用演算器を追加すると高速・低電力演算が可能になる。 2004年　９月新大VLSI工学

MPEG4 LSIの構成 DSPに各種ビデオコーディック専用回路を付加させた VPU(Video Processing Unit) VCE (Video Codec Engines) DRAM (2Mb) LM ME VLC DCT IDCT VLD PNR PAD CAD COMP HIF (Host I/F) Programmable DSP (16Mb) Main Video Input Video Output MIF (Memory I/F) Sub Graph. Filter Inst. Mem DSP Core Data This figure shows the block diagram of this LSI. This consists of a embedded DRAM, a programmable DSP, eight dedicated hardware engines and three interface units. The capacity of Instruction memory and data memory are 64Kbyte and 42Kbyte respectively. Total capacity of embedded DRAM is 20Mbit. 2004年　９月新大VLSI工学

Performance for Core Decoding 画像Codecでは専用演算器を設けて演算処理速度を向上できる。 Decoding Performance : 5fps 20fps 5 PAD COMP 40 6.1% CAD Texture Decoding 100 Kcycles 200 Core@L1 Software HW Engine WITH the Engines 26.5% 6.8% 63% WITHOUT the Engines 24% Mcycles This figure shows the performance improvement by using the dedicated hardware engines. Compared with only software implementation, the execution cycles of CAD, padding and composite are reduced to 6.1%, 26.5% and 6.8%, respectively. Further, those of texture decoding are reduced by about 63%. In total, the number of cycles needed for Core@L1 decoding is reduced by about 50 million cycles compared with it without these engines for Core decoding, which is about 200 million cycles. This is the capability to perform Core@L1 decoding at about 20 frames per second. 2004年　９月新大VLSI工学

クロックゲーティングの効果使用しない回路へのクロックを停止するとこで大幅な低電力化が可能 Clock Gating Non Clock Gating WITH the Core Engines 100 200 [mW] 300 40% 37% The Effect of Core Engines The Effect of Clock Gating DSP VCE (not Core) VPU MIF PAD DRAM (Core) WITHOUT the Core Engines This figure shows the effectiveness of the clock gating for Simple@L1 simultaneous encoding and decoding,and the effectiveness of introducing the dedicated hardware engines for Core Profile decoding on the power consumption. マルチマクロメモリ構成により， clocking to embedded DRAM is controlled delicately by the Memory I/F (MIF). As the result, the power consumption in the embedded DRAM is reduced from about 30mW to about 8mW. As shown in the “Performance for Core@L1 Decoding” figure, when the chip doesn‘t use the engines for Core Profile decoding, Core decoding capability is only 5 QCIF frames per second. So, it needs the three times operating frequency to do Core@L1 decoding at 15 QCIF frames per second. Consequently, the power consumption without Core Profile decoding engines will grow up to about 325mW. This is too large to use the chip in mobile application. On the other hand, the power consumption with Core Profile decoding engines is about 110mW. So, they reduce the power consumption by 66%. 2004年　９月新大VLSI工学

電源電圧制御こうすると大幅に消費電力が低減できる。 Energy consumption is proportional to Vdd固定ではクロック周波数を下げたときに消費電力は比例でしか変化しないが遅くても良い処理の場合はクロック周波数を下げるとともにVddも下げる。こうすると大幅に消費電力が低減できる。 Normalized workload 0.0 0.2 0.4 0.6 0.8 1.0 Normalized energy Variable Vdd Fixed Vdd Short channel (a=1.3) Long channel (a=2) Energy consumption is proportional to the square of VDD. VDD should be lowered to the minimum level which ensures the real-time operation. 2004年　９月新大VLSI工学

電圧ホッピングリアルタイム画像エンコードを電圧ホッピングにより電力1/10を達成 VDD SH-4 Clock MPEG-4 video encoding Transition Delay TTD (ms) 0.0 0.2 0.4 0.6 0.8 1.0 Normalized Power P/PFIX 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 RVH: 2 levels (f,f/2) RVH : 3 levels (f,f/2,f/3) RVH : 4 levels (f,f/2,f/3,f/4) RVH : infinite levels post-simulation analysis VDD VDD SH-4 Modified Clock SH-4 Clock S.Lee and T.Sakurai, “Run-time Power Control Scheme Using Software Feedback Loop for Low-Power Real-time Applications,”ASPDAC'00, A5.2, pp.381~pp.386, Jan. 2000. S.Lee and T.Sakurai, “Run-time Voltage Hopping for Low-power Real-time Systems,” DAC'00, June 2000. 2004年　９月新大VLSI工学

Vddによるリーク電流制御電源電圧Vddを高くするとDIBL効果によりVTが下がりリーク電流が多くなる。 0.5 1 0.2 0.4 0.6 0.8 Normalized speed Normalized power s=0.1V/decade VTH/VDD,MAX=0.15 PDYNAMIC PLEAK (without DIBL) PLEAK (with DIBL) VDS Surface potential Source Drain Super-linear Changing VDD alone 2004年　９月新大VLSI工学

今後のLSIの姿 LSI LSIコア Vdd制御 VT制御 fclk制御 (バックゲート） fclk制御 2004年　９月新大VLSI工学

配線設計配線設計配線による信号遅延配線スケーリングリピーターバッファーの挿入階層化設計配線のパラメータと速度 2004年９月 2004年　９月新大VLSI工学

配線問題配線は高速化・低消費電力化の大敵である。また、微細デバイスを接続するには微細配線が必要である。距離配線駆動デバイス受信デバイス・配線によって生じること高速化・低消費電力化・信号の遅延・信号の減衰・波形の変形・電力の消費・電磁波の輻射・配線抵抗を下げる・誘電率を下げるしかし、いずれも限界がある短い配線で接続できるようにすることが重要 2004年　９月新大VLSI工学

配線遅延時間配線遅延時間は配線の抵抗と容量の積に比例する Length: X Ro Cin Lu Ru Cu Vs このような単位回路の分布定数回路 Lu is negligible when 桜井のワイアーロードモデル Wire delay Gate delay T. Sakurai, IEEE, JSC, SC-18, No.4, p. 418, 1983. 2004年　９月新大VLSI工学

配線容量 H w h d 容量は寸法比で与えられるため、微細化で縮小することは困難である。低誘電率化が低容量化に最も効果がある。 Wire Other Metal or bulk w h d 配線ピッチを縮めると線間容量が増加配線ピッチを緩めると対地容量が増加 →最適なピッチがある →単に横方向を微細化しても容量は減らない容量値は寸法比で与えられ、絶対的な大きさに依存しない。 J. M. Rabaey, “Digital Integrated Circuits”, pp. 445 2004年　９月新大VLSI工学

配線のスケーリング L R C 配線のスケーリングは極めて困難である。 S: Device scaling factor 　　　　　　　　　　　　　更にチップサイズの増加がこれに拍車をかけている Tdrc will increase at 2x or 3x for one generation S: Device scaling factor Sc: Chip size scaling factor ローカル配線の容量は低下しているが、これは配線長短縮の効果で、単位長さ当たりの容量は一定 L d w R h C H 2004年　９月新大VLSI工学

ゲート遅延と配線遅延 Interconnection delay Delay time (ps) Gate delay 500 Delay time (ps) Design Rule (um) ゲート遅延は減少しているが配線遅延は増加している。 Interconnection delay Gate delay T. Mogami “LP & HS LSI Circuit & Technology” pp. 547-560, Realize Inc. 1998. 2004年　９月新大VLSI工学

リーピーターバッファーの挿入 ro RuX Tpd1 CuX Tpd2 Cin RuX/n ro RuX/n ro Cin CuX/n 配線長の２乗に比例して遅延時間が増大するので、バッファーを入れて配線長を短くすると、ゲート遅延が増加しても全体の遅延時間を短縮できる ro RuX Tpd1 CuX Tpd2 Cin RuX/n ro RuX/n ro Cin CuX/n CuX/n リピータバッファの挿入最適数での遅延時間比 n（バッファー数） 2004年　９月新大VLSI工学

Technology roadmap Insertion of repeater グローバル配線遅延はたとえ、リピータバッファを入れても微細化とともに増大する。 Insertion of repeater ITRS 2001 Edition, pp. 261. Global Global w/ repeater Repeater buffer Local Gate 2004年　９月新大VLSI工学

(by changing the number & size of repeaters) 配線の高速化と消費電力リピーターバッファーを増やして配線遅延を減少させることで高速化を図ろうとすると消費電力が急増する。限度を超えた高速化は消費電力の大敵である。 Normalized speed (by changing the number & size of repeaters) 0.9 0.95 1 0.7 0.8 Normalized power Super-linear 2004年　９月新大VLSI工学

Interconnect Density Function 配線長分布短い配線は多く、長い配線は少ない。階層的な多層配線技術の導入 105 104 103 102 101 100 10-1 106 Lower layer: high density (Hi RC) Upper layer: low density (Lo RC) Theoretical Curve L = (142,742)1/2 = 377 [gate pitch] Actual Data Interconnect Density Function Chip length L Number of gate N=142,742 p = 0.8 k = 5.0 1 10 100 1000 Interconnect Length [Unit in Gate Pitch] Davis, De, and Meindl, IEEE ED-45(3) 580 (1998) 2004年　９月新大VLSI工学

LSIのレイアウトと配線構造 LSI Global Intermediate Semi-global ローカル配線：　　セル内のトランジスタノードの接続。　高密度、短い配線長グローバル配線：　マクロブロック間の接続。　低密度　低抵抗　長い配線長 LSI Global マクロブロック Intermediate ゲート（スタセル） Semi-global ブロック 2004年　９月新大VLSI工学

階層配線 Current LSI technology uses hierarchical interconnection structure. Global interconnection uses thicker and wider metals. 2x to 3x ITRS 2001 Edition, pp. 262. 2004年　９月新大VLSI工学

現在のSoC用多層配線 Current LSI uses hierarchical Cu interconnection technology, however the parameter ratio between Global and local is small. Ratio: 2x 2004年　９月新大VLSI工学

配線の検討 C (fF/mm) 349 254 90 163 113 Rsq(Ohm/mm) 455 227 100 0.01 0.005 Local Global Above chip Module PWB C (fF/mm) 349 254 90 163 113 Rsq(Ohm/mm) 455 227 100 0.01 0.005 RC (ps/mm) 159 57.7 9.02 0.0016 0.00057 L (nH/mm) ---- 1.05 0.47 W (um) 0.22 0.44 1 60 h (um) 0.34 35 d (um) 0.20 0.40 H (um) 0.79 3.02 3000 180 2004年　９月新大VLSI工学

配線の種類による動作周波数限界 Maximum operating frequency (Hz) Wire length (mm) 100G Local (1/4 clock) Module (1Clock) Module (1/4 Clock) 10G LC barrier Delay condition Maximum operating frequency (Hz) 1G PWB Local Attenuation condition 100M Global Above chip 10M 0.1 1 10 100 Wire length　(mm) 2004年　９月新大VLSI工学

リピーターバッファの効果 Maximum operating frequency (Hz) Wire length (mm) 0.1 10M 9 4 2 Buffer inserted (tpd=20ps) 1 10 100M 1G 100 10G 100G 14 11 15 5 Global Local Above chip Maximum operating frequency (Hz) Wire length　(mm) Non-inserted 2004年　９月新大VLSI工学

参考文献 [References] 2004年９月新大VLSI工学 [1] K. Ueda, T. Sugimura, et. al., " A 16-bit Digital Signal Processor with Specially Arranged Multiply- Accumulator for Low Power Consumption, " IEICETransaction, Vol. E78-C, No.12, pp.1709-1716, 1995. [2] K. Honma and O. Kato, " Trends of research and development in Europe and America, " Journal of The IEICE, Vol.78, no.2, pp.173-178, 1995. [3] H. Kabuo, M. Okamoto, et. al., " An 80 MOPS-Peak High-Speed and Low-Power-Consumption 16-bit Digital Signal Processor, " IEEE JSSC, Vol. 31, No. 4, pp.494-503, 1996. [4] A. P. Chandrakasan, S. Sheng, et. al., " Low-power CMOS digital design, " IEEE JSSC, Vol. 27, No. 4, pp.473-484, 1992. [5] I. Verbauwhede and M. Touriguian, " Low Power DSP Engine for Wireless Communications, " Journal of VLSI Signal Processing 18, pp.177-186, 1998. [6] N. Nakajima, H. Shibata, et al., " Baseband System LSI for Cellular Mobile Telephone, " Matsushita Technical Journal, pp.46-52, 1999. [7] M. Okamoto K. Stone, et. al., " A High Performance DSP Architecture for Next Generation Mobile Phone Systems, " IEEE DSP Workshop,1998. [8] T. Ishikawa, H. Suzuki, et al., " W-CDMA hardware-related issues, " IEEE ICCT,1998. [9] S. Kurohmaru, M. Matsuo, et. al., " A MPEG4 Programmable Codec DSP with an Embedded Pre/Post- processing Engine, " IEEE CICC,1999. 2004年　９月新大VLSI工学

参考文献 J.M. Rabaey and M . Pedram, “Low Power Design Methodologies,” Kuluwer. K. Roy and S.C. Prasad, “Low-Power CMOS VLSI Circuit Design,” Wiley-interscience. 「低電力LSIの技術白書」日経BP 桜井貴康監修　「低消費電力、高速LSI技術」　リアライズ社 T. Hashimoto, et al., “A 90mW MPEG4 Video Codec LSI with the Capability for Core Profile,” ISSCC 2001, 9.1. 2004年　９月新大VLSI工学