集積回路 9.スケーリング則と低消費電力設計 松澤 昭 2004年 9月 2004年 9月 新大VLSI工学
集積回路 1. VLSIとは? 2.VLSIの設計から製造まで 3. MOSトランジスタとCMOS論理回路 4.メモリー回路 6. 回路・レイアウト設計 7. 論理設計とテスト 8. アナログ・デジタル混載集積回路 9. スケーリング則と低消費電力化設計 10.システムLSIとVLSIの今後 2004年 9月 新大VLSI工学
CMOS論理回路 論理回路 CMOSでの実現 Vdd Idsp Vin Vout CL Idsn IN OUT OUT IN CMOS論理回路は他の論理回路(たとえばECL)などと異なり、基本的に定常電流が流れない。したがって基本的に低消費電力回路である。 高速動作のために定常電流を増やす必要がないので実質的には高速化も可能である。 論理回路 IN ・動作 OUT VinがGNDの時はPMOSがON, NMOSがオフ。電流Idspが流れて負荷容量CLを充電し、出力電圧は上昇する。出力電圧がVddまで達するとPMOSのVds=0になり電流は遮断される。 VinがVddのNMOSがON, PMOSがオフ。電流Idsnが流れて負荷容量CLを放電し、出力電圧は下降する。出力電圧がGNDまで達するとNMOSのVds=0になり電流は遮断される。 CMOSでの実現 Vdd OUT Idsp Vin Vout Vdd Vdd IN GND CL GND Idsn 2004年 9月 新大VLSI工学
動作速度 どんなデバイスでも動作速度は論理電圧と駆動電流、容量の関係で決まる。 Vo Io CL t Io Vo VLT 遅延時間を短縮するには ・容量を下げる ・論理しきい値電圧を下げる ・出力電流を増加させる Vo Io CL 真性の微細化CMOSの場合は Io VLT Vo t Tpd VT/Vdd比を一定に取れればチャネル長Lに比例して遅延時間を短縮できる 2004年 9月 新大VLSI工学
消費電力 CMOS回路の消費電力 消費電力を下げる ・動作周波数を下げる ・容量を下げる ・電源電圧を下げる CMOS回路の優れたところ Vdd 容量のスイッチング電力 これは従来あまり大きくなかった 今後は影響が大きい 消費電力を下げる CL ・動作周波数を下げる ・容量を下げる ・電源電圧を下げる CMOS回路の優れたところ ・定常電流が流れない ・駆動電流を上げて速度を上げても消費電力は増加しない 2004年 9月 新大VLSI工学
LSI技術の黄金則:スケーリング則 Scaling スケーリング則はLSIの黄金則である 動作電圧も1/Sにする tox L W Scaling 動作電圧も1/Sにする Device/Circuit parameter Scaling Factor Device dimensions L, W, Tox 1/S Doping concentration S~S1.5 Voltage Field 1 Current Gate Delay Power dissipation/device 1/S3~ 1/S2 微細化・低電圧化により、 ・高密度化(低コスト) ・高速化 ・低消費電力 が同時に達成される R. H. Dennard, et al., IEEE, JSC, SC-9, p.256, 1974. 不純物濃度を上げるのは空乏層厚を下げるためである。 2004年 9月 新大VLSI工学
スケーリング則の検証 ・遅延時間 ・規格化消費電力=消費エネルギー スケールファクターの3乗に反比例する。 しかし実際は配線容量があまり下がらないので S2程度になる。 2004年 9月 新大VLSI工学
CMOS回路の速度と消費電力 CMOS回路の速度と消費電力 電源電圧・しきい値電圧と回路の速度 電源電圧制御 しきい値電圧とリーク電流 リーク電流対策回路 回路ブロックと消費電力 2004年 9月 新大VLSI工学
CMOS回路の消費電力 ローパワー化には各項の低減が必要 充放電電力の低減手法 要素 手法 トレードオフ要因 スイッチング確率 グリッジ低減 設計の煩雑さ増大 C L CMOS回路の電流成分 貫通電流 充放電電流 リーク電流 スイッチィング 時に発生 pt ゲーティドクロック 開発TAT 動作周波数 回路の並列化 チップ面積の増大 f 微細化 設計の煩雑さ増大 メモリ空間の階層化 する場合あり 負荷容量 トランジスタのサイジング C L パストランジスタロジック 動作スピードは改善 ダイナミック回路 DC-DCコンバータ 電源電圧 動作スピードの劣化 Vdd 2電源最適設計 2004年 9月 新大VLSI工学
トランジスタサイジング 配線容量などの負荷容量を駆動する場合は駆動用トランジスタの ゲート幅が小さければ消費電力は小さいが遅延時間は長い。 逆にゲート幅が大きければ遅延時間は短いが消費電力は大きい。 バランスを考えると[負荷容量=ゲート容量]あたりが最適である。 2004年 9月 新大VLSI工学
電源電圧と同時に閾値電圧スケーリング必要 CMOS回路の遅延時間 遅延時間の短縮: ・負荷容量の低減 ・電源電圧の増大 ・しきい値電圧の低減 α=1.3~1.5 動作スピード *MOSの飽和電流式 遅延は負荷容量の充放電速度で決まる Vdd Td GND 消費電力の抑制 動作スピードは劣化 には電源電圧の 閾値電圧の近傍で 低減が効果的 急激に遅延増大 電源電圧と同時に閾値電圧スケーリング必要 2004年 9月 新大VLSI工学 P∝ f・c・Vdd
等速度を与える電源電圧としきい値電圧 しきい値電圧を下げることで電源電圧を下げて消費電力を低減しながら速度を維持できる 2004年 9月 2004年 9月 新大VLSI工学
動作速度に応じて電源電圧を変化させればより低消費電力になる 電源電圧の制御 動作速度に応じて電源電圧を変化させればより低消費電力になる *消費電力 消費電力と動作スピードの関係 遅延に応じて動作周波数も変えた場合 1.6 1.4 動作周波数も下がることで Vddの2乗以上のローパワー効果 1.2 Vt=0.5V *エネルギー 1 Vdd一定 消費電力(a.u.) 処理に必要なエネルギー 0.8 周波数 f 変更 Vt=0.25V 処理時間に制約がなければ 0.6 Vdd下げるほど省エネルギー Vdd変更 Deadline 0.4 2 周波数 f 一定 Vdd、 f P=f・c・3.3 0.2 2 とも変更 2 P P P=( f)・c・2.5 3 0.2 0.4 0.6 0.8 1 1.2 1.4 T T 動作スピード(a.u.) 2004年 9月 新大VLSI工学
リーク電流問題 VTを下げるとリーク電流は指数的に増大 消費電力(a.u.) リーク電流を考慮した消費電力 *サブスレショルド領域の電流 I o:Vt=0Vのときのドレイン電流 s:Vgs-Ids特性の傾きの逆数 s=80~100mV W:オフTrのトータルゲート幅 I leak = Ids at Vgs=0V 低電圧での遅延抑制のための低Vt化で リーク電力が指数関数的に増大 → 電力が増え逆効果 適切な閾値電圧の設定が必要 2004年 9月 新大VLSI工学
微細化による遅延時間の増大 微細化によりかえって遅延時間が増大してきた 内部電源電圧 [V] プロセス世代[μm] 遅延時間 [相対値] 1.8V 3V 5V 1V 2.5V 1.2V 1.5V 内部電源電圧 [V] プロセス世代[μm] 5 100 遅延時間 [相対値] 0.1 1.0 0.2 0.3 0.5 10 50 高Vt オフ電流一定 低Vt Vt/VDD一定 中Vt Vtスケーリング 寄生効果で 遅延増加 Vt 一定 2004年 9月 新大VLSI工学
消費電力の危機 Power consumption (W) 高速CPUの消費電力 高速CPUの消費電力は100W (1V, 100A!!)を超えようとしている。 更にリーク電流が急激に上昇している。まさに消費電力の危機である。 ‘60 ‘70 ‘80 ‘90 2000 ‘10 0.001 0.01 0.1 1 10 100 1000 Power consumption (W) Dynamic current Leak current 高速CPUの消費電力 2004年 9月 新大VLSI工学
今後の0.1um, 1V時代ではそのままでは使えない リーク電流対策回路 今後の0.1um, 1V時代ではそのままでは使えない ・スイッチで回路を遮断する ・スタンバイ回路が別に必要 ・低電圧では使用しにくい ・スイッチとバックゲートの併用 ・微細TRでは十分なバックゲートが困難 ・低電圧では使用しにくい ・ゲートリークが遮断できない ・バックゲート印加でVTを上げる ・微細TRでは効果が減少 ・ゲートリークが遮断できない 2004年 9月 新大VLSI工学
回路ブロック毎の電力消費 どの回路が消費電力が大きいかはLSIの種類によって異なる。 低消費電力化設計はこの分析から始まる。 Clock ASSP1 Logic Memory I/O ASSP2 MPU1 MPU2 2004年 9月 新大VLSI工学
Power reduction: Example Power dissipation can be reduced to 1/10 Clock circuit consumes power of 75% of total Pd in this LSI. F/F reduction Gated CLK 100 Volt. lowering 3.0V->1.5V Cap. Lowering (0.6) Clock 80 1/2 75 60 Power consumption (A.U) 1/5 40 Interconnect 30.5 Macro 8 20 18 13 3 7 6.5 1.7 1 2 3 0.35um 0.35um 0. 18um 2004年 9月 新大VLSI工学
DRAM混載による低消費電力化 MPEG4 codec 外付けDRAMはI/O部分で電力を消費する。(内蔵メモリーの100倍程度) 高速信号はチップ外に出してはいけない! MPEG4 codec Separate chips 240mW DRAM Logic & memory DRAM on a chip Power DRAM - logic interface 16Mbit DRAM Speech codec Multiplexer MPEG-4 Video Codec Host I/F PLL Cam Display Pre- filter VT 891mW 70% power reduction by DRAM embedding alone Courtesy Toshiba, ISSCC 2000 2004年 9月 新大VLSI工学
低電力LSIアーキテクチャ 低電力LSIアーキテクチャ 電力効率の良い高速処理LSIの設計シナリオ 演算器の改良 クロックゲーティング 電源電圧制御 2004年 9月 新大VLSI工学
電力効率の良い高速処理LSIのシナリオ クロック当たりの処理量を増やし、クロック周波数と電源電圧を下げるのが基本 2004年 9月 2004年 9月 新大VLSI工学
マイクロプロセッサー マイクロプロセッサーの処理では命令がメモリーから読み出されALUの論理機能を変える。次にデータがメモリーから読み出され、ALUで論理処理されて、メモリーに返される。 特徴 ・ソフトを変えることで殆ど全ての論理処理が実現できる ・ハードは機能・用途にかかわらず共通である ・クロックに同期して動作し、基本的に1クロックで1処理行う ・メモリーからデータを読み出し、処理し、メモリーに返す 課題 ・処理速度を上げるにはクロック周波数を上げる必要がある ・データが負荷容量の大きなバスを通る →動作周波数の割には処理量が少なく消費電力が大きい 2004年 9月 新大VLSI工学
パイプライン動作と並列動作による低消費電力化 クロックあたりの演算処理量を上げる方法 2004年 9月 新大VLSI工学
LSIアーキテクチャによる演算速度と消費電力差 CPU DSP Dedicated LSI Clock frequency (MHz) 450 50 25 2 16 96 # of operations/clock 0.9 0.8 2.4 Operating speed (GOPS) Pd (mW) 7000 110 12 Pd (mW) 7800 138 5 Operating speed (GOPS) Pd/GOPS: 3 orders 2004年 9月 新大VLSI工学
演算器の改良 ・ベクトル演算ユニット:ある一定の長さの信号(ベクトル信号)に一連の処理を行う場合は メモリからの信号を連続的に送り出して高速演算・低電力演算が可能になる。 ・専用ALU:差分処理などの特定の演算が多い回路では通常のALUにこのような専用演算器を追加すると高速・低電力演算が可能になる。 2004年 9月 新大VLSI工学
MPEG4 LSIの構成 DSPに各種ビデオコーディック専用回路を付加させた VPU(Video Processing Unit) VCE (Video Codec Engines) DRAM (2Mb) LM ME VLC DCT IDCT VLD PNR PAD CAD COMP HIF (Host I/F) Programmable DSP (16Mb) Main Video Input Video Output MIF (Memory I/F) Sub Graph. Filter Inst. Mem DSP Core Data This figure shows the block diagram of this LSI. This consists of a embedded DRAM, a programmable DSP, eight dedicated hardware engines and three interface units. The capacity of Instruction memory and data memory are 64Kbyte and 42Kbyte respectively. Total capacity of embedded DRAM is 20Mbit. 2004年 9月 新大VLSI工学
Performance for Core Decoding 画像Codecでは専用演算器を設けて演算処理速度を向上できる。 Decoding Performance : 5fps 20fps 5 PAD COMP 40 6.1% CAD Texture Decoding 100 Kcycles 200 Core@L1 Software HW Engine WITH the Engines 26.5% 6.8% 63% WITHOUT the Engines 24% Mcycles This figure shows the performance improvement by using the dedicated hardware engines. Compared with only software implementation, the execution cycles of CAD, padding and composite are reduced to 6.1%, 26.5% and 6.8%, respectively. Further, those of texture decoding are reduced by about 63%. In total, the number of cycles needed for Core@L1 decoding is reduced by about 50 million cycles compared with it without these engines for Core decoding, which is about 200 million cycles. This is the capability to perform Core@L1 decoding at about 20 frames per second. 2004年 9月 新大VLSI工学
クロックゲーティングの効果 使用しない回路へのクロックを停止するとこで大幅な低電力化が可能 Clock Gating Non Clock Gating WITH the Core Engines 100 200 [mW] 300 40% 37% The Effect of Core Engines The Effect of Clock Gating DSP VCE (not Core) VPU MIF PAD DRAM (Core) WITHOUT the Core Engines This figure shows the effectiveness of the clock gating for Simple@L1 simultaneous encoding and decoding,and the effectiveness of introducing the dedicated hardware engines for Core Profile decoding on the power consumption. マルチマクロメモリ構成により, clocking to embedded DRAM is controlled delicately by the Memory I/F (MIF). As the result, the power consumption in the embedded DRAM is reduced from about 30mW to about 8mW. As shown in the “Performance for Core@L1 Decoding” figure, when the chip doesn‘t use the engines for Core Profile decoding, Core decoding capability is only 5 QCIF frames per second. So, it needs the three times operating frequency to do Core@L1 decoding at 15 QCIF frames per second. Consequently, the power consumption without Core Profile decoding engines will grow up to about 325mW. This is too large to use the chip in mobile application. On the other hand, the power consumption with Core Profile decoding engines is about 110mW. So, they reduce the power consumption by 66%. 2004年 9月 新大VLSI工学
電源電圧制御 こうすると大幅に消費電力が低減できる。 Energy consumption is proportional to Vdd固定ではクロック周波数を下げたときに消費電力は比例でしか変化しないが 遅くても良い処理の場合はクロック周波数を下げるとともにVddも下げる。 こうすると大幅に消費電力が低減できる。 Normalized workload 0.0 0.2 0.4 0.6 0.8 1.0 Normalized energy Variable Vdd Fixed Vdd Short channel (a=1.3) Long channel (a=2) Energy consumption is proportional to the square of VDD. VDD should be lowered to the minimum level which ensures the real-time operation. 2004年 9月 新大VLSI工学
電圧ホッピング リアルタイム画像エンコードを電圧ホッピングにより電力1/10を達成 VDD SH-4 Clock MPEG-4 video encoding Transition Delay TTD (ms) 0.0 0.2 0.4 0.6 0.8 1.0 Normalized Power P/PFIX 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 RVH: 2 levels (f,f/2) RVH : 3 levels (f,f/2,f/3) RVH : 4 levels (f,f/2,f/3,f/4) RVH : infinite levels post-simulation analysis VDD VDD SH-4 Modified Clock SH-4 Clock S.Lee and T.Sakurai, “Run-time Power Control Scheme Using Software Feedback Loop for Low-Power Real-time Applications,”ASPDAC'00, A5.2, pp.381~pp.386, Jan. 2000. S.Lee and T.Sakurai, “Run-time Voltage Hopping for Low-power Real-time Systems,” DAC'00, June 2000. 2004年 9月 新大VLSI工学
Vddによるリーク電流制御 電源電圧Vddを高くするとDIBL効果によりVTが下がりリーク電流が多くなる。 0.5 1 0.2 0.4 0.6 0.8 Normalized speed Normalized power s=0.1V/decade VTH/VDD,MAX=0.15 PDYNAMIC PLEAK (without DIBL) PLEAK (with DIBL) VDS Surface potential Source Drain Super-linear Changing VDD alone 2004年 9月 新大VLSI工学
今後のLSIの姿 LSI LSIコア Vdd制御 VT制御 fclk制御 (バックゲート) fclk制御 2004年 9月 新大VLSI工学
配線設計 配線設計 配線による信号遅延 配線スケーリング リピーターバッファーの挿入 階層化設計 配線のパラメータと速度 2004年 9月 2004年 9月 新大VLSI工学
配線問題 配線は高速化・低消費電力化の大敵である。 また、微細デバイスを接続するには微細配線が必要である。 距離 配線 駆動デバイス 受信デバイス ・配線によって生じること 高速化・低消費電力化 ・信号の遅延 ・信号の減衰 ・波形の変形 ・電力の消費 ・電磁波の輻射 ・配線抵抗を下げる ・誘電率を下げる しかし、いずれも限界がある 短い配線で接続できるようにすることが重要 2004年 9月 新大VLSI工学
配線遅延時間 配線遅延時間は配線の抵抗と容量の積に比例する Length: X Ro Cin Lu Ru Cu Vs このような単位回路の分布定数回路 Lu is negligible when 桜井のワイアーロードモデル Wire delay Gate delay T. Sakurai, IEEE, JSC, SC-18, No.4, p. 418, 1983. 2004年 9月 新大VLSI工学
配線容量 H w h d 容量は寸法比で与えられるため、微細化で縮小することは困難である。 低誘電率化が低容量化に最も効果がある。 Wire Other Metal or bulk w h d 配線ピッチを縮めると線間容量が増加 配線ピッチを緩めると対地容量が増加 →最適なピッチがある →単に横方向を微細化しても容量は減らない 容量値は寸法比で与えられ、絶対的な大きさに依存しない。 J. M. Rabaey, “Digital Integrated Circuits”, pp. 445 2004年 9月 新大VLSI工学
配線のスケーリング L R C 配線のスケーリングは極めて困難である。 S: Device scaling factor 更にチップサイズの増加がこれに拍車をかけている Tdrc will increase at 2x or 3x for one generation S: Device scaling factor Sc: Chip size scaling factor ローカル配線の容量は低下しているが、これは 配線長短縮の効果で、単位長さ当たりの容量は一定 L d w R h C H 2004年 9月 新大VLSI工学
ゲート遅延と配線遅延 Interconnection delay Delay time (ps) Gate delay 500 Delay time (ps) Design Rule (um) ゲート遅延は減少しているが配線遅延は増加している。 Interconnection delay Gate delay T. Mogami “LP & HS LSI Circuit & Technology” pp. 547-560, Realize Inc. 1998. 2004年 9月 新大VLSI工学
リーピーターバッファーの挿入 ro RuX Tpd1 CuX Tpd2 Cin RuX/n ro RuX/n ro Cin CuX/n 配線長の2乗に比例して遅延時間が増大するので、バッファーを入れて 配線長を短くすると、ゲート遅延が増加しても全体の遅延時間を短縮できる ro RuX Tpd1 CuX Tpd2 Cin RuX/n ro RuX/n ro Cin CuX/n CuX/n リピータバッファの挿入 最適数での遅延時間比 n(バッファー数) 2004年 9月 新大VLSI工学
Technology roadmap Insertion of repeater グローバル配線遅延はたとえ、リピータバッファを入れても微細化とともに増大する。 Insertion of repeater ITRS 2001 Edition, pp. 261. Global Global w/ repeater Repeater buffer Local Gate 2004年 9月 新大VLSI工学
(by changing the number & size of repeaters) 配線の高速化と消費電力 リピーターバッファーを増やして配線遅延を減少させることで高速化を図ろうとすると消費電力が急増する。限度を超えた高速化は消費電力の大敵である。 Normalized speed (by changing the number & size of repeaters) 0.9 0.95 1 0.7 0.8 Normalized power Super-linear 2004年 9月 新大VLSI工学
Interconnect Density Function 配線長分布 短い配線は多く、長い配線は少ない。 階層的な多層配線技術の導入 105 104 103 102 101 100 10-1 106 Lower layer: high density (Hi RC) Upper layer: low density (Lo RC) Theoretical Curve L = (142,742)1/2 = 377 [gate pitch] Actual Data Interconnect Density Function Chip length L Number of gate N=142,742 p = 0.8 k = 5.0 1 10 100 1000 Interconnect Length [Unit in Gate Pitch] Davis, De, and Meindl, IEEE ED-45(3) 580 (1998) 2004年 9月 新大VLSI工学
LSIのレイアウトと配線構造 LSI Global Intermediate Semi-global ローカル配線: セル内のトランジスタノードの接続。 高密度、短い配線長 グローバル配線: マクロブロック間の接続。 低密度 低抵抗 長い配線長 LSI Global マクロブロック Intermediate ゲート (スタセル) Semi-global ブロック 2004年 9月 新大VLSI工学
階層配線 Current LSI technology uses hierarchical interconnection structure. Global interconnection uses thicker and wider metals. 2x to 3x ITRS 2001 Edition, pp. 262. 2004年 9月 新大VLSI工学
現在のSoC用多層配線 Current LSI uses hierarchical Cu interconnection technology, however the parameter ratio between Global and local is small. Ratio: 2x 2004年 9月 新大VLSI工学
配線の検討 C (fF/mm) 349 254 90 163 113 Rsq(Ohm/mm) 455 227 100 0.01 0.005 Local Global Above chip Module PWB C (fF/mm) 349 254 90 163 113 Rsq(Ohm/mm) 455 227 100 0.01 0.005 RC (ps/mm) 159 57.7 9.02 0.0016 0.00057 L (nH/mm) ---- 1.05 0.47 W (um) 0.22 0.44 1 60 h (um) 0.34 35 d (um) 0.20 0.40 H (um) 0.79 3.02 3000 180 2004年 9月 新大VLSI工学
配線の種類による動作周波数限界 Maximum operating frequency (Hz) Wire length (mm) 100G Local (1/4 clock) Module (1Clock) Module (1/4 Clock) 10G LC barrier Delay condition Maximum operating frequency (Hz) 1G PWB Local Attenuation condition 100M Global Above chip 10M 0.1 1 10 100 Wire length (mm) 2004年 9月 新大VLSI工学
リピーターバッファの効果 Maximum operating frequency (Hz) Wire length (mm) 0.1 10M 9 4 2 Buffer inserted (tpd=20ps) 1 10 100M 1G 100 10G 100G 14 11 15 5 Global Local Above chip Maximum operating frequency (Hz) Wire length (mm) Non-inserted 2004年 9月 新大VLSI工学
参考文献 [References] 2004年 9月 新大VLSI工学 [1] K. Ueda, T. Sugimura, et. al., " A 16-bit Digital Signal Processor with Specially Arranged Multiply- Accumulator for Low Power Consumption, " IEICETransaction, Vol. E78-C, No.12, pp.1709-1716, 1995. [2] K. Honma and O. Kato, " Trends of research and development in Europe and America, " Journal of The IEICE, Vol.78, no.2, pp.173-178, 1995. [3] H. Kabuo, M. Okamoto, et. al., " An 80 MOPS-Peak High-Speed and Low-Power-Consumption 16-bit Digital Signal Processor, " IEEE JSSC, Vol. 31, No. 4, pp.494-503, 1996. [4] A. P. Chandrakasan, S. Sheng, et. al., " Low-power CMOS digital design, " IEEE JSSC, Vol. 27, No. 4, pp.473-484, 1992. [5] I. Verbauwhede and M. Touriguian, " Low Power DSP Engine for Wireless Communications, " Journal of VLSI Signal Processing 18, pp.177-186, 1998. [6] N. Nakajima, H. Shibata, et al., " Baseband System LSI for Cellular Mobile Telephone, " Matsushita Technical Journal, pp.46-52, 1999. [7] M. Okamoto K. Stone, et. al., " A High Performance DSP Architecture for Next Generation Mobile Phone Systems, " IEEE DSP Workshop,1998. [8] T. Ishikawa, H. Suzuki, et al., " W-CDMA hardware-related issues, " IEEE ICCT,1998. [9] S. Kurohmaru, M. Matsuo, et. al., " A MPEG4 Programmable Codec DSP with an Embedded Pre/Post- processing Engine, " IEEE CICC,1999. 2004年 9月 新大VLSI工学
参考文献 J.M. Rabaey and M . Pedram, “Low Power Design Methodologies,” Kuluwer. K. Roy and S.C. Prasad, “Low-Power CMOS VLSI Circuit Design,” Wiley-interscience. 「低電力LSIの技術白書」日経BP 桜井貴康監修 「低消費電力、高速LSI技術」 リアライズ社 T. Hashimoto, et al., “A 90mW MPEG4 Video Codec LSI with the Capability for Core Profile,” ISSCC 2001, 9.1. 2004年 9月 新大VLSI工学