Presentation is loading. Please wait.

Presentation is loading. Please wait.

ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現

Similar presentations


Presentation on theme: "ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現"— Presentation transcript:

1 ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現
ポストムーア時代に重要なこと 新しい多様なデバイスを接続し それをシステムとして統合すること 柔軟性を持ち、ソフトウェア、ファームウェアを内蔵するHubChipの開発 チップ間無線結合TCI(Through Chip Interface) アクセラレータ・イン・スイッチ リコンフィギャラブルスイッチ、FPGA、CGRA ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現 2015/08/14

2 ハブベースチップ TCI+リコンフィギャラブルスイッチ(ルータ)+FPGA
Reconf. SW FPGA ハブベースチップ TCI+リコンフィギャラブルスイッチ(ルータ)+FPGA TCIアレイ TCIのアレイとスイッチを 基本とした 新しいリコンフィギャラブル デバイス FPブロックを入れるか? CGRAブロックを入れるか?

3 光インコネチップ ドーターチップ接続のイメージ 新メモリ 新メモリ 新メモリ 新メモリ OS用CPU FPGA FPGA FPGA
Reconf. SW Reconf. SW 新しいコンピューティングチップ アクセラレータ Reconf. SW FPGA FPGA Reconf. SW Reconf. SW 光インコネチップ FPGA FPGA FPGA 新メモリ 新メモリ 新メモリ 新メモリ ドーターチップ接続のイメージ

4 ベースとなる技術①:TCIと ビルディングブロックコンピューティングシステム
CPU Memory Accelerator1 Accelerator2 CPU CPU CPU CPU Memory Memory Accelerator2 Accelerator1 Accelerator1 Memory Memory Accelerator1 Memory Accelerator2 Accelerator2 Building block computing systems are an advanced SiP (System-in-Package). Each functional units like CPU, Memory and various types of accelerators chips are implemented independently. They all have standard through-chip interface and just by stacking these chips, various types systems can be built. The simplest system can be built just with CPU and memory chip. We can increase the memory. The accelerator required for the target system can be added and replaced. Of course, a powerful system can be built by stacking a lot of chips. As the first step, chips must be stacked in the factory, but as the second step, chips can be replaced by users. That is, field stackable system can be realized. We can build our fabrite system like making LEGO model. The key technique is Inductive Coupling Through-Chip Interface or TCI. 1 step: Various Combination can be done after chip-fabrication 2 step: Chips can be replaced by users → Field Stackable Key Technique: Inductive Coupling Through-Chip Interface(TCI)

5 Rx Tx Network Interface TCI 3D Interconnect TCI Packet En/Decode
Rx Blk Tx Blk Router Accelerator Core CPU Core Network Interface Data Link Clock Link Uplink Downlink Accelerator 1 Accelerator 2 Host CPU Header Payload 1 32 33 35 35bit Packet Structure Transfer Type: Command/Address Single Packet Data Burst Multi-Packet Data Inductive Coupling TCI is consisting of a set of Inductors, transmitter and receiver. Two chips are stacked so that the receiver coils are just on the transmittor coils like this. Then, wireless interconnect channel is formed.    Block diagram of scalable 3D NoC using inductive-coupling ThruChip Interface (TCI).   8Gbps 10mW/link 10^-9 error rate

6 Host CPU + Accelerator x3 Chip Stack Fabricated in 65nm CMOS
Host CPU Chip Accelerator Chip TEG Network IF m-Controller MIPS CPU Core 8x8 PE Array TCI Tx TCI Rx Rx Tx TCI This is a microphotograph of Cube-1. Host CPU Geyser is located top of the stacking, since we can provide a lot of wires for a top chip. Geyser has 5-stage standard pipeline, 8KB Instruction cache, Data cache and shared TLB. Linux operating system is working. The most interesting feature of this Geyser is its fine-grained runtime power gating mechanism. But today, I will omit this explanation. The core of Geyser can be implemented in this half of the chip and other half is used for TCI. The actually working coils are them, Transceivers and Receivers. Other coils are TEG for measuring the characteristics. Accelerator chip, a CMA is consisting of 8x8 PE array with combinatorial circutis. CMA has an extreme architecture for saving energy, but I will also omit to explain this architecture. Unlike Geyer, it provides 4-sets of inductors for uplink and downlink to connect upper stacked chip and lower stacked chip. Microphotograph of stacked test chips.

7 ベースとなる技術② アクセラレータ・イン・スイッチ
スーパーコンピュータ用スイッチPEACH2/3のアクセラレータへの利用 CPUで行なわざるをえない処理(例: 各GPUのデータをCPUで集約) ⇒PEACHの機能を拡張し,PEACH内で行なう GPU-CPU間通信を減らすことで,PEACHの利点をより活用する GPU/FPGAを単一の通信方法で協調利用する 私の研究目的は,このPEACH2を演算にも用いることです. PEACH2によって,デバイス間通信の多いアプリケーションの高速化が期待できます. その一方で,アプリケーションの中には,デバイス間通信ではなく, 一度ホストにデータを書き戻さなければならないアプリケーションがあります. 例えば,左下図のようなものです. CPUでは,マルチGPUで計算した結果を,ソートしたり,マージしたり,リダクション演算し, 再びGPUに転送します. PEACH2を演算に用いることができれば,右下図のように CPUへのデータ転送を削減し,デバイス間通信の間で PEACH2を用いた演算ができると考えています.

8 実装方法 – モジュールの接続 Avalon Bus - Alteraが提供しているバス Avalon Bus DDR3メモリ等 拡張が可能
このような,オリジナルの機構をどのようにPEACH2に接続するかを説明します. まず,現在のPEACH2の機構を示します. PEACH2には,図のように上下左右4方向の入出力ポートがあります. 内部には,ルーティングを行なうモジュールがあり,4方向の入出力を制御します. ルーティングモジュールには,図の左下にあるような,Avalon MMというバスが接続されています. これは,Altera社が提供しているバスシステムで, PEACH2のDDR3メモリコントローラなどはここに接続されています. 演算機構

9 ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現
共同研究者 天野英晴(慶大・アーキテクチャ) 塙敏博(東大・HPC) 松谷宏紀(慶大・アーキテクチャ) 並木美太郎(農工大・OS) 佐野健太郎(東北大・アーキテクチャ) 中田秀基(産総研・脳型コンピュータシステム) 吉澤明男(産総研・光イジングマシン)

10 まとめ ポストムーア時代のアーキテクチャ システム全体として性能、電力を制御 新デバイス自体ではなく、 これらをどのように繋ぎ、システムと
して統合し、 全体として性能、電力を制御するか? システムを接続するHubとして、 働く 新デバイス Hub Chip Hub Chip 新デバイス フロー制御OS Hub Chip 光ネットワーク サーキット スイッチング 新デバイス 新デバイス Hub Chip Hub Chip

11

12 ①ハブベースチップ ②周辺チップ例: 周辺チップ例:Approximate 汎用CPU(並木) Processor(他領域 井上G)
統合プログラミング環境、ソフトウェア環境(他領域 ) ⑤統合システム用基本システムソフトウェア(並木) ④アクセラレータインスイッチ ビックデータ処理(松谷) ステンシル計算用アクセラレータ(佐野) ③ハブベースチップのファームウェア スイッチシステム(塙) 開発環境、オーバーレイアーキテクチャ(佐野) ②周辺チップ例: 汎用CPU(並木) エミュレータチップ(天野) 脳型コンピュータ(中田) ①ハブベースチップ TCI部、FPGA部(天野) リコンフスイッチ部(塙、松谷) 周辺チップ例:Approximate Processor(他領域 井上G) 周辺チップ例:光インコネチップ(他領域 工藤G)

13 H.28 H.29 H.30 H.31 H.32 ①ハブベース チップ (天野、塙、 松谷) アーキテクチャ設計 予備評価 プロトタイプ
 (天野、塙、 松谷) アーキテクチャ設計 予備評価 プロトタイプ システム試作 ハブチップ試作 プロトタイプ ボード試作 ハブチップリメイク(進捗状況により) ②周辺チップ (並木、中田、 天野) 汎用CPU試作 脳型コンピュータチップ試作 (進捗状況により) アーキテクチャ設計 予備評価 エミュレータチップ試作 ③ファームウェア (塙、佐野) FPGA用CAD,オーバレイアーキテクチャ構築 ④アクセラレータ  インスイッチ (松谷、佐野) PEACH3上、FPGA上でプロトタイプ構築 プロトタイプボード上で構築 システムソフトウェア プロトタイプ開発 統合システムソフトウェア開発 ⑤基本ソフトウェア (並木)


Download ppt "ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現"

Similar presentations


Ads by Google