ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現

Slides:



Advertisements
Similar presentations
だい六か – クリスマスとお正月 ぶんぽう. て form review ► Group 1 Verbs ► Have two or more ひらがな in the verb stem AND ► The final sound of the verb stem is from the い row.
Advertisements

て -form - Making て -form from ます -form -. With て -form, You can say... ~てもいいですか? (= May I do…) ~てください。 (= Please do…) ~ています。 (= am/is/are doing…) Connecting.
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
Essay writing rules for Japanese!!. * First ・ There are two directions you can write. ・よこがき / 横書き (same as we write English) ・たてがき / 縦書き (from right to.
VE 01 え form What is え form? え? You can do that many things with え form?
Windows Azure ハンズオン トレーニング Windows Azure Web サイト入門.
SS2-15:A Study on Image Recognition and Understanding
松谷 宏紀 (慶大) 鯉渕 道紘 (NII) 天野 英晴 (慶大)
Capter9 Creating an Embedded Test Bench ( )
英語勉強会.
 辞書系(じしょけい).
Chapter 11 Queues 行列.
Recognise, ask about and talk about purpose
と.
COPPER/FINESSE System構築
今しましょう Translate the story on the next slide. せんせいは しゅくだいを みます。
Windows Summit /13/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
The ball being captured inside the net
Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ
Chris Burgess (1号館1308研究室、内線164)
じょし Particles.
What did you do, mate? Plain-Past
日本人の英語文章の中で「ENJOY」はどういうふうに使われているのか
Delphi Day ~Delphi 概要、および新バージョンのご紹介~
Silverlight とは.
SP0 check.
Tohoku University Kyo Tsukada
Power Electronics center
A 02 I like sushi! I like origami!
Estimating Position Information by Detecting Network-Connection
十年生の 日本語 Year 10 Writing Portfolio
Licensing information
Chapter 4 Quiz #2 Verbs Particles を、に、で
Provisioning on Multiple Network(NIC) env
The Sacred Deer of 奈良(なら)
CRLA Project Assisting the Project of
“You Should Go To Kyoto”
Second RF-Gun beamline
VTA 02 What do you do on a weekend? しゅうまつ、何をしますか。
ポストムーア時代とは 予想される課題 CMOSにおけるプロセス微細化 => 計算性能向上のサ イクルが止まる
専門演習Ⅰ 国際経済学部 国際産業情報学科 2年 石川 愛
組み込み向けCPU 小型デバイスに搭載されるCPU 特徴 携帯電話,デジタルカメラ,PDA,センサデバイスなど 小型 低消費電力 多機能
ストップウォッチの カード ストップウォッチの カード
Topics on Japan これらは、過去のインターンが作成したパワポの写真です。毎回、同じような題材が多いため、皆さんの出身地等、ここにない題材も取り上げるようにしてください。
New accessory hardware Global Platform Division
All IP Computer Architecture
情報の科学的 な理解(2) 情報科教育法 8回目 2005/6/4 太田 剛.
National adviser Japanese Yuriko Kayamoto
Causative Verbs Extensively borrowed from Rubin, J “Gone Fishin’”, Power Japanese (1992: Kodansha:Tokyo) Created by K McMahon.
Vector 4 = [Vector 3, packet_size]
Traits 形質.
くれます To give (someone gives something to me or my family) くれました くれます
Term paper, Report (1st, first)
Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus
豊田正史(Masashi Toyoda) 福地健太郎(Kentarou Fukuchi)
第24回応用言語学講座公開連続講演会 後援:国際言語文化研究科教育研究プロジェクト経費
22 物理パラメータに陽に依存する補償器を用いた低剛性二慣性系の速度制御実験 高山誠 指導教員 小林泰秀
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
Created by L. Whittingham
英語音声学(7) 音連結.
英語勉強会:川口英語 Supporting of Continuing Life Habit Improvement Using the Theory of Cognitive Dissonance : System Extension and Evaluation Experiment B4 渡邉.
MO装置開発 Core part of RTR-MOI Photograph of core part.
九州大学のキャンパスネットワークを事例にL1~L3を学ぶ Study on L1,L2 and L3 with case of Campus Network of Kyushu Univ. 岡村耕二 Koji OKAMURA.
Cluster EG Face To Face meeting
ユビキタスコンピューティング環境 を構築するための 小型無線ネットワークコンピュータの開発
FPGA 株式会社アプライド・マーケティング 大越 章司
せつぞくし 接続詞 Conjunctions.
Grammar Point 2: Describing the locations of objects
Cluster EG Face To Face meeting 3rd
並列処理プロセッサへの 実数演算機構の開発
Presentation transcript:

ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現 ポストムーア時代に重要なこと 新しい多様なデバイスを接続し それをシステムとして統合すること 柔軟性を持ち、ソフトウェア、ファームウェアを内蔵するHubChipの開発 チップ間無線結合TCI(Through Chip Interface) アクセラレータ・イン・スイッチ リコンフィギャラブルスイッチ、FPGA、CGRA ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現 2015/08/14

ハブベースチップ TCI+リコンフィギャラブルスイッチ(ルータ)+FPGA Reconf. SW FPGA ハブベースチップ TCI+リコンフィギャラブルスイッチ(ルータ)+FPGA TCIアレイ TCIのアレイとスイッチを 基本とした 新しいリコンフィギャラブル デバイス FPブロックを入れるか? CGRAブロックを入れるか?

光インコネチップ ドーターチップ接続のイメージ 新メモリ 新メモリ 新メモリ 新メモリ OS用CPU FPGA FPGA FPGA Reconf. SW Reconf. SW 新しいコンピューティングチップ アクセラレータ Reconf. SW FPGA FPGA Reconf. SW Reconf. SW 光インコネチップ FPGA FPGA FPGA 新メモリ 新メモリ 新メモリ 新メモリ ドーターチップ接続のイメージ

ベースとなる技術①:TCIと ビルディングブロックコンピューティングシステム CPU Memory Accelerator1 Accelerator2 CPU CPU CPU CPU Memory Memory Accelerator2 Accelerator1 Accelerator1 Memory Memory Accelerator1 Memory Accelerator2 Accelerator2 Building block computing systems are an advanced SiP (System-in-Package). Each functional units like CPU, Memory and various types of accelerators chips are implemented independently. They all have standard through-chip interface and just by stacking these chips, various types systems can be built. The simplest system can be built just with CPU and memory chip. We can increase the memory. The accelerator required for the target system can be added and replaced. Of course, a powerful system can be built by stacking a lot of chips. As the first step, chips must be stacked in the factory, but as the second step, chips can be replaced by users. That is, field stackable system can be realized. We can build our fabrite system like making LEGO model. The key technique is Inductive Coupling Through-Chip Interface or TCI. 1 step: Various Combination can be done after chip-fabrication 2 step: Chips can be replaced by users → Field Stackable Key Technique: Inductive Coupling Through-Chip Interface(TCI)

Rx Tx Network Interface TCI 3D Interconnect TCI Packet En/Decode Rx Blk Tx Blk Router Accelerator Core CPU Core Network Interface Data Link Clock Link Uplink Downlink Accelerator 1 Accelerator 2 Host CPU Header Payload 1 32 33 35 35bit Packet Structure Transfer Type: Command/Address Single Packet Data Burst Multi-Packet Data Inductive Coupling TCI is consisting of a set of Inductors, transmitter and receiver. Two chips are stacked so that the receiver coils are just on the transmittor coils like this. Then, wireless interconnect channel is formed.    Block diagram of scalable 3D NoC using inductive-coupling ThruChip Interface (TCI).   8Gbps 10mW/link 10^-9 error rate

Host CPU + Accelerator x3 Chip Stack Fabricated in 65nm CMOS Host CPU Chip Accelerator Chip TEG Network IF m-Controller MIPS CPU Core 8x8 PE Array TCI Tx TCI Rx Rx Tx TCI This is a microphotograph of Cube-1. Host CPU Geyser is located top of the stacking, since we can provide a lot of wires for a top chip. Geyser has 5-stage standard pipeline, 8KB Instruction cache, Data cache and shared TLB. Linux operating system is working. The most interesting feature of this Geyser is its fine-grained runtime power gating mechanism. But today, I will omit this explanation. The core of Geyser can be implemented in this half of the chip and other half is used for TCI. The actually working coils are them, Transceivers and Receivers. Other coils are TEG for measuring the characteristics. Accelerator chip, a CMA is consisting of 8x8 PE array with combinatorial circutis. CMA has an extreme architecture for saving energy, but I will also omit to explain this architecture. Unlike Geyer, it provides 4-sets of inductors for uplink and downlink to connect upper stacked chip and lower stacked chip. Microphotograph of stacked test chips.

ベースとなる技術② アクセラレータ・イン・スイッチ スーパーコンピュータ用スイッチPEACH2/3のアクセラレータへの利用 CPUで行なわざるをえない処理(例: 各GPUのデータをCPUで集約) ⇒PEACHの機能を拡張し,PEACH内で行なう GPU-CPU間通信を減らすことで,PEACHの利点をより活用する GPU/FPGAを単一の通信方法で協調利用する 私の研究目的は,このPEACH2を演算にも用いることです. PEACH2によって,デバイス間通信の多いアプリケーションの高速化が期待できます. その一方で,アプリケーションの中には,デバイス間通信ではなく, 一度ホストにデータを書き戻さなければならないアプリケーションがあります. 例えば,左下図のようなものです. CPUでは,マルチGPUで計算した結果を,ソートしたり,マージしたり,リダクション演算し, 再びGPUに転送します. PEACH2を演算に用いることができれば,右下図のように CPUへのデータ転送を削減し,デバイス間通信の間で PEACH2を用いた演算ができると考えています.

実装方法 – モジュールの接続 Avalon Bus - Alteraが提供しているバス Avalon Bus DDR3メモリ等 拡張が可能 このような,オリジナルの機構をどのようにPEACH2に接続するかを説明します. まず,現在のPEACH2の機構を示します. PEACH2には,図のように上下左右4方向の入出力ポートがあります. 内部には,ルーティングを行なうモジュールがあり,4方向の入出力を制御します. ルーティングモジュールには,図の左下にあるような,Avalon MMというバスが接続されています. これは,Altera社が提供しているバスシステムで, PEACH2のDDR3メモリコントローラなどはここに接続されています. 演算機構

ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現 共同研究者 天野英晴(慶大・アーキテクチャ) 塙敏博(東大・HPC) 松谷宏紀(慶大・アーキテクチャ) 並木美太郎(農工大・OS) 佐野健太郎(東北大・アーキテクチャ) 中田秀基(産総研・脳型コンピュータシステム) 吉澤明男(産総研・光イジングマシン)

まとめ ポストムーア時代のアーキテクチャ システム全体として性能、電力を制御 新デバイス自体ではなく、 これらをどのように繋ぎ、システムと して統合し、 全体として性能、電力を制御するか? システムを接続するHubとして、 働く 新デバイス Hub Chip Hub Chip 新デバイス フロー制御OS Hub Chip 光ネットワーク サーキット スイッチング 新デバイス 新デバイス Hub Chip Hub Chip

①ハブベースチップ ②周辺チップ例: 周辺チップ例:Approximate 汎用CPU(並木) Processor(他領域 井上G) 統合プログラミング環境、ソフトウェア環境(他領域 ) ⑤統合システム用基本システムソフトウェア(並木) ④アクセラレータインスイッチ ビックデータ処理(松谷) ステンシル計算用アクセラレータ(佐野) ③ハブベースチップのファームウェア スイッチシステム(塙) 開発環境、オーバーレイアーキテクチャ(佐野) ②周辺チップ例: 汎用CPU(並木) エミュレータチップ(天野) 脳型コンピュータ(中田) ①ハブベースチップ TCI部、FPGA部(天野) リコンフスイッチ部(塙、松谷) 周辺チップ例:Approximate Processor(他領域 井上G) 周辺チップ例:光インコネチップ(他領域 工藤G)

H.28 H.29 H.30 H.31 H.32 ①ハブベース チップ (天野、塙、 松谷) アーキテクチャ設計 予備評価 プロトタイプ  (天野、塙、 松谷) アーキテクチャ設計 予備評価 プロトタイプ システム試作 ハブチップ試作 プロトタイプ ボード試作 ハブチップリメイク(進捗状況により) ②周辺チップ (並木、中田、 天野) 汎用CPU試作 脳型コンピュータチップ試作 (進捗状況により) アーキテクチャ設計 予備評価 エミュレータチップ試作 ③ファームウェア (塙、佐野) FPGA用CAD,オーバレイアーキテクチャ構築 ④アクセラレータ  インスイッチ (松谷、佐野) PEACH3上、FPGA上でプロトタイプ構築 プロトタイプボード上で構築 システムソフトウェア プロトタイプ開発 統合システムソフトウェア開発 ⑤基本ソフトウェア (並木)