Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ

Slides:



Advertisements
Similar presentations
松谷 宏紀 (慶大) 鯉渕 道紘 (NII) 天野 英晴 (慶大)
Advertisements

Ibaraki Univ. Dept of Electrical & Electronic Eng.
情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹
CPUについて HN:セシル.
LZ圧縮回路の設計とハード・ソフト 最適分割の検討 電子情報デザイン学科 高性能計算研究室 4回生 中山 和也 2009/2/27.
ネットワーク技術II 第8.2課 イーサネット・スイッチング
Network-on-Chip 最前線 ~研究の始め方から最新動向まで~ 松谷@慶應
HPCA? 何それおいしいの?.
鯉渕 道紘,藤原 一毅(国情研) 長谷川 洋平,橋本 陽一(NEC研) 松谷 宏紀,天野 英晴(慶大)
神奈川大学大学院工学研究科 電気電子情報工学専攻
ネットワーク構成法 スケール 第6回 11月19日.
マルチパスイーサネットにおける省電力 On/Off リンクアクティベーション法
発表の流れ 研究背景 マルチテナント型データセンタ 関連研究 IPマルチキャスト ユニキャスト変換手法 提案手法 性能評価.
WindowsNTによるLAN構築 ポリテクセンター秋田 情報・通信系.
ポストムーア時代に向けた スーパービルディングブロックアーキテクチャの実現
11. 省電力 五島 正裕.
CMPにおけるオンチップルータの 細粒度パワーゲーティングの評価
第7章 データベース管理システム 7.1 データベース管理システムの概要 7.2 データベースの格納方式 7.3 問合せ処理.
バックボーンルータにおける REDの動的閾値制御方式
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
コンテンツ配信 エンコード (符号化) CBR (Constant Bit Rate) VBR (Variable Bit Rate)
予備親探索機能を有した アプリケーションレベルマルチキャスト
鏡支持機構 分割鏡用センサ ドーム概算(内部のみ)
ポストムーア時代とは 予想される課題 CMOSにおけるプロセス微細化 => 計算性能向上のサ イクルが止まる
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
メッシュネットワークに関する研究 ーチャネル割り当ての一手法ー
伝送特性に応じた 適応型映像・音声配信機構の構築
Copyright Yumiko OHTAKE
これからが面白いプロセッサアーキテクチャ
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
慶應義塾大学理工学部 天野英晴 クラスタ  慶應義塾大学理工学部 天野英晴
All IP Computer Architecture
修士研究計画 P2Pネットワークの最適化 kuro must: Survey ○テクニカルにチャレンジング
USENIX 2004 A Transport Layer Approach for Improving End-to-End Performance and Robustness Using Redundant Paths 寺岡研究室 斉藤俊介.
勉強会その5    2016/6/15 マルチコア/マルチプロセッサ キャッシュコヒーレンス 10 8分35秒.
予測機構を持つルータを用いた低遅延チップ内ネットワークに関する研究
松谷 宏紀 (慶大) 鯉渕 道紘 (NII) 王 代涵 (慶大) 天野 英晴 (慶大)
JANOG 年1月30日 大澤 浩 EoMPLSサービスとその技術、運用 JANOG 年1月30日 大澤 浩
出典・・・基礎からわかるTCP/IPコンピューティング入門 村山公保著
12/14 全体ミーティング 米澤研究室卒論生 山崎孝裕
通信技術.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
チャネルの動的On/Off制御のための 先読みルータアーキテクチャ
ネットワークの性能 牧野ゼミ3年 足立龍哉.
「コアの数なんて どうでもいい」 五島 正裕(東大).
3 次元構造インダクタと底面配置回路を用いた484-mm2 21-GHz LC-VCO
DPDKの処理モデルに基づく NFVノード可視化機構の開発 ー負荷計測手法の一検討ー
最新 IT トレンド ARM.
ARM.
低遅延オンチップネットワークのための予測ルータの評価
スーパーコンピュータ「京」 理化学研究所 計算科学研究センター
進捗報告 金田憲二.
VMMのソフトウェア若化を考慮した クラスタ性能の比較
演習第4回 情報通信技術論 インターネット工学
サービス指向ルータ向け 問合せ処理用ハードウェアの検討
コンピュータの仕組み 〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
ネットワーク技術II 第8.1課 イーサネット・スイッチング
第5回 メモリ管理(2) オーバレイ方式 論理アドレスとプログラムの再配置 静的再配置と動的再配置 仮想記憶とメモリ階層 セグメンテーション
P2P型アプリケーション用ライブラリ SUNET
Ibaraki Univ. Dept of Electrical & Electronic Eng.
コンピュータアーキテクチャ 第 9 回.
トラフィックプロファイラAGURIの設計と実装
BSPモデルを用いた 並列計算の有用性の検証
衛星回線を含むネットワークにおける 動的経路制御に関する研究
Amicus: A Group Abstraction for Mobile Group Communications
ARM 株式会社アプライド・マーケティング 大越 章司
7月13日の演習問題・解答例 について ネットワーク長が 18、22、26、28 の場合の
慶應義塾大学 政策・メディア研究科 修士課程 2年 間 博人
P2P & JXTA Memo For Beginners
自己ルーティングによるラベル識別 コリニア音響光学効果を用いたラベル識別 スケジューリング 経路制御 ラベル ラベル 識別 ラベル 処理
Presentation transcript:

Rearrangeable NoC: 配線遅延を考慮した分散ルータ アーキテクチャ 松谷 宏紀 (慶大) 鯉渕 道紘 (NII) 中村  宏 (東大) 天野 英晴 (慶大)

Many-core architecture Cores L2 $ nodes Niagara 2 Crossbar sparc L2$ TRIPS (OCN) M Core#0 Core#1 ??? その先は? キャッシュの面積割合は増える どういうレイアウトが良いの? # of nodes Small Large

Many-core architecture Cores Niagara 2 Crossbar sparc L2$ TRIPS (OCN) M Core#0 Core#1 L2 $ nodes ??? その先は? キャッシュの面積割合は増える どういうレイアウトが良いの? チップ中央に L2$ nodes # of nodes Small Large

Many-core architecture Niagara 2 Crossbar sparc L2$ TRIPS (OCN) M Core#0 Core#1 Cores ??? その先は? L2 $ nodes キャッシュの面積割合は増える どういうレイアウトが良いの? チップ外周に L2$ nodes # of nodes Small Large

Many-core architecture Niagara 2 Crossbar sparc L2$ TRIPS (OCN) M Core#0 Core#1 ??? その先は? Cores キャッシュの面積割合は増える どういうレイアウトが良いの? 局所性を活かした配置 # of nodes Small Large メモリバンド幅の確保  トポロジ,ルーティング,ルータ構造の工夫で !

Network topology for many cores L2 $ nodes Niagara 2 Crossbar sparc L2$ TRIPS (OCN) M Core#0 Core#1 ??? その先は? # of nodes Small Large

Network topology for many cores L2 $ nodes TRIPS (OCN) M Core#0 Core#1 ??? その先は? Crossbar スループット(高) ノードが多いとコスト(高) # of nodes Small Large

Network topology for many cores L2 $ nodes ??? その先は? Crossbar 2-D mesh スループット(高) ノードが多いとコスト(高) 配置が容易  リンク長(短) ノードが多いと直径 (長) # of nodes Small Large

Network topology for many cores どんなトポロジが良い? メモリバンド幅の確保 小さい diameter 大きい bisection BW Crossbar 2-D mesh ??? スループット(高) ノードが多いとコスト(高) 配置が容易  リンク長(短) ノードが多いと直径 (長) # of nodes Small Large

Network topology for many cores Crossbar 2-D mesh Hypercube ?? スループット(高) ノードが多いとコスト(高) 配置が容易  リンク長(短) ノードが多いと直径 (長) 直径 (短), 帯域 (高) 配置が困難  リンク長(長) # of nodes Small Large

レイアウトの問題: Long wires & delay 高性能トポロジ Hypercube Torus Flatten butterfly Fat H-Tree 配線遅延 微細化により増加 ゲート遅延より深刻 配線長の2乗に比例 Loooong wires binary n-cube k-ary n-cube [Kim,ISCA’07] 長~い配線がいっぱい!! Hypercube (binary n-cube)

レイアウトの問題: Long wires & delay 高性能トポロジ Hypercube Torus Flatten butterfly Fat H-Tree 配線遅延 微細化により増加 ゲート遅延より深刻 配線長の2乗に比例 binary n-cube k-ary n-cube [Kim,ISCA’07] 長~い配線がいっぱい!! Loooong wires Flatten Butterfly 配線遅延のせいで高性能トポロジは実装(難)これを解決するルータ

レイアウトの問題: Long wires & delay 70nm semi-global 高性能トポロジ Hypercube Torus Flatten butterfly Fat H-Tree 配線遅延 微細化により増加 ゲート遅延より深刻 配線長の2乗に比例 binary n-cube 60FO4s k-ary n-cube [Kim,ISCA’07] 15FO4s 長~い配線がいっぱい!! 配線長 [mm] vs. 配線遅延 [FO4s] 配線パラメータは [Ho, IEEE Proc’01] より Loooong wires 配線遅延のせいで高性能トポロジは実装(難)これを解決するルータ

オンチップルータの機能を分解して, リンク上に分散配置しよう 配線遅延を考慮した分散ルータ オリジナル Network-on-Chip (NoC) リンク On-chip router On-chip router Arbiter Arbiter Crucial wire delay RC VA/SA ST RC VA/SA ST 多量のリピータバッファ  リンクエネルギー(増) オンチップルータの機能を分解して, リンク上に分散配置しよう

配線遅延を考慮した分散ルータ ルータの機能を分解して, リンク上に分散配置しよう Arbiter Arbiter On-chip router On-chip router Arbiter Arbiter Crucial wire delay RC VA/SA ST RC VA/SA ST

配線遅延を考慮した分散ルータ ルータの機能を分解して, リンク上に分散配置しよう Arbiter Arbiter RC VA/SA RC On-chip router Unit On-chip router Arbiter Arbiter RC VA/SA RC VA/SA ST

配線遅延を考慮した分散ルータ ルータの機能を分解して, リンク上に分散配置しよう Arbiter Arbiter VA/SA RC Unit Unit Unit On-chip router Arbiter Arbiter VA/SA RC VA/SA ST RC ST

予備評価: リンク長が 5mm のとき, 最大動作周波数が 29.4% 向上 配線遅延を考慮した分散ルータ ルータの機能を分解して, リンク上に分散配置しよう Unit Unit Unit Unit Unit Arbiter VA/SA RC ST RC 分解された機能は,リピータバッファの置換えに  Rearrangeable NoC アーキテクチャの詳細は予稿集を参照  予備評価: リンク長が 5mm のとき, 最大動作周波数が 29.4% 向上

関連研究 配線遅延を考慮したリピータ Elastic interconnects Adaptive channel buffers [Dally研, ISSCC’01] [Kodi, TC’08] RC,VA,SA,ST RC,VA,SA,ST 値を保持できるバッファ

関連研究 配線遅延を考慮したリピータ Router micro architecture Elastic interconnects Adaptive channel buffers Router micro architecture [Dally研, ISSCC’01] [Kodi, TC’08] RC,VA,SA,ST RC,VA,SA,ST 値を保持できるバッファ ルータ内部をリング化 Conventional router Rotary router [Puente研, ISCA’07] ST ルータの機能を分解して,リンク上に分散配置 RC VA,SA

ご相談 1: 分散ルータのアーキテクチャ オンチップルータの機能を, どういう単位で分割する? 何個に分割する? どこでバッファリングする? スイッチング (wormhole or circuit sw) によってどう変わる? ルーティング (固定型 or 適応型) によってどう変わる? Unit Unit Unit Unit Unit Arbiter VA/SA RC ST RC

ご相談 2: Multiple networks on a chip 用途に応じて複数ネットワークは当たり前 Dynamic network (wormhole) Static network (circuit sw) ネットワーク間の相互乗り入れ Circuit sw で途中まで行き, 途中から wormhole に切り替え そもそも “乗り入れ” は要らない? ハイブリッド型 [Jerder,NOCS’08] RC,VSA,ST RC,VSA,ST Network (WH) Network (WH) Network (CS) Network (CS)

ご相談 2: Multiple networks on a chip 用途に応じて複数ネットワークは当たり前 Dynamic network (wormhole) Static network (circuit sw) ネットワーク間の相互乗り入れ Circuit sw で途中まで行き, 途中から wormhole に切り替え そもそも “乗り入れ” は要らない? ハイブリッド型 [Jerder,NOCS’08] Xbar RC VSA Xbar Network (WH) Network (WH) Network (CS) Network (CS)

ご相談 2: Multiple networks on a chip 用途に応じて複数ネットワークは当たり前 Dynamic network (wormhole) Static network (circuit sw) ネットワーク間の相互乗り入れ Circuit sw で途中まで行き, 途中から wormhole に切り替え そもそも “乗り入れ” は要らない? ハイブリッド型 [Jerder,NOCS’08] Xbar RC VSA Xbar Network (WH) Network (WH) Network (CS) Network (CS)

ご相談 3: Many-core architecture コアとメモリの比率, レイアウトは? どんなトポロジが良い? Cores L2 $ nodes Cores Cores L2 $ nodes L2 $ nodes メモリ – コア間の通信は?

Backup slides