鯉渕 道紘,藤原 一毅(国情研) 長谷川 洋平,橋本 陽一(NEC研) 松谷 宏紀,天野 英晴(慶大) 光空間リンクを用いた省配線・可変トポロジであるHPC相互結合網 鯉渕 道紘,藤原 一毅(国情研) 長谷川 洋平,橋本 陽一(NEC研) 松谷 宏紀,天野 英晴(慶大) 1
ハイライト ラック上にコリメータレンズを設置 ラック間を光空間リンクで通信 Top view of Cabinet layout コリメーター 10Gbase-LR ラック上にコリメータレンズを設置 ラック間を光空間リンクで通信 Top view of Cabinet layout 光空間(無線)リンクで取り組む相互結合網の課題 (光空間リンク=汎用ケーブル(10Gbase-LR/SR) + コリメーターレンズ) スパコンのフロア内総配線長:2,000km以上 → 廃棄すら難しい 並列アプリケーションの通信パターン毎に最適化したトポロジを構成可能 (※) コリメーターレンズ:光源を焦点において平行光を得られるように収差補正されたレンズ。ファイバーチャネルからの射出光線を「平行光線」に変換 2
概要 1.HPC,データセンターのネットワークトポロジ 2.光空間(無線)リンクの構築 3.本相互結合網のスケーラビリティ NW サイズ vs 配線長/光空間リンク数 4.光空間リンクの可能性と関連技術 5.結論 システムのチップ間、チップ内、インターネット 3 2
ネットワーク・トポロジと配線長 N次元トーラス ハイパーキューブ ランダム[Koibuchi et al ISCA2012] 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 Switch 1100 1101 1110 1111 図1:ネットワークサイズと配線長 [Koibuchi et al, HPCA2013] システムのチップ間、チップ内、インターネット NWが大きくなると配線長が劇的に増加 スパコン毎にトポロジが全然違う 例:京コンピュータ,BG/L,Q[トーラス], TSUBAME2.0[Fatツリー] 4 2
概要 1.HPC,データセンターのネットワークトポロジ 2.光空間(無線)リンクの構築 3.本相互結合網のスケーラビリティ NW サイズ vs 配線長/光空間リンク数 4.光空間リンクの可能性と関連技術 5.結論 システムのチップ間、チップ内、インターネット 5 2
光空間リンクの構築 汎用品のデバイスの利用 達成したこと 10Gbase-SR(波長850nm)/LR(1310nm) コリメーターレンズ (ファイバーからの射出光線を平行光線へ) 焦点を合わせるための位置補正(X-Y-Z の3軸) 達成したこと 干渉無: リンクの密度増、照明などの影響なし ワイヤーレートのend-to-endデータ転送 高い安定性 コリメーター 10Gbase-LR PC1 PC2 TX RX Collimator Lens FSO link length Data (iperf) Sender Receiver Fiber 測定条件 6
測定結果 測定を行ったすべての距離(~10m)で9.4GbpsTCP転送(iperf)を達成 24時間測定を行ったが、性能劣化無 -12.5dBm 0.056mW 測定を行ったすべての距離(~10m)で9.4GbpsTCP転送(iperf)を達成 24時間測定を行ったが、性能劣化無 イーサネットカードの受信感度-12.5dBm 7
詳細な性能測定 光空間長を10mに伸長しても6.0dBのリンク損失 MP1 MP2 MP3 MP4 FSO link RX TX PC1 Collimator Lens Sender Fiber Receiver -2dBm 0.63 光空間長を10mに伸長しても6.0dBのリンク損失 8
光空間リンク帯域とエラー率計測 (光ミラー反射) PC2 Receiver 表1:40cm距離における減衰 RX TX 信号強度 直進 - 5.1dBm ミラー -7.8dBm Collimator Lens Data (iperf) FSO link TX PC1 Mirror イーサネット、IBともに-10dBm許容 RX Sender Fiber Iperf TCPで9.4Gbps転送を達成 ミラー反射により2.7dBの損失 光空間リンクは高々1つのミラーを挟むことが可能であり、10mの距離まではワイヤーレート転送可能
概要 1.HPC,データセンターのネットワークトポロジ 2.光空間(無線)リンクの構築 3.本相互結合網のスケーラビリティ NW サイズ vs 配線長/光空間リンク数 4.光空間リンクの可能性と関連技術 5.結論 システムのチップ間、チップ内、インターネット 10 2
光空間リンクを用いた相互結合網 光空間リンクは - 安定性、設置密度、干渉の問題なし ラック上のスペースを利用 コリメーター 10Gbase-LR ラック上にコリメータレンズを設置 ラック間を光空間リンクで通信 Top view of Cabinet layout 光空間リンクは - 安定性、設置密度、干渉の問題なし ラック上のスペースを利用 →どの位、配線長を削減できるのか? システムのチップ間、チップ内、インターネット 11 2
配線長の最適化(有線 vs 有線&無線) クラスタリング マッピング ラック間配線数を少なく! 配線長を短く! ネットワーク・トポロジ 配線長の最適化(有線 vs 有線&無線) ラック間配線数を少なく! 配線長を短く! クラスタリング マッピング 0000 0001 0010 0100 0101 0110 1000 1001 1010 ネットワーク・トポロジ ラック間の配線数→min. ラック間の配線延長→min. 配線長の最小化[Fujiwara et al, PDCAT2012]手法を適用 CrayBlackWidow, ANSI/TIA/EIA-942標準からパラメータ抽出
配線長の評価 80%削減 FSO Basis: 隣接キャビネット間とキャビネット内のみ配線(4次元メッシュ、内2次元はキャビネット内) ランダムと比べて 80%、ハイパーキューブ比 53%配線長削減 13
光空間リンクのコネクション数の評価 「完全な」ランダムトポロジを生成するのは困難 「完全な」ランダムトポロジを生成するのは困難 ただし、直径を小さく抑えたまま部分的なランダムトポロジ[Koibuchi et al, HPCA2013]であればFSOリンク数の抑制可能 14
概要 1.HPC,データセンターのネットワークトポロジ 2.光空間(無線)リンクの構築 3.本相互結合網のスケーラビリティ NW サイズ vs 配線長/光空間リンク数 4.光空間リンクの可能性と関連技術 5.結論 システムのチップ間、チップ内、インターネット 15 2
ところで可変トポロジは? ユーザ毎、タスク・並列アプリケーション毎に、光空間リンクを設定することでトポロジを更新 Random Torus Switch Switch Host Host システムのチップ間、チップ内、インターネット … Random Torus マシンルーム内のラック配置の Top View 16 2
可変トポロジの実現技術 (1) 任意のスイッチ間に光空間リンクを構築するメカニカルアラインメント技術 (2) スイッチの光空間リンクの認識 (1) 任意のスイッチ間に光空間リンクを構築するメカニカルアラインメント技術 有線ネットワークにより光空間端末の位置情報の把握が可能 実は、大規模な光空間リンクは、 車間通信でも 実現されている (2) スイッチの光空間リンクの認識 10GBase-LR/SRにより自動 システムのチップ間、チップ内、インターネット 17 2
増強、耐故障性、パーティショニング (1) ケーブル故障、スイッチポート接続間違い → 光空間リンクで代用 (2) 特にデータセンター (1) ケーブル故障、スイッチポート接続間違い → 光空間リンクで代用 (2) 特にデータセンター ユーザ毎、タスク毎にノード間をオーバレイネットワーク接続しなくても、光空間リンクで物理的に最適なトポロジを構築可能(次スライド) システムのチップ間、チップ内、インターネット 18 2
光空間リンクを用いたトポロジの構成とパーティショニング(Fat ツリーの例) ①16個のキャビネットを 4x4メッシュで接続。 有線リンクのみ使用。 ②16個のキャビネットを 4個のクラスタに分割。 クラスタ内の4ノードを 赤ルータで接続。 有線リンクのみ使用。
③4個のクラスタを、2個の青ルータでFat Tree の上位階層に接続。青リンクは光空間リンクを使用。
マシンルーム内のキャビネットのtop view 動的に光空間リンクを任意のキャビネット間で構築可能 ユーザが求める物理ネットワークトポロジを提供可能
60GHz 無線リンク技術との比較 60GHz無線(802.11ad) 帯域は1~数Gbps、干渉、盗聴と漏えい対策 (2)配置の自由度と帯域劣化(Halperin et al, Sigcomm2012)のトレードオフがシビア → ミラーも使え、配置の制約は極めて緩い システムのチップ間、チップ内、インターネット 22 2
まとめ (1) 光空間リンクの構築 (2) 現実的な光空間リンク数で配線長53%~80%減 耐故障性の提供と任意のパーティショニング可能 (1) 光空間リンクの構築 - 低遅延:3.2ns/m (光ファイバと違い屈折しないため) - 10m まで10GBASE-LR のワイヤーレート転送(今後 40Gbps 転送に挑戦) - 十分な安定性、PC振動や照明、相互干渉は認められず (2) 現実的な光空間リンク数で配線長53%~80%減 耐故障性の提供と任意のパーティショニング可能 コリメーター 10Gbase-LR システムのチップ間、チップ内、インターネット ラック上にコリメータレンズを設置 ラック間を光空間リンクで通信 Top view of Cabinet layout 2