マルチパスイーサネットにおける省電力 On/Off リンクアクティベーション法 鯉渕 道紘(国情研) 大塚 智宏(慶大) 松谷 宏紀(慶大) 天野 英晴(慶大/国情研)
TOP500で見るHPCにおける インタコネクトのシェア(2008/11) イーサネットを用いたPCクラスタ PC マルチコア化などで省電力対策が進んでいる コア単位でスリープ可 イーサネットスイッチ 通信の基幹部なので, スリープさせると通信に 影響が生じる PC イーサネットスイッチ TOP500で見るHPCにおける インタコネクトのシェア(2008/11) ギガビットイーサネット 56% GbE 本発表では、イーサネットスイッチの省電力手法を提案、評価する
概要 HPCにおけるイーサネット On/Off リンクアクティベーション法の提案 評価 マルチパス + リンク集約化 マルチパス + リンク集約化 On/Off リンクアクティベーション法の提案 評価 On/Off 操作オーバヘッド PCクラスタにおける消費電力と性能 3
HPCにおけるイーサネットの使い方 多数のポートを持つGbEスイッチの普及 - GbEポート単価は24~48ポートスイッチが最安 ノードの計算能力の向上( > 10GFlops) リンク集約化 [IEEE 802.3ad] + マルチパストポロジ [工藤ら,2004][Viking2004] - リンク数の劇的な増加 TREE 1 TREE 4 TREE 3 TREE 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 3本の集約リンク 4経路 スイッチ ノード 1 4
既存のGbEスイッチの電力の内訳 スイッチの型番 ポート1個 それ以外 合計(ポートの割合) PC5324 1.2 14.9 42.9(65%) PC6224 2.0 42.5 91.1(53%) PC6248 2.1 56.8 155.2(63%) SF-420 1.0 32.6 55.4(41%) C-3750 1.8 84.5 127.7(34%) 単位:W トラフィック負荷によらず、消費電力はほぼ一定 ポートの消費電力が支配的(4-6割) ポートの消費電力=port-shutdown opで削減される消費電力 5
On/Off リンクアクティベーション法の提案概要 GbEスイッチの消費電力の4-6割がリンク TREE 1 TREE 4 TREE 3 TREE 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ノードのCPU負荷は高いでも、NWは必ずしも… (ex. パラメータサーベイ) スイッチ ノード トラフィック負荷が減少 (一部のリンクをオフ) TREE 1 TREE 2 TREE 3 TREE 4 HPCの局所性 多くのリンクは一時オフ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 6 6
概要 HPCにおけるイーサネット On/Off リンクアクティベーション法の提案 評価 マルチパス + リンク集約化 マルチパス + リンク集約化 On/Off リンクアクティベーション法の提案 評価 On/Off 操作オーバヘッド PCクラスタにおける消費電力と性能 7 7
On/Off リンクアクティベーション法の枠組み 例:スイッチのツール, IPTrafツール, pilot executionなど トラフィックモニタリング No 低負荷 or 過負荷リンクが発生 Yes On/Off リンク選択 アルゴリズム、ルーティング On/Off リンクの選択と経路計算 On/Off リンク操作と経路更新 イーサネットにどう実装するか? ここがキーポイント 8 8
本研究で解決すべき課題と制約 実用的な On/Off リンクアクティベーション法を実現するために 本研究で解決すべき課題と制約 実用的な On/Off リンクアクティベーション法を実現するために システムソフトウェア、デバイスドライバの更新はなし 商用スイッチの既存の機能を用いて実現 リンクの On/Off オーバヘッドの隠蔽 トポロジの変化にともなうMACアドレステーブルの安定的な更新 ー通信断、ブロードキャストストームが発生しないこと TREE 1 TREE 2 TREE 3 TREE 4 更新後の経路 更新前の経路 スイッチ ノード 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 9 9
On/Off リンクによるトポロジ・経路の更新 スイッチタグ・VLANルーティング法[大塚,Hokke06]を応用 出発地のスイッチにおいて、フレームにVLANを付加する(Port VLAN ID:PVID) ことで経路を指定 ホストは通常の(タグなし)フレームを送受信 ホストからのフレーム入力時: PVIDでタグ付け ホストへのフレーム出力時: タグを除去 PVID#v0の経路 PVID#v1の経路 VLAN v0 4 1 2 3 5 6 7 VLAN v1 VLANタグ#v0を付加 PVID v0 1 に更新 1 2 3 4 5 6 7 10
リンクを Off から On にする場合 (1) リンクをアクティベイトする スイッチのno shutdown コマンドを使用 未使用のPVIDを用いることでトラフィックの流入を阻止 (2) 新しい経路用のVLAN v0を作成、MACアドレステーブルを学習 各ホストがVLAN v0を作成し、一度ブロードキャストする (3) 更新する経路の出発地ポートのPVIDをv0にする 4 1 2 3 5 6 7 Step 1,2 On,VLAN v0 PVID v0の経路 4 1 2 3 5 6 7 Step 3 1 2 3 4 5 6 7 更新前 PVID v0 に更新(通信断無) 11
リンクを On から Off にする場合 (1) 新しい経路用のVLAN v1を作成、MACアドレステーブルを学習 各ホストがVLAN v1を作成し、一度 broadcast する (2) 更新する経路の出発地ポートのPVIDをv1にする (3) リンクを Off にする 新たな経路が確立されているため、通信断なし PVID v0の経路 4 1 2 3 5 6 7 Step 1,2 PVID v1の経路 4 1 2 3 5 6 7 Step 3 1 2 3 4 5 6 7 更新前 PVID #v0 v1 に更新 リンクOff 12
概要 HPCにおけるイーサネット On/Off リンクアクティベーション法の提案 評価 マルチパス + リンク集約化 マルチパス + リンク集約化 On/Off リンクアクティベーション法の提案 評価 基礎評価:On/Off 操作オーバヘッド PCクラスタにおける消費電力と性能 13 13
基礎評価:On/Off オーバヘッド On/Off Link 操作 PC5324 4.0秒 PC6224 3.4 PC6248 2.2 SF-420 12.0 1本のリンクを on off on した時の通信遮断時間 参考:スパニングツリープロトコルをOnにすると数十秒 On/Off アクティベーションはアプリケーション単位、あるいは分単位以上の粒度が妥当 14
基礎評価(2):経路更新オーバヘッド VLAN更新 PC5324 0秒 PC6224 PC6248 SF-420 PC6248 SF-420 更新前 更新後 PVID を更新 VLANによる経路の更新をした場合の通信遮断時間を測定 On/Off アクティベーション・オーバヘッドに比べて極めて小さい 15 15
On/Off リンクアクティベーション法の性能と電力を評価 同志社大学 SuperNova PC クラスタ 128 node 256 CPUs GbE スイッチ Dell Power Connect6248 48ポート x 8台 アプリケーション NPB 3.2 16
評価に用いたトポロジ Peak: 4×2トーラス、スイッチ間リンク6本 トレース解析により事前に並列アプリのトラフィック量を把握 リンク集約化(IEEE 803.ad)を併用 トレース解析により事前に並列アプリのトラフィック量を把握 On/Off リンクをアプリ実行前に設定 リンク選択アルゴリズム Conservative: リンクあたりの最大トラフィック負荷を抑制 Aggressive: リンク削減重視(詳細は予稿集) トーラス 17 17
Relative Power Cons(W) NPB実行結果(64プロセス,PC6248) 性能低下なしに、最大26%のNW消費電力を削減 peak(all links) conservative aggressive 消費電力26%減 1.1 1 0.9 Relative Power Cons(W) 0.8 0.7 0.6 EP IS LU SP 図2:消費電力, PC6248s 図1:実行性能 Tree(1link) 558.8 Tree(3link) 947.7 Tree(6link) 1034 Compl(1link) 1069 Compl(2link) 1081 Torus(1link) 901.7 Torus(3link) 1074 Torus(6link) 1077 Mesh(1link) 793.3 Mesh(3link) 1022 Mesh(6link) 1055 Ring(8link) 1066 2分 単純に比べて 単純ツリーを どの構造が一番良いか どこを見ていいか分かるように(初めて見た人が Conservative(リンクあたりの最大トラフィック負荷を抑制)ポリシで On/Offリンクを選択した場合、性能低下は生じない 18 18
NPB実行結果(64プロセス,他のSW) L2スイッチ(PC5324)の方がL3スイッチ(PC6248)に比べて常時動作するサービスが少ない peak(all links) conservative aggressive peak(all links) conservative aggressive 消費電力37%減 1.1 1.1 1 1 0.9 0.9 Relative Power Cons(W) Relative Power Cons(W) 0.8 0.8 0.7 0.7 0.6 0.6 EP IS LU SP EP IS LU SP 図3:消費電力, SF-420s 図4:消費電力, PC5324 L2スイッチ(PC5324)の方がL3スイッチ(PC6248)に比べて常時動作するサービスが少ない Tree(1link) 558.8 Tree(3link) 947.7 Tree(6link) 1034 Compl(1link) 1069 Compl(2link) 1081 Torus(1link) 901.7 Torus(3link) 1074 Torus(6link) 1077 Mesh(1link) 793.3 Mesh(3link) 1022 Mesh(6link) 1055 Ring(8link) 1066 2分 単純に比べて 単純ツリーを どの構造が一番良いか どこを見ていいか分かるように(初めて見た人が ポートの消費電力の割合増により、電力削減効果が大きくなった 19 19
まとめ イーサネットにおけるOn/Off リンクアクティベーション法を提案 スイッチのport shutdownコマンドにより消費電力を削減 スイッチの消費電力の4-6割はポート 商用スイッチの既存の機能を用いて実現 MACアドレステーブルの安定的な更新 VLANルーティング法を応用することで通信断を防ぐ 既存のGbE スイッチ、PCクラスタにおける評価 On/Offリンク操作オーバヘッドは数秒 経路の更新を工夫することで操作オーバヘッドを隠蔽 NPBにおいて性能低下なしにネットワークの消費電力を最大37%削減 今後は、様々なクラスタにおけるスイッチタグ・VLANルーティング法+ 本手法の評価、普及(協力してくれる方、超絶募集中) リンク集約化 + マルチパストポロジ + 低消費電力 20
VLANルーティング法 ホストと接続された各ポートに以下を設定 PVID: 接続ホストからの送信時に用いるVLAN ID 使用する全VLANをUntaggedメンバ VLAN#101 VLAN#102 スイッチ PVID:#101 #101:U #102:U PVID:#102 PC 1 2 3
VLANルーティング法の動作 ホストは通常の(タグなし)フレームを送受信 ホストからのフレーム入力時: PVIDでタグ付け ホストへのフレーム出力時: タグを除去 VLAN#101 VLAN#102 1 2 3
スイッチの設定例(PC5324の場合) switchport general pvid 2 no spanning-tree // スパニングツリープロトコルを無効にする vlan database // VLAN IDの登録 vlan 2,3 // VLAN ID 2,3を登録 exit // 隣接スイッチへのポートのVLAN設定 interface ethernet g1 // ポート1を設定 switchport mode general // ポートのVLANモードの設定(802.1Qモード) // VLAN 2のタグなしメンバとして登録 switchport general allowed vlan add 2 tagged //ローカルホストへのポートのVLAN設定 interface ethernet g3 // ポート3(上位へのポート)の設定 switchport mode general switchport general allowed vlan add 2,3 untagged switchport general pvid 2 23
安価なスイッチ導入の問題点 スイッチ単体の性能(ノンブロッキング)、安定性はOK ただし、24~48ポートと少ない 多数のスイッチが必要 ただし、24~48ポートと少ない 多数のスイッチが必要 ルート付近にトラフィック集中 PCクラスタのネットワークトポロジの比較 トポロジ イーサネット 単純ツリーのみ InfiniBand Myrinet トーラス、clos網、 完全結合など On/Off技術の適用範囲なし! 三次元トーラス網 BlueGene/L 24
VLANルーティング法 あらゆるトポロジ(トーラス、Fatツリー)を既存の商用スイッチの機能を利用して実現する。 VLAN(virtual LAN)を利用 [工藤ら, 2004] ホスト側は変更の必要なし、必要VLAN数が一定 (VLANに未対応でOK)[大塚ら,2008]
VLANとは? 1つのLANを複数の仮想的なグループ(VLAN)に分けることができる 各VLANはツリートポロジ VLAN#102 スイッチ ブロードキャスト、セキュリティのため 1 2 3 4 5 6 7 ホスト
既存のスイッチを制御するのみで、PCには一切手を入れない。 HPCにおける2種類のイーサネット 同程度のLINPACK性能を達成! スイッチ Force 10 E1200x1台 Dell PC6248 x 8台 ノード数 256(512CPU) 225(450CPU) Cable CAT5E CAT6E LINPACK性能(TFlops) 1.169 1.081(w/o 0.781) 実行性能割合(%) 63.4 66.7(w/o 48.1) 2003年 2007年 既存のスイッチを制御するのみで、PCには一切手を入れない。 リンク集約化 + マルチパス 27
スイッチの電力測定 コンセントに挿すのみで楽チン ワットアワーメーター SHW3A (約3万円) 電流、電圧、力率、、、小数点第一位 ワットアワーメーター SHW3A (約3万円) コンセントに挿すのみで楽チン 電流、電圧、力率、、、小数点第一位 NW機器の計測には十分 28
VLANルーティング法の歴史 大規模クラスタに実装、運用 スイッチでタグ付けを行う(NII、慶大) (同志社大、NII) ホスト側での設定が必要 宛先IPとVLANの対応をホスト側に設定 VLANドライバ、耐故障性へ利用(筑波大) スイッチでタグ付けを行う(NII、慶大) ホスト側での設定は最低限 必要となるVLAN数がスイッチの次数以下に! 大規模クラスタに実装、運用 (同志社大、NII) 2004 イーサネットにおいてループ構造を含むトポロジの実現 2006 2008 29