超高速ネットワークのためのデータ・レゼボワール 東京大学大学院理学系研究科 情報科学専攻 平木 敬 2001年1月9日
概要 ネットワーク(LAN,WAN) の方向性 SUPER SINET計画 東大における理学研究へのネットワーク利用 超高速ネットワーク通信の困難点 データレゼボワ-ルの概要 基本方式・基本設計 今後の課題
36年で、約100万倍の速度向上、100万倍のメモリ増大 大域ネットワーク 2MFLOPS, 1Mバイトメモリ (CDC6600) 情報システムのあり方 過去から現在まで 1964年 汎用計算機システム元年 IBM360 CDC6600 HITAC5020 2000年 MPP時代 (ASCIを除く) IBM SP Power3 1.4TFLOPS,375MHz 1336CPU,1.3TB 日立 SR-8000 1TFLOPS, 896CPU (112PE) 36年で、約100万倍の速度向上、100万倍のメモリ増大 大域ネットワーク 50Kbps(1969)から 10Gbps(2000)) 30年で20万倍の速度増加 2MFLOPS, 1Mバイトメモリ (CDC6600) 0.65MFLOPS, 256Kバイトメモリ (HITAC5020)
CDC6600
IBM/360 モデル67
IBM SP Power3
(著作権法に触れています。ごめんなさい ⇒ KEK) SR-8000 (著作権法に触れています。ごめんなさい ⇒ KEK)
情報システムの変身 過去4回の大きな変革 現在 汎用コンピュータ 電子計算機の誕生 イーサネット WWW 1940 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050
Loadmap of LAN and WAN
Loadmap of computing systems FLOPS 30 10 32G 27 10 1G 1Y Parallel Computers 32M 1Z Vector Computers 1E 1M 1P 64K 8K 16K 4K 1T Processor Chips 1K 1G 256 64 1M 16 70 80 90 2000 2010 2020 2030 2040 2050
科学研究における情報システム利用形態 Numerical Intensive Computation (NIC) シミュレーション、QCD計算、物性理論計算 入力パラメータ:少量、モデル計算中心:大計算量、可視化出力 スーパーコンピュータは、NICに特化した形態 ネットワーク利用:遠隔使用、画像出力、メールやWebなど Data Intensive Computation 実験データ解析、予測、診断 観測データ、精密画像、人工衛星データ:大容量入力 データ並列型の計算(並列化に向く)→ クラスタの利用 同一データセットによる、計算の繰り返し ネットワーク利用:データ通信、分散データベース Bandwidth Intensive Computation 動画像、Grid、クラスタ計算 ネットワークバンド幅が、情報処理の主なボトルネック ネットワーク利用:プロセス間通信、リアルタイム画像 短レイテンシ、高バンド幅
東大 Internet すばる 天文台 宇宙研 高エネ研 CERN 科技庁 気象庁 Computing Servers 100Mbps UTnet 現在の方法 (磁気テープによる データ通信) 100Mbps 気象庁 Computing Servers
例えば、10Gbps 実質 10Gbps 使うとして 100 TB/day 4.5 TB/hour たとえば 1 時間に DLT 100 本 程度 full-animation 100 本程度(polygon) たとえば地震計16000台(1台 64Kbps @気象庁) 10Gbpsは将来への中間地点
ネットワーク制御 (error rate, latency + Window 制御) ネットワークI/F (パケットの授受) 10Gbpsは計算機屋には楽でない ネットワーク制御 (error rate, latency + Window 制御) ネットワークI/F (パケットの授受) I/Oバスバンド幅 Software Overhead(OS,ライブラリ) Disk I/O (read 20MB/ドライブ write 10MB/ドライブ) Data Resevoir の必要性
10Gbps通信制御 Ethernet 基本パケット長 = 1.5Kバイト NIC NIC 100ms (東大 ⇔ CERN) 6ms(東大 ⇔ KEK) 10μs 100μs 100μs 10μs 125 MB 7.5 MB 125KB 12.5KB 5K 8 83 83K
やっかいな問題 Slow Startによるウィンドウサイズ成長(小さいファイルの場合) 誤り発生によるウィンドウサイズの縮小 自己相関による多数ストリームの不安定性 QoSの協調動作(総合的バンド幅保証) 信頼性層バッファの大規模化 TCPウィンドウ 送信側 ACK 受信側
スーパーSINETによるデータ通信 東大 一橋 Internet すばる 天文台 宇宙研 高エネ研 CERN 科技庁 気象庁 Data Cache Server 天文台 宇宙研 Data Storage Stations 高エネ研 CERN 科技庁 スーパーSINET 関連部分 気象庁 Computing Servers UTnet
一般的な処理の流れ (バランスの一般法則) 1TIPS(TFLOPS) 1TB Memory 100GB Disk 10GIPS(GFLOPS) 10GB Memory 1TB Disk 80命令/バイト入出力 1Gbps 1~10Gbps 10Gbps 8000命令/バイト入出力 10GIPS 10GB Memory 100TB Disk 10GIPS 10GB Memory 100TB Disk 10Gb/s 8命令/バイト入出力
Performance of MBCF on 100BASE-TX Hardware Work Station SPARCstation 20 (85 MHz SuperSPARC × 1) NIC Sun Microsystems Fast Ethernet SBus Adapter 2.0 Network SMC TigerStack 100 5324TX (non-switching 100BASE-TX HUB) Bay Networks BayStack 350T (switching 100BASE-TX HUB) OS SSS-CORE Ver. 1.1 MBCF/100BASE-TX , Peak Band-width (Unit: Mbyte/sec) data size (byte) 4 16 64 256 1024 1408 MBCF_WRITE, Half-duplex 0.31 1.15 4.31 8.56 11.13 11.48 MBCF_WRITE, full-duplex 0.34 1.27 4.82 9.63 11.64 11.93 MBCF/100BASE-TX , One way latency (μsec) data size (byte) 4 16 64 256 1024 MBCF_WRITE 24.5 27.5 34 60.5 172 MBCF_FIFO 32 40.5 73 210.5 MBCF_SIGNAL 49 52.5 93 227.5
Peak Bandwidth on 100BASE-TX
Round-trip latency on 100BASE-TX
MBCF TCP/IP MBCF TCP/IP Performance of MBCF Hardware Workstation Sun Microsystems Ultra 60 (450 MHz UltraSPARC-II × 1) NIC Sun Microsystems GigabitEthernet/P 2.0 Adapter Network (direct connection by a cross cable) OS and protocol SSS-CORE Ver. 2.3 MBCF Solaris 2.6 TCP/IP MBCF/1000BASE-SX , Peak band-width (Mbyte/sec) data size (byte) 4 16 64 256 1024 1408 MBCF 2.29 5.67 22.30 55.41 78.22 80.92 TCP/IP 0.09 0.43 1.67 5.56 12.79 20.21 MBCF/1000BASE-SX , One way latency (μsec) data size (byte) 4 16 64 256 1024 MBCF 9.6 11.0 11.5 16.2 35.9 TCP/IP 95.08 95.22 95.39 99.45 114.15
Peak Bandwidth by 1000BASE-SX (MBCF_WRITE)
One way latency with 1000BASE-SX(MBCF_WRITE)
ハードウェアによる超高速単一データストリームの実現 ハードウェア解とソフトウェア解 ハードウェアによる超高速単一データストリームの実現 専用ネットワークプロセッサによるプロトコル処理 ワイヤスピードの実現 計算機内部バスバンド幅による制限 ディスクとのバンド幅による制限 バッファ領域 TCPのウィンドウ制御の問題点 ソフトウェアによる超高速単一データストリームの実現 クラスタ計算システムによるデータ転送 L4スイッチングによる単一データストリーム化とワイヤスピードの実現 TCPの統一のとれた制御 ストレージレベルでのネットワーク化 流量制御、特に遠距離通信における衝突の制御
超高速ネットワークの有効利用への障壁 超高速ネットワークプロセッサ 光通信方式 → 1000Gbpsまで 暗号化/復号化通信 → 数10Mbps で限界か? 現状では超高速ネットワークの効率的活用は無理 ギガビット・イーサネットを最大能力で生かすネットワーク方式 (メモリベースプロセッサ:MBP2 の研究・開発)
ユーザレベル通信用ネットワークインタフェースVLSIの新規開発 MBCF、TCP/IPのインタフェースカード上での実現 MBP2プロジェクト ギガビット・イーサネットを用いる ユーザレベル通信用ネットワークインタフェースVLSIの新規開発 MBCF、TCP/IPのインタフェースカード上での実現 暗号化/復号化のハードウェア的実現 フィールドプログラマブル ・ゲートアレイを用いた プロトタイプ
現在のクラスタ計算システム Beowulf class cluster Linux and Windows Single user system MPI based message passing communication Gang scheduling Linux and Windows multi-image operating environment Very high overheads due to kernel structure Lack of migration capability Use of specialized network hardware e.g. myrinet memory mapped communication
高速ネットワークを利用したい理学系プロジェクト 実験 現在、テープでデータを物理的に運んでいる 理学系で15 project 程度( over Gbit は2か3) グラフィックス/CAD (full-screen, interactive) 現在、画像サイズ/rate /リアルタイム性を我慢 大域cluster コンピュータ 100Mbps~1G bpsで PC-cluster が組める。 (SR8000 cluster はおそらく非現実的)
超高速ネットワークを要する理学系の研究プロジェクト 理研 理学系研究科 学内研究センタ 放医研 原研 原子核科学 研究センタ 高エネルギー実験データ 素粒子物理 国際研究センタ CERN (ジュネーブ) 高エネ研 物理学専攻 生物科学専攻 医科学研究所 ゲノム情報 生物化学専攻 三島 岡崎 京大 地球惑星科学専攻 地震研 天文学専攻 海外 データベース 地震・気象情報 天文学教育 研究センタ 海半球研究センタ (気象庁) 気候システム 研究センタ すばる (米国・ハワイ) フェルミ・ラボ (米国・イリノイ) 化学専攻 地殻化学研究センタ 天文観測データ 国立天文台 情報科学専攻 木曾観測所 宇宙科学研 初期宇宙 研究センタ 地球シミュレーション 衛星観測データ 地球変動研究所 空間情報科学 研究センター 人工衛星観測データ 情報基盤センター 地質調査所 衛星観測データ 新情報処理開発機構 Global Grid 高エネ研 工業技術院 原研 超高速ネットワークを要する理学系の研究プロジェクト 富士通研究所
関連プロジェクト
Data Resevoir ・格納速度 10Gをリアルタイム保証するストレージシステムを、学内の計算ファシ リティに分散して配置することはコスト面から現実的でない ・バンド幅保証 通信データのキャッシングは、バンド幅保証が困難な学内ネットワークの先 ではなく、東大への入り口で行うことが必要である。 ・拡張性 シングルストリームの超高速性が要請される幹線ネットワーク接続と、運 用に弾力性があり、かつ多数の通信が錯綜する学内ネットワーク接続のイ 分離 ・信頼性 極高速ネットワーク上でのTCP通信は、非常に高い信頼性と、最適化された TCPプロトコル制御が求められる。学内レベルではレイテンシが2桁以上 小さいため、信頼性/バンド幅保証に関する制約を著しく小さくすることが 可能であり、また既存機器とのコンパチビリティや運用上の最適パラメータ 設 定でも問題が発生しない
データレザボワールの基本要件 遠隔ノード間でのファイルの共有 遠距離通信と近距離通信の分離 10Gbps バンド幅の最大限の利用(いわゆるワイヤ・スピード) 近距離での高バンド幅NFSの実現 汎用ハードウェアの利用 汎用ソフトウェアの活用 CPU能力 ⇒ パケット処理、NFS処理 メモリ量 ⇒ バッファ領域、NFSキャッシュ領域 ディスク数 ⇒ 必要なバンド幅の実現 I/Oバス数 ⇒ 必要なバンド幅の実現 NIC数 ⇒ 必要なバンド幅の実現 ネットワーク/ディスク系のストライピングが必須
データレザボワールの実現方式 解1)SMPを用いたファイル共有 解2)SANを用いたファイル共有 NFS ポート NIC メモリ NIC SWITCH NIC CPU メモリ NIC CPU CPU NIC NIC CPU メモリ 解1)SMPを用いたファイル共有 解2)SANを用いたファイル共有 解3)ローカルディスクを持つクラスタを用いたファイル共有
SMPを用いたデータレゼボワ-ル ・ 高価 (SMPのため) ・ メモリ共有が活用されない ・ プログラミングが容易(OSソースがある NFS ネットワーク NFS UFS ファイル転送/同期 STRIPING層 ・ 高価 (SMPのため) ・ メモリ共有が活用されない ・ プログラミングが容易(OSソースがある 場合)
SANを用いたデータレゼボワ-ル SANのスイッチ または 双頭FCディスク NFS ネットワーク NFS UFS STRIPING層 ファイル転送/同期 SANのスイッチ または 双頭FCディスク
クラスタを用いたデータレゼボワ-ル NFS ネットワーク NFS UFS NFS UFS NFS UFS NFS UFS NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期
Data Resevoirの構成 Super SINET 10Gbps Data Cache Server Gigabit 例:64way SMP 16GE NIC L4 Switch 100TBディスク Network Router Data Cache Server Gigabit Ethernet 1Gbps Data Storage Station 例:32ノードクラスタ Myrinet+GE 10TBディスク Computing Servers
バンド幅の計算例 GEの実効転送能力 300Mbps = 37.5MB/s PCIバスの実効転送能力 528MB/s / 4 = 132MB/s CPUの処理能力 2 × 1GHz /4 = 500Mops メモリバス転送能力 133MHz × 8 / 8 = 133MB/s CPU Memory GE・I/F PCI64/66(528MB/s) SCSI I/F Ultra160(160MB/s)
タイム・スケジュール スーパー・SINET 2002年初めから稼動予定 データレザボワール・パイロットモデル 1Gbpsネットワークに対応 基本ソフトウェア要素の構築 東大理学系 ⇔ KEK, 国立天文台で実験運用 2001年10月 試験開始 2002年4月 運用開始 データ・レザボワール(10Gbpsモデル) (予算獲得に成功すれば)2003年3月 試験開始 2004年4月 運用開始 ノード数:約64 ディスク容量 10Tバイト程度
実験 → 共同実験施設、データのリアルタイム入出力 プロジェクトを支える体制 実験 → 共同実験施設、データのリアルタイム入出力 ネットワーク → 100Gbpsの実現へ 情報科学技術 ・ OS技術(特に、負荷分散、マイグレーション) ・ セキュリティ技術 ・ 高速通信プロトコル技術 ・ Grid用コンパイラ技術 ・ パーフォーマンスツール群 ・ 可視化、アニメーション方式 情報科学系のメンバー 平木、稲葉、玉造