超高速ネットワークのためのデータ・レゼボワール

Slides:



Advertisements
Similar presentations
専修大学情報科学センターのパソコンを 使ったグリッドコンピューティング ― SPACE計画 - 森正夫 1 、水崎高浩 1 、内藤豊昭 2 、中村友保 2 及び 専修大学情報科学センター 及び 専修大学情報科学センター 1 専修大学 法学部/自然科学研究所 1 専修大学 法学部/自然科学研究所 2 専修大学.
Advertisements

基礎知識1 783. 電子メールの内容 電子メールとは・・・インターネットなどコン ピューターネットワークの末端同士が送受信する 手紙のこと。 CC ・・・電子メールを本来の宛名の他にも送信す る同報送信機能のこと。 BCC ・・・同報送信機能として CC と同様の機能で あるが、電子メールのヘッダに.
Linuxを組み込んだマイコンによる 遠隔監視システムの開発
ATLAS実験データ解析に向けた、長距離広帯域ネットワークにおけるデータ転送
情報理工学系研究科 コンピュータ科学専攻 上嶋裕樹
前回の授業への質問 質問:プロトコルアナライザで測定できる範囲はどこまでか?
Webプロキシサーバにおける 動的資源管理方式の提案と実装
情報検索概説II 第8回 パソコン組み立てと記憶装置 1999/11/25.
クラスタの構成技術と クラスタによる並列処理
Chapter11-4(前半) 加藤健.
北大における Super-SINET 接続と利用: 2004 年度報告
高速ネットワーク技術、スーパーコンピュータ関連の国際会議にて受賞 家庭用PCで超高速Webアクセス環境を実現するUsadaFoxを用い、 遠距離Webアクセス性能を1000倍高速化 東京大学データレゼボワール実験グループ.
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
解析サーバの現状と未来 2006/07/18 衛星データ処理勉強会 村上 弘志 現状のシステム構成など 統合解析環境としての整備
報告 (2006/9/6) 高橋 慧.
TCP (Transmission Control Protocol)
「コンピュータと情報システム」 07章 インターネットとセキュリティ
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
分散遺伝的アルゴリズムによる各種クラスタのベンチマーク
各種PC クラスタの性能評価 同志社大学 工学部 廣安 知之 三木 光範 谷村 勇輔.
WindowsNTによるLAN構築 ポリテクセンター秋田 情報・通信系.
心理学情報処理法Ⅰ コンピュータネットワーク概論.
Telnet, rlogin などの仮想端末 ftp などのファイル転送 rpc, nfs
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
サーバ構成と運用 ここから私林がサーバ構成と運用について話します.
コンテンツ配信 エンコード (符号化) CBR (Constant Bit Rate) VBR (Variable Bit Rate)
スパコンとJLDG HEPの計算環境 HEPnet-J
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Status and Plans for the Tier 1 Tokyo (Japan)
専門演習Ⅰ 国際経済学部 国際産業情報学科 2年 石川 愛
「コンピュータと情報システム」 06章 通信ネットワーク
イーサネットについて 飯塚務.
サーバ負荷分散におけるOpenFlowを用いた省電力法
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
京都大学大学院医学研究科 画像応用治療学・放射線腫瘍学 石原 佳知
イーサネット.
Copyright Yumiko OHTAKE
ギガビットネットワークに対応する ネットワークべンチマークテスト機の試作と ギガビットルータの性能評価
コンピュータとネットワークの利用 国際経営学科 牧野ゼミ3年 足立龍哉.
MPIによるwavからmp3圧縮の検証 情報論理工学研究室 04‐1‐47‐200 木村 惇一.
Lazy Release Consistency
TCP/UDP プロセス間の通信のためのプロトコル TCP:信頼性高、処理時間大 UDP:信頼性低、処理時間小 ftp SMTP HTTP
「計算科学による素粒子・原子核・宇宙の融合」
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
ネットワークの基礎知識 電子制御設計製図Ⅰ   2014年5月2日 Ⅲ限目.
九州大学情報基盤研究開発センター長 青柳 睦
超高速ネットワークの弱点 光は速い 光は遅い 300km / 1msec (真空中) 180km / 1msec (光ファイバ中)
オペレーティングシステム イントロダクション
HPC基盤における大量データ転送のためのデータ転送ツールの評価
超高速基幹LANにおける 情報リテラシー教育支援システム
通信機構合わせた最適化をおこなう並列化ンパイラ
ATLAS実験イベントビルダへの 品質保証機能の適用と性能評価
J-PARC E16実験におけるDAQ-Middleware を用いたDAQソフトウェアの開発
宇宙科学統合解析環境の構築とAstro-E2解析支援
超高速ネットワークの弱点 光は速い 光は遅い 300km / 1msec (真空中) 180km / 1msec (光ファイバ中)
Improvement of bootup time using Power Management - Project Update -
仮想ネットワークを考慮した SoftIRQ制御によるCPU割当ての手法
最低限インターネット ネットワークにつなぎましょ!
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
広島大学におけるHEPnet-J 利用状況
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
特定ユーザーのみが利用可能な仮想プライベート・ネットワーク
東大素セ 松本浩,田中純一, 上田郁夫,坂本宏,真下哲郎
Dynamic Function Placement for Data-intensive Cluster Computing
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
ソケットの拡張によるJava用分散ミドルウエアの高信頼化
ネットワークを介した 計測制御システムの開発
Presentation transcript:

超高速ネットワークのためのデータ・レゼボワール 東京大学大学院理学系研究科 情報科学専攻 平木 敬 2001年1月9日

概要 ネットワーク(LAN,WAN) の方向性 SUPER SINET計画 東大における理学研究へのネットワーク利用 超高速ネットワーク通信の困難点 データレゼボワ-ルの概要 基本方式・基本設計 今後の課題

36年で、約100万倍の速度向上、100万倍のメモリ増大 大域ネットワーク 2MFLOPS, 1Mバイトメモリ (CDC6600) 情報システムのあり方 過去から現在まで 1964年  汎用計算機システム元年 IBM360 CDC6600 HITAC5020 2000年 MPP時代 (ASCIを除く) IBM SP Power3 1.4TFLOPS,375MHz 1336CPU,1.3TB 日立 SR-8000   1TFLOPS, 896CPU (112PE) 36年で、約100万倍の速度向上、100万倍のメモリ増大 大域ネットワーク 50Kbps(1969)から 10Gbps(2000))  30年で20万倍の速度増加 2MFLOPS, 1Mバイトメモリ (CDC6600) 0.65MFLOPS,      256Kバイトメモリ (HITAC5020)

CDC6600

IBM/360 モデル67

IBM SP Power3

(著作権法に触れています。ごめんなさい ⇒ KEK) SR-8000 (著作権法に触れています。ごめんなさい ⇒ KEK)

情報システムの変身 過去4回の大きな変革 現在 汎用コンピュータ 電子計算機の誕生 イーサネット WWW 1940 1950 1960 1970 1980 1990 2000 2010 2020 2030 2040 2050

Loadmap of LAN and WAN

Loadmap of computing systems FLOPS 30 10 32G 27 10 1G 1Y Parallel Computers 32M 1Z Vector Computers 1E 1M 1P 64K 8K 16K 4K 1T Processor Chips 1K 1G 256 64 1M 16 70 80 90 2000 2010 2020 2030 2040 2050

科学研究における情報システム利用形態 Numerical Intensive Computation (NIC) シミュレーション、QCD計算、物性理論計算 入力パラメータ:少量、モデル計算中心:大計算量、可視化出力 スーパーコンピュータは、NICに特化した形態 ネットワーク利用:遠隔使用、画像出力、メールやWebなど Data Intensive Computation 実験データ解析、予測、診断 観測データ、精密画像、人工衛星データ:大容量入力 データ並列型の計算(並列化に向く)→ クラスタの利用 同一データセットによる、計算の繰り返し ネットワーク利用:データ通信、分散データベース Bandwidth Intensive Computation 動画像、Grid、クラスタ計算 ネットワークバンド幅が、情報処理の主なボトルネック ネットワーク利用:プロセス間通信、リアルタイム画像 短レイテンシ、高バンド幅

東大 Internet すばる 天文台 宇宙研 高エネ研 CERN 科技庁 気象庁 Computing Servers 100Mbps UTnet 現在の方法 (磁気テープによる データ通信) 100Mbps 気象庁 Computing Servers

例えば、10Gbps 実質 10Gbps 使うとして 100 TB/day 4.5 TB/hour たとえば 1 時間に DLT 100 本 程度 full-animation 100 本程度(polygon) たとえば地震計16000台(1台 64Kbps @気象庁) 10Gbpsは将来への中間地点

ネットワーク制御 (error rate, latency + Window 制御) ネットワークI/F (パケットの授受) 10Gbpsは計算機屋には楽でない  ネットワーク制御 (error rate, latency +   Window 制御) ネットワークI/F (パケットの授受)  I/Oバスバンド幅 Software Overhead(OS,ライブラリ) Disk I/O (read 20MB/ドライブ           write 10MB/ドライブ) Data Resevoir の必要性

10Gbps通信制御 Ethernet 基本パケット長 = 1.5Kバイト NIC NIC 100ms (東大 ⇔ CERN) 6ms(東大 ⇔ KEK) 10μs 100μs 100μs 10μs 125 MB 7.5 MB 125KB 12.5KB 5K 8 83 83K

やっかいな問題 Slow Startによるウィンドウサイズ成長(小さいファイルの場合) 誤り発生によるウィンドウサイズの縮小 自己相関による多数ストリームの不安定性 QoSの協調動作(総合的バンド幅保証) 信頼性層バッファの大規模化 TCPウィンドウ 送信側 ACK 受信側

スーパーSINETによるデータ通信 東大 一橋 Internet すばる 天文台 宇宙研 高エネ研 CERN 科技庁 気象庁 Data Cache Server 天文台 宇宙研 Data Storage Stations 高エネ研 CERN 科技庁 スーパーSINET 関連部分 気象庁 Computing Servers UTnet

一般的な処理の流れ (バランスの一般法則) 1TIPS(TFLOPS) 1TB Memory 100GB Disk 10GIPS(GFLOPS) 10GB Memory 1TB Disk 80命令/バイト入出力 1Gbps 1~10Gbps 10Gbps 8000命令/バイト入出力 10GIPS 10GB Memory 100TB Disk 10GIPS 10GB Memory 100TB Disk 10Gb/s 8命令/バイト入出力

Performance of MBCF on 100BASE-TX Hardware Work Station SPARCstation 20 (85 MHz SuperSPARC × 1) NIC Sun Microsystems Fast Ethernet SBus Adapter 2.0 Network SMC TigerStack 100 5324TX (non-switching 100BASE-TX HUB) Bay Networks BayStack 350T (switching 100BASE-TX HUB) OS SSS-CORE Ver. 1.1 MBCF/100BASE-TX , Peak Band-width (Unit: Mbyte/sec) data size (byte) 4 16 64 256 1024 1408 MBCF_WRITE, Half-duplex 0.31 1.15 4.31 8.56 11.13 11.48 MBCF_WRITE, full-duplex 0.34 1.27 4.82 9.63 11.64 11.93 MBCF/100BASE-TX , One way latency (μsec) data size (byte) 4 16 64 256 1024 MBCF_WRITE 24.5 27.5 34 60.5 172 MBCF_FIFO 32 40.5 73 210.5 MBCF_SIGNAL 49 52.5 93 227.5

Peak Bandwidth on 100BASE-TX

Round-trip latency on 100BASE-TX

MBCF TCP/IP MBCF TCP/IP Performance of MBCF Hardware Workstation Sun Microsystems Ultra 60 (450 MHz UltraSPARC-II × 1) NIC Sun Microsystems GigabitEthernet/P 2.0 Adapter Network (direct connection by a cross cable) OS and protocol SSS-CORE Ver. 2.3 MBCF Solaris 2.6 TCP/IP MBCF/1000BASE-SX , Peak band-width (Mbyte/sec) data size (byte) 4 16 64 256 1024 1408 MBCF 2.29 5.67 22.30 55.41 78.22 80.92 TCP/IP 0.09 0.43 1.67 5.56 12.79 20.21 MBCF/1000BASE-SX , One way latency (μsec) data size (byte) 4 16 64 256 1024 MBCF 9.6 11.0 11.5 16.2 35.9 TCP/IP 95.08 95.22 95.39 99.45 114.15

Peak Bandwidth by 1000BASE-SX (MBCF_WRITE)

One way latency with 1000BASE-SX(MBCF_WRITE)

ハードウェアによる超高速単一データストリームの実現 ハードウェア解とソフトウェア解 ハードウェアによる超高速単一データストリームの実現 専用ネットワークプロセッサによるプロトコル処理 ワイヤスピードの実現 計算機内部バスバンド幅による制限 ディスクとのバンド幅による制限 バッファ領域 TCPのウィンドウ制御の問題点 ソフトウェアによる超高速単一データストリームの実現 クラスタ計算システムによるデータ転送 L4スイッチングによる単一データストリーム化とワイヤスピードの実現 TCPの統一のとれた制御 ストレージレベルでのネットワーク化 流量制御、特に遠距離通信における衝突の制御

超高速ネットワークの有効利用への障壁 超高速ネットワークプロセッサ 光通信方式 → 1000Gbpsまで 暗号化/復号化通信  → 数10Mbps で限界か?   現状では超高速ネットワークの効率的活用は無理  ギガビット・イーサネットを最大能力で生かすネットワーク方式 (メモリベースプロセッサ:MBP2 の研究・開発)

ユーザレベル通信用ネットワークインタフェースVLSIの新規開発 MBCF、TCP/IPのインタフェースカード上での実現 MBP2プロジェクト ギガビット・イーサネットを用いる ユーザレベル通信用ネットワークインタフェースVLSIの新規開発 MBCF、TCP/IPのインタフェースカード上での実現 暗号化/復号化のハードウェア的実現 フィールドプログラマブル   ・ゲートアレイを用いた   プロトタイプ

現在のクラスタ計算システム Beowulf class cluster Linux and Windows Single user system MPI based message passing communication Gang scheduling Linux and Windows multi-image operating environment Very high overheads due to kernel structure Lack of migration capability Use of specialized network hardware e.g. myrinet memory mapped communication

高速ネットワークを利用したい理学系プロジェクト 実験 現在、テープでデータを物理的に運んでいる 理学系で15 project 程度( over Gbit は2か3) グラフィックス/CAD (full-screen, interactive) 現在、画像サイズ/rate /リアルタイム性を我慢 大域cluster コンピュータ 100Mbps~1G bpsで PC-cluster が組める。 (SR8000 cluster はおそらく非現実的)

超高速ネットワークを要する理学系の研究プロジェクト 理研 理学系研究科 学内研究センタ 放医研 原研 原子核科学 研究センタ 高エネルギー実験データ 素粒子物理 国際研究センタ CERN (ジュネーブ) 高エネ研 物理学専攻 生物科学専攻 医科学研究所 ゲノム情報 生物化学専攻 三島 岡崎 京大 地球惑星科学専攻 地震研 天文学専攻 海外 データベース 地震・気象情報 天文学教育 研究センタ 海半球研究センタ (気象庁) 気候システム 研究センタ すばる (米国・ハワイ) フェルミ・ラボ (米国・イリノイ) 化学専攻 地殻化学研究センタ 天文観測データ 国立天文台 情報科学専攻 木曾観測所 宇宙科学研 初期宇宙 研究センタ 地球シミュレーション 衛星観測データ 地球変動研究所 空間情報科学 研究センター 人工衛星観測データ 情報基盤センター 地質調査所 衛星観測データ 新情報処理開発機構 Global Grid 高エネ研 工業技術院 原研 超高速ネットワークを要する理学系の研究プロジェクト 富士通研究所

関連プロジェクト

Data Resevoir ・格納速度   10Gをリアルタイム保証するストレージシステムを、学内の計算ファシ   リティに分散して配置することはコスト面から現実的でない ・バンド幅保証   通信データのキャッシングは、バンド幅保証が困難な学内ネットワークの先 ではなく、東大への入り口で行うことが必要である。 ・拡張性   シングルストリームの超高速性が要請される幹線ネットワーク接続と、運  用に弾力性があり、かつ多数の通信が錯綜する学内ネットワーク接続のイ  分離 ・信頼性    極高速ネットワーク上でのTCP通信は、非常に高い信頼性と、最適化された  TCPプロトコル制御が求められる。学内レベルではレイテンシが2桁以上  小さいため、信頼性/バンド幅保証に関する制約を著しく小さくすることが 可能であり、また既存機器とのコンパチビリティや運用上の最適パラメータ 設 定でも問題が発生しない

データレザボワールの基本要件 遠隔ノード間でのファイルの共有 遠距離通信と近距離通信の分離 10Gbps バンド幅の最大限の利用(いわゆるワイヤ・スピード) 近距離での高バンド幅NFSの実現 汎用ハードウェアの利用 汎用ソフトウェアの活用 CPU能力   ⇒ パケット処理、NFS処理 メモリ量    ⇒ バッファ領域、NFSキャッシュ領域 ディスク数   ⇒ 必要なバンド幅の実現 I/Oバス数   ⇒ 必要なバンド幅の実現 NIC数    ⇒ 必要なバンド幅の実現 ネットワーク/ディスク系のストライピングが必須

データレザボワールの実現方式 解1)SMPを用いたファイル共有 解2)SANを用いたファイル共有 NFS ポート NIC メモリ NIC SWITCH NIC CPU メモリ NIC CPU CPU NIC NIC CPU メモリ 解1)SMPを用いたファイル共有 解2)SANを用いたファイル共有 解3)ローカルディスクを持つクラスタを用いたファイル共有

SMPを用いたデータレゼボワ-ル ・ 高価 (SMPのため) ・ メモリ共有が活用されない ・ プログラミングが容易(OSソースがある NFS ネットワーク NFS UFS ファイル転送/同期 STRIPING層 ・ 高価 (SMPのため) ・ メモリ共有が活用されない ・ プログラミングが容易(OSソースがある                 場合)

SANを用いたデータレゼボワ-ル SANのスイッチ または 双頭FCディスク NFS ネットワーク NFS UFS STRIPING層 ファイル転送/同期 SANのスイッチ または 双頭FCディスク

クラスタを用いたデータレゼボワ-ル NFS ネットワーク NFS UFS NFS UFS NFS UFS NFS UFS NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期 NFS UFS ストライ ピング層 NFS UFS ストライ ピング層 ファイル 分割制御 ファイル転 送/同期

Data Resevoirの構成 Super SINET 10Gbps Data Cache Server Gigabit 例:64way SMP 16GE NIC L4 Switch   100TBディスク Network Router Data Cache Server Gigabit Ethernet 1Gbps Data Storage Station 例:32ノードクラスタ   Myrinet+GE   10TBディスク Computing Servers

バンド幅の計算例 GEの実効転送能力    300Mbps = 37.5MB/s PCIバスの実効転送能力    528MB/s / 4 = 132MB/s CPUの処理能力    2 × 1GHz /4 = 500Mops メモリバス転送能力      133MHz × 8 / 8 = 133MB/s CPU Memory GE・I/F PCI64/66(528MB/s) SCSI I/F Ultra160(160MB/s)

タイム・スケジュール スーパー・SINET 2002年初めから稼動予定 データレザボワール・パイロットモデル 1Gbpsネットワークに対応 基本ソフトウェア要素の構築 東大理学系 ⇔ KEK, 国立天文台で実験運用 2001年10月 試験開始 2002年4月  運用開始 データ・レザボワール(10Gbpsモデル) (予算獲得に成功すれば)2003年3月 試験開始 2004年4月  運用開始 ノード数:約64 ディスク容量 10Tバイト程度

実験 → 共同実験施設、データのリアルタイム入出力 プロジェクトを支える体制 実験 → 共同実験施設、データのリアルタイム入出力 ネットワーク → 100Gbpsの実現へ 情報科学技術 ・     OS技術(特に、負荷分散、マイグレーション) ・     セキュリティ技術 ・     高速通信プロトコル技術 ・     Grid用コンパイラ技術 ・     パーフォーマンスツール群 ・     可視化、アニメーション方式 情報科学系のメンバー    平木、稲葉、玉造