分散環境でのStableな ブロードキャストアルゴリズムの 提案と実装

Slides:



Advertisements
Similar presentations
P2P 技術を応用した 分散システムの排他制御機構の試作 九州工業大学 情報科学センター 山之上 卓.
Advertisements

MPIを用いたグラフの並列計算 情報論理工学研究室 藤本 涼一.
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
最新ファイルの提供を保証する代理FTPサーバの開発
セキュアネットワーク符号化構成法に関する研究
TCPコネクションの分割 によるスループットの向上
ラウンドトリップタイムを指標とした 無線LAN のためのアクセスポイント選択手法
仮想ブロードキャストリンクを利用した 片方向通信路の透過的経路制御 藤枝 俊輔(慶應義塾大学)
IPv6 エニーキャスト ルーティングプロトコル PIA-SM の設計および実装
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
DNASシステム上のアプリケーション起動シーケンスのための基盤であるdsh部分の性能評価
報告 (2006/9/6) 高橋 慧.
神奈川大学大学院工学研究科 電気電子情報工学専攻
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
Paper from PVLDB vol.7 (To appear in VLDB 2014)
多数の遊休PC上での 分散ゲーム木探索 導入 ゲーム木探索 ⇒遊休PCを利用して高速化 例)コンピュータ将棋における次手の計算
最短路問題のための LMS(Levelwise Mesh Sparsification)
ノードの情報を動的に反映したオーバレイネットワークの構築
ノードの情報を動的に反映したオーバレイネットワークの構築
予備親探索機能を有した アプリケーションレベルマルチキャスト
ネットワークとノードの情報を利用したオーバレイネットワークの最適化
動画像ストリーミングサービスのための プロキシキャッシングシステムの 設計と実装および評価
大規模ネットワークにおける バンド幅測定アルゴリズム
メッシュネットワークに関する研究 ーチャネル割り当ての一手法ー
サーバ負荷分散におけるOpenFlowを用いた省電力法
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
Copyright Yumiko OHTAKE
大阪大学 大学院情報科学研究科 博士前期課程2年 宮原研究室 土居 聡
過負荷時の分散ソフトウェアの 性能劣化を改善する スケジューリングの提案
ネットワークトポロジーを考慮した効率的なバンド幅推定手法
DiffServにおけるクラスの新しい設定方法の提案
ネットワーク上での社会的効用と個人的効用の対立問題に対するアルゴリズム的研究
2009年度卒業論文発表 CDNコンテンツサーバの動的負荷分散
トポロジを考慮する データ転送スケジュラー
仮想メモリを用いた VMマイグレーションの高速化
WWW上の効率的な ハブ探索法の提案と実装
大規模ネットワークにおける 効率的なバンド幅マップ構築アルゴリズム
マルチホーミングを利用した Proxy Mobile IPv6の ハンドオーバー
各種ルータに対応する P2P通信環境に関する研究
Internet広域分散協調サーチロボット の研究開発
ネットワークの性能 牧野ゼミ3年 足立龍哉.
モバイルエージェントネットワークの拡張とシミュレーション
非対称リンクにおける ジャンボフレームの性能評価
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
VMMのソフトウェア若化を考慮した クラスタ性能の比較
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
VMが利用可能なCPU数の変化に対応した 並列アプリケーション実行の最適化
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
岩澤全規 理化学研究所 計算科学研究機構 粒子系シミュレータ研究チーム 2015年7月22日 AICS/FOCUS共催 FDPS講習会
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
ネットワークトポロジを考慮した効率的なバンド幅推定手法
「マイグレーションを支援する分散集合オブジェクト」
マイグレーションを支援する分散集合オブジェクト
「マイグレーションを支援する分散集合オブジェクト」
大規模ネットワークにおける 効率的なバンド幅マップ構築アルゴリズム
GbEにおける TCP/IP の研究について
情報ネットワーク 岡村耕二.
アドホックルーティングにおける 省電力フラッディング手法の提案
衛星回線を含むネットワークにおける 動的経路制御に関する研究
Amicus: A Group Abstraction for Mobile Group Communications
低軌道周回衛星における インターネット構築に関する研究
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
IPmigrate:複数ホストに分割されたVMの マイグレーション手法
複数ホストにまたがるVMの 高速かつ柔軟な 部分マイグレーション
BSPモデルを用いた 最小スパニング木 情報論理工学研究室 02-1-47-134 小林洋亮.
黒宮 佑介(学籍番号: ) 政策・メディア研究科 修士課程2年 主査:村井 純、副査:斉藤 賢爾・中村 修・江崎 浩
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
インセンティブにより自律ユーザに 高品質なオーバーレイマルチキャスト木を 構築させるプロトコルの提案
まさ 2003/06/12 卒論その後の進捗 まさ 2003/06/12.
Presentation transcript:

分散環境でのStableな ブロードキャストアルゴリズムの 提案と実装 A Stable Broadcast Algorithm for Distributed Environments and Its Implementation 分散環境でのStableな ブロードキャストアルゴリズムの 提案と実装 近山・田浦研究室 高橋 慧 (56428) 修士論文審査 2008年2月13日

ブロードキャストとは: 多数のノードへ同じデータを転送すること 一般に広く用いられる 転送元 (Source)から転送先(Destination)へ 一般に広く用いられる ファイルの転送・ストリーミングなど Data Data Data Data Data

大きなデータのブロードキャスト バンド幅が重要になる パイプライン転送により性能が改善される 転送先ノードがデータを中継 Data Data

並列計算でのブロードキャスト クラスタ内や分散環境でも広く用いられる 単純な手法では様々な問題が発生する 同じデータに対し異なる処理 大きな辞書をローカルディスクにコピー 単純な手法では様々な問題が発生する リンク共有による性能低下 遅いノードによる性能低下 辞書のような静的なデータを、各ノードが高速にアクセスしたい場合

問題1:リンク共有による影響 N本の転送がリンクを共有すると、転送のバンド幅は最悪(1/N)になってしまう 1種類のデータ転送については、同じリンクを何度も通らないことが望ましい Link Capacity: 1Gbps 500Mbps 500Mbps

問題2:「遅い」ノードによる影響 バンド幅が小さな (遅い)ノードがパイプラインに参加すると、全体の性能が低下してしまう バンド幅の小さなノードは他のノードの邪魔をしないことが望ましい パイプラインだと バンド幅10に性能低下 本来はバンド幅100で転送可能 100 10 10 Slow

本研究の貢献 「Stableなブロードキャスト」という概念を提案 木構造ネットワークで実際にStableなブロードキャストアルゴリズムを提案 遅いノードが速いノードの邪魔をしない 全ノードが可能な最大バンド幅でデータを受信 木構造ネットワークで実際にStableなブロードキャストアルゴリズムを提案 Stableであることを数学的に証明 一般のグラフネットワークでも性能改善 実験の結果、不均質な環境で既存手法に比べ2.5倍の合計バンド幅を達成

発表の流れ 研究の概要 問題設定 関連研究 提案するアルゴリズム 実験・評価 結論 大きなメッセージのブロードキャスト Stabilityの定義 関連研究 提案するアルゴリズム 実験・評価 結論

問題設定 対象: 大きなメッセージのブロードキャスト ネットワークトポロジ・バンド幅は既知とする ノード間での一対一転送を組み合わせて実現 トポロジは高速に推定可能 4クラスタ・ 256ノードの推定に16秒 Shirai et al. A Fast Topology Inference - A building block for network-aware parallel computing. (HPDC 2007) リンクのバンド幅も高速に測定可能 長沼他. ネットワークトポロジを考慮したバンド幅推定の高速化手法. (情報処理学会学生セッション, 2008年3月 発表予定) 6クラスタ・301ノードで111秒

バンド幅と遅延 メッセージ伝達時間は遅延とバンド幅で決まる メッセージが大きい場合、到達時間においてバンド幅のみが重要になる (到達時間) = (遅延) + メッセージサイズ1GB・バンド幅1Gbps ・ 遅延50ms だと、到達時間の99%以上がバンド幅の項 (メッセージの大きさ) (バンド幅)

中継の必要性 中継を用いず、転送元ノードが直接全ノードに転送すると、転送元ノードがボトルネックになる 転送先ノードが中継を行うと、各ノードがより多くのバンド幅でデータを受け取ることができる (パイプライン転送) 中継した 場合 混雑解消 このリンクが混雑

非同期的なブロードキャスト 多くの既存アルゴリズムは、全ノードに同じバンド幅でデータが届くのを前提としていた 実際には大きなバンド幅で接続されたノードは、より早くデータを受け取ることが望ましい データが到着したら独立に処理を開始可能

ブロードキャストの性能評価 転送時間による評価: 合計バンド幅による評価: 最も遅いノードにデータが到着する時間で評価 ノード間の同期が不要な場合には適さない 合計バンド幅による評価: 各ノードが受け取るバンド幅の合計で評価 全ノードが同量のデータを受け取るのであれば、転送時間と同じ結果となる 非同期的なブロードキャスト(各ノードが異なった量のデータを受け取る場合)の性能評価に適切である

Stableなブロードキャストとは: 各ノードに届くバンド幅が、バンド幅の少ないノードを追加しても減らないこと、と定義する 合計バンド幅最大 転送時間最小 100 100 10 A ノード追加 A バンド幅:100 バンド幅:100 (変化無し)

発表の流れ 研究の概要 問題設定 関連研究 提案するアルゴリズム 実験・評価 結論

FlatTreeアルゴリズム 転送元ノードから直接多数のノードに転送 実装が容易 ノード数に比例した時間が必要 ノード数が増えると性能が大きく低下 FTP このリンクが混雑

トポロジを考慮しないパイプライン 転送元ノードから転送先ノードを順番に辿る 転送元のボトルネックを解消 リンク共有が発生し性能低下

BitTorrentでのブロードキャスト[†] 中継に枝分かれが多く、またリンク共有も回避されないため、クラスタ内でのブロードキャストには向かない リンクのバンド幅を 1/3しか使えない ある時点での中継図 [†] Wei et al. Scheduling Independent Tasks Sharing Large Data Distributed with BitTorrent. (In GRID ’05)

深さ優先パイプライン[†] トポロジ情報を用い、転送元から深さ優先に パイプラインを構築 遅いノードによる性能低下が発生 リンク共有が起こらない 木構造だと最も遅いノードにとって最短で受信完了 遅いノードによる性能低下が発生 このリンクが細いと パイプライン全体の性能が低下 OK [†] Shirai et al. A Fast Topology Inference - A building block for network-aware parallel computing. (HPDC 2007)

Dijkstra法によるツリー構築[†] バンド幅付きトポロジを用い、現在の転送ツリーからのバンド幅が最大であるノードを順次追加 遅いノードによる性能低下を緩和 リンク共有が発生する リンク共有が発生 OK [†] Wang et al. A novel data grid coherence protocol using pipeline-based aggressive copy method. (GPC, pages 484–495, 2007)

FPFRアルゴリズム[†] FPFR: Fast Parallel File Replication アルゴリズム バンド幅付きトポロジ情報を用いる 複数のストリームを用いることで、深さ優先パイプラインより合計バンド幅を向上 アルゴリズム 複数のツリーを深さ優先で構築 ツリー群を同時に用いてデータ転送 [†] Izmailov et al. Fast Parallel File Replication in Data Grid. (GGF-10, March 2004.)

FPFRにおけるツリー群の構築 深さ優先にツリーを構築し、最小バンド幅をスループットとする さらに深さ優先に次の木を構築する 以前のツリーが用いるバンド幅を差し引いて構築する バンド幅が0のリンクは連結されていないと見なす 全ての転送先を辿れなくなったら、ツリー構築を終了する First Tree Second Tree 最小バンド幅 深さ優先の絵

FPFRにおけるデータ転送 ファイルを断片に分け、各ツリーが異なる断片を並列に送信する 各ツリーのスループットに比例した量を送る First Tree: データ前半を送信 Second Tree: データ後半を送信

FPFRの問題点 FPFRアルゴリズムは既存手法より合計バンド幅を改善したが、Stableではない 遅いノードが他のノードに影響してしまう トポロジが木構造の場合は深さ優先パイプラインと全く同じ計画となり、性能向上されない このリンクが細いと 全体の性能が低下

発表の流れ 研究の概要 問題設定 関連研究 提案するアルゴリズム ツリー構築 転送の実行 ブロードキャストツールの実装 実験・評価 結論

提案するアルゴリズム FPFRを改良 性能的な改善点 トポロジを用い、深さ優先にツリー群を構築する 一部の転送先のみ結ぶツリーも用いる 各リンクのバンド幅が上下対称な木構造トポロジにおいてはStableであることを証明した 合計バンド幅最大かつ転送時間最短 任意のトポロジに対し合計バンド幅を改善

ツリー群の構築 FPFRと同様に深さ優先にツリーを構築 データ送信は全てのツリーを平行に用いる 全てのDestinationをたどれなくなっても、引き続き一部のDestinationを結ぶツリーを作る データ送信は全てのツリーを平行に用いる Third Tree Fourth Tree 到達不能 到達不能 到達不能

データ送信の例 T0, T1, T2の3本のストリームを用いて転送 Stage1: T0, T1, T2全てを用いて転送 Cがデータ全体を受け取ったら終了 Stage2: T0, T1を用いて転送 以前T2が送信した断片を転送 Bがデータ全体を受け取ったら終了 Stage3: T0を用いて転送 以前T1が送信した断片を転送 A B S C T0 T1 A B S C T0 T2 T1 T0 S A B C

提案アルゴリズムの特徴 木構造(かつリンクの上下バンド幅が対称)ではStable 任意のトポロジに対し合計バンド幅を改善 全ノードが可能な最大バンド幅でデータを受信 合計バンド幅最大 完了時間最短 (最も遅いノードが最短で同期される) 任意のトポロジに対し合計バンド幅を改善 FPFR(及びそれに類する手法)が有効に利用ではないバンド幅を用いることができるため 遅いノードの影響が小さい トポロジがTreeの場合、2ノードAとBを結ぶ最短経路は一通りに定まる

ブロードキャストツールの実装 先に提案したアルゴリズムを利用した、 ブロードキャストツール(ucp)を実装した 効率的な中継計画を立てる Stableなブロードキャストアルゴリズム NAT・Firewall下で動作する 逆向きの接続・中継を利用 対話的に使え、使い勝手が良い scpやrsyncに類似した書式 正規表現によるホスト指定 $ ucp hongo000:/source/ptn hongo:/destination/ptn

発表の流れ 研究の概要 問題設定 関連研究 提案するアルゴリズム 実験・評価 シミュレーション 実機評価 結論

(1) シミュレーションによる評価 4クラスタの実機のトポロジを用い、以下の4手法を比較するシミュレータを実装した 提案手法 深さ優先 (FPFR) Dijkstra ランダム (トポロジを用いないパイプライン) 各手法の合計バンド幅を計算した 10, 50, 100ノードのブロードキャスト 転送元・転送先を変え、10回ずつシミュレート 様々なバンド幅の条件を試行した (リンクの上下のバンド幅が非対称な条件を含む) … 110 nodes 81 nodes 36 nodes 4 nodes

シミュレーション・条件1 100Mbpsと1Gbpsのリンクをランダムに混在 FlatTreeに対する性能向上を縦軸として表示 100ノードでFlatTreeの40倍、深さ優先(FPFR)の3.0倍 速いノードが遅いノードに影響されないため 1000 100 1000 100 1000 100

シミュレーション・条件2 スイッチ間が100M-1Gbpsに一様分布 FlatTreeに対する性能向上を縦軸として表示 100ノードでFlatTreeの36倍、深さ優先(FPFR)の1.2倍 100~1000 100~1000 1000 1000

シミュレーションのまとめ 合計8種類のバンド幅分布で実験した 1条件を除き、提案手法が最も高い合計バンド幅を達成した 500-1000Mbpsの間に一様分布 100-1000Mbpsの間に一様分布 100Mbpsと1000Mbpsを混在 スイッチ間を100-1000Mbpsの間に一様分布 1条件を除き、提案手法が最も高い合計バンド幅を達成した 特にバンド幅の分散が大きい場合に大きく性能向上 上下で異なるバンド幅を100-1000Mbps間に一様分布させた場合のみ、Dijkstraの98%の性能に留まった

(2) 実機での評価 4クラスタ10, 47, 105ノードでブロードキャスト 4手法の合計バンド幅を比較した ノード間のバンド幅は1Gbpsから10Mbpsの間に分散 4手法の合計バンド幅を比較した 提案手法 深さ優先 (FPFR) Dijkstra ランダム(100回のうち最高のスケジュール) さらに、理論上の最大値とも比較した 各ノードが転送元から独立にデータを受け取った場合の、バンド幅の合計値

合計バンド幅の評価 既存手法に比べ2.5倍以上の性能 理論最大値に比べると0.5-0.7倍に留まった 用いたノードが上下のネットワークをフルに用いることができないため (例えば一方向の送信では900Mbps処理できるが、受信と送信を同時に行うと合計750Mbpsに低下してしまう)

Stabilityの評価実験 9ノードでのブロードキャストにバンド幅の小さな1ノードを追加した際、既存ノードの合計バンド幅の変化を観測 考察: 深さ優先(FPFR)に比べ、遅いノードを追加しても既存ノードのバンド幅が変化していない Dijkstraに比べ、合計バンド幅が1.6倍

発表の流れ 研究の概要 問題設定 関連研究 提案するアルゴリズム 実装・評価 結論

本発表のまとめ Stableなブロードキャストという概念を提案 実際に木構造でStableなアルゴリズムを提案 数学的に証明 実機において既存手法の2.5倍の合計バンド幅 シミュレーションで様々な条件での性能向上を確認 バンド幅が小さなノードを追加しても性能低下しない それを用いたブロードキャストツールを実装

今後の課題 グラフ構造トポロジにおいて合計バンド幅を最大化するアルゴリズム 常にStableなアルゴリズムは存在しない バンド幅変化を検知し転送構造を変化させる、転送の再構築アルゴリズム タスクスケジュラーとの連携

学会発表 国際会議  Kei Takahashi, Hideo Saito, Takeshi Shibata and Kenjiro Taura.  A Stable Broadcast Algorithm.  To appear in the Seventh IEEE International Symposium on Cluster  Computing and the Grid (CCGrid2008), May 2008 研究会報告  高橋慧, 田浦健次朗, 近山隆.  トポロジを考慮しソース選択を行うデータ転送スケジュラー.  並列/分散/協調処理に関するサマーワークショップ(SWoPP2007),  旭川,2007年8月.  高橋慧, 田浦健次朗, 近山隆.  マイグレーションを支援する分散集合オブジェクト.  並列/分散/協調処理に関するサマーワークショップ(SWoPP2005),  武雄,2005年8月. ポスター発表  高橋慧, 田浦健次朗, 近山隆.  マイグレーションを支援する分散集合オブジェクト.  先進的計算基盤システムシンポジウム(SACSIS2005),筑波.2005 年5月.