AdaPrec (提案手法) の初回の通信精度選択

Slides:

Advertisements

Similar presentations

1 広島大学理学研究科尾崎裕介石川健一. 1. Graphic Processing Unit (GPU) とは？ 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.

Advertisements

CPU/GPUを協調利用するソフトウェア開発環境

オンライン学習 Prediction Learning and Games Ch2

CPUとGPUの性能比較－行列計算およびN体問題を用いて－

Intel AVX命令を用いた並列FFTの実現と評価

A Q R QR分解とは？ → × ◆QR分解 QTQ = I （単位行列） ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目

Pose Tracking from Natural Features on Mobile Phones

研究集会「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日完全パイプライン化シフト QR 法による実対称三重対角行列の固有値並列計算宮田考史　　山本有作　　張紹良　名古屋大学　大学院工学研究科　計算理工学専攻.

Finger patternのブロック化による陰的wavelet近似逆行列前処理の高速化

ＰＣクラスタにおける２個体分散遺伝的アルゴリズムの高速化

AllReduce アルゴリズムによる QR 分解の精度について

時空間データからのオブジェクトベース知識発見

P,Q比が変更可能なScaLAPACKのコスト見積もり関数の開発

先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning

CV輪講姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡

秘匿積集合プロトコルを利用したプライバシ協調フィルタリングの提案

ネットワーク性能に合わせた分散遺伝的アルゴリズムにおける最適な移住についての検討

第３章補足：パラメータが極小値に収束する例

演算/メモリ性能バランスを考慮したマルチコア向けオンチップメモリ貸与法

正方行列向け特異値分解の CUDAによる高速化

MPIによる行列積計算情報論理工学研究室渡邉伊織情報論理工学研究室渡邉伊織です。

京都大学大学院医学研究科画像応用治療学・放射線腫瘍学石原佳知

文献名 “Performance Tuning of a CFD Code on the Earth Simulator”

サポートベクターマシンによるパターン認識

ステンシル計算を対象とした大規模GPUクラスタ向け自動並列化フレームワーク

高速剰余算アルゴリズムとそのハードウェア実装についての研究

Deep Learningを用いたタンパク質のコンタクト残基予測

ベイジアンネット混合モデルによる強化学習エージェントの方策改善

ひび割れ面の摩擦接触を考慮した損傷モデル

正規分布におけるベーテ近似の解析解と数値解東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

AMR法フレームワークの様々なアーキテクチャへ向けた発展研究背景と研究目的 Xeon Phi対応に向けた拡張

Vector 4 = [Vector 3, packet_size]

リモートホストの異常を検知するための GPUとの直接通信機構

HLとEHLモデルでの圧力分布と軸受の変形分布

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法

Online Decoding of Markov Models under Latency Constraints

人工知能を動かしてみる（Keras を用いたニューラルネットワークの定義，コンパイル，学習，評価，予測）

仮想メモリを用いた VMマイグレーションの高速化

HPC基盤における大量データ転送のためのデータ転送ツールの評価

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

研究課題名研究背景・目的有機エレクトロニクス材料物質の基礎電子物性の理解 2. 理論 3. 計算方法、プログラムの現状

通信機構合わせた最適化をおこなう並列化ンパイラ

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化

先進的計算基盤システムシンポジウム SACSIS2007併設企画マルチコアプログラミングコンテスト「Cellスピードチャレンジ2007」

Data Clustering: A Review

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

GPGPUによる飽和高価値アイテム集合マイニング

15K1117 下窪聖人 15K1013 坂本倖輝 15K1112 黒川晶太 15K1015 関根修斗

GPUを用いた疎行列の格納形式による行列ベクトル積の評価

目的：高速QR分解ルーチンのGPUクラスタ実装

背景課題目的手法作業期待成果有限体積法による汎用CFDにおける流体構造連成解析ソルバーの計算効率の検証

論文紹介: “Joint Embedding of Words and Labels for Text Classification”

コードクローン分類の詳細化に基づく集約パターンの提案と評価

Data Clustering: A Review

Azure 上での大規模 CAE ベンチマークをご支援します

地域情報学 C言語プログラミング第2回変数・配列、型変換、入力 2017年10月20日

高精細計算を実現するAMR法フレームワークの高度化研究背景と研究目的複数GPU間での袖領域の交換と効率化

HMM音声合成における変分ベイズ法に基づく線形回帰

対象：せん断補強筋があるRCはり（約75万要素）

ガウス分布におけるベーテ近似の理論解析東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

Jh NAHI 横田　理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景　H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

Webページタイプによるクラスタリングを用いた検索支援システム

格子ボルツマン法によるリアルタイム物質拡散シミュレーション手法の開発

オブジェクト指向言語論第二回知能情報学部新田直也.

回帰テストにおける実行系列の差分の効率的な検出手法

MPIを用いた並列処理情報論理工学研究室 06‐1‐037‐0246　杉所　拓也.

分散メモリ型並列計算機上での行列演算の並列化

実都市を対象とした初期マイクロデータの推定手法の適用と検証

Presentation transcript:

AdaPrec (提案手法) の初回の通信精度選択 EX17304 (東京大学情報基盤センター推薦課題) 大山洋介 (東京工業大学情報理工学院) 大規模並列環境における少精度型を用いたディープラーニングの学習精度の検証研究背景データ並列学習低精度型の利用深層学習 (DL) ではSGD (確率的勾配降下法) による並列学習が一般的 1反復で用いる複数のデータサンプル (ミニバッチ) についての計算を並列化する GPU同士でコスト関数の勾配の総和計算 (all-reduce) を行う GPUの高速化にともないGPU間・ノード間通信の高速化が重要となる DLでは単精度浮動小数点数 (32 bit) よりも精度の低い数値計算が適用　可能であるといわれている NVIDIA Volta GPUではTensor Core (混合精度演算ユニット) を搭載一部のDLフレームワークでは低精度な通信アルゴリズムを採用 1 bit SGD (Microsoft CNTK), 16 bit all-reduce (ChainerMN) 使用される計算精度の決定は実験的な知見によるところが大きいノード GPU 1. 勾配を計算 2. ミニバッチについて勾配の総和 Σi ∇Li(W(t)) を計算 (all-reduce) 3. 重みを更新 ~100M要素程度のパラメータ * Tensor Coreによる4×4行列積 [1] W(t) バッチiについてのコスト関数Lの勾配問題提議ディープラーニングにおいて最適な通信精度は？自動で通信速度・精度を最適化するには？ ∇Li (W(t)) * http://image-net.org/ DNNのデータ並列学習提案手法 AdaPrec 低精度All-reduce実装適合的 (ADAptive) に通信精度 (PRECision) を変更する手法複数の異なる通信精度で一定ステップを学習次回の1. 開始時の推論精度 (Top-N accuracy) を学習曲線モデル [2]により予測単位時間あたりの推論精度の向上が最大の通信精度を用いてさらに一定ステップ学習複数の異なるMPI 加算all-reduceアルゴリズムを実装単精度 (float): 通常のMPI_FLOAT 8 bit (fp8) [3]: 独自定義の8 bit浮動小数点型により通信値を符号化出現頻度に基づく符号化 (Table-N): 99k/2N-1 パーセンタイル (k=1,..2N-1) を動的に計算し丸めるレイヤーごとの通信速度に基づく通信 (Fastest) ベンチマークの結果，全結合層ではTable-1，畳み込み層ではfp8，バイアスについてはfloatを採用時間推論精度 … 1. 投機的学習 2. 推論精度予測 3. 学習継続符号部 1 bit 指数部仮数部 8 bit 23 bit float (32 bit) fp8 (8 bit) 5 bit 2 bit Table-N (N bit) N-1 bit + 32×2N-1 bit (テンソルごとの符号化テーブル) Fastest (1〜32 bit) ← レイヤーごとに可変 → 提案手法 (AdaPrec) 実装した低精度通信型評価評価環境 (Reedbush-H) CaffeNet (AlexNetに類似したCNN) を東京大学情報基盤センター Reedbush-Hの4 GPUで学習一定Epochの学習において、単一の低通信精度 (fp8, Table-1) で学習する場合と同等の速度かつ単精度 (float) を上回る推論精度を達成通信速度に優れるが推論精度に悪影響を及ぼす通信手法 (Table-1) を大部分のケースで除外することに成功ノード数 120 CPU Intel Xeon E-2695v4×2 - メモリ容量 256 GiB (DDR4) GPU NVIDIA Tesla P100×2 - 演算性能 (単精度) 10.6 TFlop/s - 演算性能 (半精度) 21.2 TFlop/s 16 GiB (HBM2) - メモリ帯域幅 732 GiB/s インターコネクト 4xFDR Infiniband×2 - 帯域幅 14 GiB/s DLフレームワーク Caffe 1.0 (MPI対応版[3]) CUDA 8.0 MPI OpenMPI 2.1.1 学習設定最良推論精度向上/時間であるfp8を選択モデル CaffeNet - パラメータ数 61.0 M ミニバッチサイズ 256 データセット ILSVRC2012データセット中の16クラス Optimizer Momentum SGD Learning rate 0.01 (1-(Epoch数)/100)2 Momentum 0.9 Epoch数 100 float: 73.6% fp8: 71.9% Table-1: 60.1% Fastest: 72.3% AdaPrec (提案手法): 74.4% CaffeNetの学習曲線＊は各通信手法の最良Accuracy ▲，■はそれぞれAdaPrec (提案手法) のステップ1.，3. 開始時点 AdaPrec (提案手法) の初回の通信精度選択点線はステップ1.の投機的な学習一点鎖線の先端は予測されたステップ3. 後の精度と±標準偏差 [1] L. Durant, O. Giroux, M. Harris and N. Stam, "Inside Volta: The World’s Most Advanced Data Center GPU," May 2017, https://devblogs.nvidia.com/inside-volta/. [2] A. Klein, S. Falkner, J. T. Springenberg, and F. Hutter, "Learning Curve Prediction with Bayesian Neural Networks," in International Conference on Learning Representations (ICLR) 2017 Conference Track, 2017. [3] 大山洋介, 野村哲弘, 佐藤育郎, 松岡聡, "ディープラーニングのデータ並列学習における少精度浮動小数点数を用いた通信量の削減," 情報処理学会研究報告, Vol. 2017-HPC-158, 2017.