AdaPrec (提案手法) の初回の通信精度選択

Slides:



Advertisements
Similar presentations
1 広島大学 理学研究科 尾崎 裕介 石川 健一. 1. Graphic Processing Unit (GPU) とは? 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.
Advertisements

CPU/GPUを協調利用する ソフトウェア開発環境
オンライン学習 Prediction Learning and Games Ch2
CPUとGPUの 性能比較 -行列計算およびN体問題を用いて-
Intel AVX命令を用いた並列FFTの実現と評価
A Q R QR分解とは? → × ◆QR分解 QTQ = I (単位行列) ◆応用例 ◆主な計算方法 n m 今回はこの方法に注目
Pose Tracking from Natural Features on Mobile Phones
研究集会 「超大規模行列の数理的諸問題とその高速解法」 2007 年 3 月 7 日 完全パイプライン化シフト QR 法による 実対称三重対角行列の 固有値並列計算 宮田 考史  山本 有作  張 紹良   名古屋大学 大学院工学研究科 計算理工学専攻.
Finger patternのブロック化による 陰的wavelet近似逆行列前処理の 高速化
PCクラスタにおける2個体分散遺伝的アルゴリズムの高速化
AllReduce アルゴリズムによる QR 分解の精度について
時空間データからのオブジェクトベース知識発見
P,Q比が変更可能なScaLAPACKの コスト見積もり関数の開発
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
ネットワーク性能に合わせた 分散遺伝的アルゴリズムにおける 最適な移住についての検討
第3章 補足:パラメータが極小値に収束する例
演算/メモリ性能バランスを考慮した マルチコア向けオンチップメモリ貸与法
正方行列向け特異値分解の CUDAによる高速化
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
京都大学大学院医学研究科 画像応用治療学・放射線腫瘍学 石原 佳知
文献名 “Performance Tuning of a CFD Code on the Earth Simulator”
サポートベクターマシン によるパターン認識
ステンシル計算を対象とした 大規模GPUクラスタ向け 自動並列化フレームワーク
高速剰余算アルゴリズムとそのハードウェア実装についての研究
Deep Learningを用いたタンパク質のコンタクト残基予測
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
ひび割れ面の摩擦接触を考慮した損傷モデル
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
AMR法フレームワークの様々なアーキテクチャへ向けた発展 研究背景と研究目的 Xeon Phi対応に向けた拡張
Vector 4 = [Vector 3, packet_size]
リモートホストの異常を検知するための GPUとの直接通信機構
HLとEHLモデルでの圧力分布と軸受の変形分布
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(NlogN)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似法
Online Decoding of Markov Models under Latency Constraints
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
仮想メモリを用いた VMマイグレーションの高速化
HPC基盤における大量データ転送のためのデータ転送ツールの評価
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
研究課題名 研究背景・目的 有機エレクトロニクス材料物質の基礎電子物性の理解 2. 理論 3. 計算方法、プログラムの現状
通信機構合わせた最適化をおこなう並列化ンパイラ
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
航空エンジンの翼列周り流れ解析のメニーコアシステム向け最適化
先進的計算基盤システムシンポジウム SACSIS2007併設企画 マルチコアプログラミングコンテスト 「Cellスピードチャレンジ2007」
Data Clustering: A Review
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
GPGPUによる 飽和高価値 アイテム集合マイニング
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
GPUを用いた疎行列の格納形式による行列ベクトル積の評価
目的:高速QR分解ルーチンのGPUクラスタ実装
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
Data Clustering: A Review
Azure 上での 大規模 CAE ベンチマークをご支援します
地域情報学 C言語プログラミング 第2回 変数・配列、型変換、入力 2017年10月20日
高精細計算を実現するAMR法フレームワークの高度化 研究背景と研究目的 複数GPU間での袖領域の交換と効率化
HMM音声合成における 変分ベイズ法に基づく線形回帰
対象:せん断補強筋があるRCはり(約75万要素)
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
Jh NAHI 横田 理央 (東京工業大学) Hierarchical low-rank approximation methods on distributed memory and GPUs 背景  H行列、H2行列、HSS行列などの階層的低ランク近似法はO(N2)の要素を持つ密行列をO(N)の要素を持つ行列に圧縮することができる。圧縮された行列を用いることで、行列積、LU分解、固有値計算をO(Nlog2N)で行うことができるため、従来密行列の解法が用いられてきた分野では階層的低ランク近似
音響伝達特性を用いた単一チャネル 音源位置推定における特徴量選択の検討
Webページタイプによるクラスタ リングを用いた検索支援システム
格子ボルツマン法によるリアルタイム物質拡散シミュレーション手法の開発
オブジェクト指向言語論 第二回 知能情報学部 新田直也.
回帰テストにおける実行系列の差分の効率的な検出手法
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
分散メモリ型並列計算機上での行列演算の並列化
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

AdaPrec (提案手法) の初回の通信精度選択 EX17304 (東京大学情報基盤センター推薦課題) 大山洋介 (東京工業大学 情報理工学院) 大規模並列環境における少精度型を用いたディープラーニングの 学習精度の検証 研究背景 データ並列学習 低精度型の利用 深層学習 (DL) ではSGD (確率的勾配降下法) による並列学習が一般的 1反復で用いる複数のデータサンプル (ミニバッチ) についての計算を並列化する GPU同士でコスト関数の勾配の総和計算 (all-reduce) を行う GPUの高速化にともないGPU間・ノード間通信の高速化が重要となる DLでは単精度浮動小数点数 (32 bit) よりも精度の低い数値計算が適用 可能であるといわれている NVIDIA Volta GPUではTensor Core (混合精度演算ユニット) を搭載 一部のDLフレームワークでは低精度な通信アルゴリズムを採用 1 bit SGD (Microsoft CNTK), 16 bit all-reduce (ChainerMN) 使用される計算精度の決定は実験的な知見によるところが大きい ノード GPU 1. 勾配 を計算 2. ミニバッチについて勾配の総和 Σi ∇Li(W(t)) を計算 (all-reduce) 3. 重み を更新 ~100M要素程度のパラメータ * Tensor Coreによる4×4行列積 [1] W(t) バッチiについてのコスト関数Lの勾配 問題提議 ディープラーニングにおいて最適な通信精度は? 自動で通信速度・精度を最適化するには? ∇Li (W(t)) * http://image-net.org/ DNNのデータ並列学習 提案手法 AdaPrec 低精度All-reduce実装 適合的 (ADAptive) に通信精度 (PRECision) を変更する手法 複数の異なる通信精度で一定ステップを学習 次回の1. 開始時の推論精度 (Top-N accuracy) を学習曲線モデル [2]により予測 単位時間あたりの推論精度の向上が最大の通信精度を用いてさらに一定ステップ学習 複数の異なるMPI 加算all-reduceアルゴリズムを実装 単精度 (float): 通常のMPI_FLOAT 8 bit (fp8) [3]: 独自定義の8 bit浮動小数点型により通信値を符号化 出現頻度に基づく符号化 (Table-N): 99k/2N-1 パーセンタイル (k=1,..2N-1) を動的に計算し丸める レイヤーごとの通信速度に基づく通信 (Fastest) ベンチマークの結果,全結合層ではTable-1,畳み込み層ではfp8,バイアスについてはfloatを採用 時間 推論精度 … 1. 投機的学習 2. 推論精度予測 3. 学習継続 符号部 1 bit 指数部 仮数部 8 bit 23 bit float (32 bit) fp8 (8 bit) 5 bit 2 bit Table-N (N bit) N-1 bit + 32×2N-1 bit (テンソルごとの符号化テーブル) Fastest (1〜32 bit) ← レイヤーごとに可変 → 提案手法 (AdaPrec) 実装した低精度通信型 評価 評価環境 (Reedbush-H) CaffeNet (AlexNetに類似したCNN) を東京大学情報基盤センター Reedbush-Hの4 GPUで学習 一定Epochの学習において、単一の低通信精度 (fp8, Table-1) で学習する場合と同等の速度かつ単精度 (float) を上回る推論精度を達成 通信速度に優れるが推論精度に悪影響を及ぼす通信手法 (Table-1) を大部分のケースで除外することに成功 ノード数 120 CPU Intel Xeon E-2695v4×2 - メモリ容量 256 GiB (DDR4) GPU NVIDIA Tesla P100×2 - 演算性能 (単精度) 10.6 TFlop/s - 演算性能 (半精度) 21.2 TFlop/s 16 GiB (HBM2) - メモリ帯域幅 732 GiB/s インターコネクト 4xFDR Infiniband×2 - 帯域幅 14 GiB/s DLフレームワーク Caffe 1.0 (MPI対応版[3]) CUDA 8.0 MPI OpenMPI 2.1.1 学習設定 最良推論精度向上/時間であるfp8を選択 モデル CaffeNet - パラメータ数 61.0 M ミニバッチサイズ 256 データセット ILSVRC2012データセット 中の16クラス Optimizer Momentum SGD Learning rate 0.01 (1-(Epoch数)/100)2 Momentum 0.9 Epoch数 100 float: 73.6% fp8: 71.9% Table-1: 60.1% Fastest: 72.3% AdaPrec (提案手法): 74.4% CaffeNetの学習曲線 *は各通信手法の最良Accuracy ▲,■はそれぞれAdaPrec (提案手法) のステップ1.,3. 開始時点 AdaPrec (提案手法) の初回の通信精度選択 点線はステップ1.の投機的な学習 一点鎖線の先端は予測されたステップ3. 後の精度と±標準偏差 [1] L. Durant, O. Giroux, M. Harris and N. Stam, "Inside Volta: The World’s Most Advanced Data Center GPU," May 2017, https://devblogs.nvidia.com/inside-volta/. [2] A. Klein, S. Falkner, J. T. Springenberg, and F. Hutter, "Learning Curve Prediction with Bayesian Neural Networks," in International Conference on Learning Representations (ICLR) 2017 Conference Track, 2017. [3] 大山洋介, 野村哲弘, 佐藤育郎, 松岡聡, "ディープラーニングのデータ並列学習における少精度浮動小数点数を用いた通信量の削減," 情報処理学会研究報告, Vol. 2017-HPC-158, 2017.