在庫管理問題の動的計画法による解法とCUDA を用いた高速化

在庫管理問題の動的計画法による解法とCUDA を用いた高速化
SACSIS2008 2008年6月12日李天*1 河畠工*1 山本有作*1 畝山多加志*2 張紹良*1 *1 名古屋大学大学院工学研究科　計算理工学専攻 *2 京都大学化学研究所

もくじ１. はじめに２. 問題設定３. 動的計画法による解法４. GPGPUのための統合環境CUDA
１.　はじめに２.　問題設定３.　動的計画法による解法４.　GPGPUのための統合環境CUDA ５.　動的計画法のCUDAによる高速化６.　性能評価７.　おわりに

１. はじめに GPU（Graphics Processing Unit）の高速化
１.　はじめに GPU（Graphics Processing Unit）の高速化 CPUを大きく上回るペースで演算性能が向上グラフィックスメモリも大容量化・高速化 nVIDIA社 GeForce8800GTX ・ 128個のストリーミングプロセッサ・演算性能： 345GFLOPS（単精度）・メモリ： 768MB ・メモリバンド幅： 86.4GB/s GPUを汎用の数値計算に使うGPGPU（General-Purpose GPU）が注目を集める

従来のGPGPUの問題点特殊なプログラミング手法が必要 GPUの内部構造に関する情報が乏しい
グラフィックスAPI ストリーム言語 GPUの内部構造に関する情報が乏しいデータアクセス（特に書き込み）に関する強い制限プログラム開発者にとって敷居が高い

GPGPUのための統合環境CUDA nVIDIA社のGPU上でGPGPUを実現するため，2006年に同社が発表した統合プログラミング環境
特徴標準のC言語 + 簡単な拡張でGPUのプログラミングが可能標準により近いメモリモデルスレッド並列による多数のストリーミングプロセッサの利用 nVIDIA社の最新GPU向けの最適化機能チューニングのための情報が豊富詳細なマニュアル Web上のフォーラム GPUの性能を引き出すプログラミングが，従来に比べ格段に簡単化

CUDAの利用例行列計算 FFT 重力多体計算分子軌道法気象予測画像処理データマイニングバイオインフォマティクス
Cf.

本研究の目的ある組合せ最適化問題をCUDAで高速化動的計画法を用いた最適化が，GPU向きの計算であることを明らかにする
企業の現場で現れる在庫管理計画問題動的計画法による解法をベースとする実用的な時間での求解を目指す動的計画法を用いた最適化が，GPU向きの計算であることを明らかにする多数の応用（ポートフォリオ最適化，オプション価格評価など）

２. 問題設定在庫管理計画問題 N日の間，毎日トラックで来る原料を，K個ある倉庫のどれかに搬入
２.　問題設定在庫管理計画問題 N日の間，毎日トラックで来る原料を，K個ある倉庫のどれかに搬入各倉庫中の原料は，毎日少しずつ搬出され，工場で消費される。各倉庫の充填率が上下限に近づきすぎないよう搬入先を予め計画充填率の変化の例（K=5，N=90の場合）

数学的定式化変数と定数充填率の変化を表す式目的関数ペナルティ関数 0％ 50％ 100％ min {j(n)}n=1N

問題の特徴と解法の候補問題の特徴解法の候補独立変数 {j(n)}n=1N が整数値のみを取る組合せ最適化問題
K=5，N=90 （実問題のサイズ）の場合，可能な組合せは 590 と膨大解法の候補 0-1整数計画法メタヒューリスティクス動的計画法

３. 動的計画法による解法 n日目以降の部分目的関数 n日目以降に最適戦略を取った場合の部分目的関数（価値関数）
３.　動的計画法による解法 n日目以降の部分目的関数 n日目以降に最適戦略を取った場合の部分目的関数（価値関数） G(n) の満たす漸化式（Bellman方程式） Bellman方程式を用いて，各状態に対する G(n) と j(n) を最終日から遡って決めていくことが可能（後ろ向き計算）

動的計画法の図解（K=2の場合）＜N–1日目＞・各格子点において次の処理を行う。
②ペナルティ値の少ない方の選択肢を選ぶ。 ③その格子点における G(N–1) として、最適な選択とともに保存 100％５0％１日目 0％５0％ 100％Ｎ－２日目Ｎ－１日目Ｎ日目

動的計画法の図解（K=2の場合）＜N–2日目＞・各格子点において次の処理を行う。 ① 各選択に対してN–1日目の充填率（ , ）を計算
④ ②＋③の小さい方を選ぶ。 ⑤ その格子点における G(N–2) として、最適な選択とともに保存１日目Ｎ－２日目Ｎ－１日目Ｎ日目

離散化と補間離散化補間計算を行うため，充填率の空間（状態空間）を格子に分割以下，各方向の格子点数をLとする。
各選択に対して計算したN–1日目の充填率　（　　，　　）は格子点上にあるとは限らない。 N–1日目以降の目的関数を求める際は，隣接する2K個の格子点での目的関数値を用いて多重線形補間を行う。（Ｎ－２日目）（Ｎ－１日目）

最適計画の作成 ② ① 時間軸＜前向き計算＞・最終日から初日まで遡って計算すると，全ての日，全ての格子点について最適な選択が与えられる。
・その後，初期の充填率から出発し，順方向に進んで各日の選択を決めていく。・格子点上にない点の場合は最も近い格子点での最適な選択を利用１日目２日目３日目Ｎ・最終日 ② ①

状態空間の次元縮小充填率の変化を表す式について，kとnに関する和を取り，を用いると，
　　右辺は定数だから，これはK個の充填率のうちK–1個のみが独立であることを示す。これを用いて，状態空間の次元を１だけ縮小可能

アルゴリズム（K=4, 後ろ向き計算の部分のみ）
時間に関する後ろ向きループ格子点に関するK–1重ループ K通りの選択肢のうちで最適な選択 j を求め， j とそのときの G(n) とを保存（各格子点ごとに完全に独立な計算）計算量： O(NLK–1K2)

動的計画法による解法の特徴計算量が O(NLK–1K2)，メモリ量が O(LK–1) と大きい並列性は極めて高い計算は単精度で十分
K=5，N=90，L=80 の実問題の場合，Core2Duo で90分程度実務上は数分程度で計算できることが望ましい所要メモリは約400MB 並列性は極めて高い LK–1 個の格子点での計算が完全並列計算は単精度で十分主要な誤差は離散化誤差丸め誤差は無視できるメモリバンド幅に対する要求が高い計算量の大部分を占める補間演算では，演算量とアクセス回数は同程度

４. GPGPUのための統合環境CUDA CUDAのプログラミングモデル CPUのmain関数から，GPUで実行されるカーネルを呼び出す
CPUとGPUのメモリ空間は別々。cudaMemcpy関数でデータ転送ブロックとスレッドによる並列化多数のスレッドを時分割で実行し，GPUメモリのレイテンシを隠蔽

CUDAのメモリモデルメモリ階層カーネル中でのスレッド間同期全スレッドでの共有メモリブロックごとの共有メモリ
グローバルメモリ定数メモリ（キャッシュあり）ﾃｸｽﾁｬﾒﾓﾘ（キャッシュあり）ブロックごとの共有メモリスレッド毎のローカルメモリレジスタカーネル中でのスレッド間同期ブロック内では同期可能ブロック間では同期不可本応用では問題なし

チューニングの指針データ参照の局所性向上スレッド数をできるだけ多くする CPUメモリとの間のデータ転送の最小化 IF文の排除
共有メモリ，定数メモリ，レジスタの活用スレッド数をできるだけ多くする CPUメモリとの間のデータ転送の最小化 IF文の排除スレッドは32個単位でSIMD形式で並列実行 IF文は両方の分岐が逐次的に実行されるメモリアクセスの連続化連続する番号を持つスレッドが連続領域をアクセスするようにするメモリアラインメントの条件を満たすようにする

５. 動的計画法のCUDAによる高速化動的計画法とCUDAの親和性動的計画法の特徴 CUDAの特徴大きな所要メモリ（～400MB）
大容量グラフィックメモリ（8800GTX で 768MB）高い並列性（～804）メモリレイテンシ隠蔽のため，スレッド数≧1000が必要計算は単精度で十分計算は単精度のみ（現在）メモリバンド幅への高い要求他のアクセラレータに比べ格段に高いメモリバンド幅（Byte/FlopはClearSpeed の４倍程度）動的計画法は極めてCUDA（GPGPU）向きのアルゴリズム

CUDAでの実装 GPUによる実行部分変数・定数のメモリ空間への割り当てブロックとスレッドによる並列化
カーネルをN回呼ぶことで，後ろ向き計算を完了変数・定数のメモリ空間への割り当て定数　→　定数メモリ，共有メモリ G(n)，j　→　グローバルメモリスレッド毎の中間変数 → レジスタブロックとスレッドによる並列化格子点に関するK–1重ループのうち，最内側の２重ループをスレッド並列化に利用（→ メモリアクセスの連続化）その一つ外側のループをブロック並列化に利用 CPUメモリへの転送は，配列 j のみ（最大1.8GB程度）

６. 性能評価評価条件評価環境提案アルゴリズムをCUDAで実装デュアルコアCPU上での C+pthread による実装と性能を比較
６.　性能評価評価条件提案アルゴリズムをCUDAで実装デュアルコアCPU上での C+pthread による実装と性能を比較最大規模の問題（倉庫数 K=5，期間 N=90）で評価評価環境

GPUによる速度向上効果条件と結果スレッドの数と形状（２次元）は実験的に求めた最適値を使用
CPU（２コア使用）に対し，最大15.6倍の高速化６分で最適解を計算計算時間問題サイズ

得られた最適解条件が厳しくない問題条件が厳しい問題（倉庫の容量を最大限に利用） L=80で初めて良好な解が得られる L=60 L=60

スレッドの数と形状の最適化スレッド形状（２次元）の候補結果格子サイズに合わせる（無駄なスレッドをなくす）
第１方向を32の倍数とする（メモリアラインメントの重視）結果どちらかが常に良いとは言えないが，メモリアラインメントを重視した場合は安定した性能が得られる。

７. おわりに本研究のまとめ今後の課題在庫管理計画問題の動的計画法による解法を，CUDAを用いてGPU上で実装した。
７.　おわりに本研究のまとめ在庫管理計画問題の動的計画法による解法を，CUDAを用いてGPU上で実装した。 GeForce8800GTX を用いた評価では，最大規模の問題の場合，Core2Duo の15倍の高速化が得られ，目標計算時間を達成した。今後の課題 GPU上での実行時間の詳細な解析より高度なチューニング共有メモリの活用 GPUの補間機能の活用より大規模な問題への適用強化学習の利用など他の最適化問題への適用ポートフォリオ最適化，オプション価格評価など

在庫管理問題の動的計画法による解法とCUDA を用いた高速化

Similar presentations

Presentation on theme: "在庫管理問題の動的計画法による解法とCUDA を用いた高速化"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

在庫管理問題の動的計画法による 解法とCUDA を用いた高速化

Similar presentations

Presentation on theme: "在庫管理問題の動的計画法による 解法とCUDA を用いた高速化"— Presentation transcript:

Similar presentations

About project

フィードバック

在庫管理問題の動的計画法による解法とCUDA を用いた高速化

Presentation on theme: "在庫管理問題の動的計画法による解法とCUDA を用いた高速化"— Presentation transcript: