Chapter11-4(前半) 6311627 加藤健.

Chapter11-4(前半) 加藤健

４章システムレベルでのパイプラインの作り方

システムレベルでのパイプラインの作り方エッジ検出アルゴリズムでの先読み → → バイトバッファ配列へのアクセスが必要パフォーマンスが低下
パイプラインレベルでの並列処理を行う先読みでは、劇的にフィルタの実効スループットが向上

システムレベルでのパイプラインの作り方イメージフィルタアルゴリズムをサブプロセスへ分割フィルタの複雑さが軽減
アルゴリズムのパフォーマンスが改善そこで

システムレベルでのパイプラインの作り方パイプラインの動作は7章で説明したものとほぼ同様（今回は高レベル）
　ほぼ同様（今回は高レベル）パイプラインはプログラマにより設計される　（コンパイラにより自動的に生成されない）並行処理を行う際

システムレベルでのパイプラインの作り方エッジ検出の実装には各ピクセルを処理するために３×３のウインドウが必要
本書のアルゴリズムでは、上流のプロセスが３つのストリームとしてウインドウを生成バイトバッファとそれに対応する循環バッファのオーバーヘッドが不要に実装のおはなし

システムレベルでのパイプラインの作り方画像データをco_memory_readblockを使用してイメージバッファからロード。その後co_stream_writeを使用して24ビットのピクセルのストリームに変換ジェネレータによりウインドウの各列を表すストリームを生成する。４つのプロセスのパイプライン

システムレベルでのパイプラインの作り方 3つのピクセルデータは中央のピクセルの値を計算するために使われる。
　　この値はco_stream_writeからストリーミングされる 4.　co_stream_readを使用して結果のピクセルデータを呼び出し、ｃo_memory_writeblockを使用して新しいイメージバッファに格納

システムレベルでのパイプラインの作り方 4つのプロセスはパイプラインにより並列で動作リアルタイム動画処理に十分な速さを実現
4つのプロセスはパイプラインにより並列で動作リアルタイム動画処理に十分な速さを実現 2クロックサイクルの速度で処理されたピクセルを生成可能

DMAの入力プロセスこれまでのアルゴリズムでは入出力画像が保存されているかを無視していた
　保存されているかを無視していた実際は、外部RAMやハードウェアインターフェイスを介して入出力される Impulse C は大量のデータを移動するためのストリームと、共有メモリのメカニズムを提供している DMA＝ダイレクトメモリアクセス（CPUを介さないで直接データ転送）

DMAの入力プロセスこれまでの例ではストリームを使用選択決定の要因はプラットフォーム固有留意する点は4つ特定のアプリケーションでは
共有メモリを使用するとパフォーマンスが向上

DMAの入力プロセス各ストリームの処理に何サイクル必要かプロセッサが転送に関わっているかとCPUとバスの組み合わせに依存
バスがストリーム上でデータを受信する際、ポーリングすると、大幅なオーバーヘッドが発生

DMAの入力プロセスメモリ転送のために何サイクル必要か 1と同様に使用されているメモリとバスのアーキテクチャに依存している
サイクル＝クロック数

DMAの入力プロセス 3-1. CPUがキャッシュを持っているか 3-2. そのデータはキャッシュに存在するか

DMAの入力プロセス 4. Impulse Cのハードウェアのプロセスと同じバス上のメモリか
　　同じバス上のメモリかそうであるなら、CPUへのアクセス競合をおこし、パフォーマンスが低下する

DMAの入力プロセス 4章においてベンチマークの例を用いてこれらの問題について議論した
今回はストリーミングデータを用いるアプローチと共有メモリを用いるアプローチの比較実験のためにNiosⅡが埋め込まれたAlteraのStratix FPGAを使用

DMAの入力プロセス NiosⅡが埋め込まれたAlteraのStratix FPGAはストリームよりもDMA転送を使用したほうが効率的なFPGA 他のプラットフォームにおいてXilinxのMicroBlazeプロセッサとFSLバスを使用するとDMA転送より高速なパフォーマンスになることもある

DMAの入力プロセス DMAを用いた共有メモリとのアクセスはハードウェアが転送中、別の処理を行うと転送がブロックされる欠点がある
画像データを読み込み、データストリームから送信することがパイプラインの第一プロセスデータ転送が計算とオーバーラップできるように共有メモリ操作を処理するためのプロセスを含む必要がある第一プロセスです。で、このページは終わる

DMAの入力プロセス図11‐9からわかること to_streamプロセスは co_signal go co_memory imgmem
co_stream output_stream の3要素を持つ 11-9を参照しつつ説明

DMAの入力プロセス 2. プロセス実行機能では、それぞれ
2.　プロセス実行機能では、それぞれ co_memory_readblock関数は共有メモリからのピクセルデータの読み取り co_stream_write関数は出力ストリームへの書き込みを行う co_signalはCPUと同期し、画像メモリの処理準備ができているかを確認　を行っている。

DMAの入力プロセス 3. 24bitのデータを受け入れるように設計されているため16bitのピクセルデータを受理する
3.　 24bitのデータを受け入れるように設計されているため16bitのピクセルデータを受理する画像データは16bit符合なし整数として格納するが32bitのメモリが使用されている DMAは配列に1つずつ要素を転送することで、倍のバストランザクションを必要とするバストランザクション＝バスによるデータ転送において、データ転送に関わる細かい情報を省略してデータ転送動作を記述した物

DMAの入力プロセスこれらのプロセスは多くの種類の入力ソースと共に使用できるように変更する、あるいは手製のハードウェアブロックに置き換えることが可能

Chapter11-4(前半) 6311627 加藤健.

Similar presentations

Presentation on theme: "Chapter11-4(前半) 6311627 加藤健."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Chapter11-4(前半) 6311627 加藤健.

Similar presentations

Presentation on theme: "Chapter11-4(前半) 6311627 加藤健."— Presentation transcript:

Similar presentations

About project

フィードバック