並列処理プロセッサへの 実数演算機構の開発

Slides:



Advertisements
Similar presentations
Linuxを組み込んだマイコンによる 遠隔監視システムの開発
Advertisements

コンピュータープログラミング(C言語)(2) 1.文字列出力と四則演算 (復習) 2.関数と分割コンパイル
Chapter11-4(前半) 加藤健.
LZ圧縮回路の設計とハード・ソフト 最適分割の検討 電子情報デザイン学科 高性能計算研究室 4回生 中山 和也 2009/2/27.
情報基礎実習I (第7回) 木曜4・5限 担当:北川 晃.
LMNtalからC言語への変換の設計と実装
計算機システムⅡ 主記憶装置とALU,レジスタの制御
CPU実験 第1回中間発表 4班 瀬沼、高橋、津田、富山、張本.
POWERSHOW Limited DVR-POS システム 小売業者のための理想的な損失防止DVRシステム.
伺か with なでしこ 発表者:しらたま /05/05 うかべん大阪#3.
LMNtalからC言語への変換の設計と実装
LMNtalからC言語への変換の設計と実装
FPGAを用いたMG3用 インターフェース回路の解説
首都大学東京 都市教養学部数理科学コース 関谷博之
複数CPU間のための共有メモリ 小島 隆史(中央大学大学院理工学研究科 國井研究室)
CSP記述によるモデル設計と ツールによる検証
画像処理ボード上での 高速テンプレートマッチングの 実装と検証
Ibaraki Univ. Dept of Electrical & Electronic Eng.
トキのカタチ2016 電子工作(Arduino)講習
専門演習Ⅰ 国際経済学部 国際産業情報学科 2年 石川 愛
第7回 2006/6/12.
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
コンピュータの原理 1E17M053-9 奈良 皐佑 1E17M070-7 師尾 直希        1E17M078-6 渡邊 惇.
データベース設計 第2回 データベースモデル(1)
マルチTPcoreによる並列コンピュータ
Occam言語による マルチプリエンプティブシステムの 実装と検証
OpenMPハードウェア動作合成システムの検証(Ⅰ)
高速剰余算アルゴリズムとそのハードウェア実装についての研究
コンピュータを知る 1E16M009-1 梅津たくみ 1E16M017-8 小沢あきら 1E16M035-0 柴田かいと
序章 第2節 教育機器とコンピュータ 1 パーソナルコンピュータ
1.コンピュータと情報処理 p.18 第1章第1節 2.コンピュータの動作のしくみ CPUと論理回路
コンピュータ系実験Ⅲ 「ワンチップマイコンの応用」 第1週目 アセンブリ言語講座
岩村雅一 知能情報工学演習I 第8回(C言語第2回) 岩村雅一
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
通信機構合わせた最適化をおこなう並列化ンパイラ
ディジタル回路の設計と CADによるシステム設計
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
情報処理Ⅱ 第2回:2003年10月14日(火).
コンピュータの仕組み 〜ハードウェア〜 1E15M009-3 伊藤佳樹 1E15M035-2 柴田将馬 1E15M061-1 花岡沙紀
コンピュータアーキテクチャ 第 11 回.
コンピュータアーキテクチャ 第 10 回.
JAVAバイトコードにおける データ依存解析手法の提案と実装
プログラミング基礎a 第6回 C言語によるプログラミング入門 配列と文字列(その2)
明星大学 情報学科 2012年度前期     情報技術Ⅰ   第1回
並列処理プロセッサTPCOREの 組み込みシステムへの応用 理工学研究科数理情報科学専攻 福永 力,岩波智史,情報システム研究室.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
コンピュータアーキテクチャ 第 9 回.
コンピュータアーキテクチャ 第 10 回.
外付けLVDSを選択する場面は? ■外付けLVDSバッファのメリットは? FPGA+外付けLVDSバッファ LVDSドライバ内蔵FPGA
計算機アーキテクチャ1 (計算機構成論(再)) 第一回 計算機の歴史、基本構成、動作原理
2013年度 プログラミングⅠ ~ 内部構造と動作の仕組み(2) ~.
基本情報技術概論(第13回) 埼玉大学 理工学研究科 堀山 貴史
コンピュータアーキテクチャ 第 5 回.
Cソースコード解析による ハード/ソフト最適分割システムの構築
ユビキタスコンピューティング環境 を構築するための 小型無線ネットワークコンピュータの開発
システム玩具を 応用した環境計測システムの構築
情報コミュニケーション入門b 第2回 Part1 ハードウェアとソフトウェア
プロセッサ設計支援ツールを用いた 独自プロセッサの設計
コンピュータアーキテクチャ 第 9 回.
コンピュータアーキテクチャ 第 5 回.
情報コミュニケーション入門b 第2回 Part1 ハードウェアとソフトウェア
異種セグメント端末による 分散型仮想LAN構築機構の設計と実装
コンピュータ工学基礎 マルチサイクル化とパイプライン化 テキスト9章 115~124
コンパイラ 2012年10月11日
岩村雅一 知能情報工学演習I 第8回(後半第2回) 岩村雅一
岩村雅一 知能情報工学演習I 第8回(C言語第2回) 岩村雅一
情報処理Ⅱ 第2回 2004年10月12日(火).
明星大学 情報学科 2014年度前期     情報技術Ⅰ   第1回
Presentation transcript:

並列処理プロセッサへの 実数演算機構の開発 数理情報科学専攻 福永研究室 大橋 常毅 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 研究背景-TPCORE 当研究室で開発しているプロセッサ Transputer-T425互換を目指し作成 並列プログラミング言語Occamが実行可能 昨年度の研究(VirtualChannel&Router)により ネットワークトポロジの制限から開放 50MHzで動作(Xilinx・Virtex5) IEEE1355-link OS-link TP TP Router TP 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 研究背景-開発の動機 TPCOREを画像処理に応用したい 画像処理では大量の実数演算が必要 (高速フーリエ変換,フィルタリングなど) これまでは整数演算が主な処理対象 実数演算について最適な実装方法を模索することに 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 研究背景-TPCOREの問題点 実数演算のための命令が完備されていない Occamの実数型に対する演算子が使えず 独自開発したライブラリで実数演算を行っている データを文字列として扱っている 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi IEEE754 Transputerの実数データ形式 31 30 29 24 23 22 21 20 19 3 2 1 …… 符号ビット:s 指数部:e 仮数部:f LSB MSB 数の表現(正規数) T425での実数演算の流れ 指数部・仮数部の分離 論理演算 整数演算 指数部・仮数部の結合 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi TPCOREの拡張 マイクロ コード ROM 制御部 マイクロ コード ROM TPCOREはマイクロプログラム 方式を採用している 各回路はマイクロコードROMのビットパターンに従って動作 命令追加には マイクロプログラムの作成 回路の機能を拡張 制御信号 alua alub Creg Breg ALU Areg err databus Aregをaluaに接続 Bregをalubに接続 ALUでalua+alubを実行 databusにALUの出力を接続 Aregにdatabusの値を代入 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi ソフトウェア実装の限界 T425の命令には直接実数演算を行う命令がない 内部的にはソフトウェア実装 専用ハードウェア(FPU)で実数演算を行えば更なる高速化が望める 1命令で実行 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi FPUの組み込み方 FPUを内蔵させる T800がFPUを内蔵したTransputer プロセッサの命令として効率的に実行できる 高速演算可能だが実装可能な演算は命令セットに依存 外付け回路として通信命令でアクセス 実装する演算に制限がない 通信のオーバーヘッドが発生 通信プロトコルの拡張で対応 四則演算 三角関数 平方根 対数関数など 四則演算のみ TP FPU TP FPU FPU 内蔵型 内部のバスで接続 外付け型 外部リンクで接続 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 内蔵型FPU1(T800へのアップグレード) T800互換のためには以下の演算が必要 四則演算 特定の数(2,32) による乗算・除算 絶対値 大小,イコール判定 NaN,Inf 判定 整数型⇔実数型の変換 単精度⇔倍精度の変換 端数切捨て 上記以外の演算はソフトウェア的に実行(三角関数,平方根など) 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 内蔵型FPU2 FPUをTPCOREにどのように組み込むか? CPU部分をなるべく変更しない実装 データバスで接続(32bit-パラレルバス) マイクロードROMのアドレスでFPUを制御 Memory controller CPU OS-link0 OS-link1 OS-link2 1355-link RAM 8K×8bit 32bit 8bit link部 Memory FPU FPU データのやり取り 制御方法 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 外付け型FPU 画像処理では三角関数の利用頻度が高い(高速フーリエ変換、回転処理など) 四則演算と三角関数をハードウェア実装 ルーターを用いて複数のTPCOREでFPUを共有させる事ができる リンク速度は50Mbps(シリアル通信) TPCORE以外の計算要素(PE)を含めたシステム構築の足掛かりに (ヘテロジニアスマルチコア) TP TP Router リンク速度 50Mbps TP FPU 四則演算 + 三角関数 TP TP Router PE PE 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 性能評価1 TP FPU TP FPU ソフト T425互換 外付け 内蔵 単純ループ ADDループ SEQ temp:=0.0(REAL32) clock? before SEQ index=0 FOR LOOP temp=temp+DELTA clock? after ソフトと比較して 内蔵    :310倍 外付け  :50倍 T425互換:60倍 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 外付けFPUの通信時間 FPUの処理(18clock) 1Loop(472clcok) TPから FPUへ FPUから TPへ 通信(213) 通信準備(259) 通信時間(213)よりも通信準備(259)の方が時間がかかっている 通信時間そのものもFPUの処理時間(18)に対して大きい データを一列に並べて 送信しているだけ 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi 性能評価2 高速フーリエ変換(FFT) Occamライブラリの三角関数と外付けFPUの三角関数演算で比較 四則演算 TRI FUNC UNIT TRI FUNC UNIT TP 四則演算 TP 三角関数 三角関数 FPU T425互換-cd 内蔵-cd [Hz] 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi

首都大学東京 修士論文発表会 T.Ohashi まとめ 3つの方法でTPCOREの実数演算に ついて実装・評価 T425の命令の補完 FPUをTPCOREに内蔵 外付け回路としてのFPU 内蔵FPUで実数演算性能は大幅に上昇 外付けFPUも演算規模によっては有効 今後 処理単位を上げて外付け回路を実装・評価 リンク速度の高速化、高速I/O-IFの導入 画像処理(動画解析)に最適なシステムの構築 TP FFT ビデオカメラ TP TP カメラIF Router FFT 回転 補正 2011.02.04 首都大学東京 修士論文発表会 T.Ohashi