電気通信大学大学院情報システム学研究科吉瀬謙二

電気通信大学大学院情報システム学研究科吉瀬謙二
平成１４年度「市内・近隣大学公開講座」コンピュータとネットワーク技術の最前線～暮らしに浸透するコンピュータ～第２回高性能プロセッサアーキテクチャ技術コンピュータの心臓部・ＣＰＵについて電気通信大学大学院情報システム学研究科吉瀬謙二調布市文化会館たづくり 10階 1001室年10月2日（水）１８：３０～２２：００

「高性能プロセッサアーキテクチャ技術」の内容
半導体技術の進歩はめざましく、コンピュータの頭脳にあたるプロセッサの速度と集積密度はすさまじい勢いで向上を続けている。そこで、高性能プロセッサと呼ばれるチップにおいて用いられる技術、歴史と展望などを紹介する。プロセッサとはなんですか？プロセッサの性能が向上すると何が嬉しいですか？プロセッサの性能を向上させるにはどうすればいいですか？　動作周波数の向上並列性の向上これからのプロセッサはどうなりますか？

プロセッサとはなんですか？

デスクトップコンピュータディスプレイ（モニタ）コンピュータコンピュータの中の部品、これは何？

コンピュータとプロセッサこれがプロセッサ、コンピュータの中には数個のプロセッサが入っている。表から見たプロセッサ裏から見たプロセッサ
写真はIntel社の Pentium マイクロプロセッサ

プロセッサのできるまで半導体ウエーハとダイ
３０ｃｍのウエーハ厚さは数ミリで、直径が３０ｃｍ大きなＣＤのような形をしている。ダイ（ウエータから切り出した個々のチップ）出典： Intel社, Industry-Leading Transistor Performance Demonstrated on Intel’s 90-nanometer Logic Process

プロセッサのできるまでトランジスタの組み合わせによりプロセッサを実現
数千万個のトランジスタ（基本的な部品）を組み合わせることで、必要とするプロセッサを実現する。プロセッサを実現するための様々な方式をプロセッサアーキテクチャと呼ぶ。 Intel Pentium Motorola PowerPC DEC Alpha 高性能プロセッサの例

アーキテクチャ（建築）とプロセッサアーキテクチャ（プロセッサ建築）
パルテノン神殿 Intel Pentium ３１０万個のトランジスタを用いて造られている。世界最大のクフ王のピラミッド 1個約2.5tのブロックを230～250万個積み重ねて造られている。写真は計算機アーキテクチャのホームページから

プロセッサのできるまでダイのパッケージ化
ダイのままでは外部との情報伝達ができない。情報伝達のためのピンを含むパッケージとして加工する。出典： Richard L. Sites, Alpha AXP Architecture Reference Manual SECOND EDITION

コンピュータとプロセッサこれがプロセッサ、コンピュータの中には数個のプロセッサが入っている。表から見たプロセッサ裏から見たプロセッサ
写真はIntel社の Pentium マイクロプロセッサ

コンピュータとプロセッサコンピュータの古典的な５つの要素
出力制御データパス記憶入力プロセッサコンピュータプロセッサは記憶装置から命令とデータを取り出す。入力装置はデータを記憶装置に書き込む。出力装置は記憶装置からデータを読みだす。制御装置は、データパス、記憶装置、入力装置、そして出力装置の動作を指定する信号を送る。出典：パターソン＆ヘネシー、コンピュータの構成と設計

まとめ：プロセッサとはなんですか？プロセッサは、記憶装置、入力装置、出力装置とともにコンピュータを形作る部品の一つ。
その重要性からコンピュータの頭脳と呼ばれることもある。 CPU（Central Processing Unit, 中央演算処理装置）と呼ばれることもある。数千万個のトランジスタ（基本的な部品）を組み合わせることで、プロセッサを実現する。プロセッサの良し悪しは、トランジスタの組み合わせ（使い方）により決まる。プロセッサを実現するための様々な方式をプロセッサアーキテクチャと呼ぶ。

プロセッサの性能が向上すると何が嬉しいですか？

プロセッサの性能高性能プロセッサ性能が低いプロセッサ決まった時間（１秒）にどれだけ多くの計算（仕事）をおこなえるか？
多くの計算をおこなえるプロセッサが高性能プロセッサ高性能プロセッサ 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 計算（仕事）性能が低いプロセッサ

プロセッサの性能向上最近は、１年に約５０％という非常に高い率で性能が向上している。出荷されたプロセッサの性能１年間に１．５倍
Intel Pentium III 出荷されたプロセッサの性能 HP 9000 DEC Alpha DEC Alpha HP 9000 １年間に１．５倍の性能向上 IBM Power1 出典： Computer Architecture A Quantitative Approach THIRD EDITION, p.3

プロセッサの速度向上とパソコンで扱うことのできるメディアの変換
プロセッサの性能向上により、音楽や動画などの扱いが可能となった。動画音楽画像

人類にとって重要な問題グランドチャレンジ
科学や工学の分野で重要な問題で、現在のコンピュータでは計算が困難な問題現在の高性能パソコン出典： David E. Culler, Jaswinder Pal Singh, Parallel Computer Architecture (p.7)

数年前までは計算することが困難だった科学技術計算の例
宇宙はどのようにして始まったのか？コンピュータを用いて模倣（シミュレート）する。出典： Cluster Simulations on the PSC Cray T3E,

まとめ：プロセッサの性能が向上すると何が嬉しいですか？
決まった時間（１秒間）に、より多くの計算（仕事）をおこなえるプロセッサのことを性能の高いプロセッサと呼ぶ。近年は、１年間に約５０％の割合で性能が向上している。プロセッサの性能向上に伴い、従来では困難だった音楽や動画を扱えるようになりつつある。コンピュータの利用範囲が広がっていく。グランドチャレンジと呼ばれる問題など、まだまだ高い性能を要求する分野が多く，プロセッサには、より高い性能が求められている。

プロセッサの性能を向上させるにはどうすればいいですか？（１）
プロセッサの性能を向上させるにはどうすればいいですか？　（１）動作周波数の向上により性能向上を目指す。

プロセッサの鼓動を作るクロックプロセッサの内部にはクロックを生成する機構が存在する。プロセッサはクロックに合わせて処理を進める。
クロック生成機構クロックのイメージプロセッサにとってのクロックは人間の心臓の鼓動に対応する。

動作周波数とプロセッサの性能動作周波数が高くなる（クロックが短くなる）と、プロセッサの性能も向上する。 1 2 3 4 5 仕事 1 2
動作周波数１Ｈｚ（ヘルツ）クロック 1 2 3 4 5 仕事動作周波数２Ｈｚ（ヘルツ） 1 2 3 4 5 6 7 8 9 10 ０秒１秒２秒３秒４秒５秒時間

7世代の Intel プロセッサにおける動作周波数の動向
（動作周波数）１０年で３００倍の動作周波数の向上クロック出典： The Optimal Useful Logic Depth Per Pipeline Stage is 6-8 FO4 , International Symposium on Computer Architecture (ISCA-2002) pp.14-24　

半導体技術の進歩による動作周波数の向上トランジスタ（プロセッサを構築するための基本的な部品）のサイズが小さく
なることで、高速に動作するようになる。半導体の基本要素のサイズ出典： Intel社, Industry-Leading Transistor Performance Demonstrated on Intel’s 90-nanometer Logic Process

パイプラインによる動作周波数の向上仕事 1 2 3 1 2 3 時間パイプラインを用いない場合
１つの命令の処理が終わってから、次の命令の処理を始める。動作周波数が１Ｈｚの場合には、３秒の時間に３つの命令を処理できる。パイプライン１つの命令の処理を複数のステージに分割する。（左図では４つに分割）分割により、動作周波数を上げることができる。 1 2 3 ０秒１秒２秒３秒４秒５秒時間

パイプラインによる動作周波数の向上例パイプラインのステージ数（段数）を増やすことで動作周波数を向上できる。パイプライン無し（１Ｈｚ）
２ステージのパイプライン（２Ｈｚ）４ステージのパイプライン（４Ｈｚ）０秒１秒２秒３秒４秒５秒６秒７秒８秒９秒時間

最先端プロセッサのパイプライン段数 DEC Alpha21264 : 7 stage Intel Pentium 3 : 10 stage
AMD Athlon : 10 stage AMD Hammer : 13 stage IBM Power4 : 15 stage The Microarchitecture of the Pentium® 4, Intel Technical Report より POWER4 System Microarchitecture, IBM Journal より

パイプライン段数を変化させた時の動作周波数、並列性（IPC）、性能の評価結果
パイプラインが52段で、動作周波数が２倍になるまで性能が向上する。それ以降は性能が低下する。パイプライン段数には上限が存在する。５２段 Intel による評価結果出典： Increasing Processor Performance by Implementing Deeper Pipelines , ISCA-2002 pp.25-34　

まとめ：動作周波数の向上動作周波数を上げるためには２つの方法がある。
半導体技術の向上：トランジスタが小さくなれば高速に動作する。パイプライン：仕事を細切れに分割すれば高速に動作する。半導体技術の進歩による動作周波数の向上は今後も続くと予測されている。パイプラインの段数を増やすことは、難しくなりつつある。動作周波数の向上以外の手法（並列性の利用）が必要とされている。

プロセッサの性能を向上させるにはどうすればいいですか？（２）
プロセッサの性能を向上させるにはどうすればいいですか？　（２）並列性の向上により性能向上を目指す。

並列性とプロセッサの性能並列性が高くなると、プロセッサの性能も向上する。 1 2 3 4 5 仕事 1 3 5 7 9 2 4 6 8
並列性１、動作周波数１Ｈｚ（ヘルツ） 1 2 3 4 5 仕事並列性２、動作周波数１Ｈｚ（ヘルツ） 1 3 5 7 9 2 4 6 8 10 ０秒１秒２秒３秒４秒５秒時間

並列性による性能向上複数の仕事を同時（並列）に処理することで性能を向上できる。
ただし、同時に処理するためには、多くのハードウェア資源が必要となる。並列性１（１Ｈｚ）１２３４５６７８並列性２（１Ｈｚ）１３５７２４６８１５並列性４（１Ｈｚ）２６３７４８０秒１秒２秒３秒４秒５秒６秒７秒８秒９秒時間

ムーアの法則により予測されるトランジスタ数
チップで利用できるトランジスタの数は２年間で２倍に増加する。プロセッサ出荷年トランジスタ数 ,250 ,500 ,000 ,000 ,000 386™ processor ,000 486™ DX processor ,180,000 Pentium® processor ,100,000 Pentium II processor ,500,000 Pentium III processor ,000,000 Pentium 4 processor ,000,000 ムーアの法則に従ってトランジスタ数が増加してきた。今後も同様の増加が見込まれている。出典： Intel社,

プロセッサが処理するマシン命令の例とデータフローグラフ
R1 R2 R3 R4 (1) R6 <= R1 + R2 (2) R7 <= R3 + R4 (3) R8 <= R6 + R7 (4) R9 <= R8 + R5 1 2 R6 R7 3 R5 R8 4 プロセッサが処理する命令（仕事）の例４つの命令が順番に処理されるとする。 R9 左の命令列に対応するデータフローグラフ R1 から R9 はレジスタと呼ばれ計算結果を格納する記憶領域

プロセッサが処理するマシン命令の例と２つの実行例
2 3 10 11 12 13 1 2 1 2 1 R1 <= 0 R2 <= 1 R3 <= 2 R4 <= 3 R5 <= 4 5 R1 <= 10 R2 <= 11 R3 <= 12 R4 <= 13 R5 <= 14 21 25 3 3 4 14 6 46 4 4 10 60 上の様にレジスタの値を設定してマシン命令を実行する。５つの値(0, 1, 2, 3, 4)の合計値１０がR9に格納される。上の様にレジスタの値を設定してマシン命令を実行する。５つの値(10, 11, 12, 13, 14)の合計値６０がR9に格納される。

データ依存関係により制限される並列性先の命令列では、３番目の命令の結果を４番目の命令が使う。これら２つの命令を同時に実行することができない。１番目の命令の結果を３番目の命令が使う。これら２つの命令を同時に実行することができない。２番目の命令の結果を３番目の命令が使う。これら２つの命令を同時に実行することができない。１番目の命令と２番目の命令は、同時に実行することができる。 R1 R2 R3 R4 1 2 R6 R7 3 R5 R8 4 R9 データフローグラフ命令の間にデータ依存関係がある場合には並列に処理することができない。利用できる並列性は、様々な要因により制限される。現在の高性能プロセッサで利用している命令レベルの並列性は２程度

データ依存関係を克服する手法データ値予測
データ値予測：演算結果の値を予測することで，データの生産者と消費者の間のデータ依存関係を解消する投機技術生産者データ依存関係 1 消費者 3 時間生産者 1 命令１の結果を予測 3 消費者命令１の計算結果を予測することで、１番目の命令と３番目の命令を同時に実行できる。

データ値を予測する方法ヒット率 21.7% 29.8% 29.4% 39.9% ミス率 1.7% 2.9% 3.9% 5.9%
Last-value予測最も近い過去に得られた値を予測値ストライド値予測最も近い過去に得られた２回の値の差分 Stride と、Last-valu の和を予測値 2レベル値予測過去のn個の履歴の中からひとつを選択ハイブリッド値予測上の２つのアルゴリズムから適切な予測値を選択 Last-Value ストライド２レベルハイブリッドヒット率 % % % % ミス率 % % % % 出典：マルチレベル・ストライド値予測機構による命令レベル並列性の向上, JSPP’99

プロセッサの内部で利用される予測機構一般に用いられている予測機構研究が進められている予測機構ギャンブル・プロセッサ分岐予測
ライン・ウェイ予測キャッシュ・ヒット／ミス予測研究が進められている予測機構メモリ参照アドレス予測データ値予測ラインバッファ・ヒット／ミス予測クリティカル・パス予測データ値予測だけではなく、様々な予測機構が実現されたり、検討されている。ギャンブル・プロセッサ

複数パス実行による予測ミスの削減 (1) 予測の生成予測において必要となる (2) 正解・不正解の検出３つのステップ
(3) 不正解だった場合のやり直し 1 1 2 3 2 4 3 5 単一パスの実行複数パス実行予測が失敗しそうな場合には、予測した場合と、予測しなかった場合の２つのケースを実行しておくことで、予測ミスによるペナルティを削減できる。

まとめ：並列性の向上ムーアの法則に従い、ハードウェア資源（トランジスタの数）は２年間に２倍に向上する。
ハードウェア資源の増加は、並列性の利用を可能にする。しかし、データ依存関係などの要因が並列性の利用を難しくする。データ依存関係を緩和するデータ値予測幾つかの予測手法（ギャンブルプロセッサ）市販されている高性能プロセッサにおいて利用されている並列性は２程度今後は、高い並列性の利用が求められる。

これからのプロセッサはどうなりますか？

トランジスタ数の増加とプロセッサアーキテクチャ
ハードウェア資源が不足していた時代１００万トランジスタ以下の時代必要とする機能をチップに入れることが困難だった。少ないハードウェア資源を有効に活用することがプロセッサアーキテクチャの目的の一つハードウェア資源を十分に利用できる時代１００万～１億トランジスタの時代アイデアが議論されていたが、今までは実現できなかった機能が実現される。ハードウェア資源を魅力的に使う時代１０億トランジスタの時代豊富なハードウェアの活用方法がわからない。

ハードウェア資源を魅力的に使う時代１０億トランジスタの世界（２０１０年）
１０億／４２００万＝２３．８ Pentium 4 の２３個分のハードウェア１０億トランジスタ（豊富なハードウェア資源） Pentium 4 (4200万トランジスタ）

IBM POWER4 (2001年) 複数のプロセッサを１チップに載せる技術
１億７千万トランジスタのチップに２つのプロセッサを載せる。 IBM Power4 のイメージ「１０億トランジスタが利用できるようになった時に、チップ上に、どの程度の大きさのプロセッサを幾つ載せるのか？」という問題が重要な研究課題となっている。

今後の課題（１）増加を続けるプロセッサのエネルギー消費
このままでは、プロセッサの熱は核反応や、ロケットの噴射口、太陽の表面のエネルギー消費に近づいていく。出典： Gelsinger’s Slide from ISSCC 2001

コアホッピングマルチプロセッサを利用した熱の抑制
コアホッピングマルチプロセッサを利用した熱の抑制「コアホッピング」これは、一連の計算処理を1つのマイクロプロセッサコアから別のコアに移動させる手法を指す。負荷の高い計算を処理する際、トランジスタが局部的に熱を発して「ホットスポット」を作り出すことがあり、それが性能の限界を生み出す、とIntel研究所のマイクロプロセッサ研究担当技術ディレクター、Wilf Pinfold氏は説明する。アプリケーション処理を循環させれば、熱が分散され、主要なトランジスタの発熱を抑えて全体的な性能を向上させることができるだろう。 (ZD Net News から引用）処理するプロセッサを切り替えて熱を分散例：チップ内に４つのプロセッサを詰め込む。出典： ZD Net News,

今後の課題（2）大域的なクロックから分散クロックへ
１０億トランジスタ（豊富なハードウェア資源） GALS プロセッサ (Globally Asynchronous Locally Synchronous) クロック 1 クロック 2 クロッククロック 3 生成したクロックをチップの全てに分配することが難しくなっている。複数のクロックを分散して配置することで、大域的なクロックを排除する。出典: Power and Performance Evaluation on Globally Asynchronous Locally Synchronous Processors, ISCA-2002, pp

今後の課題（3）１０億トランジスタの魅力的な使い方
Intel Pentium ３１０万個のトランジスタを用いて造られている。パルテノン神殿世界最大のクフ王のピラミッド 1個約2.5tのブロックを230～250万個積み重ねて造られている。１０億トランジスタ何を、どのように造るべきか？写真は計算機アーキテクチャのホームページから

まとめ：これからのプロセッサはどうなりますか？
高性能かつ低消費電力が求められる時代コアホッピングチップ全体を分割して管理する必要性大域的なクロックから分散クロックへ（GALSプロセッサ）豊富なハードウェア資源を魅力的に使う時代チップ上に複数のプロセッサを載せる技術、どの程度の大きさのプロセッサを幾つ載せるのか？斬新な発想のプロセッサアーキテクチャが必要とされている。現在の年間５０％という高い性能向上率を維持するために様々な工夫（研究）が必要

プロセッサアーキテクチャの位置付けグリッドコンピュータアーキテクチャ（グリッドコンピュータ建築）並列コンピュータアーキテクチャ
（並列コンピュータ建築）コンピュータアーキテクチャ（コンピュータ建築）ユビキタスコンピューティングいつでも、どこでも利用できるコンピュータプロセッサアーキテクチャ（プロセッサ建築）

このスライド（PowerPoint形式）は以下のＵＲＬから
参考文献と参考ホームページこのスライド（PowerPoint形式）は以下のＵＲＬからダウンロードできる。

参考文献と参考ホームページ計算機アーキテクチャに関する定番の教科書
ヘネシー＆パターソンコンピュータ・アーキテクチャ、日経ＢＰ社ヘネシー＆パターソンコンピュータの構成と設計、日経ＢＰ社マイク･ジョンソンスーパースカラ・プロセッサ、日経ＢＰ社 Computer Architecture A Quantitative Approach THIRD EDITION, Morgan Kaufmann Publishers Intel社研究関連のホームページ IBM社研究関連のホームページグランドチャレンジに関するホームページ国際会議 29th International Symposium on Computer Architecture のホームページ計算機アーキテクチャ関連のホームページ米国の有名な学会のホームページ International Technology Roadmap for Semiconductors ZD Net News Japan 電気通信大学大学院情報システム学研究科のホームページ並列処理学講座弓場・本多研究室のホームページ

電気通信大学大学院情報システム学研究科吉瀬謙二

Similar presentations

Presentation on theme: "電気通信大学大学院情報システム学研究科吉瀬謙二"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

電気通信大学 大学院情報システム学研究科 吉瀬謙二

Similar presentations

Presentation on theme: "電気通信大学 大学院情報システム学研究科 吉瀬謙二"— Presentation transcript:

Similar presentations

About project

フィードバック

電気通信大学大学院情報システム学研究科吉瀬謙二

Presentation on theme: "電気通信大学大学院情報システム学研究科吉瀬謙二"— Presentation transcript: