Apr 24, 2012 - FIGURE 1.15 Clock rate and Power for Intel Ï86 microprocessors over eight generations and 25 years. ....
History of Processor Performance
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z
0ERFORMANCEªVS6!8
!LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z
)"-ª23 -)03ª-ª -)03ª-
3UN 6!8ª
6!8
YEAR
YEAR
6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
1 Tuesday, April 24, 12
History of Processor Performance
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z
CSEE 3827
0ERFORMANCEªVS6!8
!LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z
)"-ª23 -)03ª-ª -)03ª-
3UN 6!8ª
6!8
YEAR
YEAR
6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED 2 Tuesday, April 24, 12
History of Processor Performance
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z
0ERFORMANCEªVS6!8
!LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z
)"-ª23 -)03ª-ª -)03ª-
3UN 6!8ª
6!8
YEAR
YEAR
COMS 4824 6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED 3 Tuesday, April 24, 12
Abstract Stages of Execution Instruction Fetch (Instructions fetched from memory into CPU)
Instruction Issue / Execution (Instructions executed on ALU or other functional unit)
Instruction Completion / Commit (Architectural state updated, i.e., regfile or memory)
4 Tuesday, April 24, 12
Multiple Instruction Issue Processors Multiple instructions fetched, executed, and committed in each cycle
In superscalar processors instructions are scheduled by the HW
In VLIW processors instructions are scheduled by the SW
F: E: C:
F: E: C:
In all cases, the goal is to exploit instruction-level parallelism (ILP) 5 Tuesday, April 24, 12
Flynn’s Taxonomy Single Instruction, Single Data (SISD)
Single Instruction, Multiple Data (SIMD)
Multiple Instruction, Single Data (MISD)
Multiple Instruction, Multiple Data (MIMD)
Exploits instr-level parallelism (ILP)
Exploits data-level parallelism (DLP) 6 Tuesday, April 24, 12
Out-of-order execution In in-order execution, instructions are fetched, executed, and committed in compiler order
In out-of-order execution (OOO), instructions are fetched, and committed in compiler, order; may be executed in some other order
F:
F:
E:
E:
One stalls, they all stall Relatively simple HW
C:
C:
One stalls, independent instrs may proceed Additional hardware required for reordering
Another way to exploit instruction-level parallelism (ILP) 7 Tuesday, April 24, 12
Speculation Speculation is executing an instruction before it is known that it should be executed Speculate
If correct
If incorrect
F:
F:
F:
E:
E: E:
C:
C:
Misspeculation executes excess instructions, costing time and power
C:
8 Tuesday, April 24, 12
Performance
The Memory Wall
x o r pp
0 2 25
y l l a nnu
a %
a e as
e r c s in
PU
C
d e e sp
lly a u n n a % 1 1 2 x o ase appr
e r c n i s d e e p s M A R D
Time
A result of this gap is that cache design has increased in importance over the years. This has resulted in innovations such as victim caches and trace caches. 9 Tuesday, April 24, 12
Modern Processor Performance While single threaded performance has leveled, multithreaded performance potential scaling.
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z
0ERFORMANCEªVS6!8
!LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z
)"-ª23 -)03ª-ª -)03ª-
3UN 6!8ª
6!8
YEAR
COMS 6824 + COMS 4130 (Parallel Programming)
YEAR
6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä ORGANIZATIONALä IDEASä "Yä ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT ORIENTEDäCALCULATIONSäHASäINCREASEDäEVENäFASTERä3INCEä äTHEäLIMITSäOFäPOWER äAVAILABLEäINSTRUCTION LEVELäPARALLELISM äANDäLONGäMEMORYäLATENCYä HAVEäSLOWEDäUNIPROCESSORäPERFORMANCEäRECENTLY äTOäABOUTääPERäYEARä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED 10 Tuesday, April 24, 12
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z
0ERFORMANCEªVS6!8
!LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z
)"-ª23 -)03ª-ª -)03ª-
3UN 6!8ª
6!8
YEAR
YEAR
6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä Tuesday, April 24, 12 ORGANIZATIONALä IDEASä "Yä ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z
0ERFORMANCEªVS6!8
!LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z
)"-ª23 -)03ª-ª -)03ª-
3UN 6!8ª
6!8
YEAR
YEAR
6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä Tuesday, April 24, 12 ORGANIZATIONALä IDEASä "Yä ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT
5
Area
Performance
Power
MIPS/Watt (%)
4
Increase
3
)NTELª8EON ªª'(Z BITª)NTELª8EON ªª'(Z !-$ª/PTERON ªª'(Z )NTELª0ENTIUMª ª'(Z !-$ª!THLON ªª'(Z )NTELª0ENTIUMª))) ªª'(Z !LPHAª! ªª'(Z !LPHAª ªª'(Z
2 1 0
Pipelined
-1
Superscalar
OOO-Speculation
0ERFORMANCEªVS6!8
Deep Pipelined
!LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª ªª'(Z !LPHAª! ªª'(Z 0OWER0#ª ª'(Z !LPHAª ªª'(Z (0ª0! 2)3# ªª'(Z
)"-ª23 -)03ª-ª -)03ª-
3UN 6!8ª
6!8
YEAR
YEAR
6!8
&)'52%ää 'ROWTHäINäPROCESSORäPERFORMANCEäSINCEäTHEäMID S 4HISäCHARTäPLOTSäPERFORMANCEäRELATIVEäTOäTHEä6!8ää ASäMEASUREDäBYäTHEä30%#INTäBENCHMARKSäSEEä3ECTIONä ä0RIORäTOäTHEäMID S äPROCESSORäPERFORMANCEäGROWTHäWASäLARGELYäTECHNOLOGY Source: Hennessy and Patterson, “Computer Architecture: A Quantitative Approach” DRIVENäANDäAVERAGEDäABOUTääPERäYEARä4HEäINCREASEäINäGROWTHäTOäABOUTääSINCEäTHENäISäATTRIBUTABLEäTOäMOREäADVANCEDäARCHITECTURALäANDä Tuesday, April 24, 12 ORGANIZATIONALä IDEASä "Yä ä THISä GROWTHä LEDä TOä Aä DIFFERENCEä INä PERFORMANCEä OFä ABOUTä Aä FACTORä OFä SEVENä 0ERFORMANCEä FORä mäOATING POINT
The Power Wall
#LOCK2ATE-(Z
#LOCK2ATE
0OWER
0OWER7ATTS
#ORE +ENTSFIELD
0ENTIUM 0RESCOTT
0ENTIUM 7ILLAMETTE
0ENTIUM 0RO
0ENTIUM
1, Ê£°£xÊÊÊÊ VÊÀ>ÌiÊ>`Ê*ÜiÀÊvÀÊÌiÊÝnÈÊVÀ«ÀViÃÃÀÃÊÛiÀÊi}
ÌÊ}iiÀ>ÌÃÊ >`ÊÓxÊÞi>ÀðÊ4HE0ENTIUMMADEADRAMATICJUMPINCLOCKRATEANDPOWERBUTLESSSOINPERFORMANCE 4HE0RESCOTTTHERMALPROBLEMSLEDTOTHEABANDONMENTOFTHE0ENTIUMLINE4HE#ORELINEREVERTSTOA SIMPLERPIPELINEWITHLOWERCLOCKRATESANDMULTIPLEPROCESSORSPERCHIP#OPYRIGHTÚ%LSEVIER )NC!LL RIGHTSRESERVED
12 Tuesday, April 24, 12
Much of it goes back to the transistor
Source: Intel press foils Tuesday, April 24, 12
Much of it goes back to the transistor
individual atoms! Source: Intel press foils Tuesday, April 24, 12
Much of it goes back to the transistor
individual atoms! = leakage current + defects Tuesday, April 24, 12
Source: Intel press foils
A model of power
P = Pswitch + Pleakage Pswitch = Eswitch x F = Pleakage = Vdd x I Tuesday, April 24, 12
2
(C x Vdd ) x F
Voltage Scaling: DVFS + Near-Threshold Computing
[Source: Dreslinski et al.: Near-Threshold Computing: Recplaiming Moore’s Law Through Energy Efficient Integrated Circuits] Tuesday, April 24, 12
Voltage Scaling: DVFS + Near-Threshold Computing
[Source: Dreslinski et al.: Near-Threshold Computing: Recplaiming Moore’s Law Through Energy Efficient Integrated Circuits] Tuesday, April 24, 12
Power Density (Watts/cm2)
Chip Area and Power Consumption 1500 Active Power Leakage Power 1000
With leakage power dominating, power consumption roughly proportional to transistor count
power envelope to remain constant
500
0 90nm
65nm
45nm
32nm
22nm
16nm
Source: Shekhar Borkar (Intel)
Integer Performance
1000
100
Pollack’s Law: Processor performance grows with sqrt of area
10
1 1
10
100
1000
10000
100000
Processor Area
Source: Shekhar Borkar (Intel) Tuesday, April 24, 12
The Resulting Shift to Multicore
Perf = 1 Power = 1
Tuesday, April 24, 12
The Resulting Shift to Multicore
Perf = 1 Power = 1
Tuesday, April 24, 12
Perf = 2 Power = 4
The Resulting Shift to Multicore
Perf = 1 Power = 1
Tuesday, April 24, 12
Perf = 2 Power = 4
Perf = 4 Power = 4
Sea Change in Architecture: Multicore (4ª0(9 ªLINKª
3LOWª)/ &USES
(4ª0(9 ªLINKª
BITª&05 ,OAD 3TORE
,ª$ATA #ACHE
K" -" , 3HARED , #ACHE %XECUTION , #TL &ETCH #ACHE $ECODE ,ª)NSTR #ACHE "RANCH
#OREª
$ $ 2
(4ª0(9 ªLINKª
.ORTHBRIDGE
#OREª
0 ( 9
#OREª
(4ª0(9 ªLINKª
3LOWª)/ &USES
&)'52%ää )NSIDEäTHEä!-$ä"ARCELONAäMICROPROCESSORä4HEäLEFT HANDäSIDEäISäAäMICROPHOTOGRAPHäOFäTHEä!-$ä"ARCELONAäPROCESSORä CHIP äANDäTHEäRIGHT HANDäSIDEäSHOWSäTHEäMAJORäBLOCKSäINäTHEäPROCESSORä4HISäCHIPäHASäFOURäPROCESSORSäORähCORESvä4HEäMICROPROCESSORäINäTHEä LAPTOPäINä&IGUREääHASäTWOäCORESäPERäCHIP äCALLEDäANä)NTELä#OREää$UOä#OPYRIGHTäÚää%LSEVIER ä)NCä!LLäRIGHTSäRESERVED
18 Tuesday, April 24, 12
x86 64-bit Architecture Evolution 2005
AMD Opteron™
2010
2007
2008
AMD Opteron™
“Barcelona”
“Shanghai”
“Istanbul”
“Magny-Cours”
90nm SOI
90nm SOI
65nm SOI
45nm SOI
45nm SOI
45nm SOI
K8
K8
Greyhound
Greyhound+
Greyhound+
Greyhound+
L2/L3
1MB/0
1MB/0
512kB/2MB
512kB/6MB
512kB/6MB
512kB/12MB
Hyper Transport™ Technology
3x 1.6GT/.s
3x 1.6GT/.s
3x 2GT/s
3x 4.0GT/s
3x 4.8GT/s
4x 6.4GT/s
Memory
2x DDR1 300
2x DDR1 400
2x DDR2 667
2x DDR2 800
2x DDR2 1066
4x DDR3 1333
Mfg. Process
2003
2009
CPU Core
Max Power Budget Remains Consistent 3 | The AMD “Magny-Cours” Processor | Hot Chips | August 2009
[Source: HotChips ‘09] Tuesday, April 24, 12
19
Tick%Tock'Development'Model Merom
Penryn
Nehalem
Westmere
Sandy Bridge
NEW
NEW
NEW
NEW
NEW
Process
Microarchitecture
Process
Microarchitecture
65nm
45nm
45nm
32nm
32nm
TOCK
TICK
TOCK
TICK
TOCK
Microarchitecture
1
Forecast
Nehalem-EX Architecture 6
All products, dates, and figures are preliminary and are subject to change without notice.
Hot Chips 2009
[Source: HotChips ‘09] Tuesday, April 24, 12
20
Nehalem'Core/Uncore'Modularity C O R E
C O R E
…
C O R E
Core
L3 Cache
DRAM
…
IM C
QPI
… QPI
Power & Clock
Uncore
QPI
…
Common%core%for%client%and%server%CPUs – http://www.intel.com/technology/architecture