Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdFilip Vedder Laatst gewijzigd meer dan 10 jaar geleden
1
slide 1Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers De Intel 80x86 reeks voor PC
2
slide 2Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Voorgeschiedenis n Intel 4004 u 1971 u 4-bit architectuur n Intel 8008 u 1972 u 8-bit architectuur n Intel 8080 u 1974 u ook 8-bit architectuur u grotere instructie set u adres ruimte van 64Kb u machine met accumulator u 6 chips
3
slide 3Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers 8086 (1978) n Intel 8086 u eerste processor van de 80x86 reeks u 16-bit processor u 16-bit adressen u alleen 640Kbytes is adresseerbaar u klok-frequentie: 4.7 MHz u snelheid: 0.33 MIPS (vergelijk met de andere in de reeks) u 8 registers (dit blijft zo voor de hele reeks) u alle parameters worden via de stapel doorgegeven (dit blijft zo voor de hele reeks) u -> vaak gebruik van cache (zie later) u basis voor IBM PC XT (1981)
4
slide 4Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers 80286 (1982) n Intel 80286 u = 8086+ u het blijft een 16-bit processor u hogere klok-frequenties: tot 16 MHz u 5 maal sneller dan de 8086 (1.6 - 2.1 MIPS) u protected mode en real mode (oude 8086 mode) u in protected mode zijn er 4 geprivilegieerde niveaus u biedt ondersteuning voor multi-tasking besturingssystemen (bv OS/2)
5
slide 5Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers 80286 (vervolg) n Intel 80286 (vervolg) u 24-bit adressen l adresbereik van 16Mbytes (DOS gebruikt dat echter niet) maar geen lineaire adresruimte, wel segmenten van 64K l kunst- en vliegwerk voor programmeren l slechte overdraagbaarheid van programma's (naar of van bv de Motorola 68000) u ook klok-frequentie van 8086 werkt nog, zodat toepassingen die daarop steunen (om timing te doen) nog kunnen draaien u basis voor de IBM PC AT
6
slide 6Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i386 (1985) n 32-bit processor n hogere klok-frequenties: 16 - 20 - 25 MHz n snelheid (3 - 7 MIPS) van een mainframe van 1970 n 32-bit adressen geeft een adresbereik van 4Gbytes n prefetch queue van 16 bytes n paginatie unit die paginatie op aanvraag ondersteunt
7
slide 7Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i386 (vervolg) n DOS maakt van de nieuwe mogelijkheden geen gebruik (UNIX wel) n voor compatibiliteitsreden: de 8086-real-mode kan nog altijd op de i386 n weer een nieuwe mode: virtual 8086 mode = real mode maar bovenop de protected mode, zodat je de protectie er bij hebt
8
slide 8Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (1991) n natuurlijk volledig compatible met de vorige processoren in de reeks n integreert op 1 chip u een (krachtigere) i386 u de i387 (FP-coprocessor) u 8Kbyte cache u prefetch queue van 32 bytes u 4 write buffers om resultaten bij te houden als de bus bezet is n bevat 1.2 miljoen transistoren (=50 keer zoveel als op de 8086) n betekent veel hogere snelheid dan de i386: 20 - 54 MIPS n is +- 3 maal sneller als de i386 met dezelfde klok-frequentie
9
slide 9Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n vaak bevindt zich op het moederbord nog een 'second- level cache' van 128 tot 256 Kbytes u on-chip cache: 1 klok cyclus u second-level cache: 1 bus cyclus (= 2 klok cycli)
10
slide 10Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n klok-frequenties tussen 25 en 50 MHz n mogelijkheid tot "internal frequency doubling" u = de frequentie op de chip wordt verdubbeld, niet de frequentie op het moederbord u dit vermijdt resonantie problemen op het moederbord u naam: i486DX2 u 25 MHz => 50 MHz 33 MHz => 66 MHz 50 MHz => 100 MHz
11
slide 11Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n de i486 is een kruising van een CISC met een RISC: u vaak gebruikte instructies (zoals de MOV) worden zonder microprogrammatie uitgevoerd u de zeer complexe (en niet zo vaak uitgevoerde instructies) worden via microcode uitgevoerd n uitspraak over DOS: "DOS running on the i486 is about the same as a supertanker with an outboard motor"
12
slide 12Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n ook een SX versie bestaat: een "lichtere" i486 u geen FP op de chip u lagere klok-frequentie (25 MHz, die soms aan 33 MHz wordt gebruikt) u i486DX chips die bij de tests niet de hoge frequentie aankunnen (door een kleine lay-out verschuiving bv) worden als SX-versies verkocht n concept van "upgradable" u de chip kan bijgestaan worden door een upgrade chip die eigenlijk de vorige vervangt u via een verbinding tussen de twee chips wordt ervoor gezorgd dat de oude chip in wachttoestand blijft u gewone gebruikers moeten deze upgrade kunnen uitvoeren
13
slide 13Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (1993) n kleine naamverandering omdat cijfers niet patenteerbaar zijn als naam n "The design started in 1989 with the primary goal of maximizing performance while preserving software compatibility within the practical constraints of available technology." n 3.1 miljoen transistoren deze grote hoeveelheid transistoren op één chip is mogelijk door u kleinere component-maten u groter gebruik van geconnecteerde lagen
14
slide 14Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n performantie: 112 MIPS n statische superscalaire processor: u 2 integer pipelines, met 5 stages elk u de twee pipelines werken volledig synchroon u ze volgen de volgorde van het programma 2 hier is een belangrijke rol voor de compilers n 64-bit externe data-bus (maar een 32-bit processor en 32- bit adressen)
15
slide 15Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n 8Kbyte instructie cache + 8Kbyte gegevens cache telkens "dual ported" om door de twee pipelines tegelijkertijd gebruikt te kunnen worden n nodig omdat een superscalaire processor een grotere bandbreedte nodig heeft n sprong-voorspellingen u een "branch target buffer (BTB)" in associatief geheugen houdt paren bij van sprong-instructies en gekozen sprongadressen (met geschiedenis informatie) n compilers werden samen met chip ontworpen (gebeurt klassiek bij RISC processoren)
16
slide 16Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n "The Pentium achieves roughly two times the speedup on integer code and up to five times the speedup on floating-point vector code when compared with an i486 CPU of identical clock frequency"
17
slide 17Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n floating point: u i486 l geen FP-pipeline (als een FP instructie in uitvoering is, kan er geen tweede beginnen) l vermenigvuldiging is in microcode u Pentium: FP pipeline (8 stages) voor optelling, aftrekking, vermenigvuldiging en vergelijking (allemaal 3 klokcycli) u deling kost 18-32 klokcycli u 8 speciale functies worden in microcode uitgevoerd: fsin, fcos,... u 3 formaten worden gesupporteerd: single-precision (32 bit), double precision (64 bit) volgens IEEE formaat, en extended-precision (80 bit)
18
slide 18Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) u compatibiliteit vereist precieze bepaling van uitzondering l -> on-chip logica bepaalt of een instructie gegarandeerd zonder uitzondering zal eindigen; indien ja kan de pipeline gewoon verder gevuld worden
19
slide 19Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Intel Pentium Pro Processor n naam was origineel P6, maar omdat de naam Pentium zo gekend was wilde men deze behouden n is volgende architectuursprong, blijft t/m Pentium III n gebruikt een superpipeline met 10 stages u ter vergelijking: de Pentium had 5 stages u dit maakt hogere kloksnelheden mogelijk met gelijke silicon- technologie (1 stage: 33% kleiner, dus kloksnelheid: 33% hoger) n superscalair: kan 3 instructies tegelijk uitvoeren n bevat een L2 cache op de chip van 256K (of 512K) n maakt gebruik van (in Intel terminologie): dynamic execution, multiple branch prediction, data flow analysis, speculative execution n dynamisch schedulen (gebaseerd op algoritme v. Tomasulo)
20
slide 20Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n processor architectuur in meer detail: 3 stappen (fig. 3) u FETCH/DECODE unit u DISPATCH/EXECUTE unit u RETIRE unit n FETCH/DECODE unit (fig. 4) u leest de instructies in volgorde uit de instructie cache u leest 20 tot 30 instructies vooruit u voorspelt sprongen met behulp van de Branch Target Buffer l 20 à 30 instructies bevatten gemakkelijk 5 sprongen Intel Pentium Pro Processor (vervolg)
21
slide 21Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n FETCH/DECODE unit (fig. 4) (vervolg) u vertaalt de (CISC) instructie in u-operaties van vaste lengte l meest gebruikte IA instr. worden vertaald door 1 u-op l sommige in 4 u-op l de complexe instructies gaan volledig in microcode (een klein programma van u-ops) u de u-op worden in een queue geplaatst en gaan naar de Register Alias Table (RAT) u RAT: herbenoemt registers u de u-op gaan naar de instruction pool (ook genoemd de ReOrder Buffer dat een associatief geheugen is) Intel Pentium Pro Processor (vervolg)
22
slide 22Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n DISPATCH/EXECUTE unit (fig. 5) u bevat 2 integer units, 1 jump unit, 1 FP arithmetic unit, FP multiplier, divider and shifter, 2 address generation units u bediend door de Reservation Station via 5 poorten u wanneer status van u-op aanduidt dat operanden aanwezig zijn kan een u-op uitgevoerd worden (hier zorgt de dispatch unit voor): instructies worden niet in volgorde uitgevoerd, maar volgens de data-flow principes (dynamic scheduling) u resultaten worden terug naar de ROB gestuurd u als blijkt dat een slechte sprongvoorspelling gemaakt werd l zal de JEU de status van alle u-op na de branch veranderen zodat deze uit de instruction pool genomen worden (speculative execution) u de BTB wordt aangepast Intel Pentium Pro Processor (vervolg)
23
slide 23Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n RETIRE unit (fig. 6) u zoekt in de instruction pool naar instructies die uitgevoerd zijn en uit de pool mogen u deze unit herstelt de programma volgorde van de instructies u houdt rekening met misvoorspellingen en exceptions u kan 3 u-op per klok cyclus behandelen Intel Pentium Pro Processor (vervolg)
24
slide 24Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n Bus interface unit (fig. 7) u loads kunnen stores voorbijsteken u hiervoor dient de Memory Order Buffer (MOB) n Dual Independent Bus (D.I.B.) Architecture u tweede gescheiden bussen l systeembus naar hoofdgeheugen en randapparaten –snelheid klassiek 66MHz, nu al tot 100MHz l aparte bus naar L2 cache –helft van kloksnelheid van chip (schaalt mee met processor) u beide bussen kunnen in parallel werken l piekbandbreedte 3X zo groot als bij Pentium Intel Pentium Pro Processor (vervolg)
25
slide 25Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n Error Checking and Correction (ECC) u eigenschappen l detecteert één- en twee-bit fouten l verbetert automatisch één-bit fouten u standaard aanwezig vanaf 300MHz op L2 cache u standaard op geheugen n enkele cijfertjes u 5.5 miljoen transistoren voor CPU, 15.5 miljoen voor L2 cache u 150/166/180/200 en meer MHz u 0.35 micron technologie Intel Pentium Pro Processor (vervolg)
26
slide 26Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers MMX n MMX technologie: uitbreiding van Intel Architectuur om performantie van multimedia toepassingen te verhogen u inhoudelijk: zie later bij algemene behandeling van DSP en multimedia extensies u toepassingen l 2D en 3D visualisaties l full-screen, full-motion video l combinaties van grafische elementen met video l audio synthese l spraak synthese en compressie, l telefonie, video-conferentie l realistische grafische weergaven l 3D-spelletjes
27
slide 27Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers MMX (vervolg) n uitgewerkt als module om toe te voegen aan u Pentium Pentium MMX u Pentium Pro Pentium II n bevat u 57 nieuwe instructies u 8 64-bit nieuwe MMX registers u 4 nieuwe data types
28
slide 28Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium MMX n doelstelling u minstens zelfde performantie als Pentium u minstens zelfde kloksnelheid l op gebied van marketing was dit heel belangrijk l veel mensen associëren frequentie met snelheid u minstens zelfde CPI
29
slide 29Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium MMX n probleem 1: toevoegen van MMX op bestaande Pentium architectuur verlaagt de kloksnelheid u bottlenecks: decode en cache n Pentium architectuur heeft pipeline met 5 stages u Pre-fetch, Decode1, Decode2, Execute, Writeback n oplossing u pipeline herschikken in 6 stages l nieuwe stage vooraan, en de rest herschikken l Pre-fetch, Fetch, Decode1, Decode2, Execute, Writeback u cache aanpassingen
30
slide 30Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium MMX n probleem 2: toevoegen van pipeline stage verlaagt CPI u branch hazard is langer u er gaat meer tijd verloren bij misvoorspelde sprongen n verhogen van CPI door u toevoegen van Return Stack Buffer naast Branch Target Buffer l speciale buffer met geschiedenis van procedure oproepen l verbetering van CPI met 8% u verbetering relatie snelheid van processor en snelheid van bus l verbetering van CPI met 5% u grotere cache, volledig associatieve Translation Lookaside Buffers l 16Kb ipv 8Kb voor zowel instructie- als data cache l verbetering van CPI met 7 tot 10% u totale verbetering tov Pentium CPI: 15%
31
slide 31Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium II n op architecturaal niveau: niets nieuws tov Pentium Pro u nog altijd superpipeline met 10 stages u dynamic execution, multiple branch prediction, data flow analysis, speculative execution n wel verbeterde technologie en kleine verbeteringen u alles aanpassen aan MMX u betere sprongvoorspelling l ‘dynamic, two-level, adaptive-training, branch prediction’ u grotere L1 cache (2X 16Kb) u kan tot 3 instructies per klokcyclus decoderen u kan tot 40 instructies voorruit kijken (30 bij Pentium Pro) u kan tot 4 instructies tegelijk uitvoeren (3 bij Pentium Pro) n verbinding met moederbord: Single Edge Contact ipv pinnen
32
slide 32Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III n op architecturaal niveau: niets nieuws tov Pentium II u nog altijd superpipeline met 10 stages u dynamic execution, multiple branch prediction, data flow analysis, speculative execution n wel verbeterde technologie en 70 nieuwe instructies n Intel Processor Serial Number u uniek cijfer per processor, opvraagbaar u gebruik in beveiliging u gebruik in beheer (remote system load and configuration) n enkele cijfertjes u 9.5 miljoen transistoren voor CPU (Pentium Pro: 5,5) u 28 miljoen transistoren inclusief L2 cache u 450 tot 1.13 GHz (Pentium Pro: 150/166/180/200) u 0.25 tot 0.18 tot 0.13 (9/2001) micron tech. (Pentium Pro: 0.35) u grootte L1 en L2 cache: zoals betere Pentium II (2x16K en 512K)
33
slide 33Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III (vervolg) n 70 nieuwe instructies (SSE: Streaming SIMD Extensions) u SIMD floating point u SIMD integer u ‘cacheability control instructions’ n technologieën die hiervan kunnen gebruik maken u geavanceerde beeldverwerking u 3D u streaming audio en video u spraakherkenning n voordelen u hogere resoluties en hogere kwaliteit van beelden u hogere kwaliteit audio, MPEG2 video, simultaan MPEG2 encodering en decodering u verminderd gebruik van CPU voor spraakherkenning, hogere betrouwbaarheid en snellere respons
34
slide 34Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III: toepassingsdomeinen
35
slide 35Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III: toepassingsdomeinen (vervolg) n Productivity software u applications such as word processing, presentation, and personal finance programs n Multimedia software u includes audio, video, imaging, and creativity applications n 3D software u gaming, modeling, and simulation applications n Internet applications u Internet browsers, as well as 3D and multimedia Web content n benchmarks: zie tabel 1-5
36
slide 36Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 (2001) n eerste belangrijke architecturale vernieuwing sinds Pentium Pro (4 jaar eerder) u naam: Intel NetBurst Micro-Architecture n gebaseerd op.18 micron technologie, maar mikt op.13 n bevat 42 milj transistoren (14 milj meer dan PentiumIII) u de chip is dus ook substantieel groter n begonnen bij 1.4 GHz, is nu al 2.4 GHz,.13 micron tech.
37
slide 37Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n Hyper Pipelined Technology u pipeline met 20 stages (verdubbeling tov P6) l bij verkeerde voorspellingen is straf zwaarder !! n Level 1 Execution Trace Cache u speciale instructie cache u bewaart geen geheugen blokken u maar reeds gebruikte, gedecodeerde instructies (micro-ops) l 12K micro-ops u bewaart dus geen niet-gebruikte instructies u fetching en decode voor instructies uit cache valt weg
38
slide 38Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n Advanced Dynamic Execution u kijkt 126 instructies vooruit (ipv 42 bij Pentium III) u o.a. 48 loads en 24 stores u betere branch prediction (33% minder mis-voorspellingen) l beter algoritme, 4KB BTB, geschiedenis-gebaseerd n Rapid Execution Engine u 2 integer ALU’s werken aan dubbele kloksnelheid l bv 3GHz op een 1.5GHz Pentium 4 l of 4.8GHz op een 2.4GHz Pentium 4 ! n Enhanced Floating Point and Multimedia Unit u all FP registers 128-bit u new register for data movement
39
slide 39Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n 400MHz Front Side Bus u quad-pumped 100MHz-system bus u geeft 3 maal grotere bandbreedte dan Pentium III l 3.2 GB/s ivm 1.06 GB/s bij Pentium III n 256KB Level 2 Advanced Transfer Cache (ATC) u transfers vanuit L2: op elke klok cyclus (ipv om de 2) u Pentium 4 1.5 GHz geeft 48GB/s l vgl: Pentium III 1 GHz geeft 16GB/s u niet-blokerend u 8-way set associatief u 256-bit data bus (32 bytes) u 256KB op Pentium 4 tot 2GHz u 512KB op Pentium 4 vanaf 2GHz
40
slide 40Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n SSE2 (Streaming SIMD Extension 2) u 144 nieuwe instructies !! l 128-bit SIMD instructies l hierdoor zijn minder instructies nodig u nadeel: enkel nieuwe software maakt hiervan gebruik u interessant voor video, speech, beeld- en fotoverwerking, encryptie, finantiele berekeningen, wetenschappelijke toepassingen n Geheugen u gebruikt (dure) RDRAM (Rambus DRAM) per paar l geheugen upgrades zijn daarom duur
41
slide 41Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n Benchmarks u SPECint en SPECfp zijn nog niet uit (voor zover ik weet) u Pentium 4 is niet sneller voor Productivity Software (zoals Word en Excel) u wel sneller voor de andere toepassingen (3D, multimedia, scientific, …)
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.