De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Slide 1Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Case studies De Intel 80x86 reeks voor PC IBM SP2 parallel computer.

Verwante presentaties


Presentatie over: "Slide 1Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Case studies De Intel 80x86 reeks voor PC IBM SP2 parallel computer."— Transcript van de presentatie:

1 slide 1Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Case studies De Intel 80x86 reeks voor PC IBM SP2 parallel computer

2 slide 2Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers De Intel 80x86 reeks voor PC

3 slide 3Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Voorgeschiedenis n Intel 4004 u 1971 u 4-bit architectuur n Intel 8008 u 1972 u 8-bit architectuur n Intel 8080 u 1974 u ook 8-bit architectuur u grotere instructie set u adres ruimte van 64Kb u machine met accumulator u 6 chips

4 slide 4Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers 8086 (1978) n eerste processor van de 80x86 reeks n 16-bit processor n 16-bit adressen n alleen 640Kbytes is adresseerbaar n klok-frequentie: 4.7 MHz n snelheid: 0.33 MIPS (vergelijk met de andere in de reeks) n 8 registers (dit blijft zo voor de hele reeks) n alle parameters worden via de stapel doorgegeven (dit blijft zo voor de hele reeks) n -> vaak gebruik van cache (zie later) n basis voor IBM PC XT (1981)

5 slide 5Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers (1982) n = n het blijft een 16-bit processor n hogere klok-frequenties: tot 16 MHz n 5 maal sneller dan de 8086 ( MIPS) n protected mode en real mode (oude 8086 mode) n in protected mode zijn er 4 verschillende geprivilegieerde niveaus n biedt ondersteuning voor multi-tasking besturingssystemen (bv OS/2)

6 slide 6Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers (vervolg) n 24-bit adressen u adresbereik van 16Mbytes (DOS gebruikt dat echter niet) maar geen lineaire adresruimte, wel segmenten van 64K u kunst- en vliegwerk voor programmeren u slechte overdraagbaarheid van programma's (naar bv de Motorola 68000) n ook klok-frequentie van 8086 werkt nog, zodat toepassingen die daarop steunen (om timing te doen) nog kunnen draaien n basis voor de IBM PC AT

7 slide 7Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i386 (1985) n 32-bit processor n hogere klok-frequenties: MHz n snelheid (3 - 7 MIPS) van een mainframe van 1970 n 32-bit adressen geeft een adresbereik van 4Gbytes n prefetch queue van 16 bytes n paginatie unit die paginatie op aanvraag ondersteunt

8 slide 8Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i386 (vervolg) n DOS maakt van de nieuwe mogelijkheden geen gebruik (UNIX wel) n voor compatibiliteitsreden: de 8086-real-mode kan nog altijd op de i386 n weer een nieuwe mode: virtual 8086 mode = real mode maar bovenop de protected mode, zodat je de protectie er bij hebt

9 slide 9Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (1991) n natuurlijk volledig compatible met de vorige processoren in de reeks n integreert op 1 chip u een (krachtigere) i386 u de i387 (FP-coprocessor) u 8Kbyte cache u prefetch queue van 32 bytes u 4 write buffers om resultaten bij te houden als de bus bezet is n bevat 1.2 miljoen transistoren (=50 keer zoveel als op de 8086) n betekent veel hogere snelheid dan de i386: MIPS n is +- 3 maal sneller als de i386 met dezelfde klok-frequentie

10 slide 10Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n vaak bevindt zich op het moederbord nog een 'second- level cache' van 128 tot 256 Kbytes u on-chip cache: 1 klok cyclus u second-level cache: 1 bus cyclus (= 2 klok cycli)

11 slide 11Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n klok-frequenties tussen 25 en 50 MHz n mogelijkheid tot "internal frequency doubling" u = de frequentie op de chip wordt verdubbeld, niet de frequentie op het moederbord u dit vermijdt resonantie problemen op het moederbord u naam: i486DX2 u 25 MHz => 50 MHz 33 MHz => 66 MHz 50 MHz => 100 MHz

12 slide 12Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n de i486 is een kruising van een CISC met een RISC: u vaak gebruikte instructies (zoals de MOV) worden zonder microprogrammatie uitgevoerd u de zeer complexe (en niet zo vaak uitgevoerde instructies) worden via microcode uitgevoerd n uitspraak over DOS: "DOS running on the i486 is about the same as a supertanker with an outboard motor"

13 slide 13Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers i486 (vervolg) n ook een SX versie bestaat: een "lichtere" i486 u geen FP op de chip u lagere klok-frequentie (25 MHz, die soms aan 33 MHz wordt gebruikt) u i486DX chips die bij de tests niet de hoge frequentie aankunnen (door een kleine lay-out verschuiving bv) worden als SX-versies verkocht n concept van "upgradable" u de chip kan bijgestaan worden door een upgrade chip die eigenlijk de vorige vervangt u via een verbinding tussen de twee chips wordt ervoor gezorgd dat de oude chip in wachttoestand blijft u gewone gebruikers moeten deze upgrade kunnen uitvoeren

14 slide 14Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (1993) n kleine naamverandering omdat cijfers niet patenteerbaar zijn als naam n "The design started in 1989 with the primary goal of maximizing performance while preserving software compatibility within the practical constraints of available technology." n 3.1 miljoen transistoren deze grote hoeveelheid transistoren op één chip is mogelijk door u kleinere component-maten u groter gebruik van geconnecteerde lagen

15 slide 15Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n performantie: 112 MIPS n statische superscalaire processor: u 2 integer pipelines, met 5 stages elk u de twee pipelines werken volledig synchroon u ze volgen de volgorde van het programma 2 hier is een belangrijke rol voor de compilers n 64-bit externe data-bus (maar een 32-bit processor en 32- bit adressen)

16 slide 16Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n 8Kbyte instructie cache + 8Kbyte gegevens cache telkens "dual ported" om door de twee pipelines tegelijkertijd gebruikt te kunnen worden n nodig omdat een superscalaire processor een grotere bandbreedte nodig heeft n sprong-voorspellingen u een "branch target buffer (BTB)" in associatief geheugen houdt paren bij van sprong-instructies en gekozen sprongadressen (met geschiedenis informatie) n compilers werden samen met chip ontworpen (gebeurt klassiek bij RISC processoren)

17 slide 17Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n "The Pentium achieves roughly two times the speedup on integer code and up to five times the speedup on floating-point vector code when compared with an i486 CPU of identical clock frequency"

18 slide 18Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) n floating point: u i486 l geen FP-pipeline (als een FP instructie in uitvoering is, kan er geen tweede beginnen) l vermenigvuldiging is in microcode u Pentium: FP pipeline (8 stages) voor optelling, aftrekking, vermenigvuldiging en vergelijking (allemaal 3 klokcycli) u deling kost klokcycli u 8 speciale functies worden in microcode uitgevoerd: fsin, fcos,... u 3 formaten worden gesupporteerd: single-precision (32 bit), double precision (64 bit) volgens IEEE formaat, en extended-precision (80 bit)

19 slide 19Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium (vervolg) u compatibiliteit vereist precieze bepaling van uitzondering l -> on-chip logica bepaalt of een instructie gegarandeerd zonder uitzondering zal eindigen; indien ja kan de pipeline gewoon verder gevuld worden

20 slide 20Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Intel Pentium Pro Processor n naam was origineel P6, maar omdat de naam Pentium zo gekend was wilde men deze behouden n is volgende architectuursprong, blijft t/m Pentium III n gebruikt een superpipeline met 10 stages u ter vergelijking: de Pentium had 5 stages u dit maakt hogere kloksnelheden mogelijk met gelijke silicon- technologie (1 stage: 33% kleiner, dus kloksnelheid: 33% hoger) n superscalair: kan 3 instructies tegelijk uitvoeren n bevat een L2 cache op de chip van 256K (of 512K) n maakt gebruik van (in Intel terminologie): dynamic execution, multiple branch prediction, data flow analysis, speculative execution n dynamisch schedulen (gebaseerd op algoritme v. Tomasulo)

21 slide 21Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n processor architectuur in meer detail: 3 stappen (fig. 3) u FETCH/DECODE unit u DISPATCH/EXECUTE unit u RETIRE unit n FETCH/DECODE unit (fig. 4) u leest de instructies in volgorde uit de instructie cache u leest 20 tot 30 instructies vooruit u voorspelt sprongen met behulp van de Branch Target Buffer l 20 à 30 instructies bevatten gemakkelijk 5 sprongen Intel Pentium Pro Processor (vervolg)

22 slide 22Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n FETCH/DECODE unit (fig. 4) (vervolg) u vertaalt de (CISC) instructie in u-operaties van vaste lengte l meest gebruikte IA instr. worden vertaald door 1 u-op l sommige in 4 u-op l de complexe instructies gaan volledig in microcode (een klein programma van u-ops) u de u-op worden in een queue geplaatst en gaan naar de Register Alias Table (RAT) u RAT: herbenoemt registers u de u-op gaan naar de instruction pool (ook genoemd de ReOrder Buffer dat een associatief geheugen is) Intel Pentium Pro Processor (vervolg)

23 slide 23Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n DISPATCH/EXECUTE unit (fig. 5) u bevat 2 integer units, 1 jump unit, 1 FP arithmetic unit, FP multiplier, divider and shifter, 2 address generation units u bediend door de Reservation Station via 5 poorten u wanneer status van u-op aanduidt dat operanden aanwezig zijn kan een u-op uitgevoerd worden (hier zorgt de dispatch unit voor): instructies worden niet in volgorde uitgevoerd, maar volgens de data-flow principes (dynamic scheduling) u resultaten worden terug naar de ROB gestuurd u als blijkt dat een slechte sprongvoorspelling gemaakt werd l zal de JEU de status van alle u-op na de branch veranderen zodat deze uit de instruction pool genomen worden (speculative execution) u de BTB wordt aangepast Intel Pentium Pro Processor (vervolg)

24 slide 24Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n RETIRE unit (fig. 6) u zoekt in de instruction pool naar instructies die uitgevoerd zijn en uit de pool mogen u deze unit herstelt de programma volgorde van de instructies u houdt rekening met misvoorspellingen en exceptions u kan 3 u-op per klok cyclus behandelen Intel Pentium Pro Processor (vervolg)

25 slide 25Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n Bus interface unit (fig. 7) u loads kunnen stores voorbijsteken u hiervoor dient de Memory Order Buffer (MOB) n Dual Independent Bus (D.I.B.) Architecture u tweede gescheiden bussen l systeembus naar hoofdgeheugen en randapparaten –snelheid klassiek 66MHz, nu al tot 100MHz l aparte bus naar L2 cache –helft van kloksnelheid van chip (schaalt mee met processor) u beide bussen kunnen in parallel werken l piekbandbreedte 3X zo groot als bij Pentium Intel Pentium Pro Processor (vervolg)

26 slide 26Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n Error Checking and Correction (ECC) u eigenschappen l detecteert één- en twee-bit fouten l verbetert automatisch één-bit fouten u standaard aanwezig vanaf 300MHz op L2 cache u standaard op geheugen n enkele cijfertjes u 5.5 miljoen transistoren voor CPU, 15.5 miljoen voor L2 cache u 150/166/180/200 en meer MHz u 0.35 micron technologie Intel Pentium Pro Processor (vervolg)

27 slide 27Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers MMX n MMX technologie: uitbreiding van Intel Architectuur om performantie van multimedia toepassingen te verhogen u inhoudelijk: zie later bij algemene behandeling van DSP en multimedia extensies u toepassingen l 2D en 3D visualisaties l full-screen, full-motion video l combinaties van grafische elementen met video l audio synthese l spraak synthese en compressie, l telefonie, video-conferentie l realistische grafische weergaven l 3D-spelletjes

28 slide 28Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers MMX (vervolg) n uitgewerkt als module om toe te voegen aan u Pentium  Pentium MMX u Pentium Pro  Pentium II n bevat u 57 nieuwe instructies u 8 64-bit nieuwe MMX registers u 4 nieuwe data types

29 slide 29Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium MMX n doelstelling u minstens zelfde performantie als Pentium u minstens zelfde kloksnelheid l op gebied van marketing was dit heel belangrijk l veel mensen associëren frequentie met snelheid u minstens zelfde CPI

30 slide 30Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium MMX n probleem 1: toevoegen van MMX op bestaande Pentium architectuur verlaagt de kloksnelheid u bottlenecks: decode en cache n Pentium architectuur heeft pipeline met 5 stages u Pre-fetch, Decode1, Decode2, Execute, Writeback n oplossing u pipeline herschikken in 6 stages l nieuwe stage vooraan, en de rest herschikken l Pre-fetch, Fetch, Decode1, Decode2, Execute, Writeback u cache aanpassingen

31 slide 31Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium MMX n probleem 2: toevoegen van pipeline stage verlaagt CPI u branch hazard is langer u er gaat meer tijd verloren bij misvoorspelde sprongen n verhogen van CPI door u toevoegen van Return Stack Buffer naast Branch Target Buffer l speciale buffer met geschiedenis van procedure oproepen l verbetering van CPI met 8% u verbetering relatie snelheid van processor en snelheid van bus l verbetering van CPI met 5% u grotere cache, volledig associatieve Translation Lookaside Buffers l 16Kb ipv 8Kb voor zowel instructie- als data cache l verbetering van CPI met 7 tot 10% u totale verbetering tov Pentium CPI: 15%

32 slide 32Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium II n op architecturaal niveau: niets nieuws tov Pentium Pro u nog altijd superpipeline met 10 stages u dynamic execution, multiple branch prediction, data flow analysis, speculative execution n wel verbeterde technologie en kleine verbeteringen u alles aanpassen aan MMX u betere sprongvoorspelling l ‘dynamic, two-level, adaptive-training, branch prediction’ u grotere L1 cache (2X 16Kb) u kan tot 3 instructies per klokcyclus decoderen u kan tot 40 instructies voorruit kijken (30 bij Pentium Pro) u kan tot 4 instructies tegelijk uitvoeren (3 bij Pentium Pro) n verbinding met moederbord: Single Edge Contact ipv pinnen

33 slide 33Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III n op architecturaal niveau: niets nieuws tov Pentium II u nog altijd superpipeline met 10 stages u dynamic execution, multiple branch prediction, data flow analysis, speculative execution n wel verbeterde technologie en 70 nieuwe instructies n Intel Processor Serial Number u uniek cijfer per processor, opvraagbaar u gebruik in beveiliging u gebruik in beheer (remote system load and configuration) n enkele cijfertjes u 9.5 miljoen transistoren voor CPU (Pentium Pro: 5,5) u 28 miljoen transistoren inclusief L2 cache u 450 tot 1 GHz (Pentium Pro: 150/166/180/200) u 0.25 tot 0.18 micron technologie (Pentium Pro: 0.35) u grootte L1 en L2 cache: zoals betere Pentium II (2x16K en 512K)

34 slide 34Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III (vervolg) n 70 nieuwe instructies (SSE: Streaming SIMD Extensions) u SIMD floating point u SIMD integer u ‘cacheability control instructions’ n technologieën die hiervan kunnen gebruik maken u geavanceerde beeldverwerking u 3D u streaming audio en video u spraakherkenning n voordelen u hogere resoluties en hogere kwaliteit van beelden u hogere kwaliteit audio, MPEG2 video, simultaan MPEG2 encodering en decodering u verminderd gebruik van CPU voor spraakherkenning, hogere betrouwbaarheid en snellere respons

35 slide 35Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III: toepassingsdomeinen

36 slide 36Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium III: toepassingsdomeinen (vervolg) n Productivity software u applications such as word processing, presentation, and personal finance programs n Multimedia software u includes audio, video, imaging, and creativity applications n 3D software u gaming, modeling, and simulation applications n Internet applications u Internet browsers, as well as 3D and multimedia Web content n benchmarks: zie tabel 1-5

37 slide 37Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 (2001) n eerste belangrijke architecturale vernieuwing sinds Pentium Pro (4 jaar eerder) u naam: Intel NetBurst Micro-Architecture n gebaseerd op.18 micron technologie, maar mikt op.13 n bevat 42 milj transistoren (14 milj meer dan PentiumIII) u de chip is dus ook substantieel groter n 1.4 GHz, zal 2 GHz worden bij.13 micron tech.

38 slide 38Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n Hyper Pipelined Technology u pipeline met 20 stages (verdubbeling tov P6) l bij verkeerde voorspellingen is straf zwaarder !! n Level 1 Execution Trace Cache u speciale instructie cache u bewaart geen geheugen blokken u maar reeds gebruikte, gedecodeerde instructies (micro-ops) l 12K micro-ops u bewaart dus geen niet-gebruikte instructies u fetching en decode voor instructies uit cache valt weg

39 slide 39Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n Advanced Dynamic Execution u kijkt 126 instructies vooruit (ipv 42 bij Pentium III) u betere branch prediction (33% minder mis-voorspellingen) l beter algoritme, 4KB BTB, geschiedenis-gebaseerd n Rapid Execution Engine u 2 integer ALU’s werken aan dubbele kloksnelheid (3GHz)

40 slide 40Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n 400MHz Front Side Bus u quad-pumped 100MHz-system bus u geeft 3 maal grotere bandbreedte dan Pentium III l 3.2 GB/s ivm 1.06 GB/s bij Pentium III n 256KB Level 2 Advanced Transfer Cache u transfers vanuit L2: op elke klok cyclus (ipv om de 2) u Pentium GHz geeft 48GB/s l vgl: Pentium III 1 GHz geeft 16GB/s u 8-way set associatief u 256-bit data bus

41 slide 41Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n SSE2 (Streaming SIMS Extension 2) u 144 nieuwe instructies !! u nadeel: enkel nieuwe software maakt hiervan gebruik u interessant voor video, speech, beeld- en fotoverwerking, encryptie, finantiele berekeningen, wetenschappelijke toepassingen n Geheugen u gebruikt (dure) RDRAM (Rambus DRAM) per paar l geheugen upgrades zijn daarom duur

42 slide 42Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Pentium 4 n Benchmarks u SPECint en SPECfp zijn nog niet uit (voor zover ik weet) u Pentium 4 is niet sneller voor Productivity Software (zoals Word en Excel) u wel sneller voor de andere toepassingen (3D, multimedia, scientific, …)

43 slide 43Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers IBM SP2 parallel computer

44 slide 44Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Globaal overzicht n SP2 = Scalable Powerparallel 2 n multicomputer, met 4 tot 128 knooppunten, met gedistribueerd geheugen n de processoren zijn Power2 processoren (zie uitleg verder) u “thin” processoren voornamelijk bedoeld voor veel rekenwerk 64 KB data cache, MB geheugen, 1-4 GB disk u “wide” processoren voornamelijk bedoeld als zware servers 256 KB data cache, MB geh., 1-8 GB disk n kan een mix van jobs ondersteunen: zowel seriële als parallelle jobs zowel interactieve als batch jobs

45 slide 45Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n 1 frame kan 16 “thin” knooppunten herbergen, of 8 “wide” knooppunten of een mengeling van beide n een SP2 kan natuurlijk bestaan uit meerdere frames n een interconnectie netwerk (High Performance Switch) verbindt de knooppunten (zie tekening) u type: multistage u zeer performant u 1 switch per frame u potentieel kan elke processor met een andere processor simultaan communiceren u de afstand tussen 2 willekeurige knooppunten is gelijk Globaal overzicht (vervolg)

46 slide 46Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n in 1990 kondigt IBM het RISC Systeem/6000 aan: een nieuwe familie van (superscalaire) processoren n eerste implementatie heet IBM POWER (Performance Optimized With Enhanced RISC) n tweede implementatie: POWER2 met hogere kloksnelheid, grotere caches, en nog meer superscalair n de processor bestaat uit 8 chips u ICU: instruction cache unit u FXU: fixed point unit u FPU: floating point unit u SCU: storage control unit u 4 DCU: data cache units n niet te verwarren met de PowerChip (alles op 1 chip) Power2 processor

47 slide 47Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n de ICU: u bevat een 32 KB instructie cache (I-cache) u kan 8 instructies per cyclus ophalen uit de I-cache u kan 6 instructies per cyclus schedulen: l 2 zelf l 2 voor de FXU l 2 voor de FPU u voert voorwaardelijke en onvoorwaardelijke sprong-instructies uit u stuurt de andere instructies naar de FXU of de FPU u bij een sprong: doet een prefetch van de 2 mogelijke paden l als de sprong niet genomen wordt: meestal geen tijdsverlies l als de sprong wel genomen wordt: meestal 1 cyclus verlies Power2 processor (vervolg)

48 slide 48Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n de FXU u doet loads en stores, rekenkundige en logische bewerkingen u bevat bit general purpose registers u bevat 2 functionele eenheden: l 1: optellen en logische bewerkingen uitvoeren l 2: idem + vermenigvuldigen (2 cycli) en delen (13-17 cycli) u inter-pipeline-forwarding mogelijkheid l tussen de uitgang van de ALU van de 1ste functionele eenheid l en de ingang van de ALU van de 2de functionele eenheid (dit verhoogt het parallel gebruik van de twee eenheden) Power2 processor (vervolg)

49 slide 49Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n de FPU u bevat bit FP registers u bevat nog veel meer verborgen registers, voor bv elke load (dit verhoogt het parallel gebruik van de twee eenheden) u bevat 2 autonome identieke functionele eenheden n de CSU u regelt alle communicatie tussen de verschillende chips van de CPU en het geheugen u controleert de bus n de 4 DCU’s u 64 KB data cache KB data cache n de CPU (alle chips samen) bevatten 23 miljoen transistoren (zie tabel) Power2 processor (vervolg)

50 slide 50Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n de SP2 is verbonden met (zie tekening) u de IBM 3090 (een oude mainframe) u een rack met 16 GB u Kuleuvennet u werkstations en X-terminalen via ethernet n de SP2 bevat 16 “thin” knooppunten, elk met 4 GB disk u 8 met 128 MB geheugen u 8 met 256 MB geheugen n het rack met 16 GB (met alle gebruikersbestanden) hangt aan 1 bepaalde knoop (sp09) n 1 bepaalde knoop is de communicatie server (ethernet, FDDI, kanaal naar de IBM 3090) (sp10) oude SP2 configuratie op het rekencentrum

51 slide 51Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers n software organisatie u elke knoop draait AIX (IBM's versie van UNIX) als besturingssysteem (zoals in een netwerk) u PSSP: Parallel System Support Program l boot procedures, installatie van switch, systeem monitoring, resource manager, job accounting u Parallel Environment (PE) l initialisatie van parallelle omgeving, allocatie van knopen aan taken, laden van de executables op elke knoop, set up van input en output per knoop, tools om applicatie te analyseren (status, visualisatie, performantie,...) u message passing libraries, geparalleliseerde numerieke routines u parallel compiler: HPF (High Performance Fortran voor data parallellisme)

52 slide 52Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers u 2 knooppunten zijn ‘interactieve knooppunten’ (voor interactieve jobs) (sp05, sp06) l hier kan men het zware rekenwerk voorbereiden (editeren, compileren), en resultaten bekijken u de andere knooppunten zijn ‘batch knooppunten’ l 4 voor parallelle jobs (sp13, sp14, sp15, sp16) l 8 voor seriële jobs (sp01-sp04, sp07, sp08, sp11, sp12) l 2 voor speciale doeleinden (sp09: discs, sp10: communicatie) u Load Leveler: scheduling van batch jobs l jobs kunnen ‘submit’ worden aan de LL l voor elke job moet de gebruiker een jobklasse specificeren (hiermee geeft hij aan hoe lang zijn job max. zal duren) l lichtere jobs krijgen een hogere uitvoerprioriteit l opsplitsing van de knopen volgens klasse: zie aparte slide

53 slide 53Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Uitbreiding SP LUDIT

54 slide 54Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Doel SP n tegemoet komen aan nood aan rekencapaciteit. n tegemoet komen aan de nood aan parallelle architectuur. n voorzien van een stabiele machine met een breed gamma software dat op elk moment door elke onderzoeker kan aangesproken worden.

55 slide 55Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Uitbreiding SP n Een stukje geschiedenis u eind 1994 : SP wordt geïnstalleerd met 16 nodes u eind 1996: SP wordt uitgebreid (21 nodes) 2 frames / nieuwe switch u september 1997: Gebruikers worden bijeengebracht in het kader van de gezamelijke nood aan rekencapaciteit. u januari 1998: Het rapport ‘Centrale High Performance Computing Capaciteit voor K.U.Leuven: een noodzaak’ wordt gefinaliseerd u juli 1998: de SP wordt uitgebreid tot 31 nodes, waarbij eveneens 8 van de eerste generatie nodes worden vervangen door nodes van het nieuwere type.

56 slide 56Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Hardware Oude configuratie Nieuwe configuratie Thin 66 MHz, 128MB 8 0 Thin 66 MHz, 256MB 8 8 Thin 120 MHz, 256 MB 2 2 Thin 120 MHz, 512 MB (*) 2 2 Wide 135 MHz, 512 MB 1 1 Thin 160 MHz, 256 MB 0 18 Totale SPECint Totale SPECftp Totale TPP Mflops (*) = nodes eigendom van afdeling Kwantumchemie, departement scheikunde

57 slide 57Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers De uitbreiding 18 juli 1998

58 slide 58Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Configuratie Batch Lange jobs (geen switch grote tmp) Scheikunde Parallel Batch Interactief 166Mhz 256Mb 66Mhz 128Mb 166Mhz 256Mb 120Mhz/512MB 166Mhz/256MB 120Mhz/256MB 135Mhz/512MB

59 slide 59Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Netwerk connectie 48GB KULeuvenNet 100 Mbit Frame1Frame2

60 slide 60Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Software n Software wordt geïnstalleerd in samenspraak met de gebruiker: u Software voor algemeen gebruik l Wordt niet doorgerekend aan de gebruiker u Software voor specifieke berekeningen, vakoverschrijdend l Gezamelijke financiering u Gespecialiseerde software gebruikt door één onderzoekgroep l Wordt volledig betaald door de onderzoeksgroep

61 slide 61Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Interavtief vs. Batch n Interactief werken u jobs waarbij regelmatig interventie vanaf het klavier nodig is. u Met meerdere gebruikers op 1 node, duur van de job is afhankelijk van de belasting en deze is niet voorspelbaar. u Tijdelijke diskruimte wordt door meerdere gebruikers tegelijk beschreven. Vrije diskruimte niet gegarandeerd. n Batch u Jobs waar gedurende meer dan 10 min. geen interventie nodig is. u 1 job per node volledige CPU/volledige /tmp voor 1 gebruiker. u Batch queueing systeem: loadleveler

62 slide 62Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Batch klassen Batch klassen voor seriele jobs: s-ul none > 7 dagen CPU s-7d 7+00:00:00 < 7 dagen CPU s-3d 3+00:00:00 < 3 dagen CPU s-24u 1+00:00:00 < 24 uur CPU s-12u 0+12:00:00 < 12 uur CPU s-6u 0+06:00:00 < 6 uur CPU s-3u 0+03:00:00 < 3 uur CPU s-1u 0+01:00:00 < 1 uur CPU s-10m 0+00:10:00 < 10 min CPU

63 slide 63Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Batch klassen Batch klassen voor parallelle jobs: p-2n-12u 0+12:00:00 4 nodes, < 12 uur CPU per node p-2n-6u 0+06:00:00 2 nodes, < 6 uur CPU per node p-2n-2u 0+02:00:00 2 nodes, < 2 uur CPU per node p-4n-24u 1+00:00:00 4 nodes, < 24 uur CPU per node p-4n-12u 0+12:00:00 4 nodes, < 12 uur CPU per node p-4n-6u 0+06:00:00 4 nodes, < 6 uur CPU per node p-4n-2u 0+02:00:00 4 nodes, < 2 uur CPU per node p-8n-6u 0+06:00:00 8 nodes, < 6 uur CPU per node p-8n-12u 0+12:00:00 8 nodes, < 12 uur CPU per node p-8n-24u 1+00:00:00 8 nodes, < 24 uur CPU per node

64 slide 64Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Batch configuratie en verdeling van de capaciteit s-ulbeschikbaar op aanvraag s-7dbeschikbaar op 1 node s-3dbeschikbaar op 3 nodes s-24ubeschikbaar op 7 nodes s-12ubeschikbaar op 11 nodes s-6ubeschikbaar op 13 nodes s-3ubeschikbaar op 15 nodes s-1ubeschikbaar op 16 nodes s-10mbeschikbaar op 16 nodes 8 nodes zijn permanent beschikbaar voor parallel werk


Download ppt "Slide 1Structuur en Organisatie van Computersystemen: deel 2Yolande Berbers Case studies De Intel 80x86 reeks voor PC IBM SP2 parallel computer."

Verwante presentaties


Ads door Google