architecture des processeurs

67
Les microprocesseurs

Upload: reda-bouhaddar

Post on 15-Oct-2015

31 views

Category:

Documents


1 download

TRANSCRIPT

Plan Architecture des processeurs

Les microprocesseurs

2

Parallel ATA23

3La mmoireOrganise en mots (octets) de format identique, reprs par leur adresse

mot 3mot kmot k+1mot k+2mot 2mot 1MmoireAdresse2000H2xxxHLes units de mesureLa plus petite unit quun ordinateur peut traiter et le bit.

Le bit est une information qui peut prendre soit la valeur 0 soit la valeur 1, on parle alors de valeur binaire

Une srie de 8 bits successif forme ce quon appel un octet

Units de mesure base sur loctet :

1 Bit (b) 0 ou 11 Octet (o)8 bits1 Kilo Octet (Ko) 1024 octets1 Mga Octet (Mo) 1024 kilo octet1 Giga Octet (Go)1024 mga octet1 Tra Octet (To)1024 giga octet1 Pta Octet (Po)1024 tra octet1 Exa Octet (Eo)1024 pta octet Attention octet en anglais scrit byte (8 bits) et non pas (1 bit)Les busComposant 1Composant 2nLe regroupement de n lignes (fils) permettant lenvoi en parallle dun mot de n bits entre deux composants 1 et 2Un bus, cest :Le bus dadresse (BA)Relie le microprocesseur tout circuit adressable (mmoire, interfaces d'entre/sortie ...)UnidirectionnelEx : - un microprocesseur 8 bits comporte 16 bits dadresse 65536 @ - un microprocesseur 16 bits comporte 20 bits dadresse 1024000 @MicroprocesseurCircuit(mmoire, E/S ...)16(20...)BALe bus de donnes (BD)Transmet les donnes entre le microprocesseur et le circuit adressBidirectionnelUn systme 8 bits (16, 32,64 ...) possde un BD 8 bits (16, 32, 64 ...) = taille de linfo que le processeur peut traiter en une opration lmentaireMicroprocesseurCircuit(mmoire, E/S ...)8(16...)BDLe circuit dhorlogeFournit des signaux priodiques de 1 a X000 MHz destins squencer le travail du processeur dfinit les cycles de baseEx : crire la donne 26H ladresse 3540H le processeur compose la valeur 3540H sur le bus dadressemet la ligne R/W 0met la valeur 26H sur le bus de donneQui a invent le microprocesseur ? quand ?En 1971Un peu dhistoire

Composant micro programm 4 bits 2300 transistors Horloge 100 Khz Dvelopp par INTEL pour BUSICOM2Gnrations et PerformancesPremire gnrationtubes vide 1945-1955Deuxime gnrationtransistors 1955-1965Troisime gnrationcircuits intgrs 1965-1980Quatrime gnration LSI, VLSI (Very) Large Scale Integration 1980...Performances : MIPSMillions of Instructions Per SecondQuelques chiffres :Intel 8080, 1974, 0.02 mipsIntel 8086, 1978, 0.2 mipsIntel 80286, 1982, 1 mipsIntel 486 DX/66, 1992, 20 mipsIntel Pentium 60, 1994, 100 mipsIntel Pentium Pro, 1996, 300 mipsDec Alpha 21164, 1995, 1200 mipsProcesseur central ou microprocesseur12Caractristiques du P8bits16bits32bits16 bits = 65.536 adresses32 bits = 4.294.967.296 adressesLe format des donnes= Nombre de bit du bus de donneLa taille de lespace adressable = Nombre de bit du bus dadresseLa puissance de traitementSexprime en MIPS(Millions dInstructions Par Seconde)Etendu (CISC) Rduit (RISC)Le jeu dinstructionsPd (w) fonction de la vitessePd (w) fonction de la tensionLa puissance consomme

6Processeur central ou microprocesseur (CPU) Excute les instructions machines places en mmoire centrale (cerveau de l'ordinateur)

14Fabricants : Intel, Motorola, Zilog, Western Design Center, National Semiconductor Corporation, Harris Semiconductors, Data General, AMD, Hewlett-Packard, IBM Contient 2 composants essentiels : l'unit de contrle ou de commande : excute les instructions machines l'unit arithmtique et logique (UAL) : excute les oprations lmentaires ncessaire lexcution des instructions machines qui communiquent entre eux par un bus interne et avec le monde extrieur par les bus de donnes, dadresses et de contrle

14Microprocesseur 15

Circuit lectronique cadenc au rythme d'une horloge interneCristal de quartz soumis un courant lectrique : envoie des impulsionsLa frquence d'horloge (cycle) = nombre d'impulsions par seconde chaque top dhorloge : excution dune action (instruction)les cycles se comptent en millions d'instructions par seconde (MHz) ou en milliards d'instructions par seconde (GHz) 4.77 MHz en 1981, 25 MHz en 1992, 400 MHz en 1998, 2GHz en 2002, Le premier microprocesseur (Intel 4004) a t invent en 1971unit de calcul 4 bits cadenc 108 kHzrsultat de lintgration denviron 2300 transistorsDepuis, la puissance des microprocesseurs augmente exponentiellement (Loi de Moore)Microprocesseur ou unit centrale de traitement1) Unit de contrle : lit les donnes, les dcode puis les envoie l'unit d'excution 2 registres pour la manipulation des instructions : compteur ordinal : chaque instant contient l@ de la prochaine instruction excuter (IE) registre dinstruction : contient l'instruction excuter Dcodeur : circuits didentification de IE Squenceur : excution de la squence de microcommandes de IE rythm par lhorloge du microprocesseur pour son fonctionnement, il utilise les registres de lUAL Registre d@ connect au bus d@ pour slectionner un mot mmoire Registre de donnes pour lchange dinformations entre la mmoire centrale et le processeur1616Microprocesseur ou unit centrale de traitement172) Unit d'excution : accomplit les tches venant de l'unit de contrle : Registres : rapides (de 8, 16, 32 ou 64 bits), contiennent : une adresse dun mot mmoire le contenu dun mot mmoire (donne) UAL : excution de tous les calculs lmentaires calcul arithmtique et oprations logiques utilise des registres (donnes sur lesquelles portent les oprations) Unit de virgule flottante (FPU) : calculs complexes non entiers

17Cache processeur mmoire volatile composant soud sur la carte mre permet au processeur de stocker temporairement les oprations qu'il effectue vite au processeur de perdre du temps recalculer des oprations qu'il a rcemment dj effectues

1818Le processeur (CPU)Extrait les instructions de la mmoire et les excute.Cycle de base:ExtraireDcoderExcuterPlusieurs registres de 32 ou 64 bits.Trois registres spciaux:Compteur ordinal (PC)Pointeur de pile (SP)Mot dtat (PSW)Le microprocesseurEn entre :1) Il dispose dune adresse dans la mmoire ;2) Il charge le contenu de cette adresse et le considre comme tant une instruction ;3) Ensuite, il charge le contenu de ladresse suivante, et il recommence.

I3IkIk+1Ik+2I2I1Mmoirecontenant leprogrammeAdresse2000H2xxxHEn sortie :1) Il donne le rsultat de la premire instruction ;2) Il donne le rsultat de la deuxime instruction ;3) ...

Structure interneUNITE DE TRAITEMENTUNITE DE CONTROLEInterface de donnesInterface dadresseBABDInterface de controleBCMicroprocesseurEtape 0 : un registre appel Compteur Ordinal contient ladresse de la premire instruction excuterUNITE DE TRAITEMENTUNITE DE CONTROLEInterface de donnesInterface dadresseBABDCompteur ordinalInterface de controleBCMicroprocesseurEtape 1 : la lecture de linstruction I1 consiste transfrer le contenu de la mmoire correspondante dans le registre dinstructionsUNITE DE TRAITEMENTUNITE DE CONTROLEInterface de donnesInterface dadresseBABDCompteur ordinalRegistre dinstructionInterface de controleBCBD interneMicroprocesseurEtape 2 : lanalyse (dcodage) du premier octet permet au microprocesseur de connatre le nombre doctets que comporte linstruction ainsi que lopration lmentaire a excuterUNITE DE TRAITEMENTUNITE DE CONTROLEInterface de donnesInterface dadresseBABDCompteur ordinalRegistre dinstructionInterface de controleBCDcodeur de fonctionsBD interneMicroprocesseurEtape 3 : le microprocesseur effectue le traitement correspondant (unit de traitement)UNITE DE TRAITEMENTUNITE DE CONTROLEInterface de donnesInterface dadresseBABDCompteur ordinalRegistre dinstructionInterface de controleBCDcodeur de fonctionsBD interneAccu AAccu BRegistred'tatUALMicroprocesseurL'unit de traitementLUAL (Unit Arithmtique et Logique)deux registres de travail contenant une donne ou un rsultat : accumulateurs A et Bun registre d'tat comportant des indicateurs mmorisant la faon dont sest effectue lopration lmentaire (ex : retenue C, zro Z)BD interneAccu AAccu BRegistred'tatUALMesure de performances Pour mesurer la performance d'un ordinateur, on utilise deux units mesure :

Le MIPS (millions d'instruction par seconde), traduit le nombre d'oprations sur les nombre entiers qu'un ordinateur peut effectuer en 1 seconde.1 MIPS = 1 millions d'instruction par seconde.Performance MIPS = NI / (106 * temps d'excution du programme)NI= le nombre d'instructiondu programme test.Le MFLOPS (Millions Instructions floating point Opration), traduit le nombre d'oprations sur les nombres rels qu'un ordinateur peut effectuer en 1 seconde.Performance MFLOP = NI / (106 * Temps d'excution du programme sur les nombres rels)

Mesure de performance

CPI = Nombre de cycles d'horloge par instructionTemps d'excution du programme est gal : (CPI * NI) / frquence du processeur

La performance MIPS peut alors s'exprimer de la faon suivante : Performance MIPS = frquence du processeur / (106 * CPI)Exemple : Un ordinateur excute un programme comportant 250 instructions de 3 types :100 instructions de type 1100 instructions de type 250 instructions de type 3

Le nombre de cycles par instruction de type 1 est 1,5Le nombre de cycles par instruction de type 2 est 1Le nombre de cycles par instruction de type 3 est 1,75La frquence de l'ordinateur est de 3,5 Ghz.Calculer la performance MIPS.Le nombre de cycles par instruction de type 1 est 1,5Le nombre de cycles par instruction de type 2 est 1Le nombre de cycles par instruction de type 3 est 1,75La frquence de l'ordinateur est de 3,5 Ghz.Calculer la performance MIPS.T = temps d'exc global= 100*1,5*Tc + 100*1*Tc + 50*1,75*TcTc = 1/(3,5*109) sT = (150+100+87,5)/(3,5*109) = 337,5/3,5*10-9 sPerformance = 250/((337,5/(3,5*109))*106) = ?? MIPS 17 21 Octobre 2005 Formation Continue CNRS Franoise RochArchitecture des processeursFrquence dhorlogeLa frquence de lhorloge dtermine la dure dun cycleChaque opration utilise un certain nombre de cyclesLa frquence dhorloge nest pas le seul critre de performance La frquence dhorloge est fonction de :La technologie des semi-conducteursLes circuits3233CISC et RISCCISC RISCjeu d'instructions largejeu d'instructions rduitinstructions complexes instructions simplesinstructions de tailles diffrentes instructions de mmes taillesinstructions de dures diffrentes instructions de mmes duressquenceur micro-programm squenceur cblProcesseurs CISC (Complex Instruction Set Computer'), comme les processeurs Intel : lenteur de la mmoire => intrt davoir des oprations complexes trs spcialises => moins nombreuses et moins daccs aux donnes. Mais 80% des programmes gnrs par les compilateurs font appel a seulement 20% des instructions machine. D'ou l'ide de l'architecture RISC de rduire le jeu d'instructions a ces 20% d'instructions les plus utilises, en cherchant a les optimiser au maximum avec des squenceurs cbls.Efficacit du langage machineRichesse du langage machineProcesseur superscalaire

On dispose de plusieurs units dexcutions (ex. arithmtique entire, en point flottant et logique).

Deux ou plusieurs oprations sont trait la fois 17 21 Octobre 2005 Formation Continue CNRS Franoise RochArchitecture SuperscalaireMultiplie les units fonctionnellesGestion des instructionsStatique (in-order): excutes dans lordre du code machineDynamique (out-of-order):le hardware modifie lordre des instructions pour favoriser le paralllisme (faible nombre dinstructions)Excution spculative: excution avant que le contrle des dpendances soient effectusOut-of-order et speculative instruction tendent amliorer le paralllisme dinstruction35Excution spculative: excution avant que le contrle des dpendances soient effectus. Le rsultat dune instruction pourra alors ne pas tre retenu.Out-of-order et speculative instruction tend amliorer le paralllisme dinstruction (LIP: instruction level paralllisme)

17 21 Octobre 2005 Formation Continue CNRS Franoise Rochvolutions rcentes des architectures (annes 90)Adressage 64 bitsOptimisations:Branchement conditionnel excution conditionnelleDe lutilisation des caches: hardware prefetchingFaster integer and floating-point operationsRduction du cot des branchements par lutilisation de dynamic hardware prediction 36 17 21 Octobre 2005 Formation Continue CNRS Franoise RochComment faire des processeurs plus rapides?Augmenter la frquence dhorloge (limites techniques, solution coteuse)Permettre lexcution simultane de plusieurs instructions Excution en parallle (duplication de composants hardware, coteux)Pipelining (pas de duplication de composants hardwareAmliorer les accs mmoireMmoire hirarchiqueOptimisation des accs

37La vitesse dhorloge dun processeur dtermine la vitesse globale du processeur.La loi de Moore dit que les performances CPU des processeurs doublent tous les 18 mois, cette loi sest vrifie les 40 dernires annes mais cette volution a ses limites physiques. Un certain nombre de paramtres fixent la vitesse dhorloge. Certains calculateurs exotics peuvent atteindre une trs bonne vitesse dhorloge mais ils consomment trop dnergie, font trop de bruits, dissipent trop de chaleur, prennent trop de place.=> Augmenter la vitesse dhorloge a ses limites pour augmenter les performances dun processeur.Conjointement, dautres domaines de la technologie des calculateurs ont considrablement volus. Le cot et la taille des espaces de stockage ont volus en suivant galement des courbes exponentielles. Par contre, la latence (temps daccs ces mmoires) na pas suivi la mme rapidit dvolution. Ce dsquilibre entre les performances CPU et la mmoire a engendr de nouvelle architecture des processeurs, de la mmoire et de nouvelles technologies (paralllisme dinstructions, ) 17 21 Octobre 2005 Formation Continue CNRS Franoise Roch

Quest ce que le software Pipelining?Paralllisme dinstructionsUne opration sexcute en plusieurs tapes indpendantes par des lments diffrents du processeurLe pipelining consiste excuter simultanment des tapes diffrentes d oprations diffrentesExemple: opration seffectuant en 5 tapesCharge linstructionCharge lesoprandesExcuteDcodeEcriture38Lapproche qui consiste multiplier les units fonctionnelles pour obtenir le paralllisme dinstructions est trop coteuse. Lide est de commencer une instructions sans attendre que la prcdente soit termine. On obtient lexcution simultane doprations sans dupliquer les composants hardware.Un tel mcanisme existe dans tous les calculateurs CISC et RISC- mais des degrs diffrents. 17 21 Octobre 2005 Formation Continue CNRS Franoise RochSoftware Pipelining (suite)3 instructions simultanes dans le pipeDcodeChargeoprandesExcuteEcritureCharge linstructionDcodeCharge linstructionCharge linstructionEcritureExcuteChargeoprandesExcuteChargeoprandesDcodeEcriture3 instructions en parallle en 7 cycles (15 cycles en squentiel)39Pipelining nest pas aussi simple:Le retard sur une tape doit tre coordonn avec celles qui suivent(accs mmoire)Un saut une nouvelle adresse du programme (if,) est une cause de pnalit dutilisation du pipelining.Il y a ncessit de vider le pipe et de rinitialiser le pipe pour les instructions indiques par le branchement.Hlas, les instructions de branchement interviennent souvent, 5 instructions sur 10, ce qui laisse tout de mme la technique performante.3.1 Quest-ce que le pipeline?Technique moderne fondamentale pour raliser des Units Centrales (UC) rapidesSemblable une chane dassemblage o chaque instruction passe travers une srie dtapes (ou segments) fixes.Le nombre dtapes dans un pipeline dpend de larchitecture (20 tapes pour un Pentium 4 contre 5 dans une architecture RISC)Le dbit du pipeline est la frquence laquelle les instructions sortent de celui-ci.Le temps de passage dune tape une autre, sappelle le cycle machine (machine cycle time). Elle correspond au temps le plus long entre deux tapes. En gnral, un cycle machine correspond un cycle dhorloge.

Pipeline

Le processeur possde des units spares pour lextraction, le dcodage et lexcution.

Diffrentes tapes de diffrentes instructions peuvent tre traites en parallle.3.1 Quest-ce que le pipeline? (suite)Le pipeline permet un paralllisme des instructions.Les 5 tages du pipeline RISC:Cycle de lecture (Instruction fetch cycle) (LI)Cycle de dcodage (Instruction decode/register fetch cycle) (DI)Cycle dexcution (Execution cycle) (EX)Cycle daccs mmoire (Memory acces) (MEM)Cycle dcriture du rsultat (Write-back cycle) (ER)Entre chaque tage du pipeline, on retrouve un registre pipeline pour le stockage des donnes et lenvoie des donnes vers le prochain tage du pipeline.

3.2 Les obstacles du pipeline :les alasIl existe des situations, appeles alas, qui empchent linstruction suivante de flux dinstruction de sexcuter au cycle dhorloge prvu. Il existe trois types dalas:Alas structurels (structural hazards)Lorsque le matriel ne peut grer toutes les combinaisons possibles de recouvrement dinstruction au moment de lexcution.Alas de donnes (data hazards)Lorsquune instruction dpend du rsultat dune instruction prcdente.Alas de contrle (control hazards)Rsultent de lexcution en pipeline des branchements et des autres instructions qui modifient le compteur de programme (CP)

17 21 Octobre 2005 Formation Continue CNRS Franoise RochArchitecture Pentium4

44 17 21 Octobre 2005 Formation Continue CNRS Franoise RochArchitecture Opteron

45 17 21 Octobre 2005 Formation Continue CNRS Franoise RochArchitecture 64 bits: MotivationsDes applications ncessitant des ressources accruesData Base, Data mining,Calcul scientifique, simulation, grid computingMulti-mdia:son, vidoCalcul en flottants plus efficace en 64 bitsCapacit dadressage accrue:

46Problmes:Nouvelle architecture matrielle nouvelle architecture logicielleGros investissement initialDesign du processeurCompilateursSortie simultane de deux architectures concurrentesCompatibilit avec avec X86: Indispensable???A quel prix??? 17 21 Octobre 2005 Formation Continue CNRS Franoise RochArchitecture 64 bitsPA-RISC: serveurs HPPower : gros serveurs IBMAMD64 : dbut 2000Intel Itanium : dbut 200047 17 21 Octobre 2005 Formation Continue CNRS Franoise RochArchitecture AMD64 (x86_64)Premire prsentation officielle: octobre 2001Commercialisation: Opteron Avril 2003/ Athlon64 septembre 2003Nouveau jeu dinstructions (ABI) 64 bitsSupport X86 32 bitsSpcifications publiques: www.x86_64.org 48 17 21 Octobre 2005 Formation Continue CNRS Franoise RochConclusion : architectures 64 bitsMigration logicielleInvestissement logiciel important pour une conversion une architecture diffrenteUne application 32 bits ne sexcute pas forcment plus/aussi vite sur une architecture 64 bitsAMD et INTEL ne sont pas les seuls proposer des architectures 64bits (SUN, APPLE,)SUN commercialise aussi des serveurs avec des processeurs AMD64 49 17 21 Octobre 2005 Formation Continue CNRS Franoise RochPower5 (IBM)Processeur Dual coreInterface mmoire intgreFrquence dhorloge max 1.9 GHz4 flops/cycleSMT : Simultaneous Multi ThreadingL1I: 64 Ko ; L1D : 32 Ko ; L2 : 1.9 Mo ; L3 off chip : 36 Mo ;

50PSeries 690 est construit partir de POWER4 Multi-chip qui contiennent 4 power4 chips.Power4 CachePower4 L1 Cache: 64KB direct-mapped L1 instruction cache32KB two-way set associative L1 data cacheChacun ayant des lignes de caches de 128 bytes utilisant une police de replacement de type round-robin. Mise jour dans L2 de toute donne modifie dans L1Power4 L2 Cache:1440 Unified L2 cache partag par les deux processeurs sur le chip.Power4 L3 Cache:32MB 8 way set associative caches qui sont combins par paires ou quadruplets pour fournir un cache de 64Mb ou 128MB..Power4 Hardware Data Prefetch.Units fonctionnelles du Power4 17 21 Octobre 2005 Formation Continue CNRS Franoise Roch Achitecture opteron dAMDArchitecture Opteron :Premire gnration de processeur 64 bit dAMD : OpteronFrquence : 2.6 GhzPuissance crte : 5.2 Gflops/s 2600 MHz * 2 op/cycle 5.2 GFLOPS (Pas de FMA)Architecture Mmoire:L1I : 64ko; 64o /line 2 way L1D : 64ko; 64o /line ; 2 way ; 3 cycle latency ; 2 op 64bit/cycle (ld,st ou combinaison des 2)L2U : 256ko; 64o /line ; 16 way PAS de cache L3Memory Front Side Bus (FSB) : Frquence du proc. : 2.6 GHz ; FSB bandwidth : 20.8 Go/s

51Les performances dunmicro-processeurElles dpendent bien sr de la vitesse de lhorloge de lordinateur ;

Mais elles dpendent aussi :du pipeline ;du cache.Ce sont ces deux derniers critres les plus importants !Le cacheLaccs la mmoire vive est lent, et celui au disque est encore plus lent ;Pour viter daccder la mmoire vive (RAM) ou au disque dur, on utilise un cache.Le cache est de la mmoire trs rapide situe ct de lunit de traitement du processeur. Cest de la mmoire lintrieur du processeur.Comment a marche ?Lors dun appel la mmoire :ladresse appele est intercepte sur le bus dadresses (mais continue son chemin) ;on regarde si cette adresse est stocke quelque part dans le cache ;si oui, on nattend pas le retour du contenu de la mmoire, on envoie le contenu du cache. Si non, il faut attendre.Avantage et inconvnientsInconvnients :La mmoire cache est chre, et elle occupe de la place sur le micro-processeur.Avantage :La mmoire cache permet au processeur de ne pas tre ralenti par la mmoire extrieure (RAM, disque dur,)Carte mre bi-processeurs / double coeurs56Le paralllisme57 Implmenter des architectures d'lectroniques numriques et les algorithmes spcialiss pour celles-ci traiter des infos de manire simultanes

But : effectuer le plus grand nombre d'oprations dans le plus petit temps possible les oprations doivent tre faites en parallle (simultanment au sein de plusieurs units de traitement) tche effectuer dcompose en de multiples sous-tches qui sont excutes en mme temps cur dispose de sa propre mmoire cache, le systme d'exploitation dispose de suffisamment de ressources pour traiter en parallle les tches les plus exigeantes en calculs.Le paralllisme (2)58 Les dveloppeurs de logiciels utilisent sur ces machines, la programmation concurrente qui est souvent plus efficace mais plus complique mettre en place que la programmation traditionnelle dite squentielle.

Les ordinateurs parallles classs selon le niveau auquel le matriel prend en charge le paralllisme : machines communes (avec multi-curs ou multiprocesseurs) architectures en grappe de serveurs, machines massivement parallles structures formes partir de grilles informatiques : milliers de simples ordinateurs relis par un rseaucur dispose de sa propre mmoire cache, le systme d'exploitation dispose de suffisamment de ressources pour traiter en parallle les tches les plus exigeantes en calculs.Processeur multi-coeurs

Carte mre multi-processeurs60 Capable den accueillir 2, 4, 8 ou plus (plusieurs sockets)

Deux manires de grer 2 processeurs sur une carte: asymtrique : chaque processeur se voit attribuer une tche diffrente. Nacclre pas les traitements, mais permet de confier une tche un processeur pendant que lautre est occup une tche diffrente. symtrique (SMP : Symmetric MultiProcessing) : chaque tche rpartie symtriquement entre les deux processeurs

Linux : 1er grer les architectures bi-processeur. Consomment beaucoup d'nergie et dgagent beaucoup de chaleur limitant lorsque les processeurs sont troitement confins ou en trs grand nombre

cur dispose de sa propre mmoire cache, le systme d'exploitation dispose de suffisamment de ressources pour traiter en parallle les tches les plus exigeantes en calculs.Carte mre 2 processeurs61

Carte mre double curs / bi-processeurs62Processeur dual core : quip de deux curs (units de calcul qui travaillent en parallle) sur une mme puce : Processeurs standard : puissance aujourd'hui limite (de l'ordre de 3,2GHz : difficile dpasser sans hausse du cot de fabrication) Double cur : puissance de l'ordre du double du processeur de rfrence (architecture parallle : augmente le nombre doprations excutes simultanment en un cycle dhorloge)

Diffrence majeure entre double cur et biprocesseurs : double cur : un seul processeur 2 curs + un systme de mise en commun biprocesseurs : deux processeurs distincts (plus encombrants)

volution des demandes de performances applicatives consomme moins dnergie lectrique : moins besoin de systmes de refroidissement complexes

63Avantages par rapport au mono-cur: calculs en parallle puissance de calcul suprieure avec une frquence dhorloge (nb cycles/s) moins leve consomme moins dnergie lectrique rduit la quantit de chaleur dissipe par effet Joule (comme pour les systmes multiprocesseurs) microprocesseur + efficace en traitement multitche : rpartition des oprations entre les curs de processeurs, plutt quen alternance sur un seul processeur

Les premiers exemplaires de processeurs multi-curs dIntel et dAMD sont arrivs sur le march des ordinateurs personnels en 2005.Avantages des multi-curs volution des demandes de performances applicatives consomme moins dnergie lectrique : moins besoin de systmes de refroidissement complexes

Avantages des multi-curs (2)64+ favorisent un vritable fonctionnement multitche mono-curs : fonctionnement multitche peut dpasser les capacits de l'UC (baisse des performances car mise en attente des oprations traiter) multi-curs : chaque cur dispose de sa propre mmoire cache (suffisamment de ressources pour traiter en parallle les tches les plus exigeantes en calculs)

+ amliore l'efficacit du systme + augmente les performances applicatives des ordinateurs applications gourmandes comme les jeux vido

Dans le monde numrique actuel, la demande en matire de simulations 3D complexes, fichiers multimdias en continu, niveaux supplmentaires de scurit, interfaces utilisateur plus sophistiques, bases de donnes plus volumineuses et nombre plus important dutilisateurs en ligne commence dpasser les capacits des processeurs mono-curs.Inconvnients des multi-coeurs65- programmes repenss pour exploiter pleinement les caractristiques de ces processeurs sinon ils ne peuvent utiliser quun des curs (baisse de performance) 2006 - trs peu de logiciels grent le bi-curs (sauf sous Linux): pas conus pour tirer le maximum de cette technologie OS peuvent diviser par eux-mmes les calculs effectus par les logiciels quils excutent quadri-curs remplacent les bi-curs, car ils ne demandent quasiment pas de modification logicielle.cur dispose de sa propre mmoire cache, le systme d'exploitation dispose de suffisamment de ressources pour traiter en parallle les tches les plus exigeantes en calculs.Multi-processeurs et multi-curs 66 Exemple : machine dote de deux processeurs (de frquence 2,8 GHz) et de quatre curs la frquence de calcul vaut 2,8 GHz (elle est propre au processeur et non pas chaque cur) seule la puissance du processeur (exprime en FLO/s ou FLOPS : oprations virgule flottante par seconde) sera multipli par le nombre de curs.

Par exemple : un processeur dual-core cadenc 1 GHz et dont la puissance de chaque cur vaut 10 GFlops la puissance total du processeur dual-core vaudra :10 GFlops + 10 GFlops = 20 GFlops

cur dispose de sa propre mmoire cache, le systme d'exploitation dispose de suffisamment de ressources pour traiter en parallle les tches les plus exigeantes en calculs.

Les oprations en virgule flottante (additions ou multiplications) incluent toutes les oprations qui impliquent des nombres rels. De telles oprations, qui prennent beaucoup plus de temps de calcul que des oprations sur les nombres entiers, se produisent souvent dans certains types d'applications.2009Un quadricoeur pour les PC portables ! Ce processeur dIntel consomme nettement moins que son homologue ddi aux PC de bureau. Intel a profit de son forum des dveloppeurs (IDF) qui se tient San Francisco pour y prsenter ce quil considre comme le processeur pour PC mobile le plus puissant jamais ralis. Ce circuit quadricur de la famille Core i7 en reprend larchitecture Nehalem dj luvre dans les processeurs pour PC de bureau tout en en abaissant significativement la consommation. Il peut fonctionner une frquence de 3 GHz.