introducon au parallélisme - lricecile/enseignement/ipar/cours/cours... · 2010. 1. 7. · • 12...

Introduc)onauparallélisme

CécileGermain‐Renaudcecile.germain@lri.fr

Organisa)on

•  12séancescoursetTD,4hchacune•  3séancesparJoëlFalcou•  Lesslidesnesuffisentvraimentpas

–  Aidemémoire+illustraIons

–  Lecoursoralestsupposéconnupourl’examen

•  CalendrierettoutesinformaIonssurlesiteducours–vousdevezleconsulter.

2 Introduction au parallélisme

www.lri.fr/~cecile/ENSEIGNEMENT/IPAR

Contrôledesconnaissances

•  ContrôleconInu–  Deuxdevoirs‐largementcommencésenTD.Arendreàladateprévue.1jourderetard=‐1point.Devoirsindividuels.

–  Unexposé.Choixdans6semaines,exposés+ficherésuméàladernièreséance.Travailenbinôme,l’unestnotésurlafichedelecture,l’autresurl’exposé.

•  Examen–  Tousdocumentsautorisés.Vousdevezamenerlesdocuments,énoncés,…uIlisésencours/TD.

www.lri.fr/~cecile/ENSEIGNEMENT/IPAR

1.  MoIvaIonetconcepts2.  Algorithmiqueparallèle

3.  ProgrammaIonparallèle–  Passagedemessages–  OpenMP

4.  Modèlesformels–  ParallélisaIonautomaIque

–  Modèlesavancés

Introduction au parallélisme 4

1.Mo)va)onetconcepts

•  MoIvaIon•  Architecturesparallèles

–  Lesinfrastructuresparallèlesen2009

–  Typologie–  Exemples

•  Performance–  AccéléraIon–  Autresindicateurs

Mo)va)onI:Lesapplica)ons

•  Simula'onnumérique:expériencesinsilico‐Troisièmecomposantedelascience–  Tropgrandes:météorologie,matériaux,…–  Tropdangereuses:maintenancenucléaire–  Tropcoûteuses:crash‐tests,concepIonaéronauIque–  Impossibles:climat,astrophysique

•  Informa'ondeluge–  PucesàADN–  Traitementpersonnalisé

•  Réalitévirtuelleouaugmentée:médias,médical

Besoinenpuissancedecalcul(compu)ng)virtuellementillimités

Mo)va)onII:Lesordinateurs

Touteslesinfrastructuresdecalculsontparallèles

Mo)va)onIII:Lessourcesduparallélisme

•  Parallélismededonnées– Dèsqu’onadestableaux(àpréciser)

•  Parallélismedecontrôle– HighThroughputapplicaIons– Procéduresrécursives– RPC– …

Lesapplica)onspeuventexploiterlesinfrastructuresparallèles

Unenvironnementlogicielstabilisémaisnonunifié

Application

Algorithme

Environnement d’exécution //

Programmes séquentiels

Résolution système linéaire

Relaxation, méthode directe

Spécification

Programmation

Compilateurs parallèles

Compilateurs + exécutifs

OpenMP, HPF, pC++…

MPI, PVM, threads

Introduction au parallélisme

Application

Algorithme

Relaxation

Spécification

Programmation

MPI, PVM, threads

Application

Algorithme

Relaxation

Spécification

Programmation

Compilateurs parallèles

OpenMP, HPF, pC++…

MPI, PVM, threads

LeTop500

•  Les500ordinateurslespluspuissants–  Volontariat–  2foisparandepuis1993.

•  EvaluésurLinpack,unbenchmarkfacileetnontrivial

•  PerformanceRMaxmesuréeenFLOPS

•  AcompareravecRPeak,lapuissanceindépassable.

LabarrièreduPetaFlopsaétéfranchieen2008

www.top500.org

TOP500:Nombredeprocesseurs/systèmeNovembre2009

LeTop500enNovembre2009

1 10 100 1000

RMax(GFlops)

PetaFlops

Evolu)on

Linpackest‐ilunbenchmarkper)nent?

(…)theLINPACKBenchmarkistosolveadensesystemoflinearequa'ons(…)InanaJempttoobtainuniformityacrossallcomputersinperformancerepor'ng,thealgorithmusedinsolvingthesystemofequa'onsinthebenchmarkproceduremustconformtoLUfactoriza0onwithpar0alpivo0ng.Inpar'cular,theopera'oncountforthealgorithmmustbe2/3n^3+O(n^2)doubleprecisionfloa'ngpointopera'ons.Thisexcludestheuseofafastmatrixmul0plyalgorithmlike"Strassen'sMethod"oralgorithmswhichcomputeasolu'oninaprecisionlowerthanfullprecision(64bitfloa'ngpointarithme'c)andrefinethesolu'onusinganitera'veapproach.

GordonBellPrize:“peakperformance”

Année Performance1987 450Mflops 1988 1Gflops 1990 14Gflops1996 111Gflops 1999 1.2Tflops 2001 11.4Tflops 2005 107Tflops 2006 207Tflops 2008 1.35Pflops2009 1.84Pflops

1E‐01

1987 1992 1997 2002 2007

Performance(Gflops)

Processeurséquen)el

•  ParIeopéraIve•  ParIecontrôle•  Hiérarchiemémoire•  Bus(aupluriel)

Caches

Mémoire Principale

Automates

Mémoire Centrale

Processeur

Laclassifica)ondeFlynn

DegréderéplicaIondelaparIeopéraIveetdelaparIecontrôle

Instructions

Caches

Mémoire Principale

Automates

Mémoire Centrale

Processeur

SISD MISD

SIMD MIMD

MIMDnonvectoriel

Exploitelesacquisdesarchitecturesdemicroprocesseurs:Hiérarchiemémoire,OS

Microprocesseurstandard

Réseauhautesperformances

Modèlesdeprogramma)on:Djikstra/Flynn

Parallélismedecontrôle

ComposiIonparallèledeprocessusséquenIels

PAR(SEQ)–MIMD

Parallélismededonnées

ComposiIonséquenIelledeprocessusparallèles

SEQ(PAR)‐SIMD

parfori=1,n

a(i)=b(i)+c(i)

x(i)=y(i)+z(i) enddo

foralli=1,n

a(i)=b(i)+c(i)

foralli=1,n x(i)=y(i)+z(i)

Etbeaucoupd’autresmodèles

Organisa)onetaccèsmémoire

•  SituaIondelamémoire/descachesparrapportauxprocesseurs:CentraliséeouDistribuée

•  OrganisaIondel’espaced’adressage:UniqueouPlusieurs

•  Hiérarchiedestempsd’accèsmémoire:Uniformeounonuniforme

Caches

Mémoire Principale

Mémoire Centrale

Processeur

LOAD STORE

Organisa)onmémoire

Mémoire centralisée

Mémoire distribuée

Espace dʼadressage unique

Plusieurs espaces dʼadressage

Accès mémoire uniforme

Accès mémoire non uniforme

La partie de l'image avec l'ID de relation rId2 n'a pas été trouvée dans le fichier.

Mémoire

PE PE Réseau

PE La partie de l'image avec l'ID de

La partie de l'image avec l'ID

La partie de l'image avec l'ID de

PE PE PE

Mémoire

PE PE PE

La partie de l'image avec l'ID de @0

@Max La partie de l'image avec l'ID @0

Mémoire

Mémoire Mémoire Mémoire Mémoire O

- Introduction au parallélisme

Modèlesdeprogramma)on/exécu)on

•  Espacesd’adressagemulIples–  p processus–  Communiquentparmessagerie–  Leprogrammeuroulecompilateuroul’exécuIfdoitdéfinirleplacementdesdonnéesetl’ordonnancementdescalculs

–  Leplacementdesdonnéespeutdéfinirceluidescalculs:ex.OCR

•  Espaced’adressageunique–  pthreads–  Communiquentàtraversdesvariablespartagées–  Leprogrammeuroulecompilateuroul’exécuIfdoitdéfinirleplacementetl’ordonnancementdescalculs

Architecturesactuelles

… proc

Réseau d’adressage

Mémoire Nœud SMP

… proc

Mémoire Nœud SMP

… proc

Mémoire Nœud SMP

Réseau de messagerie

Acc Acc Acc Acc Acc Acc

Terminologie

•  MPP:MassivelyParallelMulIprocessor

•  Clusters•  Laprincipaledifférenceestdansledegréréseau(ausenslarge)nonpropriétairepourlesclusters

Blue Gene/P

4 cores 13.6 GF

Compute Card

1 node 4 cores 13.6 GF

2GB DDR2

Node Card

32 nodes 128 cores 435 GF

64GB DDR2

32 node-cards 1024 nodes 4096 cores

13.9 TF 2 TB DDR2

System

72 Racks 73728 nodes 294912 cores

1 PF 144 TB DDR2

BPC chip DD2.1 die

photograph

13mmx13mm 90 nm process

208M transistors 88M in eDRAM

10 Gb/s

256 256

32k I1/32k D1

PPC450 Double FPU

10 Gbit JTAG Collective Torus Global Barrier

Controller

w/ ECC

32k I1/32k D1

PPC450 Double FPU

L3 Cache

On-Chip

Memory

512b data

72b ECC

6 3.4Gb/s bidirectional

4 global barriers or interrupts

32k I1/32k D1

PPC450 Double FPU

32k I1/32k D1

PPC450 Double FPU L2

Snoop filter

L3 Cache

On-Chip

Memory

512b data

72b ECC

128 L2

Snoop filter

128 L2

Snoop filter

128 L2

Snoop filter

Multiplexing sw

itch 3 6.8Gb/s

bidirectional

Controller

w/ ECC

13.6 GB/s

DDR-2 DRAM bus

64 Shared

Shared L3 Directory for

Multiplexing sw

Blue Gene/P ASIC

Blue Gene/P Interconnection Networks

3 Dimensional Torus –  Interconnects all compute nodes –  Virtual cut-through hardware routing –  3.4 Gb/s on all 12 node links (5.1 GB/s per node) –  0.5 µs latency between nearest neighbors, 5 µs to

the farthest –  MPI: 3 µs latency for one hop, 10 µs to the farthest –  Communications backbone for point-to-point

Collective Network –  One-to-all broadcast functionality –  Reduction operations for integers and doubles –  6.8 Gb/s of bandwidth per link per direction –  Latency of one way tree traversal 1.3 µs, MPI 5 µs –  Interconnects all compute nodes and I/O nodes

Low Latency Global Barrier and Interrupt –  Latency of one way to reach 72K nodes 0.65 µs,

MPI 1.6 µs

Combien d’opérations flottantes par seconde ?

Blue Gene/P Architectural Highlights   Scaled performance relative to BG/L through density and frequency

–  1.2x from frequency bump 700 MHz => 850 MHz –  2x performance through doubling the processors/node

  Enhanced function –  4 way SMP, cache coherent, supports threads, OpenMP –  Improved memory subsystem supporting higher bandwidths –  DMA for torus, remote put-get, user programmable memory prefetch –  Memory chip kill implemented. –  Enhanced performance counters (including 450 core) –  Architectures of double Hummer FPU, torus, collective network, barrier,

and JTAG networks were left intact.   Higher signaling rate

–  2.4x higher bandwidth, lower latency for Torus and Tree networks –  10x higher bandwidth for Ethernet IO

Execution Modes in BG/P

Hardware Elements Black Software Abstractions Blue

SMP Mode 1 Process

1-4 Threads/Process

Dual Mode 2 Processes

1-2 Threads/Process

Quad Mode (VNM) 4 Processes

1 Thread/Process

Core 0

Core 1

Core 3

Core 2

Core 0

Core 1

Core 3

Core 2

Core 0

Core 1

Core 3

Core 2

Core 0

Core 1

Core 3

Core 2

RoadRunner

Accéléra)on

Acceleration =Performance(native)

Performance(améliorée)

Accéléra)onetefficacitéparallèles

T(p):tempsd’exécuIonàpprocesseurs

S(p) =T(1)T(p)

•  S(p) = p ApplicaIonparfaitementparallélisable

Parallélismetrivial

•  S(p) = kpk < 1engénéral,maisk > 1estpossible

E(p) =S(p)p

Laloid’Amdhal

L’applicaIoncomporte– UnefracIonséquenIellef:contrôle,calculsscalairesrépliqués,…

– UnefracIonparfaitementparallélisable1-f

InuIled’ajouterdesprocesseursaudelà€

T(p) = f +1− fp

T(1) = f + (1− f ) =1

S(p) <1f

Laloid’Amdhal

InuIled’ajouterdesprocesseursaudelà

S(p) <1f

Op)miserpourd’autrescritères

•  L’hypothèseimpliciteestqueleproblèmeestdetaillefixe

•  Lesproblèmesdetaillefixeexistent:traitementd’images

•  «Améliorerletraitementdesproblèmesordinaires»•  Maisd’autrescontraintespeuventêtreplusperInentesparrapportàlademandedel’uIlisateur:résoudreunproblème,effectuerunesimulaIonetc.–  Entempsconstant–  Enencombrementmémoireconstant

LaloideGustafson

L’applicaIoncomporte–  UneparIeséquenIellea:contrôle,calculsscalairesrépliqués,…

–  UneparIeparfaitementparallélisableb

–  L’applicaIonestextensible

40 Introduction au parallélisme €

T(p) = a +bp

T(1) = a + b

S(p) = a + (1− a)p

AccéléraIonaffine

Autresfacteurspénalisantspourl’accéléra)on

•  Leparallélismeintroduitdessurcoûts–  CommunicaIons(EAM)ou

synchronisaIons(EAU)•  Matériel

–  LecoûtdescommunicaIonsoudessynchronisaIonsaugmenteavecp

•  Algorithme–  Déséquilibredecharge–  AugmentaIondunombrede

communicaIonsoudesynchronisaIonsparunitédetravail

Autresfacteurspénalisantspourl’accéléra)on

•  Leparallélismeintroduitdessurcoûts–  CommunicaIons(EAM)ou

synchronisaIons(EAU)•  Matériel

–  LecoûtdescommunicaIonsoudessynchronisaIonsaugmenteavecp

•  Algorithme–  Déséquilibredecharge–  AugmentaIondunombrede

communicaIonsoudesynchronisaIonsparunitédetravail

LaparallélisaIontrivialeestpresquetoujourslameilleuresoluIonlorsqu’elleestpossibleExcepIon:Changementsde

niveaudanslahiérarchiemémoire.Out‐of‐Core‐>MP,ouMP‐>cache

Critèreséconomiques

•  Iso‐efficacité:Taillenécessairepouraveindreuneefficacitédonnée–  Peutonaveindreunecertaineefficacitésurunsystèmedonné?

– Decombienfaut‐ilaugmenterlatailleduproblème?–  Existe‐t‐ilunetaillemaximaledusystèmetellequ’onnepuisseplusaveindrel’efficacitérequise?

–  ComparaisondesapplicaIons:lameilleuriso‐efficacitéestlapluspeIte

•  Exemplecanonique:N1/2

Débit

Introduction au parallélisme 44 €

R(n, p) =Nombre_Operations(n)

T(n, p)

R∞(p) = Limn→∞R(n, p)

R(n1/ 2, p) =R∞(p)2 p

R∞/2

introducon au parallélisme - lricecile/enseignement/ipar/cours/cours... · 2010. 1. 7. · • 12...

Documents

théorie des langages et compilation séances de travaux...

anisotropie sismique et écoulement dans le manteau … %...

sÉances scolaires tour de …

cycle lycée -...

prévention des risques psycho-sociaux -...

syllabus cours m2 - master iec · plan du cours (par blocs...

déroulement des séances

enseignements du semestre 7 - ensic.univ … · il...

séances dédicaces tanguy matériaux

commune de périgneux a4 rv tap 2016 2017 2.pdfsept/oct 7...

séances dinformation pour les cours satellites de lefle

8 séances en total 8 séances en total syllabus dandrée...

lm204 - polycopié de cours - elzevir.fr · le module est...

2018 2019 - école d'art à lyon, cours de dessin 3d ·...

edumooc histoire-géographie- séances de cours/ cours audio

inf04 – html5 1 langages’etstructure’du’web · plan...

titulaire : m. h. glesener. sommaire word (4 séances) excel...

planning des sÉances

physique i (mécanique)résumé du cours -...

algorithmique, c++ - ensiwiki · 2009-07-08 ·...