irma, univ. strasbourgirma.math.unistra.fr/~privat/documents/l3-onl/seance12... · 2020. 11....

Optimisation Non Linéaire

Yannick Privat

IRMA, univ. Strasbourg

Cours du 12/11/2020Théorème de Kuhn-Tucker, algorithmes

Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 1 / 18

Plan

1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées

2 Version générale du théorème de Kuhn-Tucker

3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté


Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

Sommaire






Rappels sur le théorème des extrema liés

Théorème (extrema liés)

Soient f ∈ C 1(Rn) et gi ∈ C 1(Rn) pour tout 1 6 i 6 m. On considère l’ensemble :

K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) = 0} .

Soit x̄ ∈ K tel que

les vecteurs ∇gi (x̄) sont linéairement indépendants (contraintes qualifiées en x̄).

Si la fonction f admet un minimum local en x̄ sur K , alors il existe λ1, . . . , λm ∈ R, telsque :

∇f (x̄) +m∑i=1

λi∇gi (x̄) = 0.




Réciproque du théorème des extrema liés

Soient f ∈ C 1(Rn) et gi ∈ C 1(Rn) convexes pour tout 1 6 i 6 m. Soit x̄ ∈ K vérifiantles conditions de Lagrange du théorème précédent. Si pour tout i ∈ J1,mK, l’une des deuxconditions est vérifiée :

; le multiplicateur de Lagrange λi est positif,

; la fonction (gi ) est linéaire,

alors x̄ minimise globalement f sur K .




On introduit le Lagrangien : pour (x , λ) ∈ Rn × Rm, on définit

L (x , λ) = f (x) +m∑i=1

λigi (x).

Proposition (reformulation du théorème des extrema liés)

x̄ vérifie les conditions d’Euler-Lagrange avec multiplicateur de Lagrange λ̄ si, etseulement si (x̄ , λ̄) est un point critique de L :

∇xL (x̄ , λ̄) = 0 (∇f (x̄)+∑mi=1 λi∇gi (x̄)=0)∇λL (x̄ , λ̄) = 0 (g(x)=0)




Exemple (CC3, 2018)

Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :

C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.

où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure. En supposant quel’entreprise tourne à plein régime, déterminer x et y maximisant le profit.

Le profit est donné par

P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000

P étant C∞, on peut étudier sa convexité à l’aide de sa hessienne.

On a hessP(x , y) =(−10 22 −10

). De plus, étant symétrique réelle, la matrice hessP est diago-

nalisable de valeurs propres λ1 et λ2 telles que{λ1 + λ2 = Tr(hessP) = −20λ1λ2 = det(hessP) = 96

⇒ λ1 < 0, λ2 < 0⇒ P est donc concave sur R2




Exemple (CC3, 2018)


C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.


La contrainte sur la capacité de production s’écrit x + y = 20. On est donc amené à résoudre leproblème d’optimisation sous contrainte

suph(x,y)=0

P(x , y) avec h(x , y) = x + y − 20.

Puisque P est quadratique et concave, −P est coercive (cf. cours), et l’ensemble {(x , y) ∈ R2 |h(x , y) = 0} est un fermé de dimension finie (image réciproque de {0} par h qui est continue).Par conséquent,le problème précédent a une solution.Étudions les conditions d’optimalité. D’après le réciproque du théorème de Kuhn-Tucker, puisqueles contraintes sont linéaires, ce sont des CNS. De plus, pour tout (x , y) ∈ R2, ∇h(x , y) 6= 0, lescontraintes sont qualifiées en tout point.




Exemple (CC3, 2018)


C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.


CNS d’optimalité. Le théorème des extrema liés fournit alors l’existence de λ ∈ R tel que ∇ −P(x , y) + λ∇h(x , y) = 0, soit 10x − 2y − 3 + λ = 010y − 2x − 3 + λ = 0x + y = 20 ⇐⇒

{x = y = 10λ = −77

On obtient ainsi la répartition optimale de pâtes X et Y à produire et le profit réalisé vautP(10, 10) = 260.




En théorie, il faudrait également ajouter les contraintes

x > 0, y > 0.

Cependant, puisqu’elles sont naturellement vérifiées à l’optimum, on constate a posterioriqu’il n’était pas nécessaire de les inclure dans le calcul.

Plus précisément, comparons suph(x,y)=0

P(x , y) et suph(x,y)=0x,y>0

P(x , y).

1 On a {(x , y) ∈ (R∗+)2 | h(x , y) = 0} ⊂ {(x , y) ∈ R2 | h(x , y) = 0} et doncsup

h(x,y)=0x,y>0

P(x , y) ≤ suph(x,y)=0

P(x , y) (par inclusion des ensembles)

2 De plus, le problème suph(x,y)=0 P(x , y) a une solution (x∗, y∗) = (10, 10) telle que

x∗ > 0 et y∗ > 0. Par conséquent,

suph(x,y)=0

P(x , y) = P(x∗, y∗) ≤ suph(x,y)=0x,y>0

P(x , y) (par définition du sup)

Finalement, le problème suph(x,y)=0x,y>0

P(x , y) a pour solution (x∗, y∗).


Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Conditions d’optimalité sous contraintes d’inégalité

Sommaire





Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Conditions d’optimalité sous contraintes d’inégalité

Objectif

On souhaite résoudre des problèmes du type

infh(x)=0g(x)≤0

f (x)

avecf : Rn → R, h : Rn → Rp, g : Rn → Rm

On commence par s’intéresser au sous-problème suivant :

infg(x)≤0

f (x)

avecf : Rn → R, g : Rn → Rm


Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées

Sommaire






Contraintes actives, contraintes qualifiées

Soit gi ∈ C 1(Rn) avec 1 6 i 6 m. On considère l’ensemble :

K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .

Définition : contraintes qualifiées

; L’ensemble des contraintes actives en x̄ ∈ K est

I (x̄) = ensemble des indices t.q. l’inégalité est une égalité = {i ∈ J1,mK, gi (x̄) = 0}.

; Les contraintes sont dites qualifiées en x̄ ∈ K si

∃z ∈ Rn, ∀i ∈ I (x̄),

{(∇gi (x̄), z) 6 0 si gi est affine(∇gi (x̄), z) < 0 si gi n’est pas affine

; Cela implique qu’il existe une direction z ∈ Rn

dans laquelle toutes les fonctions (gi ) (aveci ∈ I (x̄)) sont décroissantes. Donc on restelocalement dans K , i.e. x̄ + εz ∈ K si ε > 0 estassez petit.





K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .

Théorème de Kuhn et Tucker

Soient f , g1, . . . , gm ∈ C 1(Rn) et x̄ ∈ K tel que les contraintes sont qualifiées en x̄ .Si f admet en x̄ un minimum local, alors il existe λ1, . . . , λm > 0 tels que :

∇f (x̄) +m∑i=1

λi∇gi (x̄) = 0 et ∀i ∈ J1,mK λigi (x̄) = 0.

Condition de complémentarité

La condition λigi (x̄) = 0 est appelée condition de com-plémentarité.Dans le cas m = 1, soit la contrainte est active(g1(x̄) = 0) et on se trouve sur le bord de l’ensemble descontraintes (théorème des multiplicateurs de Lagrangeavec λ1 pouvant être non nul), soit la contrainte n’estpas active (g1(x̄) < 0, λ1 = 0) et on retrouve l’équationd’Euler.





K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .

Réciproque du théorème de Kuhn et Tucker

Soient f , g1, · · · , gm de classe C 1(Rn) et convexes. S’il existe x̄ et λ1, . . . , λm > 0 vérifiantles conditions de Kuhn et Tucker (en bleu dans l’énoncé du th. de KT), alors x̄ est unminimum (global) de f sur K .



Exemple (CC3, 2018)


C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.

où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure au maximum. Le conseild’administration de l’entreprise s’interroge sur la pertinence de vouloir produire à pleine capacité.Il se demande s’il ne peut pas augmenter le profit en produisant autrement. Pouvez-vous aider leconseil d’administration ?

Rappelons que le profit est donné par

P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000

et on a vu que −P est coercive, strictement convexe.Le problème que l’on peut résoudre afin de satisfaire le conseil d’administration devient

infh(x,y)≤0

−P(x , y).

L’existence s’obtient par le même argument que dans le cas d’une contrainte “égalité”.Notons que s’il existe un triplet (x , y , µ) avec µ ≥ 0 et satisfaisant les conditions deKuhn-Tucker, alors c’est nécessairement une solution du problème (CNS d’optimalité).

Étudions les conditions d’optimalité. Le théorème de Kuhn-Tucker fournit l’existence de µ ≥ 0 telque

10x − 2y − 3 = −µ10y − 2x − 3 = −µx + y ≤ 20µ(x + y − 20) = 0

⇔

x = y =3−µ

8x ≤ 10µ(x + y − 20) = 0

⇔

(x , y) = (10, 10) , µ = −77︸︷︷︸

impossibleou (x , y) =

( 38 ,

38

), µ = 0

Or, P (10, 10) = 260 < P( 38 ,38 ) =

80098 ' 1001.125. En conclusion, compte tenu des coûts de

production, il est préférable de moins produire de pâtes X et Y et les proportions optimales sont(x , y) =

( 38 ,

38

).


Version générale du théorème de Kuhn-Tucker


Théorème de Kuhn et Tucker, cas général

Soient f , g1, . . . , gm, h1, . . . , hr ∈ C 1(Rn). Soit

K = {x ∈ Rn, |, gi (x) 6 0, i ∈ J1,mK et hj(x) = 0, j ∈ J1, rK}.

Soit x̄ ∈ K tel que (∇gi (x̄))i∈I (x̄)) et (∇hj(x̄))1≤j≤r soient linéairement indépendants.Si f admet en x̄ un minimum local, alors il existe µ1, . . . , µm > 0 et λ1, . . . , λr ∈ R telsque :

∇f (x̄) +m∑i=1

µi∇gi (x̄) +r∑

j=1

λj∇hj(x̄) = 0

µigi (x̄) = 0, i ∈ J1,mK.

Réciproquement, supposons f , g1, . . . , gm, h1, . . . , hr sont convexes et x̄ ∈ K vérifiant lesystème ci-dessus. Si λ1, . . . , λr > 0 ou si toutes les contraintes sont affines alors x̄ est unminimum (global) de f sur K .



Application

Exemple (CC3, 2019)

Résqoudre le problème d’optimisation

infx∈K

f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

; Existence, unicité : la fonction f est continue, car elle est polynomiale donc C2. Sahessienne est 2 I4 ce qui implique (raisonnement usuel à bien détailler) que f est coercive etstrictement convexe. L’ensemble K est convexe (le montrer par exemple en considérantdeux points X et Y de K et en prouvant que si t ∈ [0, 1], tX + (1− t)Y ∈ K) et fermé (àdémontrer par la méthode de votre choix).On en déduit que le problème considéré possède une unique solution.

; Qualification : on a ∇h(x) = (1, 1, 1, 1)> et ∇g(x) = (0, 0, 0, 1)>. La famille de vecteurs(∇h(x),∇g(x)) est donc libre (vérification aisée) et les contraintes sont qualifiées en toutpoint.



Application

Exemple (CC3, 2019)


infx∈K

f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

; Conditions d’optimalité : soit (x1, x2, x3, x4), une solution du problème ci-dessus. D’après lethéorème de Kuhn-Tucker, il existe λ ∈ R et µ ≥ 0 tels que ∇f (x) + λ∇h(x) + µ∇g(x) = 0h(x) = 0, g(x) ≤ 0µg(x) = 0 ⇔

2x1 + λ = 2x2 + λ = 2x3 + λ = 02x4 + λ+ µ = 0x1 + x2 + x3 + x4 = 1 et x4 − α ≤ 0µ(x4 − α) = 0

De plus, puisque f , g et h sont convexes et que les contraintes sont affines, ces conditionssont nécessaires et suffisantes, elles équivalent à l’optimalité (globale) de x .Les trois équations de la première ligne impliquent que x1 = x2 = x3.



Application

Exemple (CC3, 2019)


infx∈K

f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

; Analyse : le système devient

x1 = −λ/22x4 + λ+ µ = 03x1 + x4 = 1 et x4 − α ≤ 0µ(x4 − α) = 0

.

Envisageons deux cas :si µ = 0, alors x4 = −λ/2 = x1 puis x1 = x2 = x3 = x4 = 1/4 et λ = −1/2. Puisquele système ci-dessus est une CNS d’optimalité, il vient que x = (1/4, 1/4, 1/4, 1/4) estoptimal si, et seulement si 1/4 ≤ α.si x4 = α, alors x1 = (1− α)/3, λ = 2(α− 1)/3 et µ = −2α+ 23 (1− α) =

23 (1− 4α).

Puisque le système ci-dessus est une CNS d’optimalité, il vient que((1−α)/3, (1−α)/3, (1−α)/3, α) est optimal si, et seulement si µ ≥ 0, soit α ≤ 1/4.



Application

Exemple (CC3, 2019)


infx∈K

f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

Conclusion

Si α ≤ 1/4, x = ( 14 ,14 ,

14 ,

14 ) et sinon, x = (

1−α3 ,

1−α3 ,

1−α3 , α).



À travailler en autonomie

; Étudier en détail l’exemple II.4.12 du polycopié.


Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

Sommaire






Le principe des méthodes de descente

X Objectif : utiliser l’outil informatique pour déterminer une approximation numériquedes solutions du problème

infx∈Rn

J(x) où J : Rn → R.

X Les algorithmes considérés permettrons de déterminer des minima locaux (lorsqu’ilsexistent) et non les minima globaux.

X Méthodes de descente. Une grande classe d’algorithmes que nous allons considérerpour les problèmes d’optimisation ont la forme générale suivante{

x (0) ∈ Rn donné,calculer x (k+1) = x (k) + ρ(k)d (k),

oùx(k) ∈ Rn est le k-ième itéré de la suite construite ;ρ(k) ∈ R est le pas de la méthode à la k-ième itération ;d (k) ∈ Rn s’appelle la direction de descente à la k-ième itération.

En théorie, on aimerait garantir que

limk→+∞

x (k) = x∗ avec x∗, un minimiseur local de J.

En pratique, on s’arrange presque toujours pour satisfaire l’inégalité

J(x (k+1)) ≤ J(x (k)) (principe des méthodes de descente).



Méthodes de gradient

Le principe

On souhaite résoudre numériquement le problème

infx∈Rn

J(x) avec J : Rn → R,

à l’aide d’un algorithme s’écrivant

choisir x (0) ∈ Rn

calculer x (k+1) = x (k) + ρ(k)d (k)avec d (k) ∈ Rn∗ et ρ(k) > 0.

Choix de la direction de descente d (k).Rappelons que si ρ(k) est assez petit, on a

J(x (k+1)) = J(x (k) + ρ(k)d (k)) = J(x (k)) + ρ(k)∇J(x (k)) · d (k) + o(ρ(k)).

Puisque l’on désire avoir J(x (k+1)) < J(x (k)), on est conduit à choisird (k) = −∇J(x (k)), de sorte que

J(x (k+1))− J(x (k)) = −ρ(k)∥∥∥∇J(x (k))∥∥∥2 + o(ρ(k)).




Choix des critères d’arrêt

Lorsque l’on travaille sur une résolution numérique d’un problème, on se donne en généraldeux critères d’arrêt :

on s’arrête lorsque∥∥∥x (k+1) − x (k)∥∥∥ ≤ ε.

(concrètement, tant que∥∥x(k+1) − x(k)∥∥ > ε, on calcule l’itéré suivant)

puisque la convergence n’est pas toujours assurée, une règle de base est de fixer unnombre maximum d’itérations kmax.




La méthode obtenue avec le choix d (k) = −∇J(x (k)) est appelée méthode du gradient.

poser k = 0choisir x (0)

tant que (∥∥∥x (k+1) − x (k)∥∥∥ ≥ ε) et (k ≤ kmax) faire

calculer d (k) = −∇J(x (k))calculer ρ(k)

poser x (k+1) = x (k) + ρ(k)d (k)

fin tant que

Table – Algorithme du gradient.

Même si ces méthodes sont conceptuellement très simples et qu’elles peuvent être pro-grammées directement, elles sont souvent lentes dans la pratique.

; Gradient à pas fixe/constant : on choisit ρ(k) = ρ pour tout k, avec ρ assez petit.




Cas des fonctions quadratiques

Soit la fonction quadratique

J : Rn −→ Rx 7−→ f (x) = 12 〈Ax , x〉 − 〈b, x〉+ c,

avec A ∈ Sn(R), b ∈ Rn et c ∈ R. Rappelons que ∇J(x) = Ax − b.; Gradient à pas fixe : on choisit ρ(k) = ρ (indépendant de k)

Supposons que la matrice A est symétrique définie positive. La méthode de gradientà pas fixe est convergente, sous réserve que le pas de descente ρ vérifie

0 < ρ <2

λmax,

avec λmax la plus grande valeur propre de A.Voir la Prop. II.5.2 pour un résultat plus complet.



Un exemple numérique

Minimisation d’une fonction quadratique

Comparaison des methodes de gradient a pas fixe (vert) et optimal (jaune)

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2


Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

Sommaire






La méthode du gradient projeté

On cherche à résoudre numériquement le problème

infx∈C

J(x) avec J : Rn → R de classe C 1

et C ⊂ Rn, un ensemble de contraintes.

X Dans le cas sans contrainte, l’algorithme du gradient est une méthode de descentes’écrivant sous la forme générique.{

x (0) ∈ Rn donné.x (k+1) = x (k) + ρ(k)d(k),

où d(k) ∈ Rn \ {0} est la direction de descente, ρ(k) ∈ R+∗ est le pas à l’itération k.Ces deux paramètres sont choisis de sorte que

J(x (k+1)

)6 J

(x (k)).

X Problème numérique : lorsque l’on minimise sur un ensemble de contraintes C , iln’est pas sûr que x (k) reste sur C . Il est donc nécessaire de se ramener sur C .On réalise cette dernière opération grâce à une projection sur C .





infx∈C



Rappels sur la notion de projection

Soit C , un convexe fermé d’un espace vectoriel H dedimension finie (ou plus généralement, un espace deHilbert)

Soit x ∈ H. Il existe un unique élément de C notépC (x), appelé projection de x sur C qui résout leproblème

infy∈C‖x − y‖.

pC (x) est caractérisé de façon unique par lesconditions :

pC (x) ∈ C et 〈x − pC (x), y − pC (x)〉 ≤ 0, ∀y ∈ C .





infx∈C



Exemples de projections

Exemple 1 : si C = {(x1, ..., xn) , ai ≤ xi ≤ bi , i ∈ {1, . . . n}}, alors pouri ∈ {1, . . . , n},

i-ème composante de pC (x1, . . . , xn) = min{max{xi , ai}, bi}.

Exemple 2 : si C = {x ∈ Rn | x ∈ Bf (x0,R)}, où Bf (x0,R) est la boule euclidiennefermée de centre x0 et rayon R, alors

pCx =

{x , si x ∈ C ;x0 + R

x−x0‖x−x0‖ , si x /∈ C

.





infx∈C



On suppose que C est un convexe fermé de Rn.

Algorithme du gradient projeté

1 Initialisation.k = 0 : on choisit x0 ∈ Rn et ρ0 ∈ R∗+.

2 Itération k.

xk+1 = pC(xk − ρk∇J(xk)

).

pC désigne ici la projection sur C





infx∈C




On résout

inf(x,y)∈Q

2x2 + 3xy + 2y2,

avec Q ={x ≤ − 12 , y ≤ −

12

}, à l’aide

d’une méthode de gradient projeté àpas constant.

pas = 1e − 4. Le gradient converge(erreur < 1e − 8) en 8 iterations.





infx∈C







infx∈C




Suite des itérés (∗ sur le dessin)obtenus par Python :-0.6000 0.2000-0.5998 -0.5000-0.5994 -0.5000-0.5989 -0.5000-0.5985 -0.5000-0.5980 -0.5000-0.5974 -0.5000-0.5000 -0.5000-0.5000 -0.5000


Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d'optimalité sous contraintes d'inégalitéContraintes actives, contraintes qualifiées

Version générale du théorème de Kuhn-TuckerAlgorithmes pour l'optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté

irma, univ. strasbourgirma.math.unistra.fr/~privat/documents/l3-onl/seance12... · 2020. 11....

Documents