irma, univ. strasbourgirma.math.unistra.fr/~privat/documents/l3-onl/seance12... · 2020. 11....
Post on 31-Jan-2021
1 Views
Preview:
TRANSCRIPT
-
Optimisation Non Linéaire
Yannick Privat
IRMA, univ. Strasbourg
Cours du 12/11/2020Théorème de Kuhn-Tucker, algorithmes
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 1 / 18
-
Plan
1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées
2 Version générale du théorème de Kuhn-Tucker
3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 2 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Sommaire
1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées
2 Version générale du théorème de Kuhn-Tucker
3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 3 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Rappels sur le théorème des extrema liés
Théorème (extrema liés)
Soient f ∈ C 1(Rn) et gi ∈ C 1(Rn) pour tout 1 6 i 6 m. On considère l’ensemble :
K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) = 0} .
Soit x̄ ∈ K tel que
les vecteurs ∇gi (x̄) sont linéairement indépendants (contraintes qualifiées en x̄).
Si la fonction f admet un minimum local en x̄ sur K , alors il existe λ1, . . . , λm ∈ R, telsque :
∇f (x̄) +m∑i=1
λi∇gi (x̄) = 0.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Rappels sur le théorème des extrema liés
Réciproque du théorème des extrema liés
Soient f ∈ C 1(Rn) et gi ∈ C 1(Rn) convexes pour tout 1 6 i 6 m. Soit x̄ ∈ K vérifiantles conditions de Lagrange du théorème précédent. Si pour tout i ∈ J1,mK, l’une des deuxconditions est vérifiée :
; le multiplicateur de Lagrange λi est positif,
; la fonction (gi ) est linéaire,
alors x̄ minimise globalement f sur K .
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Rappels sur le théorème des extrema liés
On introduit le Lagrangien : pour (x , λ) ∈ Rn × Rm, on définit
L (x , λ) = f (x) +m∑i=1
λigi (x).
Proposition (reformulation du théorème des extrema liés)
x̄ vérifie les conditions d’Euler-Lagrange avec multiplicateur de Lagrange λ̄ si, etseulement si (x̄ , λ̄) est un point critique de L :
∇xL (x̄ , λ̄) = 0 (∇f (x̄)+∑mi=1 λi∇gi (x̄)=0)∇λL (x̄ , λ̄) = 0 (g(x)=0)
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Rappels sur le théorème des extrema liés
Exemple (CC3, 2018)
Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :
C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.
où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure. En supposant quel’entreprise tourne à plein régime, déterminer x et y maximisant le profit.
Le profit est donné par
P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000
P étant C∞, on peut étudier sa convexité à l’aide de sa hessienne.
On a hessP(x , y) =(−10 22 −10
). De plus, étant symétrique réelle, la matrice hessP est diago-
nalisable de valeurs propres λ1 et λ2 telles que{λ1 + λ2 = Tr(hessP) = −20λ1λ2 = det(hessP) = 96
⇒ λ1 < 0, λ2 < 0⇒ P est donc concave sur R2
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Rappels sur le théorème des extrema liés
Exemple (CC3, 2018)
Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :
C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.
où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure. En supposant quel’entreprise tourne à plein régime, déterminer x et y maximisant le profit.
La contrainte sur la capacité de production s’écrit x + y = 20. On est donc amené à résoudre leproblème d’optimisation sous contrainte
suph(x,y)=0
P(x , y) avec h(x , y) = x + y − 20.
Puisque P est quadratique et concave, −P est coercive (cf. cours), et l’ensemble {(x , y) ∈ R2 |h(x , y) = 0} est un fermé de dimension finie (image réciproque de {0} par h qui est continue).Par conséquent,le problème précédent a une solution.Étudions les conditions d’optimalité. D’après le réciproque du théorème de Kuhn-Tucker, puisqueles contraintes sont linéaires, ce sont des CNS. De plus, pour tout (x , y) ∈ R2, ∇h(x , y) 6= 0, lescontraintes sont qualifiées en tout point.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Rappels sur le théorème des extrema liés
Exemple (CC3, 2018)
Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :
C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.
où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure. En supposant quel’entreprise tourne à plein régime, déterminer x et y maximisant le profit.
CNS d’optimalité. Le théorème des extrema liés fournit alors l’existence de λ ∈ R tel que ∇ −P(x , y) + λ∇h(x , y) = 0, soit 10x − 2y − 3 + λ = 010y − 2x − 3 + λ = 0x + y = 20 ⇐⇒
{x = y = 10λ = −77
On obtient ainsi la répartition optimale de pâtes X et Y à produire et le profit réalisé vautP(10, 10) = 260.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés
Rappels sur le théorème des extrema liés
En théorie, il faudrait également ajouter les contraintes
x > 0, y > 0.
Cependant, puisqu’elles sont naturellement vérifiées à l’optimum, on constate a posterioriqu’il n’était pas nécessaire de les inclure dans le calcul.
Plus précisément, comparons suph(x,y)=0
P(x , y) et suph(x,y)=0x,y>0
P(x , y).
1 On a {(x , y) ∈ (R∗+)2 | h(x , y) = 0} ⊂ {(x , y) ∈ R2 | h(x , y) = 0} et doncsup
h(x,y)=0x,y>0
P(x , y) ≤ suph(x,y)=0
P(x , y) (par inclusion des ensembles)
2 De plus, le problème suph(x,y)=0 P(x , y) a une solution (x∗, y∗) = (10, 10) telle que
x∗ > 0 et y∗ > 0. Par conséquent,
suph(x,y)=0
P(x , y) = P(x∗, y∗) ≤ suph(x,y)=0x,y>0
P(x , y) (par définition du sup)
Finalement, le problème suph(x,y)=0x,y>0
P(x , y) a pour solution (x∗, y∗).
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Conditions d’optimalité sous contraintes d’inégalité
Sommaire
1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées
2 Version générale du théorème de Kuhn-Tucker
3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 5 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Conditions d’optimalité sous contraintes d’inégalité
Objectif
On souhaite résoudre des problèmes du type
infh(x)=0g(x)≤0
f (x)
avecf : Rn → R, h : Rn → Rp, g : Rn → Rm
On commence par s’intéresser au sous-problème suivant :
infg(x)≤0
f (x)
avecf : Rn → R, g : Rn → Rm
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 6 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées
Sommaire
1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées
2 Version générale du théorème de Kuhn-Tucker
3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 7 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées
Contraintes actives, contraintes qualifiées
Soit gi ∈ C 1(Rn) avec 1 6 i 6 m. On considère l’ensemble :
K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .
Définition : contraintes qualifiées
; L’ensemble des contraintes actives en x̄ ∈ K est
I (x̄) = ensemble des indices t.q. l’inégalité est une égalité = {i ∈ J1,mK, gi (x̄) = 0}.
; Les contraintes sont dites qualifiées en x̄ ∈ K si
∃z ∈ Rn, ∀i ∈ I (x̄),
{(∇gi (x̄), z) 6 0 si gi est affine(∇gi (x̄), z) < 0 si gi n’est pas affine
; Cela implique qu’il existe une direction z ∈ Rn
dans laquelle toutes les fonctions (gi ) (aveci ∈ I (x̄)) sont décroissantes. Donc on restelocalement dans K , i.e. x̄ + εz ∈ K si ε > 0 estassez petit.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 8 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées
Contraintes actives, contraintes qualifiées
Soit gi ∈ C 1(Rn) avec 1 6 i 6 m. On considère l’ensemble :
K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .
Théorème de Kuhn et Tucker
Soient f , g1, . . . , gm ∈ C 1(Rn) et x̄ ∈ K tel que les contraintes sont qualifiées en x̄ .Si f admet en x̄ un minimum local, alors il existe λ1, . . . , λm > 0 tels que :
∇f (x̄) +m∑i=1
λi∇gi (x̄) = 0 et ∀i ∈ J1,mK λigi (x̄) = 0.
Condition de complémentarité
La condition λigi (x̄) = 0 est appelée condition de com-plémentarité.Dans le cas m = 1, soit la contrainte est active(g1(x̄) = 0) et on se trouve sur le bord de l’ensemble descontraintes (théorème des multiplicateurs de Lagrangeavec λ1 pouvant être non nul), soit la contrainte n’estpas active (g1(x̄) < 0, λ1 = 0) et on retrouve l’équationd’Euler.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 8 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées
Contraintes actives, contraintes qualifiées
Soit gi ∈ C 1(Rn) avec 1 6 i 6 m. On considère l’ensemble :
K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .
Réciproque du théorème de Kuhn et Tucker
Soient f , g1, · · · , gm de classe C 1(Rn) et convexes. S’il existe x̄ et λ1, . . . , λm > 0 vérifiantles conditions de Kuhn et Tucker (en bleu dans l’énoncé du th. de KT), alors x̄ est unminimum (global) de f sur K .
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 8 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées
Exemple (CC3, 2018)
Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :
C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.
où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure au maximum. Le conseild’administration de l’entreprise s’interroge sur la pertinence de vouloir produire à pleine capacité.Il se demande s’il ne peut pas augmenter le profit en produisant autrement. Pouvez-vous aider leconseil d’administration ?
Rappelons que le profit est donné par
P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000
et on a vu que −P est coercive, strictement convexe.Le problème que l’on peut résoudre afin de satisfaire le conseil d’administration devient
infh(x,y)≤0
−P(x , y).
L’existence s’obtient par le même argument que dans le cas d’une contrainte “égalité”.Notons que s’il existe un triplet (x , y , µ) avec µ ≥ 0 et satisfaisant les conditions deKuhn-Tucker, alors c’est nécessairement une solution du problème (CNS d’optimalité).
Étudions les conditions d’optimalité. Le théorème de Kuhn-Tucker fournit l’existence de µ ≥ 0 telque
10x − 2y − 3 = −µ10y − 2x − 3 = −µx + y ≤ 20µ(x + y − 20) = 0
⇔
x = y =3−µ
8x ≤ 10µ(x + y − 20) = 0
⇔
(x , y) = (10, 10) , µ = −77︸ ︷︷ ︸
impossibleou (x , y) =
( 38 ,
38
), µ = 0
Or, P (10, 10) = 260 < P( 38 ,38 ) =
80098 ' 1001.125. En conclusion, compte tenu des coûts de
production, il est préférable de moins produire de pâtes X et Y et les proportions optimales sont(x , y) =
( 38 ,
38
).
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 9 / 18
-
Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées
Exemple (CC3, 2018)
Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :
C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.
où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure au maximum. Le conseild’administration de l’entreprise s’interroge sur la pertinence de vouloir produire à pleine capacité.Il se demande s’il ne peut pas augmenter le profit en produisant autrement. Pouvez-vous aider leconseil d’administration ?
Rappelons que le profit est donné par
P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000
et on a vu que −P est coercive, strictement convexe.Le problème que l’on peut résoudre afin de satisfaire le conseil d’administration devient
infh(x,y)≤0
−P(x , y).
L’existence s’obtient par le même argument que dans le cas d’une contrainte “égalité”.Notons que s’il existe un triplet (x , y , µ) avec µ ≥ 0 et satisfaisant les conditions deKuhn-Tucker, alors c’est nécessairement une solution du problème (CNS d’optimalité).
Étudions les conditions d’optimalité. Le théorème de Kuhn-Tucker fournit l’existence de µ ≥ 0 telque
10x − 2y − 3 = −µ10y − 2x − 3 = −µx + y ≤ 20µ(x + y − 20) = 0
⇔
x = y =3−µ
8x ≤ 10µ(x + y − 20) = 0
⇔
(x , y) = (10, 10) , µ = −77︸ ︷︷ ︸
impossibleou (x , y) =
( 38 ,
38
), µ = 0
Or, P (10, 10) = 260 < P( 38 ,38 ) =
80098 ' 1001.125. En conclusion, compte tenu des coûts de
production, il est préférable de moins produire de pâtes X et Y et les proportions optimales sont(x , y) =
( 38 ,
38
).
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 9 / 18
-
Version générale du théorème de Kuhn-Tucker
Version générale du théorème de Kuhn-Tucker
Théorème de Kuhn et Tucker, cas général
Soient f , g1, . . . , gm, h1, . . . , hr ∈ C 1(Rn). Soit
K = {x ∈ Rn, |, gi (x) 6 0, i ∈ J1,mK et hj(x) = 0, j ∈ J1, rK}.
Soit x̄ ∈ K tel que (∇gi (x̄))i∈I (x̄)) et (∇hj(x̄))1≤j≤r soient linéairement indépendants.Si f admet en x̄ un minimum local, alors il existe µ1, . . . , µm > 0 et λ1, . . . , λr ∈ R telsque :
∇f (x̄) +m∑i=1
µi∇gi (x̄) +r∑
j=1
λj∇hj(x̄) = 0
µigi (x̄) = 0, i ∈ J1,mK.
Réciproquement, supposons f , g1, . . . , gm, h1, . . . , hr sont convexes et x̄ ∈ K vérifiant lesystème ci-dessus. Si λ1, . . . , λr > 0 ou si toutes les contraintes sont affines alors x̄ est unminimum (global) de f sur K .
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 10 / 18
-
Version générale du théorème de Kuhn-Tucker
Application
Exemple (CC3, 2019)
Résqoudre le problème d’optimisation
infx∈K
f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24
et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.
; Existence, unicité : la fonction f est continue, car elle est polynomiale donc C2. Sahessienne est 2 I4 ce qui implique (raisonnement usuel à bien détailler) que f est coercive etstrictement convexe. L’ensemble K est convexe (le montrer par exemple en considérantdeux points X et Y de K et en prouvant que si t ∈ [0, 1], tX + (1− t)Y ∈ K) et fermé (àdémontrer par la méthode de votre choix).On en déduit que le problème considéré possède une unique solution.
; Qualification : on a ∇h(x) = (1, 1, 1, 1)> et ∇g(x) = (0, 0, 0, 1)>. La famille de vecteurs(∇h(x),∇g(x)) est donc libre (vérification aisée) et les contraintes sont qualifiées en toutpoint.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18
-
Version générale du théorème de Kuhn-Tucker
Application
Exemple (CC3, 2019)
Résqoudre le problème d’optimisation
infx∈K
f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24
et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.
; Conditions d’optimalité : soit (x1, x2, x3, x4), une solution du problème ci-dessus. D’après lethéorème de Kuhn-Tucker, il existe λ ∈ R et µ ≥ 0 tels que ∇f (x) + λ∇h(x) + µ∇g(x) = 0h(x) = 0, g(x) ≤ 0µg(x) = 0 ⇔
2x1 + λ = 2x2 + λ = 2x3 + λ = 02x4 + λ+ µ = 0x1 + x2 + x3 + x4 = 1 et x4 − α ≤ 0µ(x4 − α) = 0
De plus, puisque f , g et h sont convexes et que les contraintes sont affines, ces conditionssont nécessaires et suffisantes, elles équivalent à l’optimalité (globale) de x .Les trois équations de la première ligne impliquent que x1 = x2 = x3.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18
-
Version générale du théorème de Kuhn-Tucker
Application
Exemple (CC3, 2019)
Résqoudre le problème d’optimisation
infx∈K
f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24
et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.
; Analyse : le système devient
x1 = −λ/22x4 + λ+ µ = 03x1 + x4 = 1 et x4 − α ≤ 0µ(x4 − α) = 0
.
Envisageons deux cas :si µ = 0, alors x4 = −λ/2 = x1 puis x1 = x2 = x3 = x4 = 1/4 et λ = −1/2. Puisquele système ci-dessus est une CNS d’optimalité, il vient que x = (1/4, 1/4, 1/4, 1/4) estoptimal si, et seulement si 1/4 ≤ α.si x4 = α, alors x1 = (1− α)/3, λ = 2(α− 1)/3 et µ = −2α+ 23 (1− α) =
23 (1− 4α).
Puisque le système ci-dessus est une CNS d’optimalité, il vient que((1−α)/3, (1−α)/3, (1−α)/3, α) est optimal si, et seulement si µ ≥ 0, soit α ≤ 1/4.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18
-
Version générale du théorème de Kuhn-Tucker
Application
Exemple (CC3, 2019)
Résqoudre le problème d’optimisation
infx∈K
f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24
et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.
Conclusion
Si α ≤ 1/4, x = ( 14 ,14 ,
14 ,
14 ) et sinon, x = (
1−α3 ,
1−α3 ,
1−α3 , α).
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18
-
Version générale du théorème de Kuhn-Tucker
À travailler en autonomie
; Étudier en détail l’exemple II.4.12 du polycopié.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 12 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Sommaire
1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées
2 Version générale du théorème de Kuhn-Tucker
3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 13 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Le principe des méthodes de descente
X Objectif : utiliser l’outil informatique pour déterminer une approximation numériquedes solutions du problème
infx∈Rn
J(x) où J : Rn → R.
X Les algorithmes considérés permettrons de déterminer des minima locaux (lorsqu’ilsexistent) et non les minima globaux.
X Méthodes de descente. Une grande classe d’algorithmes que nous allons considérerpour les problèmes d’optimisation ont la forme générale suivante{
x (0) ∈ Rn donné,calculer x (k+1) = x (k) + ρ(k)d (k),
oùx(k) ∈ Rn est le k-ième itéré de la suite construite ;ρ(k) ∈ R est le pas de la méthode à la k-ième itération ;d (k) ∈ Rn s’appelle la direction de descente à la k-ième itération.
En théorie, on aimerait garantir que
limk→+∞
x (k) = x∗ avec x∗, un minimiseur local de J.
En pratique, on s’arrange presque toujours pour satisfaire l’inégalité
J(x (k+1)) ≤ J(x (k)) (principe des méthodes de descente).
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 14 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Le principe des méthodes de descente
X Objectif : utiliser l’outil informatique pour déterminer une approximation numériquedes solutions du problème
infx∈Rn
J(x) où J : Rn → R.
X Les algorithmes considérés permettrons de déterminer des minima locaux (lorsqu’ilsexistent) et non les minima globaux.
X Méthodes de descente. Une grande classe d’algorithmes que nous allons considérerpour les problèmes d’optimisation ont la forme générale suivante{
x (0) ∈ Rn donné,calculer x (k+1) = x (k) + ρ(k)d (k),
oùx(k) ∈ Rn est le k-ième itéré de la suite construite ;ρ(k) ∈ R est le pas de la méthode à la k-ième itération ;d (k) ∈ Rn s’appelle la direction de descente à la k-ième itération.
En théorie, on aimerait garantir que
limk→+∞
x (k) = x∗ avec x∗, un minimiseur local de J.
En pratique, on s’arrange presque toujours pour satisfaire l’inégalité
J(x (k+1)) ≤ J(x (k)) (principe des méthodes de descente).
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 14 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Méthodes de gradient
Le principe
On souhaite résoudre numériquement le problème
infx∈Rn
J(x) avec J : Rn → R,
à l’aide d’un algorithme s’écrivant
choisir x (0) ∈ Rn
calculer x (k+1) = x (k) + ρ(k)d (k)avec d (k) ∈ Rn∗ et ρ(k) > 0.
Choix de la direction de descente d (k).Rappelons que si ρ(k) est assez petit, on a
J(x (k+1)) = J(x (k) + ρ(k)d (k)) = J(x (k)) + ρ(k)∇J(x (k)) · d (k) + o(ρ(k)).
Puisque l’on désire avoir J(x (k+1)) < J(x (k)), on est conduit à choisird (k) = −∇J(x (k)), de sorte que
J(x (k+1))− J(x (k)) = −ρ(k)∥∥∥∇J(x (k))∥∥∥2 + o(ρ(k)).
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Méthodes de gradient
Choix des critères d’arrêt
Lorsque l’on travaille sur une résolution numérique d’un problème, on se donne en généraldeux critères d’arrêt :
on s’arrête lorsque∥∥∥x (k+1) − x (k)∥∥∥ ≤ ε.
(concrètement, tant que∥∥x(k+1) − x(k)∥∥ > ε, on calcule l’itéré suivant)
puisque la convergence n’est pas toujours assurée, une règle de base est de fixer unnombre maximum d’itérations kmax.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Méthodes de gradient
La méthode obtenue avec le choix d (k) = −∇J(x (k)) est appelée méthode du gradient.
poser k = 0choisir x (0)
tant que (∥∥∥x (k+1) − x (k)∥∥∥ ≥ ε) et (k ≤ kmax) faire
calculer d (k) = −∇J(x (k))calculer ρ(k)
poser x (k+1) = x (k) + ρ(k)d (k)
fin tant que
Table – Algorithme du gradient.
Même si ces méthodes sont conceptuellement très simples et qu’elles peuvent être pro-grammées directement, elles sont souvent lentes dans la pratique.
; Gradient à pas fixe/constant : on choisit ρ(k) = ρ pour tout k, avec ρ assez petit.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Méthodes de gradient
Cas des fonctions quadratiques
Soit la fonction quadratique
J : Rn −→ Rx 7−→ f (x) = 12 〈Ax , x〉 − 〈b, x〉+ c,
avec A ∈ Sn(R), b ∈ Rn et c ∈ R. Rappelons que ∇J(x) = Ax − b.; Gradient à pas fixe : on choisit ρ(k) = ρ (indépendant de k)
Supposons que la matrice A est symétrique définie positive. La méthode de gradientà pas fixe est convergente, sous réserve que le pas de descente ρ vérifie
0 < ρ <2
λmax,
avec λmax la plus grande valeur propre de A.Voir la Prop. II.5.2 pour un résultat plus complet.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe
Un exemple numérique
Minimisation d’une fonction quadratique
Comparaison des methodes de gradient a pas fixe (vert) et optimal (jaune)
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 16 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
Sommaire
1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées
2 Version générale du théorème de Kuhn-Tucker
3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 17 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
La méthode du gradient projeté
On cherche à résoudre numériquement le problème
infx∈C
J(x) avec J : Rn → R de classe C 1
et C ⊂ Rn, un ensemble de contraintes.
X Dans le cas sans contrainte, l’algorithme du gradient est une méthode de descentes’écrivant sous la forme générique.{
x (0) ∈ Rn donné.x (k+1) = x (k) + ρ(k)d(k),
où d(k) ∈ Rn \ {0} est la direction de descente, ρ(k) ∈ R+∗ est le pas à l’itération k.Ces deux paramètres sont choisis de sorte que
J(x (k+1)
)6 J
(x (k)).
X Problème numérique : lorsque l’on minimise sur un ensemble de contraintes C , iln’est pas sûr que x (k) reste sur C . Il est donc nécessaire de se ramener sur C .On réalise cette dernière opération grâce à une projection sur C .
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
La méthode du gradient projeté
On cherche à résoudre numériquement le problème
infx∈C
J(x) avec J : Rn → R de classe C 1
et C ⊂ Rn, un ensemble de contraintes.
Rappels sur la notion de projection
Soit C , un convexe fermé d’un espace vectoriel H dedimension finie (ou plus généralement, un espace deHilbert)
Soit x ∈ H. Il existe un unique élément de C notépC (x), appelé projection de x sur C qui résout leproblème
infy∈C‖x − y‖.
pC (x) est caractérisé de façon unique par lesconditions :
pC (x) ∈ C et 〈x − pC (x), y − pC (x)〉 ≤ 0, ∀y ∈ C .
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
La méthode du gradient projeté
On cherche à résoudre numériquement le problème
infx∈C
J(x) avec J : Rn → R de classe C 1
et C ⊂ Rn, un ensemble de contraintes.
Exemples de projections
Exemple 1 : si C = {(x1, ..., xn) , ai ≤ xi ≤ bi , i ∈ {1, . . . n}}, alors pouri ∈ {1, . . . , n},
i-ème composante de pC (x1, . . . , xn) = min{max{xi , ai}, bi}.
Exemple 2 : si C = {x ∈ Rn | x ∈ Bf (x0,R)}, où Bf (x0,R) est la boule euclidiennefermée de centre x0 et rayon R, alors
pCx =
{x , si x ∈ C ;x0 + R
x−x0‖x−x0‖ , si x /∈ C
.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
La méthode du gradient projeté
On cherche à résoudre numériquement le problème
infx∈C
J(x) avec J : Rn → R de classe C 1
et C ⊂ Rn, un ensemble de contraintes.
On suppose que C est un convexe fermé de Rn.
Algorithme du gradient projeté
1 Initialisation.k = 0 : on choisit x0 ∈ Rn et ρ0 ∈ R∗+.
2 Itération k.
xk+1 = pC(xk − ρk∇J(xk)
).
pC désigne ici la projection sur C
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
La méthode du gradient projeté
On cherche à résoudre numériquement le problème
infx∈C
J(x) avec J : Rn → R de classe C 1
et C ⊂ Rn, un ensemble de contraintes.
Un exemple numérique
On résout
inf(x,y)∈Q
2x2 + 3xy + 2y2,
avec Q ={x ≤ − 12 , y ≤ −
12
}, à l’aide
d’une méthode de gradient projeté àpas constant.
pas = 1e − 4. Le gradient converge(erreur < 1e − 8) en 8 iterations.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
La méthode du gradient projeté
On cherche à résoudre numériquement le problème
infx∈C
J(x) avec J : Rn → R de classe C 1
et C ⊂ Rn, un ensemble de contraintes.
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18
-
Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté
La méthode du gradient projeté
On cherche à résoudre numériquement le problème
infx∈C
J(x) avec J : Rn → R de classe C 1
et C ⊂ Rn, un ensemble de contraintes.
Un exemple numérique
Suite des itérés (∗ sur le dessin)obtenus par Python :-0.6000 0.2000-0.5998 -0.5000-0.5994 -0.5000-0.5989 -0.5000-0.5985 -0.5000-0.5980 -0.5000-0.5974 -0.5000-0.5000 -0.5000-0.5000 -0.5000
Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18
Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d'optimalité sous contraintes d'inégalitéContraintes actives, contraintes qualifiées
Version générale du théorème de Kuhn-TuckerAlgorithmes pour l'optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté
top related