irma, univ. strasbourgirma.math.unistra.fr/~privat/documents/l3-onl/seance12... · 2020. 11....

40
Optimisation Non Linéaire Yannick Privat IRMA, univ. Strasbourg Cours du 12/11/2020 Théorème de Kuhn-Tucker, algorithmes Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 1 / 18

Upload: others

Post on 31-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Optimisation Non Linéaire

    Yannick Privat

    IRMA, univ. Strasbourg

    Cours du 12/11/2020Théorème de Kuhn-Tucker, algorithmes

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 1 / 18

  • Plan

    1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées

    2 Version générale du théorème de Kuhn-Tucker

    3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 2 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Sommaire

    1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées

    2 Version générale du théorème de Kuhn-Tucker

    3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 3 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Rappels sur le théorème des extrema liés

    Théorème (extrema liés)

    Soient f ∈ C 1(Rn) et gi ∈ C 1(Rn) pour tout 1 6 i 6 m. On considère l’ensemble :

    K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) = 0} .

    Soit x̄ ∈ K tel que

    les vecteurs ∇gi (x̄) sont linéairement indépendants (contraintes qualifiées en x̄).

    Si la fonction f admet un minimum local en x̄ sur K , alors il existe λ1, . . . , λm ∈ R, telsque :

    ∇f (x̄) +m∑i=1

    λi∇gi (x̄) = 0.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Rappels sur le théorème des extrema liés

    Réciproque du théorème des extrema liés

    Soient f ∈ C 1(Rn) et gi ∈ C 1(Rn) convexes pour tout 1 6 i 6 m. Soit x̄ ∈ K vérifiantles conditions de Lagrange du théorème précédent. Si pour tout i ∈ J1,mK, l’une des deuxconditions est vérifiée :

    ; le multiplicateur de Lagrange λi est positif,

    ; la fonction (gi ) est linéaire,

    alors x̄ minimise globalement f sur K .

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Rappels sur le théorème des extrema liés

    On introduit le Lagrangien : pour (x , λ) ∈ Rn × Rm, on définit

    L (x , λ) = f (x) +m∑i=1

    λigi (x).

    Proposition (reformulation du théorème des extrema liés)

    x̄ vérifie les conditions d’Euler-Lagrange avec multiplicateur de Lagrange λ̄ si, etseulement si (x̄ , λ̄) est un point critique de L :

    ∇xL (x̄ , λ̄) = 0 (∇f (x̄)+∑mi=1 λi∇gi (x̄)=0)∇λL (x̄ , λ̄) = 0 (g(x)=0)

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Rappels sur le théorème des extrema liés

    Exemple (CC3, 2018)

    Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :

    C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.

    où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure. En supposant quel’entreprise tourne à plein régime, déterminer x et y maximisant le profit.

    Le profit est donné par

    P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000

    P étant C∞, on peut étudier sa convexité à l’aide de sa hessienne.

    On a hessP(x , y) =(−10 22 −10

    ). De plus, étant symétrique réelle, la matrice hessP est diago-

    nalisable de valeurs propres λ1 et λ2 telles que{λ1 + λ2 = Tr(hessP) = −20λ1λ2 = det(hessP) = 96

    ⇒ λ1 < 0, λ2 < 0⇒ P est donc concave sur R2

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Rappels sur le théorème des extrema liés

    Exemple (CC3, 2018)

    Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :

    C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.

    où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure. En supposant quel’entreprise tourne à plein régime, déterminer x et y maximisant le profit.

    La contrainte sur la capacité de production s’écrit x + y = 20. On est donc amené à résoudre leproblème d’optimisation sous contrainte

    suph(x,y)=0

    P(x , y) avec h(x , y) = x + y − 20.

    Puisque P est quadratique et concave, −P est coercive (cf. cours), et l’ensemble {(x , y) ∈ R2 |h(x , y) = 0} est un fermé de dimension finie (image réciproque de {0} par h qui est continue).Par conséquent,le problème précédent a une solution.Étudions les conditions d’optimalité. D’après le réciproque du théorème de Kuhn-Tucker, puisqueles contraintes sont linéaires, ce sont des CNS. De plus, pour tout (x , y) ∈ R2, ∇h(x , y) 6= 0, lescontraintes sont qualifiées en tout point.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Rappels sur le théorème des extrema liés

    Exemple (CC3, 2018)

    Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :

    C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.

    où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure. En supposant quel’entreprise tourne à plein régime, déterminer x et y maximisant le profit.

    CNS d’optimalité. Le théorème des extrema liés fournit alors l’existence de λ ∈ R tel que ∇ −P(x , y) + λ∇h(x , y) = 0, soit 10x − 2y − 3 + λ = 010y − 2x − 3 + λ = 0x + y = 20 ⇐⇒

    {x = y = 10λ = −77

    On obtient ainsi la répartition optimale de pâtes X et Y à produire et le profit réalisé vautP(10, 10) = 260.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Le théorème des extrema liés

    Rappels sur le théorème des extrema liés

    En théorie, il faudrait également ajouter les contraintes

    x > 0, y > 0.

    Cependant, puisqu’elles sont naturellement vérifiées à l’optimum, on constate a posterioriqu’il n’était pas nécessaire de les inclure dans le calcul.

    Plus précisément, comparons suph(x,y)=0

    P(x , y) et suph(x,y)=0x,y>0

    P(x , y).

    1 On a {(x , y) ∈ (R∗+)2 | h(x , y) = 0} ⊂ {(x , y) ∈ R2 | h(x , y) = 0} et doncsup

    h(x,y)=0x,y>0

    P(x , y) ≤ suph(x,y)=0

    P(x , y) (par inclusion des ensembles)

    2 De plus, le problème suph(x,y)=0 P(x , y) a une solution (x∗, y∗) = (10, 10) telle que

    x∗ > 0 et y∗ > 0. Par conséquent,

    suph(x,y)=0

    P(x , y) = P(x∗, y∗) ≤ suph(x,y)=0x,y>0

    P(x , y) (par définition du sup)

    Finalement, le problème suph(x,y)=0x,y>0

    P(x , y) a pour solution (x∗, y∗).

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 4 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Conditions d’optimalité sous contraintes d’inégalité

    Sommaire

    1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées

    2 Version générale du théorème de Kuhn-Tucker

    3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 5 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Conditions d’optimalité sous contraintes d’inégalité

    Objectif

    On souhaite résoudre des problèmes du type

    infh(x)=0g(x)≤0

    f (x)

    avecf : Rn → R, h : Rn → Rp, g : Rn → Rm

    On commence par s’intéresser au sous-problème suivant :

    infg(x)≤0

    f (x)

    avecf : Rn → R, g : Rn → Rm

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 6 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées

    Sommaire

    1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées

    2 Version générale du théorème de Kuhn-Tucker

    3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 7 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées

    Contraintes actives, contraintes qualifiées

    Soit gi ∈ C 1(Rn) avec 1 6 i 6 m. On considère l’ensemble :

    K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .

    Définition : contraintes qualifiées

    ; L’ensemble des contraintes actives en x̄ ∈ K est

    I (x̄) = ensemble des indices t.q. l’inégalité est une égalité = {i ∈ J1,mK, gi (x̄) = 0}.

    ; Les contraintes sont dites qualifiées en x̄ ∈ K si

    ∃z ∈ Rn, ∀i ∈ I (x̄),

    {(∇gi (x̄), z) 6 0 si gi est affine(∇gi (x̄), z) < 0 si gi n’est pas affine

    ; Cela implique qu’il existe une direction z ∈ Rn

    dans laquelle toutes les fonctions (gi ) (aveci ∈ I (x̄)) sont décroissantes. Donc on restelocalement dans K , i.e. x̄ + εz ∈ K si ε > 0 estassez petit.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 8 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées

    Contraintes actives, contraintes qualifiées

    Soit gi ∈ C 1(Rn) avec 1 6 i 6 m. On considère l’ensemble :

    K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .

    Théorème de Kuhn et Tucker

    Soient f , g1, . . . , gm ∈ C 1(Rn) et x̄ ∈ K tel que les contraintes sont qualifiées en x̄ .Si f admet en x̄ un minimum local, alors il existe λ1, . . . , λm > 0 tels que :

    ∇f (x̄) +m∑i=1

    λi∇gi (x̄) = 0 et ∀i ∈ J1,mK λigi (x̄) = 0.

    Condition de complémentarité

    La condition λigi (x̄) = 0 est appelée condition de com-plémentarité.Dans le cas m = 1, soit la contrainte est active(g1(x̄) = 0) et on se trouve sur le bord de l’ensemble descontraintes (théorème des multiplicateurs de Lagrangeavec λ1 pouvant être non nul), soit la contrainte n’estpas active (g1(x̄) < 0, λ1 = 0) et on retrouve l’équationd’Euler.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 8 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées

    Contraintes actives, contraintes qualifiées

    Soit gi ∈ C 1(Rn) avec 1 6 i 6 m. On considère l’ensemble :

    K = {x ∈ Rn, ∀i ∈ J1,mK, gi (x) 6 0} .

    Réciproque du théorème de Kuhn et Tucker

    Soient f , g1, · · · , gm de classe C 1(Rn) et convexes. S’il existe x̄ et λ1, . . . , λm > 0 vérifiantles conditions de Kuhn et Tucker (en bleu dans l’énoncé du th. de KT), alors x̄ est unminimum (global) de f sur K .

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 8 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées

    Exemple (CC3, 2018)

    Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :

    C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.

    où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure au maximum. Le conseild’administration de l’entreprise s’interroge sur la pertinence de vouloir produire à pleine capacité.Il se demande s’il ne peut pas augmenter le profit en produisant autrement. Pouvez-vous aider leconseil d’administration ?

    Rappelons que le profit est donné par

    P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000

    et on a vu que −P est coercive, strictement convexe.Le problème que l’on peut résoudre afin de satisfaire le conseil d’administration devient

    infh(x,y)≤0

    −P(x , y).

    L’existence s’obtient par le même argument que dans le cas d’une contrainte “égalité”.Notons que s’il existe un triplet (x , y , µ) avec µ ≥ 0 et satisfaisant les conditions deKuhn-Tucker, alors c’est nécessairement une solution du problème (CNS d’optimalité).

    Étudions les conditions d’optimalité. Le théorème de Kuhn-Tucker fournit l’existence de µ ≥ 0 telque

    10x − 2y − 3 = −µ10y − 2x − 3 = −µx + y ≤ 20µ(x + y − 20) = 0

    x = y =3−µ

    8x ≤ 10µ(x + y − 20) = 0

    (x , y) = (10, 10) , µ = −77︸ ︷︷ ︸

    impossibleou (x , y) =

    ( 38 ,

    38

    ), µ = 0

    Or, P (10, 10) = 260 < P( 38 ,38 ) =

    80098 ' 1001.125. En conclusion, compte tenu des coûts de

    production, il est préférable de moins produire de pâtes X et Y et les proportions optimales sont(x , y) =

    ( 38 ,

    38

    ).

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 9 / 18

  • Rappels sur le théorème des extrema liés et le théorème deKuhn-Tucker Contraintes actives, contraintes qualifiées

    Exemple (CC3, 2018)

    Une entreprise fabrique deux types de pâtes appelés X et Y . Les pâtes de type X sont plusabordables et se vendent à 1 e par kilogramme. Quant aux pâtes de type Y , elles se vendent à 3e par kilogramme. Le coût de fabrication, exprimé en e, est donné par la fonction suivante :

    C(x , y) = 5x2 + 5y2 − 2xy − 2x − 1000.

    où x est la quantité (en kg) de pâtes de type X et y est la quantité (en kg) de pâtes de type Y .On suppose que les pâtes fabriquées sont toutes écoulées sur le marché.La capacité de production de l’entreprise est au total de 20 kg par heure au maximum. Le conseild’administration de l’entreprise s’interroge sur la pertinence de vouloir produire à pleine capacité.Il se demande s’il ne peut pas augmenter le profit en produisant autrement. Pouvez-vous aider leconseil d’administration ?

    Rappelons que le profit est donné par

    P(x , y) =x + 3y − C(x , y) = −5x2 − 5y2 + 2xy + 3x + 3y − 1000

    et on a vu que −P est coercive, strictement convexe.Le problème que l’on peut résoudre afin de satisfaire le conseil d’administration devient

    infh(x,y)≤0

    −P(x , y).

    L’existence s’obtient par le même argument que dans le cas d’une contrainte “égalité”.Notons que s’il existe un triplet (x , y , µ) avec µ ≥ 0 et satisfaisant les conditions deKuhn-Tucker, alors c’est nécessairement une solution du problème (CNS d’optimalité).

    Étudions les conditions d’optimalité. Le théorème de Kuhn-Tucker fournit l’existence de µ ≥ 0 telque

    10x − 2y − 3 = −µ10y − 2x − 3 = −µx + y ≤ 20µ(x + y − 20) = 0

    x = y =3−µ

    8x ≤ 10µ(x + y − 20) = 0

    (x , y) = (10, 10) , µ = −77︸ ︷︷ ︸

    impossibleou (x , y) =

    ( 38 ,

    38

    ), µ = 0

    Or, P (10, 10) = 260 < P( 38 ,38 ) =

    80098 ' 1001.125. En conclusion, compte tenu des coûts de

    production, il est préférable de moins produire de pâtes X et Y et les proportions optimales sont(x , y) =

    ( 38 ,

    38

    ).

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 9 / 18

  • Version générale du théorème de Kuhn-Tucker

    Version générale du théorème de Kuhn-Tucker

    Théorème de Kuhn et Tucker, cas général

    Soient f , g1, . . . , gm, h1, . . . , hr ∈ C 1(Rn). Soit

    K = {x ∈ Rn, |, gi (x) 6 0, i ∈ J1,mK et hj(x) = 0, j ∈ J1, rK}.

    Soit x̄ ∈ K tel que (∇gi (x̄))i∈I (x̄)) et (∇hj(x̄))1≤j≤r soient linéairement indépendants.Si f admet en x̄ un minimum local, alors il existe µ1, . . . , µm > 0 et λ1, . . . , λr ∈ R telsque :

    ∇f (x̄) +m∑i=1

    µi∇gi (x̄) +r∑

    j=1

    λj∇hj(x̄) = 0

    µigi (x̄) = 0, i ∈ J1,mK.

    Réciproquement, supposons f , g1, . . . , gm, h1, . . . , hr sont convexes et x̄ ∈ K vérifiant lesystème ci-dessus. Si λ1, . . . , λr > 0 ou si toutes les contraintes sont affines alors x̄ est unminimum (global) de f sur K .

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 10 / 18

  • Version générale du théorème de Kuhn-Tucker

    Application

    Exemple (CC3, 2019)

    Résqoudre le problème d’optimisation

    infx∈K

    f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

    et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

    ; Existence, unicité : la fonction f est continue, car elle est polynomiale donc C2. Sahessienne est 2 I4 ce qui implique (raisonnement usuel à bien détailler) que f est coercive etstrictement convexe. L’ensemble K est convexe (le montrer par exemple en considérantdeux points X et Y de K et en prouvant que si t ∈ [0, 1], tX + (1− t)Y ∈ K) et fermé (àdémontrer par la méthode de votre choix).On en déduit que le problème considéré possède une unique solution.

    ; Qualification : on a ∇h(x) = (1, 1, 1, 1)> et ∇g(x) = (0, 0, 0, 1)>. La famille de vecteurs(∇h(x),∇g(x)) est donc libre (vérification aisée) et les contraintes sont qualifiées en toutpoint.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18

  • Version générale du théorème de Kuhn-Tucker

    Application

    Exemple (CC3, 2019)

    Résqoudre le problème d’optimisation

    infx∈K

    f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

    et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

    ; Conditions d’optimalité : soit (x1, x2, x3, x4), une solution du problème ci-dessus. D’après lethéorème de Kuhn-Tucker, il existe λ ∈ R et µ ≥ 0 tels que ∇f (x) + λ∇h(x) + µ∇g(x) = 0h(x) = 0, g(x) ≤ 0µg(x) = 0 ⇔

    2x1 + λ = 2x2 + λ = 2x3 + λ = 02x4 + λ+ µ = 0x1 + x2 + x3 + x4 = 1 et x4 − α ≤ 0µ(x4 − α) = 0

    De plus, puisque f , g et h sont convexes et que les contraintes sont affines, ces conditionssont nécessaires et suffisantes, elles équivalent à l’optimalité (globale) de x .Les trois équations de la première ligne impliquent que x1 = x2 = x3.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18

  • Version générale du théorème de Kuhn-Tucker

    Application

    Exemple (CC3, 2019)

    Résqoudre le problème d’optimisation

    infx∈K

    f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

    et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

    ; Analyse : le système devient

    x1 = −λ/22x4 + λ+ µ = 03x1 + x4 = 1 et x4 − α ≤ 0µ(x4 − α) = 0

    .

    Envisageons deux cas :si µ = 0, alors x4 = −λ/2 = x1 puis x1 = x2 = x3 = x4 = 1/4 et λ = −1/2. Puisquele système ci-dessus est une CNS d’optimalité, il vient que x = (1/4, 1/4, 1/4, 1/4) estoptimal si, et seulement si 1/4 ≤ α.si x4 = α, alors x1 = (1− α)/3, λ = 2(α− 1)/3 et µ = −2α+ 23 (1− α) =

    23 (1− 4α).

    Puisque le système ci-dessus est une CNS d’optimalité, il vient que((1−α)/3, (1−α)/3, (1−α)/3, α) est optimal si, et seulement si µ ≥ 0, soit α ≤ 1/4.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18

  • Version générale du théorème de Kuhn-Tucker

    Application

    Exemple (CC3, 2019)

    Résqoudre le problème d’optimisation

    infx∈K

    f (x), avec f : R4 −→ Rx 7−→ x21 + x22 + x23 + x24

    et K = {x ∈ R4 | x1 + x2 + x3 + x4 = 1 et x4 ≤ α}.

    Conclusion

    Si α ≤ 1/4, x = ( 14 ,14 ,

    14 ,

    14 ) et sinon, x = (

    1−α3 ,

    1−α3 ,

    1−α3 , α).

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 11 / 18

  • Version générale du théorème de Kuhn-Tucker

    À travailler en autonomie

    ; Étudier en détail l’exemple II.4.12 du polycopié.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 12 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Sommaire

    1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées

    2 Version générale du théorème de Kuhn-Tucker

    3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 13 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Le principe des méthodes de descente

    X Objectif : utiliser l’outil informatique pour déterminer une approximation numériquedes solutions du problème

    infx∈Rn

    J(x) où J : Rn → R.

    X Les algorithmes considérés permettrons de déterminer des minima locaux (lorsqu’ilsexistent) et non les minima globaux.

    X Méthodes de descente. Une grande classe d’algorithmes que nous allons considérerpour les problèmes d’optimisation ont la forme générale suivante{

    x (0) ∈ Rn donné,calculer x (k+1) = x (k) + ρ(k)d (k),

    oùx(k) ∈ Rn est le k-ième itéré de la suite construite ;ρ(k) ∈ R est le pas de la méthode à la k-ième itération ;d (k) ∈ Rn s’appelle la direction de descente à la k-ième itération.

    En théorie, on aimerait garantir que

    limk→+∞

    x (k) = x∗ avec x∗, un minimiseur local de J.

    En pratique, on s’arrange presque toujours pour satisfaire l’inégalité

    J(x (k+1)) ≤ J(x (k)) (principe des méthodes de descente).

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 14 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Le principe des méthodes de descente

    X Objectif : utiliser l’outil informatique pour déterminer une approximation numériquedes solutions du problème

    infx∈Rn

    J(x) où J : Rn → R.

    X Les algorithmes considérés permettrons de déterminer des minima locaux (lorsqu’ilsexistent) et non les minima globaux.

    X Méthodes de descente. Une grande classe d’algorithmes que nous allons considérerpour les problèmes d’optimisation ont la forme générale suivante{

    x (0) ∈ Rn donné,calculer x (k+1) = x (k) + ρ(k)d (k),

    oùx(k) ∈ Rn est le k-ième itéré de la suite construite ;ρ(k) ∈ R est le pas de la méthode à la k-ième itération ;d (k) ∈ Rn s’appelle la direction de descente à la k-ième itération.

    En théorie, on aimerait garantir que

    limk→+∞

    x (k) = x∗ avec x∗, un minimiseur local de J.

    En pratique, on s’arrange presque toujours pour satisfaire l’inégalité

    J(x (k+1)) ≤ J(x (k)) (principe des méthodes de descente).

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 14 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Méthodes de gradient

    Le principe

    On souhaite résoudre numériquement le problème

    infx∈Rn

    J(x) avec J : Rn → R,

    à l’aide d’un algorithme s’écrivant

    choisir x (0) ∈ Rn

    calculer x (k+1) = x (k) + ρ(k)d (k)avec d (k) ∈ Rn∗ et ρ(k) > 0.

    Choix de la direction de descente d (k).Rappelons que si ρ(k) est assez petit, on a

    J(x (k+1)) = J(x (k) + ρ(k)d (k)) = J(x (k)) + ρ(k)∇J(x (k)) · d (k) + o(ρ(k)).

    Puisque l’on désire avoir J(x (k+1)) < J(x (k)), on est conduit à choisird (k) = −∇J(x (k)), de sorte que

    J(x (k+1))− J(x (k)) = −ρ(k)∥∥∥∇J(x (k))∥∥∥2 + o(ρ(k)).

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Méthodes de gradient

    Choix des critères d’arrêt

    Lorsque l’on travaille sur une résolution numérique d’un problème, on se donne en généraldeux critères d’arrêt :

    on s’arrête lorsque∥∥∥x (k+1) − x (k)∥∥∥ ≤ ε.

    (concrètement, tant que∥∥x(k+1) − x(k)∥∥ > ε, on calcule l’itéré suivant)

    puisque la convergence n’est pas toujours assurée, une règle de base est de fixer unnombre maximum d’itérations kmax.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Méthodes de gradient

    La méthode obtenue avec le choix d (k) = −∇J(x (k)) est appelée méthode du gradient.

    poser k = 0choisir x (0)

    tant que (∥∥∥x (k+1) − x (k)∥∥∥ ≥ ε) et (k ≤ kmax) faire

    calculer d (k) = −∇J(x (k))calculer ρ(k)

    poser x (k+1) = x (k) + ρ(k)d (k)

    fin tant que

    Table – Algorithme du gradient.

    Même si ces méthodes sont conceptuellement très simples et qu’elles peuvent être pro-grammées directement, elles sont souvent lentes dans la pratique.

    ; Gradient à pas fixe/constant : on choisit ρ(k) = ρ pour tout k, avec ρ assez petit.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Méthodes de gradient

    Cas des fonctions quadratiques

    Soit la fonction quadratique

    J : Rn −→ Rx 7−→ f (x) = 12 〈Ax , x〉 − 〈b, x〉+ c,

    avec A ∈ Sn(R), b ∈ Rn et c ∈ R. Rappelons que ∇J(x) = Ax − b.; Gradient à pas fixe : on choisit ρ(k) = ρ (indépendant de k)

    Supposons que la matrice A est symétrique définie positive. La méthode de gradientà pas fixe est convergente, sous réserve que le pas de descente ρ vérifie

    0 < ρ <2

    λmax,

    avec λmax la plus grande valeur propre de A.Voir la Prop. II.5.2 pour un résultat plus complet.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 15 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient à pas fixe

    Un exemple numérique

    Minimisation d’une fonction quadratique

    Comparaison des methodes de gradient a pas fixe (vert) et optimal (jaune)

    −2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

    −1.5

    −1

    −0.5

    0

    0.5

    1

    1.5

    2

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 16 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    Sommaire

    1 Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d’optimalité sous contraintes d’inégalitéContraintes actives, contraintes qualifiées

    2 Version générale du théorème de Kuhn-Tucker

    3 Algorithmes pour l’optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 17 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    La méthode du gradient projeté

    On cherche à résoudre numériquement le problème

    infx∈C

    J(x) avec J : Rn → R de classe C 1

    et C ⊂ Rn, un ensemble de contraintes.

    X Dans le cas sans contrainte, l’algorithme du gradient est une méthode de descentes’écrivant sous la forme générique.{

    x (0) ∈ Rn donné.x (k+1) = x (k) + ρ(k)d(k),

    où d(k) ∈ Rn \ {0} est la direction de descente, ρ(k) ∈ R+∗ est le pas à l’itération k.Ces deux paramètres sont choisis de sorte que

    J(x (k+1)

    )6 J

    (x (k)).

    X Problème numérique : lorsque l’on minimise sur un ensemble de contraintes C , iln’est pas sûr que x (k) reste sur C . Il est donc nécessaire de se ramener sur C .On réalise cette dernière opération grâce à une projection sur C .

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    La méthode du gradient projeté

    On cherche à résoudre numériquement le problème

    infx∈C

    J(x) avec J : Rn → R de classe C 1

    et C ⊂ Rn, un ensemble de contraintes.

    Rappels sur la notion de projection

    Soit C , un convexe fermé d’un espace vectoriel H dedimension finie (ou plus généralement, un espace deHilbert)

    Soit x ∈ H. Il existe un unique élément de C notépC (x), appelé projection de x sur C qui résout leproblème

    infy∈C‖x − y‖.

    pC (x) est caractérisé de façon unique par lesconditions :

    pC (x) ∈ C et 〈x − pC (x), y − pC (x)〉 ≤ 0, ∀y ∈ C .

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    La méthode du gradient projeté

    On cherche à résoudre numériquement le problème

    infx∈C

    J(x) avec J : Rn → R de classe C 1

    et C ⊂ Rn, un ensemble de contraintes.

    Exemples de projections

    Exemple 1 : si C = {(x1, ..., xn) , ai ≤ xi ≤ bi , i ∈ {1, . . . n}}, alors pouri ∈ {1, . . . , n},

    i-ème composante de pC (x1, . . . , xn) = min{max{xi , ai}, bi}.

    Exemple 2 : si C = {x ∈ Rn | x ∈ Bf (x0,R)}, où Bf (x0,R) est la boule euclidiennefermée de centre x0 et rayon R, alors

    pCx =

    {x , si x ∈ C ;x0 + R

    x−x0‖x−x0‖ , si x /∈ C

    .

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    La méthode du gradient projeté

    On cherche à résoudre numériquement le problème

    infx∈C

    J(x) avec J : Rn → R de classe C 1

    et C ⊂ Rn, un ensemble de contraintes.

    On suppose que C est un convexe fermé de Rn.

    Algorithme du gradient projeté

    1 Initialisation.k = 0 : on choisit x0 ∈ Rn et ρ0 ∈ R∗+.

    2 Itération k.

    xk+1 = pC(xk − ρk∇J(xk)

    ).

    pC désigne ici la projection sur C

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    La méthode du gradient projeté

    On cherche à résoudre numériquement le problème

    infx∈C

    J(x) avec J : Rn → R de classe C 1

    et C ⊂ Rn, un ensemble de contraintes.

    Un exemple numérique

    On résout

    inf(x,y)∈Q

    2x2 + 3xy + 2y2,

    avec Q ={x ≤ − 12 , y ≤ −

    12

    }, à l’aide

    d’une méthode de gradient projeté àpas constant.

    pas = 1e − 4. Le gradient converge(erreur < 1e − 8) en 8 iterations.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    La méthode du gradient projeté

    On cherche à résoudre numériquement le problème

    infx∈C

    J(x) avec J : Rn → R de classe C 1

    et C ⊂ Rn, un ensemble de contraintes.

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18

  • Algorithmes pour l’optimisation avec ou sans contraintes La méthode du gradient projeté

    La méthode du gradient projeté

    On cherche à résoudre numériquement le problème

    infx∈C

    J(x) avec J : Rn → R de classe C 1

    et C ⊂ Rn, un ensemble de contraintes.

    Un exemple numérique

    Suite des itérés (∗ sur le dessin)obtenus par Python :-0.6000 0.2000-0.5998 -0.5000-0.5994 -0.5000-0.5989 -0.5000-0.5985 -0.5000-0.5980 -0.5000-0.5974 -0.5000-0.5000 -0.5000-0.5000 -0.5000

    Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 12/11/2020 18 / 18

    Rappels sur le théorème des extrema liés et le théorème de Kuhn-TuckerLe théorème des extrema liésConditions d'optimalité sous contraintes d'inégalitéContraintes actives, contraintes qualifiées

    Version générale du théorème de Kuhn-TuckerAlgorithmes pour l'optimisation avec ou sans contraintesLa méthode du gradient à pas fixeLa méthode du gradient projeté