soutenance 17 avril 2003

Post on 22-Jun-2015

482 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Voici les acétates utilisées lors de la soutenance de ma maitrise en 2003 intitulée: "Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et exploration de solutions" Superviseur: Yoshua Bengio

TRANSCRIPT

Optimisation des réseaux de neurones de grande Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et capacité: étude expérimentale de leur inefficacité et

exploration de solutionsexploration de solutions

Francis Piéraut17 avril 2003

Directeur de recherche: Jean-Jules Brault

Co-directeur de recherche: Yoshua Bengio

Plan de l’exposéPlan de l’exposé

Introduction aux algorithmes d’apprentissage et aux réseaux de neurones

Inefficacité des réseaux de grande capacité (nombre d’erreurs et temps)

Est-ce normal? Les différents problèmes d’optimisation Les différentes solutions/résultats Contributions Travaux futurs Conclusion

Algorithmes d’apprentissageAlgorithmes d’apprentissage

Problématique (exemple marketing ciblé)

Trouver P(ci|x1, x2….) à partir d’exemples

Une solution = Réseaux de Neurones– Aucune connaissance a priori sur la distribution

sortie z

cible t t1 tk

y1

xi xD

y2 yj yN

wjk

wij x1

Réseaux de neurones et notion de capacité

P(c1|x1,x2…) P(ck|x1,x2…)

z1 zk

= Neurone

= Sigmoïde

= Fonction linéaire

= Connexion

Interprétation en terme de Interprétation en terme de plans séparateursplans séparateurs

1 2 3 4 5 6

6

5

4

3

2

1

x1

x2

Comportement attendu en Comportement attendu en fonction de la capacitéfonction de la capacité

ContexteContexte

Problème complexe grande capacitéLimitations: Technique d’optimisation du 1er ordre (rétro-

propagation stochastique) Architecture standard Un seul pas Le surapprentissage de ce type de problème est

négligé Base de données :« Letters » 26 classes/16 caractéristiques/20000 exemples

Inefficacité des réseaux de grande capacité Inefficacité des réseaux de grande capacité (en nombre d’erreurs)(en nombre d’erreurs)

Inefficacité des réseaux de grande capacité Inefficacité des réseaux de grande capacité (en temps de calcul)(en temps de calcul)

Constatation: comportement idéalisé du ratio tempsConstatation: comportement idéalisé du ratio temps

temps

Ratiotemps

1

2N

4N

N

Est-ce que l’inefficacité des réseaux de grande Est-ce que l’inefficacité des réseaux de grande capacité est normale?capacité est normale?

Hypothèse:

L’inefficacité est causée par l’augmentation des problèmes d’optimisation plus le réseau a de capacité– Solutions linéaires versus solutions non-linéaires– Espace de solutions

Solution à l’inefficacité = réduire ou éliminer les problèmes reliés à la rétro-propagation

sortie z

cible t

z1 Zk

t1 tk

y1

xi xD

y2 yj yN

wkj

wij

x1

Réseaux de neurones et équations

Le processus d’apprentissage ralentit lorsqu’on Le processus d’apprentissage ralentit lorsqu’on apprend les relations non-linéairesapprend les relations non-linéaires

Espace de solutions du réseau de N+K neurones

Espace de solutions du réseau de N neurones

Espace de solutions

Solution

5 itérations

3 itérations

État initial

Exemple

s équivalentes

Les problèmesLes problèmes

Déplacement de la cible L’atténuation et dilution du gradient Mécanisme de spécialisation Les gradients contradictoires (classification) Problème de symétrie

sortie z

cible t

z1 Zk

t1 tk

y1

xi xD

y2 yj yN

wjk

wij

x1

Réseaux de neurones et équations

Les solutions exploréesLes solutions explorées

Réseaux incrémentaux *Réseaux avec optimisation d’une

partie des paramètres Prédiction des valeurs des

paramètres Réseaux avec architecture

découplée

Réseaux incrémentaux : 1ère approcheRéseaux incrémentaux : 1ère approche(ajouts de plans séparateurs)(ajouts de plans séparateurs)

Réseaux incrémentaux : 1ère approcheRéseaux incrémentaux : 1ère approche(Optimisation pour les poids fixes)(Optimisation pour les poids fixes)

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

mécanisme de spécialisation

Dilution gradient

Symétrie

Réseaux incrémentaux

OK

Réseaux incrémentaux (1): résultatsRéseaux incrémentaux (1): résultats

Pourquoi ça ne marche pas? Pourquoi ça ne marche pas? Hypothèse basée sur les points critiquesHypothèse basée sur les points critiques

w1

w2

w3

Coût en fonction des poids

ExempleExemple

Réseaux incrémentaux : 2ème approcheRéseaux incrémentaux : 2ème approche(ajouts de couches cachées)(ajouts de couches cachées)

z1 z2

y1

x1 x2

y2 y3 y4

z1 z

2

x1 x

2

Courbure de la fonction de coûtCourbure de la fonction de coût

J

J

J

w

w

w

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Mécanisme de spécialisation

Dilution gradient

Symétrie

Réseaux incrémentaux

OK

Réseaux incrémentaux (2): résultatsRéseaux incrémentaux (2): résultats

Architecture découpléeArchitecture découplée

InInefficacité des réseaux de grande capacité efficacité des réseaux de grande capacité (en temps de calcul)(en temps de calcul)

Efficacité des réseaux de grande capacité: Efficacité des réseaux de grande capacité: architecture découpléearchitecture découplée

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Mécanisme de spécialisation

Dilution gradient

Symétrie

Architecture découplée

Élimination ok

Architecture découpléeArchitecture découplée

Pourquoi prédire les valeurs futures des Pourquoi prédire les valeurs futures des paramètres? (observations)paramètres? (observations)

#Époque

Valeurs

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Inexistence d’un méc. de spécialisation

Dilution gradient

Symétrie

Prédiction des paramètres

*Avantage: possibilité de réduire le nombre d’époques en utilisant l’historique des valeurs des paramètres pour prédire leurs futures valeurs

Prédiction : extrapolation quadratique sporadiquePrédiction : extrapolation quadratique sporadique

ContributionsContributions

Indices du problème d’optimisation des réseaux de grande capacité

Pour une capacité finale identique: présentation d’une solution qui permet:– Accélération de l’apprentissage– Meilleur taux d’apprentissage

Présentation d’une solution qui ne dégrade pas la vitesse d’apprentissage plus le réseaux a de la capacité (Architecture découplée/ importance du problème des gradients contradictoires)

Travaux futursTravaux futurs

Est-ce que l’inefficacité de l’apprentissage des réseaux de neurones est généralisable pour tous les problèmes?

En classification, est-ce que l’architecture découplée est un meilleur choix pour des réseaux de grande capacité?

Est-ce que notre hypothèse reliée aux points critiques est applicable dans le contexte des réseaux de grande capacité?

Ajout de couches cachées: pourquoi cette technique ne fonctionne pas pour l’ajout de couches successives ?

Optimiser une partie des paramètres– Meilleur compréhension des résultats– Quel serait l’algorithme de sélection de paramètres le plus efficace?

Existe t-il une technique pour prédire les valeurs des paramètres, en fonction de leur historique, qui serait vraiment efficace ?

ConclusionConclusion

Objectif: comprendre pourquoi l’apprentissage des réseaux de grande capacité est inefficace

Indices expérimentaux de l’inefficacité des réseaux de grande capacité (nombre d’erreurs et temps)

Les différents problèmes d’optimisation Solutions explorées :

– Réseaux incrémentaux (plans séparateurs)– Réseaux incrémentaux (couches cachées)– Réseaux avec prédiction des paramètres– Réseaux avec une architecture découplée

Exemple :solution linéaireExemple :solution linéaire

Exemple :solution hautement non-linéaireExemple :solution hautement non-linéaire

Sélection des connections influençant le plus le coût

Sélection des connections influençant le plus l’erreur

T = 1S = 0

T = 0S = 1

T = 0S = 0.1

T = 0S = 0.1

Réduction du Problème de déplacement de la cible

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Mécanisme de spécialisation

Dilution gradient

Symétrie

Opt. partie Oui

Réseaux avec optimisation d’une Réseaux avec optimisation d’une partie des paramètres: résultatspartie des paramètres: résultats

Optimisation de tous les paramètres

Optimisation max sensibilité

Prédiction : augmentation sporadique du pasPrédiction : augmentation sporadique du pas

Modifier l’architecture modifie Modifier l’architecture modifie l’espace de solutionsl’espace de solutions

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

mécanisme de spécialisation

Dilution gradient

Symétrie Espace de solutions

Modifier l’architecture

OK Modification

top related