l’estimation
DESCRIPTION
L’estimation. Plan. Définition et Objectifs Rappel régression linéaire Réseaux neuronaux Démonstrations. Définition et Objectifs. Prévoir la valeur d’une variable non observée à partir de variables observées Applications typiques Prévision Finance, économie, météo, environnement. - PowerPoint PPT PresentationTRANSCRIPT
L’estimation
Plan
Définition et Objectifs Rappel régression linéaire Réseaux neuronaux Démonstrations
Définition et Objectifs
Prévoir la valeur d’une variablenon observée à partir de variables
observées
Applications typiques Prévision
Finance, économie, météo, environnement. Modélisation numérique
Représentation numérique de systèmes physiques difficiles à décrire par des équations explicites : moteurs, …
Caractérisation
Généralisation de la classification à une variable à prévoir continue
Comme la classification C’est un problème supervisé Il comporte 2 utilisations (mais dans une moindre mesure)
Utilisation descriptive Exprimer l’équation de dépendance entre les variables
d’entrée et la variable de sortie. Etudier la sensibilité aux variables d’entrée
Utilisation décisionnelle Calculer l’estimation de la sortie en fonction des entrées La nature fondamentale du problème est un calcul
d’espérance conditionnelle : E(Demain|Aujourd’hui)
Caractérisation (suite)
Les variables observées peuvent être Qualitatives ou quantitatives
La variable à prévoir est continue Le modèle est mis au point sur un ensemble de
données où toutes les variables sont observées (y compris la sortie)
Exemple : Prévision financière Données : Historique de données macroéconomiques et
financières Variables explicatives : Production industrielle, Devises, Taux
de chomage, Taux d’utilisation des capacités, etc. Variable à prévoir : Indice boursier (CAC40)
Techniques disponibles
Régression linéaire Régression polynomiale ou autres Réseaux neuronaux Support Vector Machines
Régression linéaire
La régression linéaire : rappels
Cadre théorique : variables aléatoires Cadre expérimental : observations En pratique :
Un ensemble de couples (X,Y) On pose :
Y* = b0 + b1X1 + b2X2 + … + bpXp On cherche Y* qui minimise (Y*-Y)2
On peut trouver facilement les (bi), et on peut mesurer la qualité de l’ajustement
Cas non linéaires ?
Réseaux neuronaux
Plan
Fondements biologiques Le perceptron Les réseaux multicouches Applications : estimation, classification
Fondements biologiques
Objectifs : Reproduire les capacités de raisonnement de l’homme
Comment : Reproduire le fonctionnement des structures de base du
cerveau
Approche Modéliser l’élément de base (le neurone) Modéliser la structure du système (le réseau) Modéliser le fonctionnement du système (dynamique et
apprentissage)
Le neurone
Corps cellulaire Dendrites Axone
Le corps cellulaire
Contient le noyau de la cellule
Quelques de diamètre
Vie du neurone Intégration de
signaux Génération de l’influx
Les dendrites
Extensions tubulaires du corps cellulaire
Quelques 1/10 de diamètre
Réception des signaux
L’axone
Fibre nerveuse 1mm à quelques m
de longueur
Transport des signaux
Le neurone : résumé
Structure Fonction
Dendrite Réception des signaux des autres neurones
Corps cellulaire Intégration des signaux de génération de l’influx
Axone Conduction et transmission de l’influx
La synapse
Point de contact entre neurones axone / dendrite axone / axone axone / corps
cellulaire etc.
Le fonctionnement du système
Au niveau microscopique Neurones, synapses
Au niveau macroscopique Réseau
Fonctionnement micro
Réception Dendrite
Intégration Corps cellulaire
Génération Corps cellulaire
Conduction Axone
Transmission Synapse
De l’influx nerveux MEMBRANE
Le corps cellulaire
Sommateur à seuil : réception de signaux sommation génération si influx
total dépasse un certain seuil
dendrites
axone
seuillage
sommation
L’influx nerveux
Membrane au repos : ddp = -70 mV
Influx = inversion locale de polarité
+ + + + + + + + + + + + +
+ + + + + + + + + + + + +
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~
membrane au repos
- 70 mV
+ + + + + ~ ~ + + + + + +
+ + + + + ~ ~ + + + + + +
~ ~ ~ ~ ~ + + ~ ~ ~ ~ ~ ~
influx
- 70 mV
La membrane au repos
Maintien de la ddp canaux K+ ouverts canaux Na+ fermés
Ions K+ pression osmotique :
vers l’exterieur ddp : vers l’intérieur
Maintien couche K+
[K+] [Na+]
[Cl~][Na+]
[Na+]
[Na+]
[Cl~]
[K+]
[K+]
[K+]
pompes
canaux
Propagation de l’influx
Inversion locale ouverture canaux Na+
(aval) ouverture canaux K+
(amont) Résultats
inversion progresse rétablissement du potentiel
(K+) rétablissement des
concentrations (pompes)
Délai de réaction
entrée [Na+]
sortie [K+]
+ + + + + + ~ ~ ~ ~ + + + + + + + +
+ + + + + + ~ ~ ~ ~ + + + + + + + +
~ ~ ~ ~ ~ ~ + + + + ~ ~ ~ ~ ~ ~ ~ ~
La réception de l’influx
Transformation du signal électrique en signal chimique(bouton synaptique)
Transformation inverse (dendrite)
influxaxone
neurotransmetteurs
récepteurs
dendrite
Le modèle du neurone
Un sommateur à seuil reçoit un ensemble
d’influx effectue une sommation émet lui-même un influx
si la somme des influx reçus dépasse un certain seuil
Le neurone = séparateur linéaireNeurone de Mc Cullogh &
Pitts (1943)
Un neurone pour réaliser des fonctions logiques
ET logique
OU logique
X
Y
-1.5
X
Y
-0.5
Le modèle du réseau
Le système visuel : réseau de neurones réels le mieux connu capable de réaliser des fonctions
complexes dont les ordinateurs sont encore incapables (reconnaissance des formes)
Architecture du système visuel
Architecture en couches***
Niveaux d’abstraction successifs
rétine cellulesganglionnaires
cellulessimples
cellulescomplexes(OU)(ET)
Architecture en couches***
Niveaux d’abstraction successifs
Fonctionnement du système
Le système visuel de la grenouille détecte 4 types de stimuli : Un objet pénètre dans le
champ visuel
Un objet pénètre dans le champ visuel et s’y arrête
Le niveau d’éclairement général du champ visuel diminue
Un petit objet de forme arrondie pénètre dans le champ visuel et s’y déplace de façon erratique
Stimuli , , FUITE
Stimulus ATTAQUE
En laboratoire, la grenouille est incapable de se nourrir de moucherons déjà tués : le
stimulus correspondant n’est pas reconnu !!
Adaptation
Constat :La capacité de traitement de stimuli complexes
est insuffisante=> Adaptation nécessaire
Support de l’adaptation :Les synapses
Principe :Le réseau de neurones adapte la fonction qu’il réalise à son environnement en modifiant la force des relations entre les neurones.Un nouveau stimulus pourra alors progressivement déclencher une action
Fondements biologiques : résumé
3 idées : Une cellule à seuil pour réaliser des
séparations Un réseau à couches pour hiérarchiser les
informations Un mécanisme d’apprentissage des
connexions pour adapter le réseau à une fonction donnée
Principe des modélisations
A partir du modèle biologique Modèle du neurone (neurone formel) Modèle du réseau (architecture et
fonctionnement) Mécanisme d’apprentissage
Modèle du neurone
wi,1
wi,j
wi,n
ai
a1
aj
an
Sommateur à seuil
Architecture du réseau(1) Hiérarchique
décisionsituation
sens de propagation
connexion totale entre deuxcouches successives
Architecture du réseau :(2) Complètement connecté
Fonctionnement du réseau
Le réseau est un système dynamique Etat initial
Aléatoire Fixé par l’extérieur (ex : rétine)
Règle de fonctionnement Séquentiel Parallèle
Apprentissage
Non supervisé L’environnement imprime sa marque sur le
réseau neuronal : le réseau devient d’une certaine façon une image de l’environnement
Supervisé On introduit explicitement la notion de tâche
à accomplir pour le système. Le réseau neuronal doit alors s’adapter pour réaliser une fonction donnée.
Apprentissage non supervisé :La règle de Hebb
Ai = activation du neurone i
i jWij
Wij(t+1)=Wij(t)+k
Wij(t+1)=Wij(t)
Wij(t+1)=Wij(t)
Wij(t+1)=Wij(t)
Wij(t+1)=Wij(t)+kAiAj
Règle de Hebb : exemple
Cette matrice représente un réseau de neurones complètement connecté sur lequel on a formé la lettre A (les connexions ne sont pas représentées). Si on forme successivement un ensemble de lettres, et que deux neurones sont souvent activés simultanément, alors la règle de Hebb conduira à renforcer la connexion entre ces deux neurones.
Apprentissage supervisé
Principe On dispose d’un ensemble d’exemples
(X,Y), où X est l’entrée et Y la sortie. Présenter un exemple Xk au réseau Le faire fonctionner Comparer la sortie du réseau avec Yk
Modifier les poids du réseau s’il y a une erreur
Apprentissage supervisé
Règles de modification des poids Dépendent de l’architecture La règle de Hebb peut s’appliquer
Le perceptron
1958 (Rosenblatt) Première tentative d’intégrer :
Le neurone à seuil La règle de Hebb
Propriétés : spécifications précises assez complexes pour être intéressant assez simple pour être étudié biologiquement plausible
Description
Neurones à seuil Architecture
calquée sur celle du système visuel
Apprentissage par essai et erreur
Couche d’association figée
rétine
association
décision
Fonctionnement du perceptron
On présente Xk sur la rétine du perceptron, et on souhaite avoir la réponse dk (binaire)
Quatre cas peuvent se produire dk=1 et sk=1 => ok dk=1 et sk=0 => erreur dk=0 et sk=1 => erreur dk=0 et sk=0 => ok
Règle d’apprentissage du perceptron
Cas d’erreur Par exemple dk=1 et sk=0
Explication La somme pondérée des entrées de la cellule
de décision est trop faible Action
Augmenter les poids dont l’entrée est positive
Diminuer les poids dont l’entrée est négative
Règle d’apprentissage du perceptron
Wi(k+1)= Wi(k)+(dk-sk).ai
Cette règle Peut se ramener à la règle de Hebb entre
les cellules d’association et la cellule de décision
Converge si la solution existe La solution existe ssi
Le problème est linéairement séparable
Limites du perceptron : le XOR
rétine
association
décision
Le problème du XOR
?
Le problème du XOR n’est pas linéairement séparable : il s’agirait ici de faire passer une droite séparant les points blancs des noirs.
Solution du problème du XOR
En ajoutant une cellule d’association qui réalise le ET logique des deux cellules de la rétine, le problème du XOR devient linéairement séparable : il suffit à présent de faire passer un plan pour séparer les points blancs des noirs, ce que réalise le plan figuré sur le dessin.
Théorème de connexité (Papert & Minsky)
• Non connexeL+M+R > s
• ConnexeL’+M+R <= s
=> L’< L
• ConnexeL+M+R’ <= s=> R’<R
• Non connexeL’+M+R’ > s
=> R’>R : impossible
m cases
m+2 cases
Faites-vous mieux qu’un perceptron ?
Performances & limitations du perceptron
Théorème de convergence si la solution existe Réalisation de n’importe quelle fonction
logique en spécifiant la couche intermédiaire Impossible d’apprendre la première couche =>
on ne peut pas apprendre n’importe quelle fonction logique
La limitation porte sur la méthode d’apprentissage : comment faire apprendre les poids rétine->association ?
Conclusion
Nécessité de faire apprendre la 1ère couche intermédiaire
Nécessité d’une connexion totale entre les différentes couches
Les réseaux multi-couches formels
Définition du neurone formelDéfinition de l’architecture multi-couches
Algorithme d’apprentissage = rétropropagation du gradient
Le neurone formel
O W Oi ij jj
( )xe x
1
1
a1
aj
an
ai
wi1
wij
win
x
1(x)
Architecture multi-couches
Couches entièrement connectées
Pas de connexion récurrente
Perceptron multi-couches
décisionentrées
sens de propagation
connexion totale entredeux couches successives
Fonctionnement du réseau multi-couches
décisionentrées
sens de propagation
connexion totale entredeux couches successives
S w wj j j j jj
jj
jL L L
L
L
L
, , (...)1
1
Apprentissage du réseau
Base d’exemples
Erreur du réseau
Minimisation de l’erreurpar descente de gradient
Mise en oeuvre en rétro-propageant le signal d’erreur à travers le réseau en sens inverse
X D X Yn n1 1, ,... , ,
E W D X F Xi W ii
( ) ( ) ( ) 2
W t W t EW( ) ( ) 1
Algorithme derétropropagation du gradient
signald’erreur
rétropropagation
Mise en oeuvre élégante (inversion du réseau et
propagation d’un signal d’erreur)
Non garantie de convergence (problème inhérent à la méthode de
gradient)
Réseaux neuronaux & Estimation
Problème de l’estimation : estimer une relation de dépendance entre les variables
Utilisation des RN : approximer F par un réseau neuronal multi-couches à une sortie
Résultat théorique : les RN sont des approximateurs universels
),...,,( 21 pXXXFY
Réseaux neuronaux & Classification
classe 1
classe 2
F(x)=0
Classification avec séparation non linéaire
Avantages et Inconvénients
Avantages Séparation non linéaire Approximateur universel Aucune forme explicite a priori de la séparation
Inconvénients Boîte noire (difficile d’interpréter les paramètres) Convergence vers un minimum local Contrôle de la robustesse