Apprentissage Statistique
Master DAC - Université Paris 6
P. Gallinari, [email protected], http://www-connex.lip6.fr/~gallinar/
Année 2014-2015
Partie 1
Introduction
Apprentissage Automatique
Apprentissage Statistique - P. Gallinari3
� Problématique :� Nous souhaitons avoir des ordinateurs
� intelligents
� adaptatifs
� avec un comportement robuste
� Programmer de tels comportement est souvent impossible� Par exemple : Intelligence artificielle dans les jeux (scripts)
� Solution :� Faire un ordinateur capable de se programmer lui-m^eme
� a partir d'exemples (apprentissage classique / par imitation)
� a partir de son "experience" (apprentissage par renforcement)
Exemple
Apprentissage Statistique - P. Gallinari4
Exemple
Apprentissage Statistique - P. Gallinari5
Exemple
Apprentissage Statistique - P. Gallinari6
Exemple
Apprentissage Statistique - P. Gallinari7
Exemple
Apprentissage Statistique - P. Gallinari8
Exemple
Apprentissage Statistique - P. Gallinari9
Exemple
Apprentissage Statistique - P. Gallinari10
Quand utiliser l’apprentissage
Apprentissage Statistique - P. Gallinari11
� Il n'y a pas d'expert humain
� L'utilisation d'un expert humain est trop couteuse ou trop peu performante
� La quantité de données est telle qu'une analyse manuelle est impossible
� Les données évoluent rapidement dans le temps
� Les modelés doivent être adaptes a l'utilisateur
� Les systèmes doivent s'adapter facilement a des conditions opérationnelles différentes
Apprentissage à partir d'exemples
Apprentissage Statistique - P. Gallinari12
� 3 ingrédients de base� Données {z1, ..., zN}
� Machine Fθ
� Critère C (apprentissage et évaluation)
� But� Extraire de l'information à partir des données
� Information pertinente � pour la tâche étudiée
� pour d'autres données du même type
� Utilisation� Inférence sur de nouvelles données
� Type d'apprentissage :� Supervisé� Non supervisé� Semi supervisé� Renforcement
Exemples - problèmes d'apprentissage
Apprentissage Statistique - P. Gallinari13
� Parole / Ecriture
� Données : (signal, (transcription))
� But : reconnaître signal
� Critère : # mots correctement reconnus
� Conduite véhicule autonome
� Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge + Google car
� But : suivre route
� Critère : distance parcourue
� Recherche d'information textuelle
� Données : (texte + requête, (information pertinente)) – corpus d’apprentissage
� But : extraire l'information correspondant à la requête
� Critère : Rappel / Précision
� Diagnostic dans systèmes complexes
� Données : (état capteurs + alarmes, (diagnostic))
� But : diagnostic correct
� Critère : ?
Exemples - problèmes d'apprentissage
Apprentissage Statistique - P. Gallinari14
� Modélisation d'utilisateur
� Données : (Traces utilisateur)
� But : analyser/ modéliser le comportement de l'utilisateur� Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels
e.g. Google now
� Critère : ?
� Evaluation : ?
� Example Google Now � Google Now keeps track of searches, calendar events, locations, and travel patterns. It then
synthesizes all that info and alerts you—either through notifications in the menu bar or cards on the search screen—of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggest a lot more.
Exemples - problèmes d'apprentissage
Apprentissage Statistique - P. Gallinari15
� Plus difficile :
� Traduction
� Extraction d’information (e.g. Never-Ending Language/ Image Learning)
� Compréhension de texte / scène visuelle – extraction de sens
� Découverte dans bases de données ou bases de connaissances ....� Données : i.e. représenter l'information ??
� But ??
� Critère ??
� Evaluation ??
Données : diversité
Apprentissage Statistique - P. Gallinari16
Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07
Apprentissage Statistique - P. Gallinari17
Terrabytes of Warehoused Data
25 49 94 100500
1,000
5,000
Am
azon
Kore
a
Telec
om
AT&T
Y! Live
Sto
r
Y! P
anam
a
War
ehou
se
Walm
art
Y! M
ain
war
ehou
se
GRAND CHALLENGE PROBLEMS OF DATA PROCESSING
TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET
Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE
Millions of Events Processed Per Day
50 120 2252,000
14,000
SABRE VISA NYSE Y! Panama Y! DataHighway
Données : quantités
Petabytes (10^15) (chiffres 2012)
Apprentissage Statistique - P. Gallinari18
� Google processes about 24 petabytes of data per day
� Google Street View Has Snapped 20 Petabytes of Street Photos
� Telecoms: AT&T transfers about 30 petabytes of data through its networks each day
� Physics: The experiments in the Large Hadron Collider produce about 15 petabytes of data per year
� Neurology: It is estimated that the human brain's ability to store memories is equivalent to about 2.5 petabytes of binary data
Big Data: Volume, Velocity, Variety, and
Veracity http://www-01.ibm.com/software/data/bigdata/
Apprentissage Statistique - P. Gallinari19
Volume: terabytes, petabytes� Turn 12 terabytes of Tweets created each day into improved product sentiment analysis
� Convert 350 billion annual meter readings to better predict power consumption
� Velocity: streams� Scrutinize 5 million trade events created each day to identify potential fraud
� Analyze 500 million daily call detail records in real-time to predict customer churn faster
� Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. � Monitor 100’s of live video feeds from surveillance cameras to target points of interest
� Exploit the 80% data growth in images, video and documents to improve customer satisfaction
� Veracity: Establishing trust in big data presents a huge challenge as the variety and number of sources grows.
Gartner Hype Cycle: Big Data
Apprentissage Statistique - P. Gallinari20
�
Apprentissage Statistique - P. Gallinari21
Data science (Wikipedia 2013)
Apprentissage Statistique - P. Gallinari22
� Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics, statistics, data engineering, pattern recognition and learning,advanced computing, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products. …..Data science seeks to use all available and relevant data to effectively tell a story ….
� Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semi-structured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. ……data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results.
Place de l’apprentissage
Apprentissage Statistique - P. Gallinari23
� L’apprentissage constitue une brique dans le processus de fouille / traitement de données
� qui arrive souvent à la fin du processus
� qui est intégré dans une application ou dans le SI de l’entreprise
� Les différentes étapes de l’analyse des données
� Collecte des données / stockage
� Prétraitement des données, étiquetage éventuel
� Analyses des données par des techniques exploratoires
� Mise au point et test de différents modèles d’apprentissage
� Evaluation
Domaines d’application en Data Mining
Exemples
Apprentissage Statistique - P. Gallinari24
� Web� recherche d'information, filtrage d'information
� extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille technologique, Question Answering , ...
� Multi-média� image + son, vidéo
� Données d’entreprise� infos produits, infos clients, ciblage clientèle ...
� Analyse comportement� e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet,
aide accès information, publicité
� Distribué� Mobiles : personnalisation, accès information
� Capteurs distribués, objets connectés
� Biologie - analyse de séquences, de structures
� Automobile ...
Challenges de l’apprentissage
Apprentissage Statistique - P. Gallinari25
� Passage à l’échelle� Quantité de données, taille données
� Dynamicité� Flux
� Distribué
� Complexité des données et des problèmes� Données structurées
� standards (XML, RDF, SMIL, …), taxonomies
� Web2.0 : découverte / analyse de relations !!
� Nouveaux problèmes, nouveaux usages� Adaptation rapide outils existants et création de nouveaux
outils
Plan du cours
Apprentissage Statistique - P. Gallinari26
� Introduction/Perceptron
� Cadre formel de l’apprentissage => Deep Learning
� Méthodes à noyaux
� Apprentissage non supervisé et EM
� Apprentissage semi-supervisé et modèles de graphes
� Apprentissage de représentations
� Apprentissage séquentiel (bandit et renforcement)
� Théorie de l’apprentissage
4 Familles d’algorithmes
Apprentissage Statistique - P. Gallinari27
Données dans la pratique de l’apprentissage
Apprentissage Statistique - P. Gallinari28
� Distinguer les ensembles� d’apprentissage
� Mettre au point le modèle
� de test� Evaluer les performances du modèle appris
� de validation� Apprentissage de méta-paramètres
� Remarque� On fera en général l’hypothèse que toutes les données sont générées
suivant une même loi
Apprentissage supervisé
Apprentissage Statistique - P. Gallinari29
� Ensemble d'apprentissage
� Constitué de couples (entrée, sortie désirée)
� ��, �� , … , ��, ��
� But
� Au moyen d'un algorithme d'apprentissage, découvrir l’association � = �(�) En utilisant les données d’appprentissage
� Qui offre une bonne généralisation
i.e. � = �(�) si � hors de l'ensemble d'apprentissage mais généré par le même phénomène
� Utilisation
� discrimination, identification, prévision, approximation …
Apprentissage non supervisé
Apprentissage Statistique - P. Gallinari30
� Ensemble d'apprentissage
� Uniquement des données d’entrée
� ��, … , ��
� But
� Regrouper les données similaires
� Modéliser les données
� Découvrir des relations non spécifiées à l’avance entre les données
� Utilisation
� estimation de densité, extraction de similarités
Apprentissage semi supervisé
Apprentissage Statistique - P. Gallinari31
� Ensemble d’apprentisage� étiquetés – faible quantité
� ��, �� , … , �� , ��
� non étiquetés – grande quantité� ����, … , ���
� But� Extraire l’information des exemples non étiquetés utile pour
l’étiquetage� Apprendre conjointement à partir des deux ensembles d’exemples
� Utilisation� grandes masses de données où l’étiquetage est possible mais trop
coûteux� données qui évoluent� implémentation rapide de systèmes génériques pour différentes
instances d’un problème
Apprentissage par Renforcement
Apprentissage Statistique - P. Gallinari32
� Ensemble d'apprentissage� Couples (entrée, sortie désirée qualitative)
� ��, �� , … , ��, ��
� Les xi peuvent être des séquences (temporal creditassignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.
� But� Apprendre des actions optimales
� Utilisation� commande, décision séquentielle, robotique, jeux,
programmation dynamique, applications web ou sociales, ...
Exemple introductif : Perceptron
Apprentissage Statistique - P. Gallinari33
Un exemple : Perceptron (1960 Rosenblatt)
Apprentissage Statistique - P. Gallinari34
�
� (image from Perceptrons, Minsky and Papert 1969)
� Le perceptron est utilisé pour la discrimination
� La cellule de décision calcule une fonction à seuil : � � = ���(∑ ���� + ��) = ���(∑ ����)avec�� = 1�
�������
� Classe 1 : {� ∶ � � = +1}
� Classe 2 : {� ∶ � � = −1}
Cellules d’association Cellule de décision
L'algorithme du perceptron (2 classes)
Apprentissage Statistique - P. Gallinari35
� C'est un algorithme à correction d'erreur
� si ε est constant : règle à incrément fixe
� si ε est fonction du temps : règle à incrément variable
Données
base d’apprentissage (�� , #�), $ = 1. . &, � ∈ (�, # ∈ −1,1
Output
classifieur) ∈ (�, décision � � = ���(∑ ����)����
Initialiser w (0)
Répeter (t)
choisir un exemple, (� * , #(*))
Si #(*) ) * .� * ≤ 0alors) * + 1 = ) * + 1#(*).� *
Jusqu'à convergence
Fonction discriminante linéaire
Apprentissage Statistique - P. Gallinari36
� Surface de décision: hyperplan F(x) = 0
� Quelques propriétés :
� w est le vecteur normal de l'hyperplan, il défini son orientation
� distance de x à H : 2 = �(�)/ )
� w0 = 0 : H passe par l'origine
� � = ). � + �� = ∑ �������� avec �� = 1
Géométrie de la discrimination linéaire
Apprentissage Statistique - P. Gallinari37
W
F(x) < 0
F(x) > 0
wxF )( F(x) = 0
Le perceptron effectue une descente de
gradient
Apprentissage Statistique - P. Gallinari38
� Fonction de coût
� 4 = − ∑ ). �. #�,5 678987::é
� gradient
� �2<#)4 ==>
=?@, … ,
=>
=?A
B
avec =>
=?C= − ∑ �� . #�,5 678987::é
� Règle d’apprentissage
� ) = ) − 1�2<#)4
� Demo� http://lcn.epfl.ch/tutorial/english/