apprentissage statistique - laboratoire d'informatique de...

38
Apprentissage Statistique Master DAC - Université Paris 6 P. Gallinari, [email protected], http://www-connex.lip6.fr/~gallinar/ Année 2014-2015 Partie 1

Upload: others

Post on 04-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage Statistique

Master DAC - Université Paris 6

P. Gallinari, [email protected], http://www-connex.lip6.fr/~gallinar/

Année 2014-2015

Partie 1

Page 2: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Introduction

Page 3: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage Automatique

Apprentissage Statistique - P. Gallinari3

� Problématique :� Nous souhaitons avoir des ordinateurs

� intelligents

� adaptatifs

� avec un comportement robuste

� Programmer de tels comportement est souvent impossible� Par exemple : Intelligence artificielle dans les jeux (scripts)

� Solution :� Faire un ordinateur capable de se programmer lui-m^eme

� a partir d'exemples (apprentissage classique / par imitation)

� a partir de son "experience" (apprentissage par renforcement)

Page 4: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple

Apprentissage Statistique - P. Gallinari4

Page 5: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple

Apprentissage Statistique - P. Gallinari5

Page 6: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple

Apprentissage Statistique - P. Gallinari6

Page 7: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple

Apprentissage Statistique - P. Gallinari7

Page 8: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple

Apprentissage Statistique - P. Gallinari8

Page 9: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple

Apprentissage Statistique - P. Gallinari9

Page 10: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple

Apprentissage Statistique - P. Gallinari10

Page 11: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Quand utiliser l’apprentissage

Apprentissage Statistique - P. Gallinari11

� Il n'y a pas d'expert humain

� L'utilisation d'un expert humain est trop couteuse ou trop peu performante

� La quantité de données est telle qu'une analyse manuelle est impossible

� Les données évoluent rapidement dans le temps

� Les modelés doivent être adaptes a l'utilisateur

� Les systèmes doivent s'adapter facilement a des conditions opérationnelles différentes

Page 12: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage à partir d'exemples

Apprentissage Statistique - P. Gallinari12

� 3 ingrédients de base� Données {z1, ..., zN}

� Machine Fθ

� Critère C (apprentissage et évaluation)

� But� Extraire de l'information à partir des données

� Information pertinente � pour la tâche étudiée

� pour d'autres données du même type

� Utilisation� Inférence sur de nouvelles données

� Type d'apprentissage :� Supervisé� Non supervisé� Semi supervisé� Renforcement

Page 13: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari13

� Parole / Ecriture

� Données : (signal, (transcription))

� But : reconnaître signal

� Critère : # mots correctement reconnus

� Conduite véhicule autonome

� Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge + Google car

� But : suivre route

� Critère : distance parcourue

� Recherche d'information textuelle

� Données : (texte + requête, (information pertinente)) – corpus d’apprentissage

� But : extraire l'information correspondant à la requête

� Critère : Rappel / Précision

� Diagnostic dans systèmes complexes

� Données : (état capteurs + alarmes, (diagnostic))

� But : diagnostic correct

� Critère : ?

Page 14: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari14

� Modélisation d'utilisateur

� Données : (Traces utilisateur)

� But : analyser/ modéliser le comportement de l'utilisateur� Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels

e.g. Google now

� Critère : ?

� Evaluation : ?

� Example Google Now � Google Now keeps track of searches, calendar events, locations, and travel patterns. It then

synthesizes all that info and alerts you—either through notifications in the menu bar or cards on the search screen—of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggest a lot more.

Page 15: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari15

� Plus difficile :

� Traduction

� Extraction d’information (e.g. Never-Ending Language/ Image Learning)

� Compréhension de texte / scène visuelle – extraction de sens

� Découverte dans bases de données ou bases de connaissances ....� Données : i.e. représenter l'information ??

� But ??

� Critère ??

� Evaluation ??

Page 16: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Données : diversité

Apprentissage Statistique - P. Gallinari16

Page 17: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07

Apprentissage Statistique - P. Gallinari17

Terrabytes of Warehoused Data

25 49 94 100500

1,000

5,000

Am

azon

Kore

a

Telec

om

AT&T

Y! Live

Sto

r

Y! P

anam

a

War

ehou

se

Walm

art

Y! M

ain

war

ehou

se

GRAND CHALLENGE PROBLEMS OF DATA PROCESSING

TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET

Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE

Millions of Events Processed Per Day

50 120 2252,000

14,000

SABRE VISA NYSE Y! Panama Y! DataHighway

Page 18: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Données : quantités

Petabytes (10^15) (chiffres 2012)

Apprentissage Statistique - P. Gallinari18

� Google processes about 24 petabytes of data per day

� Google Street View Has Snapped 20 Petabytes of Street Photos

� Telecoms: AT&T transfers about 30 petabytes of data through its networks each day

� Physics: The experiments in the Large Hadron Collider produce about 15 petabytes of data per year

� Neurology: It is estimated that the human brain's ability to store memories is equivalent to about 2.5 petabytes of binary data

Page 19: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Big Data: Volume, Velocity, Variety, and

Veracity http://www-01.ibm.com/software/data/bigdata/

Apprentissage Statistique - P. Gallinari19

Volume: terabytes, petabytes� Turn 12 terabytes of Tweets created each day into improved product sentiment analysis

� Convert 350 billion annual meter readings to better predict power consumption

� Velocity: streams� Scrutinize 5 million trade events created each day to identify potential fraud

� Analyze 500 million daily call detail records in real-time to predict customer churn faster

� Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. � Monitor 100’s of live video feeds from surveillance cameras to target points of interest

� Exploit the 80% data growth in images, video and documents to improve customer satisfaction

� Veracity: Establishing trust in big data presents a huge challenge as the variety and number of sources grows.

Page 20: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Gartner Hype Cycle: Big Data

Apprentissage Statistique - P. Gallinari20

Page 21: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage Statistique - P. Gallinari21

Page 22: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Data science (Wikipedia 2013)

Apprentissage Statistique - P. Gallinari22

� Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics, statistics, data engineering, pattern recognition and learning,advanced computing, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products. …..Data science seeks to use all available and relevant data to effectively tell a story ….

� Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semi-structured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. ……data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results.

Page 23: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Place de l’apprentissage

Apprentissage Statistique - P. Gallinari23

� L’apprentissage constitue une brique dans le processus de fouille / traitement de données

� qui arrive souvent à la fin du processus

� qui est intégré dans une application ou dans le SI de l’entreprise

� Les différentes étapes de l’analyse des données

� Collecte des données / stockage

� Prétraitement des données, étiquetage éventuel

� Analyses des données par des techniques exploratoires

� Mise au point et test de différents modèles d’apprentissage

� Evaluation

Page 24: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Domaines d’application en Data Mining

Exemples

Apprentissage Statistique - P. Gallinari24

� Web� recherche d'information, filtrage d'information

� extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille technologique, Question Answering , ...

� Multi-média� image + son, vidéo

� Données d’entreprise� infos produits, infos clients, ciblage clientèle ...

� Analyse comportement� e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet,

aide accès information, publicité

� Distribué� Mobiles : personnalisation, accès information

� Capteurs distribués, objets connectés

� Biologie - analyse de séquences, de structures

� Automobile ...

Page 25: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Challenges de l’apprentissage

Apprentissage Statistique - P. Gallinari25

� Passage à l’échelle� Quantité de données, taille données

� Dynamicité� Flux

� Distribué

� Complexité des données et des problèmes� Données structurées

� standards (XML, RDF, SMIL, …), taxonomies

� Web2.0 : découverte / analyse de relations !!

� Nouveaux problèmes, nouveaux usages� Adaptation rapide outils existants et création de nouveaux

outils

Page 26: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Plan du cours

Apprentissage Statistique - P. Gallinari26

� Introduction/Perceptron

� Cadre formel de l’apprentissage => Deep Learning

� Méthodes à noyaux

� Apprentissage non supervisé et EM

� Apprentissage semi-supervisé et modèles de graphes

� Apprentissage de représentations

� Apprentissage séquentiel (bandit et renforcement)

� Théorie de l’apprentissage

Page 27: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

4 Familles d’algorithmes

Apprentissage Statistique - P. Gallinari27

Page 28: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Données dans la pratique de l’apprentissage

Apprentissage Statistique - P. Gallinari28

� Distinguer les ensembles� d’apprentissage

� Mettre au point le modèle

� de test� Evaluer les performances du modèle appris

� de validation� Apprentissage de méta-paramètres

� Remarque� On fera en général l’hypothèse que toutes les données sont générées

suivant une même loi

Page 29: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage supervisé

Apprentissage Statistique - P. Gallinari29

� Ensemble d'apprentissage

� Constitué de couples (entrée, sortie désirée)

� ��, �� , … , ��, ��

� But

� Au moyen d'un algorithme d'apprentissage, découvrir l’association � = �(�) En utilisant les données d’appprentissage

� Qui offre une bonne généralisation

i.e. � = �(�) si � hors de l'ensemble d'apprentissage mais généré par le même phénomène

� Utilisation

� discrimination, identification, prévision, approximation …

Page 30: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage non supervisé

Apprentissage Statistique - P. Gallinari30

� Ensemble d'apprentissage

� Uniquement des données d’entrée

� ��, … , ��

� But

� Regrouper les données similaires

� Modéliser les données

� Découvrir des relations non spécifiées à l’avance entre les données

� Utilisation

� estimation de densité, extraction de similarités

Page 31: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage semi supervisé

Apprentissage Statistique - P. Gallinari31

� Ensemble d’apprentisage� étiquetés – faible quantité

� ��, �� , … , �� , ��

� non étiquetés – grande quantité� ����, … , ���

� But� Extraire l’information des exemples non étiquetés utile pour

l’étiquetage� Apprendre conjointement à partir des deux ensembles d’exemples

� Utilisation� grandes masses de données où l’étiquetage est possible mais trop

coûteux� données qui évoluent� implémentation rapide de systèmes génériques pour différentes

instances d’un problème

Page 32: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Apprentissage par Renforcement

Apprentissage Statistique - P. Gallinari32

� Ensemble d'apprentissage� Couples (entrée, sortie désirée qualitative)

� ��, �� , … , ��, ��

� Les xi peuvent être des séquences (temporal creditassignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.

� But� Apprendre des actions optimales

� Utilisation� commande, décision séquentielle, robotique, jeux,

programmation dynamique, applications web ou sociales, ...

Page 33: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Exemple introductif : Perceptron

Apprentissage Statistique - P. Gallinari33

Page 34: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Un exemple : Perceptron (1960 Rosenblatt)

Apprentissage Statistique - P. Gallinari34

� (image from Perceptrons, Minsky and Papert 1969)

� Le perceptron est utilisé pour la discrimination

� La cellule de décision calcule une fonction à seuil : � � = ���(∑ ���� + ��) = ���(∑ ����)avec�� = 1�

�������

� Classe 1 : {� ∶ � � = +1}

� Classe 2 : {� ∶ � � = −1}

Cellules d’association Cellule de décision

Page 35: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

L'algorithme du perceptron (2 classes)

Apprentissage Statistique - P. Gallinari35

� C'est un algorithme à correction d'erreur

� si ε est constant : règle à incrément fixe

� si ε est fonction du temps : règle à incrément variable

Données

base d’apprentissage (�� , #�), $ = 1. . &, � ∈ (�, # ∈ −1,1

Output

classifieur) ∈ (�, décision � � = ���(∑ ����)����

Initialiser w (0)

Répeter (t)

choisir un exemple, (� * , #(*))

Si #(*) ) * .� * ≤ 0alors) * + 1 = ) * + 1#(*).� *

Jusqu'à convergence

Page 36: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Fonction discriminante linéaire

Apprentissage Statistique - P. Gallinari36

� Surface de décision: hyperplan F(x) = 0

� Quelques propriétés :

� w est le vecteur normal de l'hyperplan, il défini son orientation

� distance de x à H : 2 = �(�)/ )

� w0 = 0 : H passe par l'origine

� � = ). � + �� = ∑ �������� avec �� = 1

Page 37: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Géométrie de la discrimination linéaire

Apprentissage Statistique - P. Gallinari37

W

F(x) < 0

F(x) > 0

wxF )( F(x) = 0

Page 38: Apprentissage Statistique - Laboratoire d'informatique de ...dac.lip6.fr/master/wp-content/uploads/2014/09/AS-2014-Cours1.pdf · Quand utiliser l’apprentissage 11 Apprentissage

Le perceptron effectue une descente de

gradient

Apprentissage Statistique - P. Gallinari38

� Fonction de coût

� 4 = − ∑ ). �. #�,5 678987::é

� gradient

� �2<#)4 ==>

=?@, … ,

=>

=?A

B

avec =>

=?C= − ∑ �� . #�,5 678987::é

� Règle d’apprentissage

� ) = ) − 1�2<#)4

� Demo� http://lcn.epfl.ch/tutorial/english/