euratech'trends : machine learning

Le machine learning ou apprentissage automatiqueretrouve depuis quelques années un regain d'intérêt (cf.Hype Cycle de Gartner ci-après), lié en partie au développe-ment des technologies du Big Data. Comme bon nombre detechnologies, le Machine Learning existait déjà dans l'espritd'Alan Turing ("Computing Machinery and intelligence",1950) ou d'Arthur Samuel ("Some studies un MachineLearning, Using the game of checkers", 1959) comme unmoyen de dépasser les limites de l'informatique naissante.

Dans un traitement habituel, déterministe, on applique àun jeu de données, une suite d'opérations ou algorithme,pour obtenir un résultat, un objectif; exemple le plus trivial,un tri par couleur et / ou taille.Dans le cas du machine learning, on dispose de données

que l'on appelle communément jeu d'entrainement, dont levolume et la qualité sont cruciaux pour l'atteinte de l'objec-tif. L'enjeux va être de trouver par apprentissage (par itéra-tion) à partir de ce jeu d'entrainement un modèle ouprogramme, afin d'atteindre un objectif et / ou découvrirune relation. Pour parer à l'explosion combinatoire del'analyse de l'ensemble des solutions possibles et proposerdans un temps contraint (bien souvent en temps réel) lameilleure solution, on s'appuie sur des lois statistique et deprobabilité.

Le travail du Data Scientist va consister à s'assurer de laqualité du jeu d'entrainement, à choisir un ou plusieurs al-gorithmes, à choisir les valeurs des variables de risque oud'incertitude en fonction des objectifs à atteindre et enfin àcréer un ou plusieurs modèles qui seront ensuite utilisés demanière opérationnelle. Afin d'optimiser ce processus, leData Scientist doit également posséder des connaissancesmétier.

Le choix de l'algorithme est un des éléments primordiauxdans le processus de réalisation du modèle. Il existe au-jourd'hui une multitude d'algorithme. La multiplication desdomaines d'applications implique également la création denouveaux algorithme, adaptée aux besoins du domaine, ens'appuyant notamment sur la recherche.

24 mars 2016 Édition 1 Numéro 8

euratech trends

Statistiques, Probabilitéset Algorithmique ...et Data Scientist

" Le Machine Learning est le champs d'étude quidonne aux ordinateurs la capacité d'apprendre sans

être explicitement programmés"Arthur Samuel 1959

EuraTechnologies +(33) 320 191 855

"Most of the knowledgein the world in thefuture is going to beextracted by machinesand will reside in ma-

chines."

Yann LeCunDirector of AI Research,

Facebooks.

Machine Learning, algorithme à tout faire...

"It is probably wise toinclude a random

element in a learningmachine"

Alan Turing

23% des data scientist travaillent dans l'industrie du logicielpour seulement 1% en cybersécurité ‐ "2015 Data Science Salary Survey”,O'Reilly, 2015.

euratech trends

Il existe plusieurs méthodes d'apprentissage auxquellessont associées des familles d'algorithme. Ces méthodes etalgorithmes évoluent au grès des besoins et demandes in-duites par la diffusion du Machine Learning dans de nom-breux secteurs d'activités. Nous ne présenteronsci-dessous que quelques exemples, n'ayant pas la préten-tion de pouvoir être exhaustif, tant ce champ est vaste àexplorer.

L’apprentissage supervisé consiste à créer des modèlesprédictifs à partir de jeux de données d’entrée et de sortiesconnues. Il est appliqué dans les problématiques de clas-sification ou de régression (relation entre deux ouplusieurs variables). Quelques algorithmes associés :

- arbres de décision boostés et agrégés- machines à vecteur de support- classifieur bayésien naïf- classification des k plus proches voisins- analyse discriminante- réseaux de neurones

L’apprentissage non supervisé permets de détecter desmotifs cachés ou des structures intrinsèques propres aujeux de données. Quelques algorithmes associés :

- k-means et groupement hiérarchique- mélanges gaussiens (utilisant la maximisation del’espérance conditionnelle)- chaînes de Markov cachées- cartes auto-organisatrices (SOM)- réseaux de neurones par couche compétitive- réseaux de neurones d’apprentissage par quantificationde vecteur (LVQ)

En complément, citons l'apprentissage semi-supervisé(jeux de données connues et inconnues), l'apprentissagepar renforcement (récompense) ou encore l'apprentissageprofond (Deep Learning).L'avenir se dessine avec le mariage de l'informatique

quantique et du machine learning, on parle déjà deQuantum Machine Learning. Par ailleurs certains commen-cent à imaginer l'algorithme ultime, capable de tout ap-prendre, de tout comprendre, de tout résoudre, "The MasterAlgorithm"!!! (Pedro Domingos, 2015)

Les usages sont multiples, et chacun d'entre nous l'aexpérimenté, souvent sans en avoir vraiment conscience!Que ce soit le logiciel anti-spam d'une boîte mails, le logi-ciel de reconnaissance de caractères d'un scanner, lemoteur de recommandations d'un site marchand ou"Translate" de Google, tous utilisent le Machine Learning.Son utilisation s'étend au domaine de la finance, pour lecalcul de risque d'emprunt, la détection de fraude ou letrading; en médecine, dans l'imagerie médicale ou pour lediagnostic préventif du cancer; dans les Télécoms, réseauxinformatiques et la logistique pour l'optimisation des flux(données ou véhicules); en robotique, en vision artificielleet encore bien d'autres.

L'un des derniers domaines investit par le MachineLearning est l'usine. En effet, la diffusion de milliers decapteurs dans les sites de production et par voie deconséquence l'enregistrement de millions de données sontun nouveau terrain de jeu pour le Machine Learning,notamment pour le suivi de la qualité, de la production, dela planification ou de la maintenance en temps réel (projetiPRODICT, Industry 4.0, Fraunhofer-Institut).

02

Kaggle, une plateforme dédiée auxchallenges Machine Learning

Kaggle ( www.kaggle.com) propose aux entre-prises, laboratoires de recherche ou universités d'orga-niser des challenges primés ou non sur la base de leurjeux de données. Santander Bank y propose par exempleun challenge primé de 60 000$ dont l'objectif est de ré-pondre à la question "Quels clients sont des clientsheureux?"Kaggle est également le partenaire de The National Insti-tutes of Health lors d'un concours dont la finalité est decréer un algorithme pour automatiser le diagnostic cardi-aque sur la base de données recueillies auprès de plusde 1000 patients.

Apprentissage et algorithme

USAGES

Les outils informatiques du Data Scientist

La région des Hauts-de-France ne compte pasmoins de 6 équipes de recherche, soit prèsd'une centaine de chercheurs et doctorantsqui travaillent sur le Machine Learning et sesapplications.

Magnet - "MAchine learninG in informationNETworks" - team.inria.fr/magnetMagnet s'intéresse à la définition de méthodeset modèles d'apprentissage automatique ausein de réseaux d'informations, en particulierceux présents sur Internet : réseaux d'interac-tions, hyperliens ou réseaux sociaux. Cesréseaux sont constitués d'informations engrand volume, hétérogènes, principalementtextuelles, organisées sous forme de grandsgraphes dont les liens sont explicites ouinduits. Les objectifs envisagés sont lessystèmes de veille, de recherche etd'extraction d'informations, et de recom-mandation.

Les axes de recherche se décomposent en:- découverte de structures pour la prédictionstructurée pour les textes, prédiction de liens,clustering, evaluation de densités dans lesgraphes;- association de représentations et de

méthodes d'apprentissage pour lamanipulation de données hétérogènes;- structuration en graphes des données pourla classification, la diffusion et la recom-mandation.

Partenariats industriels : SAP, Music Story,Clic and Walk, Pôle de compétitivité PICOM

SequeL - "Sequential Learning" -sequel.lille.inria.frSequeL développe des concepts et al-gorithmes fiables pour répondre auxproblématiques de systèmes artificiels traitant,par exemple, des pages web créées, modifiéesou supprimées du web ou des mesures decapteurs acquises par un système passif ouactif (interagissant sur son environnement, telque agent logiciel ou robot matériel). À partirde ces données, ces systèmes extraient des

informations, pour repérer des objets(classification), pour évaluer les paramètresd'un processus (estimation), pour interagiravec son environnement (décisionséquentielle). Ces algorithmes sont égalementutilisables dans le cadre de traitement par lot degros volume de données.

Ces travaux ont des applications dans lessystèmes de recommendation ou le jeu de Go( Crazy Stone, logiciel primé à de nombreusesreprises).

Les axes de recherche couverts sont :- apprentissage séquentiel;- prise de décision dans l'incertain;- problèmes de bandits;- apprentissage par renforcement;.

Partenariats industriels : France Telecom,Oranges Labs, Intel, Nuukik, ...

Dolphin - "Discrete multiobjective Optimization

for Large-scale Problems with Hybrid

dIstributed techNiques" - dolphin.lille.inria.frDOLPHIN a pour objectif la modélisation et larésolution parallèle de problèmesd'optimisation combinatoire (multi-objectifs)de grande taille. Des méthodes parallèlescoopératives efficaces sont développées àpartir de l'analyse de la structure du problèmetraité. Les problèmes ciblés sont aussi bien

AGENDAMachine Learning

Conference :

15 avril - New York7 octobre, Londreshmlconf.com

12th International

Conference on

Machine Learning and

DataMining :

du 16 au 21 juin, New

York

www.mldm.de

33rd International

Conference on

Machine Learning

(ICML 2016) :

du 19 au 24 juin, New

York

icml.cc/2016

Conférence

francophone sur

l’apprentissage

automatique (CAp

2016):

du 4 au 7 juillet , Mar-

seille

cap16.lif.univ-mrs.fr

European Conference

onMachine Learning

and Principles and

Practice of Knowledge

Discovery :

du 19 au 23 septembre

- Rival del Garda

www.ecmlpkdd2016.org

IEEE International

Conference on

Machine Learning and

Applications

(ICMLA'16) :du 18 au 20 décembre,Los Angeles

03euratech trends

SQL reste un outil indispensable : 70 % des répondants du sondage O'reilly ("2015 DataScience Salary Survey”, 2015) déclarent l'utiliser et qu'une étude de CrowdFlower ( "What skillsshould data scientists have in 2016?", 2016) indique qu'il est une compétence demandée dansprès de 60% des offres d'emploi.

Logiciels conçus par les équipes derecherche, à découvrir!!

Crazy Stone - www.remi-coulom.-fr/CrazyStone

JProGraM - goo.gl/FislJeParadisEO - paradiseo.gforge.inria.fr

Mixmod - www.mixmod.orgSTKK++ - www.stkpp.org

Packages pour R disponibles sur cran.r-project.org et r-forge.r-project.org :BlockCluster, Clustericat, CoModes, CorReg,

FunFEM, FunHDDC, HDPenReg, MPAGenomics,MetaMA, MetaRNASeq, MixAll, MixCluster,

RankCluster, clere, rtkore

Les Hauts de France, leMachine Learning dans la peau

des problèmes génériques (ordonnancement flow-shop,élaboration de tournées, etc.) que des problèmesindustriels de logistique, transport, énergie ou de bioin-formatique.

Les axes de recherche sont :- Analyse de la structure d'un problème d'optimisationcombinatoire, où plusieurs indicateurs sont utilisés pourétudier le contexte du problème. Ceci a permis laconception d'opérateurs, fonctions objectifs et deméthodes hybrides efficaces pour la résolution deproblèmes mono-objectif et multi-objectif;- hybridation de méthodes aux comportementscomplémentaires (métaheuristiques et/ou méthodes exact-es);- méthodes d'optimisation parallèles, pour accélérer lestemps de recherche, résoudre des problèmes de grandetaille, améliorer la robustesse et la qualité des solutions ob-tenues.

Partenariats industriels : EDF, GDF-Suez, Tasker, énergie(électricité, cloud); Genes Diffusion, Alicante, bioinform-atique; DHL, Vekia, Opalean, logistique et transport.

MODAL - "MOdel for Data Analysis and Learning" -sequel.lille.inria.frMODAL développe de modèles génératifs pour l'analyse dedonnées hétérogènes et / ou complexes multivariées. lesexemples typiques de ce type de données sont des covari-ables nominales multivariées ou la combinaison de vari-ables continues et nominales hétérogènes.Bien évidemment, le traitement d'autres covariables com-plexes - ordinales, de rapport ou d'intervalle - est envis-ageable.

A partir de ces modèles génératifs, une analyse statistiquepertinente permet ensuite d'obtenir l'analyse visuelle et laclassification supervisée, semi-supervisée ou à l'estimationde densité.

les axes de recherche se concentre sur les modèlesgénératifs, qui sont des modèles décrivant le processus degénération des données, à la différence des modèlesprédictifs.

Relations industriels : PGXIS UK, PharmacoGenomicInnovative Solutions, Institut Pasteur de Paris, IBL InstitutBiologique de Lille, Rouge gorge, PIXEO

INOCS - "INtegrated Optimization with ComplexStructure" - team.inria.fr/inocs

INOCS travaille sur la modélisation et la résolution desproblèmes d’optimisation de grande taille avec structurecomplexe. L’optimisation consiste à trouver une meilleuresolution parmi un ensemble de solutions possibles. Samodélisation peut être un programme mathématique où lesvariables de décisions doivent satisfaire un ensemble decontraintes définissant la réalisabilité de la solution etoptimiser une ou plusieurs fonctions objectifs.Elle est dite à structure complexe quand il comprend desdécisions de type/nature différentes (par exemplestratégique, tactique ou opérationnelle) et/ou des décisionsprésentant une structure hiérarchique du type meneur-suiveur (problèmes bi-niveau) et/ou des décisions prisesdans un environnement incertain.

Les axes de recherche sont :- utiliser la structure de façon explicite pour déterminer lesmodèles les plus appropriés- méthodes de résolutions intégrées basées sur laprogrammaition mathématique- outil de détection de structure dans les modèles- boîte à outils de méthodes pour résoudre des problèmesd'optimisation avec structure complexe.

Partenariats industriels : EDF, DHL, Alcatel, Eurocontrol,Coliweb

HEUDIASYC - " Heuristique et Diagnostic des SystèmesComplexes" - www.hds.utc.fr/heudiasyc/recher-che/equipe-diL'équipe DI (Décision, Image) concentre son activité sur ledéveloppement de nouvelles méthodes d'analyse et de fu-sion de données, le raisonnement dans l'incertain,l'apprentissage statistique, l'analyse d'images et la visionpar ordinateur.

Les axes de recherches sont :- théorie des fonctions de croyance- fusion, estimation d’état- régression, discrimination, classification automatique- apprentissage faiblement supervisé- classification croisée- pénalités parcimonieuses- perception 3D référencée vision et image

Les applications se font dans les secteurs de l'environ-nement, de la santé, des transports, du diagnostic industri-el, la bioinformatique et l'aide au diagnostic médical.

04 euratech trends

Retrouvez‐nous sur le Web!www.euratechnologies.com

EuraTechnologies

165 avenue de Bretagne

59000 Lille

Equipe Développement économique : 03.20.19.18.55

Accueil EuraTechnologies : 03.59.08.32.30

[email protected]

euratech'trends : machine learning

Technology