curriculum vitaejulien.aligon/docs/cv-2016.pdf · 2016-09-09 · entrep^ots de donn ees &...

28
Curriculum Vitae Dr. Julien Aligon 1

Upload: others

Post on 31-May-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

Curriculum Vitae

Dr. Julien Aligon

1

Page 2: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

Table des matieres

1 Synthese du profil 31.1 Activites d’Enseignement . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Activites de Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Profil General 52.1 Informations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Cursus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Experience professionnelle . . . . . . . . . . . . . . . . . . . . . . . . . 62.4 Precedentes candidatures aux postes de Maıtre de Conferences . . . . . 62.5 Competences techniques . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Activites d’Enseignement 73.1 Apercu des activites . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2 Details des enseignements . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Autres activites d’enseignement . . . . . . . . . . . . . . . . . . . . . . 12

4 Activites de Recherche 134.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.2 Contexte General de ma These . . . . . . . . . . . . . . . . . . . . . . 13

4.2.1 Definitions de Mesures de Similarite a Trois Niveaux . . . . . . 144.2.2 Proposition d’un Systeme de Recommandation de Sessions OLAP,

base sur des Mesures de Similarite . . . . . . . . . . . . . . . . . 154.2.3 Definitions de Mesures de Qualite pour la Recommandation de

Sessions OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.3 Perspectives de recherche de ma these . . . . . . . . . . . . . . . . . . . 16

4.3.1 Un Outil pour l’Aide a la Conception de Sessions . . . . . . . . 164.3.2 Un Benchmark pour les sessions OLAP . . . . . . . . . . . . . . 184.3.3 Adaptation du Systeme de Recommandation dans d’autres contextes 18

4.4 Personnalisation de requetes OLAP . . . . . . . . . . . . . . . . . . . . 194.4.1 Extraction de regles d’association . . . . . . . . . . . . . . . . . 194.4.2 Filtrage des regles . . . . . . . . . . . . . . . . . . . . . . . . . . 194.4.3 Traduction des regles en preferences . . . . . . . . . . . . . . . . 19

4.5 Extraction de Motifs Frequents Appliquee aux Donnees de Renault . . . 204.5.1 Perspectives de travail sur la Fouille de Traces Utilisateurs . . . 21

4.6 Projet Antimoine : Anthropologie des territoires – Lecture du patrimoine 224.6.1 Objectif General . . . . . . . . . . . . . . . . . . . . . . . . . . 224.6.2 Utilisation Conjointe de Motifs frequents et Topic Modeling . . 234.6.3 Preparation des donnees . . . . . . . . . . . . . . . . . . . . . . 23

4.7 Autres activites de recherche . . . . . . . . . . . . . . . . . . . . . . . . 25

5 Publications 27

2

Page 3: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

1 Synthese du profil

1.1 Activites d’Enseignement

Annees 2010-2016 TP TD CM Eq. TDStructures de donnees et de programme - L1 Maths-Info 7 66 73Conception Objet - L2 Info 34 10 20 67.5Methodologie : ateliers pedagogiques - L1 Maths-Info 66 58Bases de donnees - L3 Pro QSSI 48 42Bases de donnees - 4eme annee (Ingenieur Polytech) 9 6 15Bases de donnees avancees - 5eme annee (Ingenieur Po-lytech)

12 2.5 15

Developpement Objet - L3 Info 28 8 31Complexite et graphes - L3 Info 8 10 23Projet Decisionnel - M1 SIAD 19 19Entrepots de donnees & analyse en ligne - M2 SIAD 16 2 16ECS - L2 Info 16 16Integration et qualite des donnees - M2 SIAD 8 4 14Genie Logiciel - L1 Maths-Info 8 8Data Warehouses - M2 BI 4 2 6Modelisation Multidimensionnelle - M1 SIAD 8 5.5Logique pour l’informatique - L2 Info 4 4Tutorat personnalise - L1 Maths-Info 3 3

Total : 414

1.2 Activites de Recherche

— Thematiques : Fouilles de donnees, Systemes Centres Utilisateur.— Publications avec actes et comites de lecture :

Journal 2Chapitre de Livre 1Conferences Internationales 3Conferences nationales 4

Total : 10

— Multiples collaborations avec une equipe de recherche de Bologne (Italie) ayantamene a la realisation de deux journaux et un papier en conference internationale,

— Nomination de [12] pour le meilleur papier academique,— Membre du comite de programme du workshop international DOLAP’2015 (ACM

Eighteenth International Workshop On Data Warehousing and OLAP), Mel-bourne, Australie (CORE : classe B, associe a CIKM),

— Responsable de la session Query Processing and Physical Design, Atelier In-ternational DOLAP 2014, Shanghaı, Chine,

3

Page 4: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

— Membre du comite d’organisation de la 9eme Journee Francophone sur les En-trepots de Donnees et l’Analyse en Ligne (EDA), 13 et 14 juin 2013, Blois,France,

— Membre du comite de programme de la session demonstration des 10eme JourneesFrancophone sur les Entrepots de Donnees et l’Analyse en Ligne (EDA), 05 et06 juin 2014, Vichy, France.

4

Page 5: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

2 Profil General

2.1 Informations

Nom Aligon

Prenom Julien

Date de naissance 14 octobre 1987

Lieu de naissance Vitry-Le-Francois (51)

Adresse electronique [email protected]

Site Web www.julien.aligon.fr

Situation de famille Celibataire, sans enfant

Permis B

Fonction Actuelle Post-Doctorata l’Universite de Nantes

Affiliation Laboratoire Informatique de Nantes Atlantique(LINA, UMR 6241)de l’Universite de Nantes,Equipe Data User Knowledge (DUKe)

2.2 Cursus

2010/2013 Doctorat de l’Universite Francois Rabe-lais Tours, specialite informatique, Similarity-based Recommendation of OLAP Sessions. These realiseeau Laboratoire Informatique (LI, EA 6300, equipe BDTLN),soutenue le 13 decembre 2013 (Mention Tres Honorable).

2008/2010 Master Systeme d’Information et Analyse Decisionnelle(SIAD) de l’Universite Francois Rabelais Tours (Mention AssezBien). Stage de recherche realise au Laboratoire Informatique(LI, EA 6300, equipe BDTLN) de l’Universite Francois RabelaisTours

2005/2008 Licence Informatique de l’Universite Francois Rabelais Tours(Mention Assez Bien)

2005 Baccalaureat Scientifique (Mention Assez Bien), Lycee Saint-Joseph, Vendome (41)

5

Page 6: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

2.3 Experience professionnelle

depuis mars 2015 Post-Doctorat au LINA (Laboratoire Informatique de Nantes),equipe DUKe, a l’Universite de Nantes.

sept. 2014 - fevr. 2015 Ingenieur de Recherche, a l’Universite Francois Rabelais Tours.

2013-2014 ATER a temps complet (192 heures equivalent TD), a l’Univer-site Francois Rabelais Tours.

2010-2013 Doctorant Contractuel a Charge d’enseignement (DCACe,Bourse Ministerielle, 192 heures equivalent TD), a l’UniversiteFrancois Rabelais Tours.

Jan-Fev 2012 Stage de recherche de quatre semaines au Lucentia ResearchGroup de l’Universite d’Alicante (Espagne), encadre par le Pr.Juan Trujillo. Ce stage a permis d’initier une approche pourresumer et naviguer entre des logs de requetes OLAP.

Juil-Aout 2009 100 heures d’enseignement aupres des detenus de la maisond’arret de Blois afin de leur faire valider le B2I (Brevet Infor-matique et Internet), dans le cadre d’un stage non obligatoire enMaster 1 SIAD.

2.4 Precedentes candidatures aux postes de Maıtre de Conferences

— (2014) Universite de Tours - Site de Blois : Auditionne, classe 4eme,— (2014) Universite de Rennes 1 : Auditionne, non classe,— (2014) Universite de Rennes 1 - Site de Lannion : Auditionne, classe 3eme,— (2015) Universite de Caen - IUT de Caen : Auditionne, non classe.— (2015, hors concours CNU) Telecom Bretagne - Site de Brest : Auditionne, classe

3eme.

2.5 Competences techniques

Calculs paralleles et distribues Formation a Hadoop/MapReduceFouille de donnees Fouille de traces, extraction de regles d’associa-

tion/sequences frequentes, topic modeling, mesuresde similarites, clustering

Decisionnel Entrepots de donnees, OLAP, Reporting, API MondrianLangage de programmation Java, Java EE, PHP, JavascriptMethodologie UML, Design Pattern

6

Page 7: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

3 Activites d’Enseignement

3.1 Apercu des activites

Mes trois annees de doctorat et mon annee d’ATER a temps complet m’ont per-mis d’enseigner au departement Informatique de l’Antenne Universitaire de Blois surtoutes les annees de Licence (L1, L2, L3, L3 Professionnelle Qualite et Securite desSystemes d’Information (QSSI)) mais aussi sur toutes les annees de Master (M1, M2Systeme d’Information et Aide a la Decision (SIAD)) ainsi qu’en Master 2 BI (BusinessIntelligence, formation dispensee en anglais). Une bonne partie de mes enseignementsetait consacree au langage objet Java mais egalement aux entrepots de donnees etplus generalement aux bases de donnees. L’annee de mon post-doctorat au LINA m’aaussi permis de realiser des vacations a Polytech’Nantes, aupres des etudiants ingenieurde 4eme et 5eme annee, dans le domaine des bases de donnees. Le tableau presenteci-dessous recapitule l’ensemble des enseignements effectues entre 2010 et 2016 pourchaque annee d’etude.

7

Page 8: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

Annee 2015-2016 : Vacataire TP TD CM Eq. TDImplementation dans les Bases de donnees Relation-nelles - Ingenieur 4eme annee

9 6 15

Bases de donnees Avancees - Ingenieur 5eme annee 12 2.5 15Annee 2013-2014 : ATER TP TD CM Eq. TD

Methodologie : ateliers pedagogiques - L1 Maths-Info 24 16Structures de donnees et de programme - L1 Maths-Info 30 30Genie Logiciel - L1 Maths-Info 8 8Tutorat personnalise - L1 Maths-Info 1 1Conception Objet - L2 Info 20 16 37.5Developpement Objet - L3 Info 28 8 31Complexite et graphes - L3 Info 8 10 23Bases de donnees - L3 Pro QSSI 18 12Modelisation Multidimensionnelle - M1 SIAD 8 5.5Projet Decisionnel - M1 SIAD 19 19Entrepots de donnees & analyse en ligne - M2 SIAD 6 4Integration et qualite des donnees - M2 SIAD 4 2 7

Annee 2012-2013 : DCACe TP TD CM Eq. TDMethodologie : ateliers pedagogiques - L1 Maths-Info 10 10Structures de donnees et de programme - L1 Maths-Info 7 8 15Tutorat personnalise - L1 Maths-Info 1 1Conception Objet - L2 Info 6 2 9Bases de donnees - L3 Pro QSSI 18 18Entrepots de donnees & analyse en ligne - M2 SIAD 6 6Integration et qualite des donnees - M2 SIAD 4 2 7

Annee 2011-2012 : DCACe TP TD CM Eq. TDMethodologie : ateliers pedagogiques - L1 Maths-Info 16 16Structures de donnees et de programme - L1 Maths-Info 10 10Tutorat personnalise - L1 Maths-Info 1 1Conception Objet - L2 Info 8 2 11Bases de donnees - L3 Pro QSSI 12 12Entrepots de donnees & analyse en ligne - M2 SIAD 4 2 6Data Warehouses - M2 BI 4 2 6

Annee 2010-2011 : DCACe TP TD CM Eq. TDMethodologie : ateliers pedagogiques - L1 Maths-Info 16 16Structures de donnees et de programme - L1 Maths-Info 18 18Logique pour l’informatique - L2 Info 4 4Conception Objet - L2 Info 10 10ECS - L2 Info 16 16

Total : 414

Le detail de chacune des activites est donne Section 3.2. D’un point de vu factuel,

8

Page 9: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

on peut resumer que, globalement, j’ai eu a realiser 90% des TPs, 65% des TDs et 33%des CMs.

3.2 Details des enseignements

Implementation dans les Bases de donnees Relationnelles - 4eme anneeIngenieur - 15 h eq. TD Sous la responsabilite du Dr. Guillaume Rashia, j’aieu a assurer l’ensemble des TDs et TPs de deux groupes d’etudiants en 4eme annee dela formation ingenieur propose a Polytech’Nantes. L’objectif de ce module est de fami-liariser les etudiants avec les concepts avances en evaluation de requete (avec l’algebrerelationnel), sur l’estimation des couts d’une requete, sur l’etude et la serialisabilite desplans d’execution. Les TPs ont ete realise sous Oracle 11g.

Bases de donnees Avancees - 5eme annee Ingenieur - 15 h eq. TD J’ai euen charge d’animer une partie du module de Bases de donnees Avancees, aupres dedeux groupes d’etudiants de 5eme annee de la formation ingenieur. L’objectif de cettepartie est d’initier les etudiants aux concepts et pratiques du framework Hadoop et del’API Map/Reduce. Cet enseignement, delivre la premiere fois au sein du departementinformatique de Polytech’Nantes, m’a amene a realiser l’integralite des cours et TPs.

Methodologie : ateliers pedagogiques - L1 Maths-Info - 58 h eq. TD Pendantmes quatre annees d’enseignement, j’ai eu la responsabilite de l’enseignement de lamethodologie en L1 Mathematiques-Informatique. Cet enseignement a pour objectif defournir aux etudiants de L1 les bons reflexes de programmation au travers d’un projetJava encadre sur chaque seance. Dans un souci de lier les concepts vus en mathematiqueset en programmation Java, j’ai propose aux etudiants d’implementer des algorithmessimples de chiffrement. Afin de rendre egalement ce projet plus ludique, j’ai cree uneapplication graphique permettant aux etudiants de facilement manipuler les algorithmesqu’ils ont programmes. Cela permet aussi de montrer aux etudiants que l’interactionavec un programme informatique ne se realise pas qu’avec une simple console.

Structures de donnees et de programme - L1 Maths-Info - 73 h eq. TDSous la responsabilite du Dr. Mohamed Taghelit, j’ai eu la charge d’enseigner pen-dant les quatre dernieres annees la gestion des fichiers en Java aux L1 Mathematiques-Informatique. D’autres concepts necessaires a la bonne comprehension de la gestion desfichiers sont egalement abordes, comme le principe des hierarchies des classes, ou bienle gestionnaire d’exception en Java. J’ai egalement participe a l’elaboration des sujetsd’examen ainsi qu’a leurs corrections.

Genie Logiciel - L1 Maths-Info - 8 h eq. TD Sous la responsabilite du Pr.Thomas Devogele, j’ai eu la charge d’enseigner des TDs sur les bonnes pratiques dedebogage aupres des L1 Mathematiques-Informatique, pendant l’annee 2013-2014.

9

Page 10: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

Logique pour l’informatique - L1 Maths-Info - 4 h eq. TD Sous la responsa-bilite du Pr. Jean-Yves Antoine, j’ai assure deux seances de TD aupres des L2 Infor-matique (en 2010-2011) concernant la programmation logique a l’aide de l’outil SWI-Prolog. L’objectif pour les etudiants concernant ces TDs est de mettre en pratique lesconcepts theoriques du cours, que sont notamment la deduction et la recursivite. J’aiegalement participe a l’elaboration des sujets d’examen ainsi qu’a leurs corrections.

Tutorat personnalise - L1 Maths-Info - 3 h eq. TD J’ai eu en charge pendantces trois dernieres annees, sous la responsabilite du Pr. Jean-Yves Antoine, de suivre4 a 6 etudiants dont le parcours dans le secondaire pouvait laisser prevoir de grandesdifficultes en L1 Mathematiques-Informatique. J’ai donc ete amene a avoir plusieursrendez-vous tout au long de l’annee avec chacun d’eux pour reperer leurs difficultes,repondre a leurs inquietudes mais egalement leur conseiller des voies de reorientation.

ECS - L2 Maths-Info - 16 h eq. TD Cet enseignement realise en 2010-2011 apour but de fournir des connaissances avancees en Java et Web pour les etudiants deL2 Informatique, ayant pour projet de finir leur formation de licence informatique al’etranger (programme ECS). J’ai notamment aborde avec les etudiants les concepts dethreads pour la programmation Java ainsi que le langage de script PHP pour le Web.Les etudiants ont eu a realiser un mini-projet pour chacun de ces concepts.

Conception Objet - L2 Info- 67.5 h eq. TD Sous la responsabilite du Pr. ThomasDevogele, j’ai eu en charge d’enseigner les concepts de base en interface graphique Java(API SWING) aupres des L2 Informatique entre les annees 2010 et 2014. Une grandepartie de cette charge a ete consacree a l’encadrement d’un projet que j’ai redige. Cedernier demande aux etudiants d’ajouter une interface graphique a un precedent projet,assure par le Pr. Thomas Devogele. J’ai egalement participe a l’elaboration des sujetsd’examen ainsi qu’a leurs corrections. Pour l’annee 2013-2014, cet enseignement a eteentierement assure sous ma responsabilite.

Developpement Objet - L3 Info - 31 h eq. TD Cet enseignement a ete portesous la responsabilite conjointe du Dr. Chedlia Chakroun et de moi-meme, aupresdes L3 Informatique pour l’annee 2013-2014. J’ai eu notamment en charge d’ensei-gner des concepts pousses, en Java, comme : les Threads, l’API native de Base deDonnees et l’utilisation d’une API externe pour la realisation de statistiques graphiques(JFreeChart). J’ai realise l’ensemble des cours (a l’exception des Threads) et TPs.Les etudiants ont egalement eu a realiser un projet, que j’ai redige, demandant aconstruire une application graphique (utilisant l’API Swing) et permettant de lancerdes requetes SQL sur une base de donnees, dont les resultats sont renvoyes a l’utilisa-teur. Diverses statistiques doivent etre egalement produites, portant notamment sur lesrequetes passees (stockees dans un log), et affichant par exemple le nombre de tuplesen fonction du temps.

Complexite et Graphes - L3 Info - 23 h eq. TD Cet enseignement a ete portesous la responsabilite conjointe du Dr. Chedlia Chakroun et de moi-meme aupres des

10

Page 11: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

L3 Informatique pour l’annee 2013-2014. J’ai eu notamment en charge d’enseigner unepartie des concepts de complexite (les differentes classes de complexite, les problemesNP-complet, les reductions polynomiales, la programmation dynamique) mais aussi desconcepts de theorie des graphes (probleme du voyageur du commerce, probleme du saca dos). J’ai eu egalement a elaborer un projet sur la realisation et la comparaison dedifferentes implementations relatives au probleme du voyageur de commerce (approchesoptimale, gloutonne et empirique).

Bases de donnees - L3 Pro QSSI - 42 h eq. TD Sous la responsabilite duPr. Thomas Devogele (et precedemment du Dr. Veronika Peralta), j’ai eu en chargel’ensemble des TPs de bases de donnees pour les L3 QSSI. L’objectif des ces TPs estd’appliquer les concepts vus en cours, a travers l’utilisation d’une base de donnees Oracle11g. Les etudiants doivent notamment creer une base a partir d’un schema de base dedonnees vu precedemment en TD, en prenant notamment en compte les contraintesd’integrite possibles. Ils ont egalement a creer des vues materialisees ainsi qu’a interrogerle dictionnaire Oracle. Une fois la base de donnees creee, ils doivent exprimer plusieursrequetes en SQL, de difficultes croissantes, ou sont notamment abordes les concepts dejointure et de groupement. Chaque TP etant note, j’ai eu la charge de corriger chacund’entre eux.

Projet Decisionnel - M1 SIAD - 19 h eq. TD Sous la responsabilite du Dr.Veronika Peralta, j’ai participe au suivi de projet d’etude des Master 1 SIAD pourl’annee 2013-2014. L’objectif de ce projet etait de developper une application d’aideau suivi des etudiants et de l’analyse de leurs reussites, a destination des enseignantsdu departement informatique. Le coeur de ce projet etait notamment de construire unentrepot de donnees, integrant differentes informations sur les etudiants, et permettantdonc de naviguer parmi ces donnees. J’ai eu notamment en charge d’evaluer la partieveille technologique et surtout la partie gestion de projet (diagramme de Gantt, analysedes risques) des differents groupes d’etudiants, pour chaque phase du projet. Chaquefin de phase donnait egalement lieu a une soutenance en anglais que j’evaluais pourpartie.

Modelisation Multidimensionnelle - M1 SIAD - 5.5 h eq. TD Sous la respon-sabilite du Dr. Veronika Peralta, j’ai eu en charge les TPs de modelisation multidimen-sionnelle aupres des Master 1 SIAD pour l’annee 2013-2014. Ces TPs reprennent, enpartie, ceux effectues dans l’enseignement Entrepots de donnees & analyse en ligne pourles M2 SIAD entre les annees 2011-2013 (les concepts de base en modelisation multidi-mensionnelle sont desormais abordes des le Master 1). Plus particulierement, il s’agitici de faire pratiquer par les etudiants la mise en place de schemas multidimensionnels.

Entrepots de donnees & analyse en ligne - M2 SIAD - 16 h eq. TD Sousla responsabilite du Dr. Veronika Peralta et du Dr. Patrick Marcel, j’ai eu en chargeles TPs d’analyse en ligne aupres des M2 SIAD pendant ces trois dernieres annees.Au cours de ces TPs, j’ai aborde avec les etudiants la mise en place de schemas mul-tidimensionnels en utilisant l’outil Schema Workbench (Pentaho) pour une utilisation

11

Page 12: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

avec le serveur OLAP Mondrian (Pentaho). Les etudiants ont eu egalement a optimiserun entrepot de donnees, prealablement construit, en utilisant l’outil Aggregation Desi-gner (Pentaho), et permettant de materialiser les agregats interessants (qui reduiront letemps d’execution d’une requete OLAP). J’ai egalement eu l’opportunite de realiser desTPs autour des strategies de stockage pour les bases de donnees relationnelles (orienteesligne, avec Oracle et colonne avec MonetDB) hebergeant des entrepots de donnees. Lesetudiants devaient lancer les meme requetes OLAP sur ces deux types de bases dedonnees, comparer leurs temps d’execution, et etudier l’impact de la creation d’index,pour la strategie orientee ligne, vis a vis de l’orientee colonne. J’ai aussi participe al’elaboration, au suivi, ainsi qu’a la correction des projets. Ceux-ci, renouveles chaqueannee, sont systematiquement bases sur des donnees reelles provenant de differents or-ganismes. En l’occurrence, j’ai participe, pour l’annee 2012-2013, a plusieurs reunionsavec l’Observatoire de l’Economie et des Territoires de Loir-et-Cher pour aboutir al’obtention de donnees pertinentes a analyser.

Integration et qualite des donnees - M2 SIAD - 14 h eq. TD Sous la responsa-bilite du Dr. Veronika Peralta, j’ai eu notamment en charge les TPs d’integration et dequalite des donnees entre les annees 2011-2014. La qualite et l’integration des donneesse sont faites par l’utilisation des outils proposes par Talend, a partir des donnees brutesissues du projet Entrepots de donnees & analyse en ligne. A noter que j’ai egalementassure les TPs d’integration et de qualite des donnees pour l’annee 2011-2012 (integredans la formation Entrepots de donnees & analyse en ligne), qui a notamment donnelieu a l’elaboration d’un tutoriel en anglais pour l’utilisation de l’ETL propose parOracle (OWB) a destination des etudiants.

Data Warehouses - M2 BI - 6 h eq. TD Cet enseignement qui s’est deroule en2011-2012 (sous la responsabilite du Dr. Veronika Peralta et du Dr. Patrick Marcel),reprend les meme objectifs decrits pour les enseignements Entrepots de donnees &analyse en ligne ainsi que Integration et qualite des donnees des M2 SIAD. La differencenotable est que chaque TP que j’ai assure devait se derouler en anglais (autant sur laredaction des sujet, qu’a l’oral) puisque cette formation etait proposee aux anglophones.

3.3 Autres activites d’enseignement

Voici decrites ci-dessous les activites complementaires auxquelles j’ai participe :— Visite de stage en entreprise pour un etudiant de L3 QSSI— Evaluation des stages de L3 (ecrit + oral)— Seminaire sur le doctorat et la recherche aupres des L1 et L3— Seminaire de recherche aupres des M2 SIAD— Promotion de l’enseignement superieur et du departement informatique aupres

des lyceens de la ville de Vendome (41)— Participation a des forums lyceens sur Blois (41)— Participation aux portes ouvertes de l’Universite Francois-Rabelais Tours

12

Page 13: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

4 Activites de Recherche

4.1 Introduction

Mes travaux de recherche effectues lors des cinq dernieres annees s’articulent tresclairement autour de la thematique Masse de donnees et, plus particulierement, surl’analyse de traces utilisateurs et les systemes de recommandations.

Mes travaux de these, developpes Section 4.2, portent sur la problematique de re-commandation de sequences de requetes, dans un contexte multidimensionnel (OLAP)au travers de techniques par filtrage collaboratif. Pendant mes annees de doctorat, j’aiegalement ete amene a travailler sur la personnalisation de requetes OLAP, developpeSection 4.4. En outre, ces travaux de recherche m’ont aussi amene a travailler dans uncontexte international, a de multiples reprises, avec une equipe italienne de l’universitede Bologne (Prof. Stefano Rizzi et Matteo Golfarelli). Dans le cadre de mes perspectivesde these, j’ai aussi ete amene a implementer integralement, en langage Java, une appli-cation d’assistance a la composition de requetes et de sessions OLAP (detaille Section4.3.1).

Mes travaux issus de mon poste d’ingenieur de recherche, detailles Section 4.5,portent sur l’extraction de motifs frequents, sur plateforme Hadoop, a partir de logsweb de configurations de voitures fournis par la societe Renault.

Mes travaux de Post-Doctorat, decrits Section 4.6, portent sur l’extraction d’infor-mations pertinentes issues de donnees textuelles rattachees a des objets du patrimoinefrancais. Ces donnees sont hebergees par la societe TOPIC − TOPOS et sont consul-tables sur un site internet public. L’objectif, a terme, est de pouvoir recommander desobjets du patrimoine a des utilisateurs du site.

En particulier, la liste de mes publications est disponible Section 5.

4.2 Contexte General de ma These

Les travaux de recherche de ma these portent sur l’aide a la conception de ses-sions d’analyse dans les bases de donnees multidimensionnelles. Plus particulierement,l’OLAP (On-Line Analytical Processing) est le paradigme principal pour acceder auxdonnees multidimensionnelles dans les entrepots de donnees. L’OLAP fournit notam-ment un ensemble d’operations qui transforment une requete multidimensionnelle enune autre, de sorte que les requetes OLAP sont normalement formulees sous la formede sequences appelees Sessions OLAP. Alors qu’il est universellement reconnu que lesoutils OLAP ont un role cle dans l’exploration souple et efficace des cubes multidi-mensionnels dans les entrepots de donnees, il est aussi communement admis que lenombre important d’agregations et selections possibles, qui peuvent etre exploites surles donnees, peut desorienter l’experience utilisateur.

Ainsi, mon travail porte sur la problematique de recommandation de requetes, encollaboration avec une equipe de recherche des professeurs Stefano Rizzi et MatteoGolfarelli de l’universite de Bologne (Italie). Une des suppositions de l’approche est quetoute la sequence de requetes OLAP est une valeur en soi car il donne a l’utilisateur unevue differente et complementaire de l’information. Pour cette raison, nous proposons une

13

Page 14: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

approche dont le but est de recommander une sequence de requetes OLAP. En coherenceavec les approches de filtrage collaboratif, l’objectif est de reutiliser les sessions passeesrealisees par d’autres utilisateurs. Ainsi, le systeme de recommandation est compose detrois phases dont la premiere selectionne un ensemble de recommandations possiblesparmi les sessions passees (phase de Selection), puis les classes (phase de Ranking)et finalement adapte la meilleure recommandation au contexte de la session courante(phase de Tailoring) .

Pour prendre en compte les sessions precedentes dans le systeme de recommandation,nous proposons de definir des mesures de similarite entre les sessions. Ces mesures desimilarite sont utilisees lors des phases de Selection et Ranking en respectant l’aspectsequentiel des sessions. La comparaison des sessions OLAP est fondee sur des besoinsspecifiques afin de proposer des mesures de similarite entre les sessions, adaptees aucontexte OLAP. Ces exigences ont conduit a proposer une approche a deux niveaux,comprenant une mesure de similarite entre les requetes et une mesure de similarite entresequences (basee sur l’algorithme de Smith-Waterman pour aligner des sous-sequences).

Pour evaluer la pertinence du systeme de recommandation et des mesures de simila-rite, un ensemble de mesures de qualite est propose (tels que l’adaptation, la nouveaute,l’evidence, etc.), definies a partir de criteres de qualite exprimes dans le cadre de la re-commandation de sessions. Bien evidemment, le systeme de recommandation, mais aussiles propositions de mesures de similarite doivent pouvoir etre testes a partir de sessionspassees. Mes travaux ont donc mene egalement a proposer un ensemble de generateursde logs synthetiques pour tester le systeme et les mesures. Des logs reels ont aussi eteobtenus pour montrer que l’approche est efficace a partir d’analyse diverses. En outre,les evaluations ont montre que le systeme de recommandation est capable de proposerdes sessions pertinentes, bien adapte au contexte de la session courante, tout en etantinformative pour l’utilisateur.

Les details des differents travaux de recherche enumeres dans cette section, a savoirles definitions de mesures de similarites a trois niveaux, le systeme de recommandationmais aussi la definition de criteres de qualite pour les recommandations, sont disponiblesSections 4.2.1, 4.2.2 and 4.2.3.

4.2.1 Definitions de Mesures de Similarite a Trois Niveaux

Le systeme de recommandation propose repose uniquement sur l’utilisation de l’ex-pression de requete saisie par l’utilisateur, notamment pour des raisons d’efficacite enterme de temps de calcul. Ainsi la definition de requete repose sur un modele base surdes fragments et est compose de trois elements a savoir : le group-by set (correspon-dant aux niveaux d’analyses choisis pour chaque hierarchie disponible sur un cube dedonnees), l’ensemble des predicats de selections et l’ensemble des mesures (permettantde realiser des agregations).

La mesure de similarite entre requetes doit par consequent prendre en compte cettedefinition. Pour cela, cette mesure combine une mesure de similarite par type d’elementsdu modele de requete. La similarite entre group-by set repose principalement sur lesdistances entre les niveaux des hierarchies, au travers du treillis des group-by set. Lasimilarite entre ensemble de predicats de selections repose a la fois sur les distances entreniveaux de predicats mais aussi sur les differences de valeurs de selections. La similarite

14

Page 15: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

entre ensemble de mesures repose sur l’utilisation classique de l’Index de Jaccard.Plusieurs similarites entre sessions ont ete proposees pour ce travail, integrant la

mesure de similarite entre requetes. En particulier, chacune de ces propositions estune extension au contexte de l’OLAP de mesures classiques disponibles en Recherched’Information tels que le Coefficient de Dice, TF-IDF, la Distance de Levenshtein, etl’alignement de sous-sequences. Ces differentes propositions ont ete comparees entreelles par des tests subjectifs (aupres d’etudiants et de chercheurs) et objectifs (en pro-duisant differents types de comportements de sessions similaires). Les resultats ont tresclairement montres que l’alignement de sous-sequences (base sur l’algorithme de Smith-Waterman) surpassait toutes les autres mesures.

Plusieurs similarites entre groupes de sessions sont aussi proposees, integrant lamesure de similarite entre sessions. Chacune de ces mesures est une extension de mesuresclassique tels que l’Accuracy (base sur la precision et le rappel), la distance de Hausdorffet l’index de Jaccard.

4.2.2 Proposition d’un Systeme de Recommandation de Sessions OLAP,base sur des Mesures de Similarite

Le systeme de recommandation propose est compose des trois phases suivantes :

1. La phase de Selection identifie dans un log un ensemble de sessions constituantdes futures pertinents pour la session courante.

2. La phase de Ranking determine parmi ces sessions, celle dont une sous-sequencesera une recommandation de base.

3. La phase de Tailoring adapte la recommandation de base a la session courante.

En particulier, la phase de Selection identifie l’ensemble des sessions pertinentes encomparant chaque session du log avec la session courante. Pour ce faire, la mesure desimilarite, base sur l’alignement de sequences, est utilisee de telle sorte qu’un alignementavec la fin des requetes de la session courante et le debut des requetes des sessions dulog sera avantage. Ainsi, la sequence de requetes suivant la sous-sequences de la sessiondu log alignee sera considere comme une possible recommandation.

La phase de Ranking affecte un score pour chaque session obtenue dans la phaseprecedente. L’idee est de specifier un score important pour les sessions incluant desrequetes retrouvees frequemment parmi les autres sessions proches, pour une memeposition dans la sequence de requete. L’extension de l’alignement de sous-sequences estici aussi utilisee.

La phase de Tailoring cherche a adapter le contexte de la recommandation ayantle meilleure score de la phase de Ranking avec le contexte de la session courante. Pourcela, deux types de regles d’association sont extraites. Le premier extrait les regles apartir de la session courante et de la session du log incluant la recommandation. En effet,l’idee est de pouvoir trouver quels sont les fragments de requetes frequemment associeesentre ces deux sessions. Ainsi, les fragments de la recommandation correspondant a desfragments de corps de regles sont remplacees par des fragments de session courante,situees en tete de regle. Le second type de regle identifie les invariant de la sessioncourante en cherchant les associations frequentes entre fragments de ses differentes

15

Page 16: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

requetes. Ainsi si un fragment de la recommandation correspond a un fragment decorps de regle, alors le fragment de tete pourra etre ajoute.

Finalement, le systeme de recommandation fourni a l’utilisateur des recommanda-tions synthetise, a partir de sessions passees.

4.2.3 Definitions de Mesures de Qualite pour la Recommandation de Ses-sions OLAP

Un ensemble de mesures de qualites sont definie pour verifier la qualite des recom-mandations produite par le systeme. Six mesures de qualites sont proposees, telles queRelevance, Foresight, Novelty, Adaptation et Obviousness et Accuracy. La mesurede Relevance est simplement le score obtenu pendant la phase de Ranking. La mesurede Foresight indique a quel point la derniere requete de la session courante est loin dela premiere requete de la session recommandee. La mesure de Novelty identifie com-ment la session recommandee est distante des sessions du log. La mesure d’Adaptationcherche a savoir a quel point la session recommandee est bien adaptee au contexte dela session courante en terme de fragments. La mesure d’Obviousness indique la pro-portion de requetes, de la session recommandee, retrouvee a l’identique dans le sessioncourante. La mesure d’Accuracy, classique dans les techniques centree utilisateur pourmesurer la qualite d’un systeme, cherche a savoir si la session recommandee est prochede celle attendue.

Les tests realises a partir de ces mesures, notamment bases sur des logs synthetiqueset reels en utilisant le principle de la validation croisee, ont montree que les recom-mandation fournies sont tres proches de la session courante en terme d’Adaptationet de Foresight, et proposent tres peu de requetes identiques a la session courante(Obviousness) et semblent informatives pour l’utilisateur (Novelty). En particulier,les tests d’Accuracy ont montre que la phase de Tailoring ameliorait sensiblement lesresultats en terme de precision et et rappel, notamment pour des logs incluant dessessions tres eparses.

4.3 Perspectives de recherche de ma these

4.3.1 Un Outil pour l’Aide a la Conception de Sessions

Quand un utilisateur commence tout juste a realiser sa session, le systeme de re-commandation ne peut generalement pas proposer de requetes puisque peu de requetessont disponibles. Le probleme de Demarrage a Froid, bien connu dans le contexte de larecommandation, pourrait etre en partie evite grace a des techniques de resume (quej’ai developpe dans [10] et [8]). En effet, l’idee serait qu’un utilisateur puisse explorerles requetes passees dans le but d’identifier des requetes interessantes. Mais puisque lataille d’un log de requetes est tres importante, l’utilisateur pourrait etre submerge parla quantite d’information disponible. Ainsi, seules les requetes les plus pertinentes dulog seraient presentees a l’utilisateur, sous une forme organisee, et dont des operateursde navigation permettraient de les explorer facilement.

16

Page 17: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

Une premiere experience a ete realisee dans [7] et presente un outil OLAP (nommeFalseto pour ’Former AnalyticaL Sessions for lEss Tedious Olap’) permettant d’assisterun utilisateur a la composition de requetes et de sessions, a l’aide de fonctionnalites ho-listiques. En effet, l’utilisateur a la possibilite de resumer, naviguer, lancer des requeteset reutiliser des sessions passees.

Dans les details, cet outil est base sur un framework incluant :— un langage d’edition de requetes OLAP permettant d’ajouter/supprimer un

element (group-by set, conditions de selections, mesures), mais aussi d’operateurde navigation similaires a ceux que l’on peut traditionnellement trouver en OLAP(drill-down, roll-up, slice-and-dice)

— un langage de manipulation de logs incluant cinq operateurs, inspires de l’algebrerelationnel, que sont la selection σ, le groupement/aggregation π, la jointure 1,l’union ∪ et la difference \.

Cette relation de specialisation est ainsi a la base du systeme de resume permettantd’en avoir un apercu fidele, mais concis.

En outre, l’utilisateur a la possibilite d’utiliser des fonctionnalites holistiques,implementes dans Falseto, permettant de :

— fouiller dans les logs : l’outil implemente deux versions de l’operateur de selectionσθ,s. En fonction d’une session s, le systeme permet de filtrer le log a l’aide d’unefonction θ qui peut etre soit une mesure de similarite (l’implementation est basesur l’extension de Smith-Waterman, comme decrit Section 4.2.1) ou une relationde specialisation entre sessions. La relation de specialisation entre sessions, ellememe base sur une relation de specialisation entre requetes (voir [8] pour plusde details), permet de facilement decrire des groupes de requetes ou de sessionsa differents niveaux de details.

— resumer et navigation dans les logs : l’outil implemente l’operateur de groupe-ment/aggregation πθ(s, s

′) pour naviguer dans un log de maniere conviviale. Eneffet, a l’aide de techniques de clustering, des paires de sessions similaires sontformes et l’operateur πθ(s, s

′) permet de les aggreger afin d’en avoir une vue plusgenerale (a l’aide de la relation de specialisation decrite ci-dessus).

— recevoir des recommandations : le systeme de recommandation propose pendantma these est inclus dans cet outil (voir Section 4.2).

Puisque cet outil repose sur l’exploitation de logs, une collecte de sessions d’analysea aussi ete conduite aupres d’etudiants de Master. A cette fin, un protocole de recolte desessions a ete propose et plusieurs questionnaires, avec un nombre limite de questions,construits autour d’un meme cube de donnees, ont ete distribues aux etudiants afin deconduire eux-memes leurs analyses. Cet ensemble de sessions obtenues a ensuite permisde valider les differentes approches proposees.

L’implementation et les elements necessaires au fonctionnement de l’outil sont dis-ponibles a l’adresse suivante : http://vega.info.univ-tours.fr:29082/TEA/. La Fi-gure 1 donne un apercu de l’interface utilisateur.

17

Page 18: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

Figure 1 – Interface utilisateur de l’outil Falseto

4.3.2 Un Benchmark pour les sessions OLAP

Pour mener et simuler des tests, il semble important d’avoir a disposition une plate-forme de reference pour verifier la qualite de sessions d’analyse sur un cube de donnees.En effet, bien que la qualite des donnees soit un domaine largement etudie, la qualitedes processus d’interrogation de bases de donnees ne l’ai pas encore. Ainsi, la propo-sition de facteurs de qualite pour les requetes et sessions d’analyse pourrait permettrele developpement d’une plateforme verifiant et validant des approches centrees utilisa-teurs. Plus precisement, cette plateforme pourrait mesurer dans quelles proportions lesapproches sont efficaces en terme de pertinence des reponses, d’effort fourni pour effec-tuer l’analyse OLAP etc. En outre, cela supposerait d’etendre la definition de sessionen la completant par le plus d’information possibles, tel que les operations OLAP.

4.3.3 Adaptation du Systeme de Recommandation dans d’autres contextes

Puisque d’autres domaines, autres que l’OLAP, sont aussi confrontes au problemede sequences complexes, il semble interessant d’adapter le systeme de recommandationa ces contextes. Par exemple, dans le contexte de la fouille de donnees, les sequencescomplexes peuvent etre vues comme des sequences de taches de fouilles de donnees.Bien evidemment, la similarite de sessions a deux-niveaux doit etre adaptee a chaquedomaine specifique.

18

Page 19: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

4.4 Personnalisation de requetes OLAP

Le but de la personnalisation est de fournir une information pertinente a un utili-sateur ou groupes d’utilisateurs avec la meilleure interaction possible. Dans le contexteOLAP, la personnalisation semble benefique, parce que les requetes peuvent etre trescomplexes et peuvent retourner un nombre important de donnees. Dans le but de rendrel’experience utilisateur la plus agreable possible, une approche proactive de personna-lisation de requetes a ete proposee. Cette approche associe un langage de requete basesur MDX pour exprimer des preferences et des techniques de fouille de donnees pourannoter automatiquement une requete courante. En premier lieu, les requetes MDX,effectue par un utilisateur donne et stockees dans un log, sont fouilles pour en extraireun ensemble de regles d’associations qui refletent les clauses de requetes frequentes(detaille Section 4.4.1). Puis, selon une requete utilisateur specifique, un sous-ensemblede regles pertinentes et valides est selectionne (detaille Section 4.4.2). Finalement, lesregles selectionne sont traduites en une preference qui est utilise pour annoter la requetede l’utilisateur (detaille Section 4.4.3).

4.4.1 Extraction de regles d’association

Pour des raisons d’efficacite, la phase d’extraction de regles d’association est realiseoff-line, avant que la session de requetes courante ne commence. Cette phase consistea executer un algorithme de fouille de donnees sur chaque log de requete utilisateurpour en extraire un ensemble R de regles d’association, dont les valeurs de support etconfiance sont au dessus d’un certain seuil.

4.4.2 Filtrage des regles

Quand l’utilisateur est en train d’ecrire sa requete MDX q, un sous-ensemble deregles Rq ⊇ R est selectionne. Chaque regle dans Rq est pertinente, c’est a dire queson antecedent correspond a un element de la requete q, et valide, c’est a dire que lapreference pourrait etre traduite dans q pour ordonner les faits retournes par q. Afind’exprimer une complexite de preferences desiree, l’utilisateur a la possibilite de choisirun nombre α (entier positif) de preferences. A partir de Rq, un ensemble d’elements Fαde requetes est genere de maniere a ce que α preferences soient incluses dans l’expressionde preference general.

4.4.3 Traduction des regles en preferences

Chaque fragment de Fα est traduit en un constructeur de base de preference. Lesconstructeurs resultants sont ensuite unis et composes, par l’utilisation de l’operateurde Pareto, en une expression de preference p. Ensuite, la requete q est annotee avecl’expression de preference p, traduite a l’aide du moteur de preference myMDX 1, etexecutee.

1. Preference-Based Datacube Analysis with myOLAP , Paolo Biondi and Matteo Golfarelli andStefano Rizzi, ICDE 2011

19

Page 20: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

4.5 Extraction de Motifs Frequents Appliquee aux Donneesde Renault

Ce travail s’est effectue en etroite collaboration entre les societes Cyres (specialisedans les structures Hadoop, base sur le site de Tours), Renault (site de Le Plessis-Robinson) ainsi que les equipes OC (specialise dans l’optimisation et l’ordonnancement)et BDTLN (pour la partie fouille de donnees) du laboratoire informatique de l’universitede Tours.

Plus precisement, les travaux de ce projet portent sur l’extraction de motifs frequents,sur plateforme Hadoop, a partir de logs web fournis par Renault. En particulier, ces logscontiennent les differentes etapes des utilisateurs configurant une nouvelle voiture autravers du site internet de Renault.

L’objectif principal est de trouver des motifs frequents, mais pertinents, permettantd’identifier et de decrire des usages pour un modele de voiture particulier (par exemple,etudier les configurations de voiture les plus demandees).

Un premier travail a ete d’identifier, dans la litterature, des algorithmes de fouillede motifs frequents adaptes au contexte MapReduce. Classiquement, l’objectif de laplupart de ces propositions est de repondre au probleme qu’est l’equilibre de la chargede traitement.

Notamment, deux algorithmes efficaces, a savoir BigFim et DistEclat 2, sont pro-poses. Dist-Eclat utilise un equilibre de charge base sur un top-k de motifs frequentsgeneres par l’algorithme classique Eclat. Eclat se basant sur une base de donnees ver-ticale et sur l’utilisation de TID-list (liste de transactions se rapportant aux items),l’execution sous MapReduce peut etre efficace si le volume de ces TID-list reste limite.Quant a BigFim, celui-ci equilibre la charge par un top-k de motifs frequents generespar l’utilisation de l’algorithme Apriori. L’avantage ici est de ne pas avoir a gerer desTID-list. Mais Apriori etant tres couteux, l’execution peut etre ralenti si le top-k aexplorer est trop important.

Ainsi, ces deux algorithmes ont ete utilises dans le cadre de ce projet pour fouillerles logs de configuration.

Bien evidemment, et prealablement a tout travail de fouille, un travail de decoupageet filtrage des logs a ete effectue. En particulier, un travail a ete realise sur l’extractionde sessions a partir des sequences de configuration presentes dans les logs. Ainsi lessessions utilisateurs considerees comme triviales (par exemple, seulement une ou deuxrequetes sont presentes) ont permis de filtrer logs initiaux, ameliorant ainsi leur qualite.

Concernant le probleme de la pertinence des motifs frequents extraits, mais bienque classique dans le domaine de la fouille de donnees, un travail de filtrage des motifsa egalement ete entrepris. En effet, au vu de la masse de motifs extraits, il est essentield’en diminuer le nombre et de se focaliser sur les items les plus pertinents pour Renault.Ainsi, la premiere etape a ete de se focaliser sur les motifs clos. En effet, un motif etantclos lorsqu’il n’a pas le meme support que tout super-motif, il permet de definir unerepresentation condensee et sans perte de l’information.

Une seconde etape a ete de filtrer les singletons possedant une valeur de support

2. Frequent Itemset Mining for Big Data, Sandy Moens, Emin Aksehirli and Bart Goethals, BigData 2013

20

Page 21: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

tres elevee et qui n’apportent aucune valeur ajoutee aux motifs extraits. Par exemple, ilest facilement comprehensible que Renault considere comme triviale une configurationde voiture incluant un volant a gauche (en France, bien sur). Le meme principe a aussiete effectue pour des ensembles d’items tres frequents.

Un autre travail, en cours, est d’identifier des motifs emergeants a l’aide de mesuresoriginales de taux de croissance et de taux d′inattendu. L’idee est d’extraire des mo-tifs frequents a partir d’un ensemble de configurations dites initiales (typiquement lesconfigurations proposees par Renault lors d’une premiere connexion sur le configura-teur de voiture) et d’un autre ensemble de configurations finales (la voiture desiree parl’utilisateur). La comparaison, pour un meme motif donne entre ces deux classes deconfigurations, permet d’obtenir un ensemble de motifs emergeants a l’aide des mesuresde taux de croissance et d’inattendu. Plus particulierement, le taux de croissance d’unmotif donne est base sur les differences de support entre les deux classes considerees. Letaux d’inattendu est, quant a lui, calcule a partir des taux de croissance des partitionsdu motif considere. L’extraction de ces motifs emergeant s’est, pour l’instant, limite aun jeu de donnees raisonnable (du a une complexite exponentielle de l’algorithme d’ex-traction de motifs emergeants) Le passage a l’echelle, a l’aide de techniques MapReduce,est a l’etude.

4.5.1 Perspectives de travail sur la Fouille de Traces Utilisateurs

Au vu des logs fournis par Renault, differentes pistes restent a explorer.Parmi celles ci, un objectif est de comprendre les usages de configuration de voiture

au fil du temps : cela suppose de pouvoir extraire des motifs emergeants pour differentesperiodes de temps.

D’autres objectifs concernent l’etude des sequences utilisateurs. L’extraction desequences frequentes permettrait d’identifier des cycles possibles de configurations, afinde savoir si les utilisateurs suivent bien un ordre de configuration de voiture suppose.Dans un soucis d’ameliorer l’interaction avec l’utilisateur, on pourrait egalement cher-cher a identifier les configurations trop complexes et reflechir ainsi aux moyens a mettreen place pour faciliter la configuration d’une nouvelle voiture.

Bien evidemment, comme pour l’extraction de motifs frequents, la masse de donneesa traiter est tres volumineuse. Cela implique donc de paralleliser, au mieux, les taches defouille de sequences. Etrangement, et au mieux de nos connaissances, il semble que peude travaux traitent du probleme de l’adaptation de l’extraction de sequences frequentesau contexte Map/Reduce. Ainsi, un travail en cours est de proposer un algorithme defouille de sequences, base sur l’algorithme classique de PrefixSpan, adapte a Hadoop.

Une autre tache viserait a etablir un etat de l’art sur les langages de haut niveau(tels que Pig Latin) utilises au dessus de Hadoop pour conduire des taches d’explorationde donnees. Cela permettra par la suite de proposer un nouveau langage pour y incluredes fonctionnalites de fouille de donnees, en particulier d’extraction de motifs locaux.

21

Page 22: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

4.6 Projet Antimoine : Anthropologie des territoires – Lecturedu patrimoine

4.6.1 Objectif General

Le projet ANR ANTIMOINE aborde l’introduction du sens dans les systemes d’in-formations patrimoniaux, grace a une co-construction entre l’utilisateur et un environ-nement 3D interactif et adaptatif, favorisant l’activite d’interpretation. L’environne-ment s’appuie sur un contexte constitue par un ensemble d’objets patrimoniaux liesentre eux par des associations dotees d’une semantique caracteristique du patrimoine.Il est represente a l’aide de metaphores graphiques. Le contexte est non defini a prioricar obtenu lors du parcours d’une base de donnees patrimoniale a l’aide de dispositifsimmersifs.

Pour atteindre cet objectif, ANTIMOINE adopte une approche transdisciplinairefaisant intervenir la linguistique (equipe CODIRE de l’IRFFLE, Universite de Nantes),la fouille de donnees (equipe Duke, LINA, Universite de Nantes) et la realite virtuelle(Lab-Sticc, ENIB).

L’aspect fouille de donnees, sur lequel je travaille, a pour but de decouvrir desconnaissances a partir des donnees du patrimoine fournies par la societe TOPIC-TOPOS. Dans le domaine de l’analyse de textes, l’extraction de motifs frequents resteune technique tres populaire pour mettre en evidence des relations frequentes entre lesmots a analyser. De meme, les techniques de topic modeling ont largement fait leurspreuves lorsqu’il s’agit de classer automatiquement des ensembles de mots partageantdes thematiques similaires parmi un ensemble de documents (realise selon leurs proba-bilites jointes d’apparition).

Ainsi, une premiere etape de mon travail a pour ambition de montrer l’interet del’utilisation conjointe de ces deux techniques pour faire emerger des ensembles de motspartageant une meme thematique, mais aussi les relations frequentes entre ces mots(intra et inter thematique). Ce travail est decrit 4.6.2.

Une seconde etape du projet est d’enrichir la fouille de texte a l’aide du modele desemantique des possibles argumentatifs propose par le CODIRE. Ce modele consisteen une analyse lexicographique (de la signification) des objets du patrimoine afin dedeterminer les traits semantiques saillants qui leur sont communs. Pour faciliter l’utilisa-tion de ce modele, l’elaboration d’une ontologie du patrimoine sur les donnees TOPIC-TOPOS est toujours en cours d’elaboration et implique donc une collaboration etroiteentre l’equipe Duke et l’equipe CODIRE.

Une troisieme etape est de fournir un systeme de recommandation d’objets du patri-moine, beneficiant des connaissances obtenues lors des deux etapes precedentes, afin del’utiliser lors d’un processus d’analyse des donnees du patrimoine, a l’aide des methodesde realite virtuelle developpees par l’ENIB. Ce systeme de recommandation est en coursd’etude et se positionne, dans un premier temps, comme un systeme base sur le contenu(les traces utilisateurs ne sont pas prises en compte).

Naturellement, une evaluation du systeme de recommandation devra etre proposeea la fois objectivement (par des mesures de qualite independantes de tout contexte) etsubjectivement (typiquement, une evaluation aupres d’utilisateurs). Une voie d’inves-tigation interessante serait la possibilite d’apporter de la serendipite a ce systeme. La

22

Page 23: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

serendipite est la facon de rendre surprenante une information recommandee, lors d’uneanalyse particuliere. D’ailleurs, une consequence possible de ce principe est d’amener unutilisateur a diverger de son objectif initial. La recommandation serait ainsi considereecomme une nouvelle source d’exploration. Une premiere reflexion sur probleme, reputetres difficile, pourrait sans doute etre engagee dans le contexte de donnees du patrimoineen alliant a la fois des competences en linguistique, fouille de donnees, et l’expertiseTOPIC-TOPOS.

4.6.2 Utilisation Conjointe de Motifs frequents et Topic Modeling

Dans cette section, nous allons tout d’abord illustrer l’interet de l’utilisation jointedes methodes d’extraction de topic modeling et de motifs frequents, a l’aide de l’exempleci-dessous.

Considerons les cinq phrases suivantes (independantes des donnees du patrimoine) :

1. Je prefere le cafe au the.

2. Je prends trois tasses de cafe par jour.

3. Il parait que boire du cafe est bon pour la sante.

4. L’abus de cafe peut aussi nuire a la sante.

5. Faire du sport ameliore le rythme cardiaque et respiratoire.

Si l’on souhaite analyser les tendances generales sur ces phrases, on remarque que,intuitivement, deux thematiques principales emergent :

— les boissons chaudes, incluant notamment les mots {cafe, the, tasses}— la sante, incluant notamment les mots {sante, rythme cardiaque, respiratoire}Pour decouvrir automatiquement ces types de thematiques, les techniques de topic

modeling sont tres appropries. Par exemple, LDA (Latent Dirichlet Allocation 3) en estun modele populaire. Mais ce type de modele ne permet pas d’identifier et caracteriserles relations pertinentes entre les mots. En effet, comme on peut le remarquer a l’aide desphrases (3) et (4), il existe une relation frequente (de 2/5) entre les mots cafe et sante.Ce type de relation aurait, evidemment, ete tres difficile a detecter sans l’utilisation detechniques de decouverte de motifs frequents.

On peut alors supposer que l’utilisation conjointe des techniques de topic modelinget de decouverte de motifs apportent une plus-value interessante pour degager destendances dans les textes, a la fois en termes de thematiques mais aussi de relationsfrequentes.

Ce travail a ete publie dans le papier[11], mais applique a des donnees textuellesportant sur des resumes d’articles de la conference EGC (dans le cadre de l’appel asoumission Defi EGC 2016 ).

4.6.3 Preparation des donnees

En considerant l’ensemble des transactions obtenues lors de la phase d’extraction desdonnees, une phase d’etiquetage morpho-syntaxique et de lemmatisation est appliquee.Cette phase permet, en effet, de grandement simplifier le travail de fouille et l’analyse

3. Latent Dirichlet Allocation, Blei et al., Journal of Machine Learning Research, 2003

23

Page 24: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

des resultats, en considerant les formes canoniques des mots (verbes a l’infinitif, noms ausingulier par exemple). L’etiquetage est realise a l’aide de l’outil TreeTagger 4, permet-tant d’annoter automatiquement chaque mot present dans chacune des transactions.

Dans un premier temps, seuls les mots de type verbes, noms communs et nomspropres ont ete consideres. Plus precisement, les lemmes de chacun de ces types sontpris en compte, ceci afin de toujours faciliter l’analyse des resultats fournis par lesalgorithmes de fouille.

L’analyse plus complete des autres types de mots (adjectifs, nombres, etc.) fait partiedes perspectives d’amelioration.

Un certain nombre de lemmes ont egalement ete filtres, car consideres comme nonpertinents. En effet, les lemmes presentant une frequence d’apparition trop frequentedans les resumes (par exemple les verbes etre et avoir) ne peuvent que contribuer apolluer l’analyse. De meme, des mots trop generiques ajoutent aussi clairement unepollution inutile.

4. http ://www.cis.uni-muenchen.de/ schmid/tools/TreeTagger

24

Page 25: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

4.7 Autres activites de recherche

Seminaire a l’etranger :— Presentation d’un projet de recherche sur la navigation parmi les requetes OLAP

passees, ainsi que de mes travaux de these au Lucentia Research Group, Univer-site d’Alicante (Espagne), Janvier 2012.

Seminaires doctorants :— Presentation de mon sujet de these, LI, Tours, 20 Mai 2011 (en anglais).— Presentation du papier [5] , LI, Tours, 17 Fevrier 2012 (en anglais).— Presentation du papier [9] , LI, Tours, 28 Juin 2013 (en anglais).

Seminaires :— Presentation d’algorithmes d’extraction de motifs frequents sur plateforme Ha-

doop , LI, Tours, 12 Decembre 2014.— Analyse de traces et systemes centres utilisateur, GREYC, Caen, 24 Mars 2015.— Analyse de traces et systemes centres utilisateur, LINA, Nantes, 10 Avril 2015.— Analyse de traces et systemes centres utilisateur, LAMSADE, Paris-Dauphine,

20 Avril 2015.

Gestion de Seminaires :— Co-responsable de la gestion des seminaires de l’equipe Duke au LINA, Nantes,

depuis septembre 2015.

Ecoles d’ete :— Web Intelligence 2010 (WI 2010), Le Web centre sur l’utilisateur, Saint-Germain-

Au-Mont-d’Or, 5 au 9 juillet 2010, France.— First European Business Intelligence Summer School (eBISS 2011), July 3-8

2011, Ecole Centrale Paris, France.

Comites :— Membre du comite d’organisation des 9eme Journees Francophone sur les En-

trepots de Donnees et l’Analyse en Ligne (EDA), 13 et 14 juin 2013, Blois,France. (Mise en place du site web et du module d’inscription)

— Membre du comite de programme de la session demonstration des 10eme JourneesFrancophone sur les Entrepots de Donnees et l’Analyse en Ligne (EDA), 05 et06 juin 2014, Vichy, France.

— Membre du comite de programme du workshop international DOLAP’2015 (ACMEighteenth International Workshop On Data Warehousing and OLAP), Mel-bourne, Australie.

Expertise :— Expertise en fouille de donnees sur le projet ANR Hubble (HUman oBservatory

Based on anaLysis of e-LEarning traces)

Responsable de sessions :

25

Page 26: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

— Responsable de la session Query Processing and Physical Design, Atelier In-ternational DOLAP 2014, Shanghaı, Chine.

Relectures d’articles (en tant que relecteur additionnel) :— CIIA 2011 : Third International Conference on Computer Science and its Appli-

cations, Saida, Algeria, December 13-15, 2011.— EGC 2011 : 11eme Conference Internationale Francophone sur l’Extraction et la

Gestion des Connaissances, 25 au 29 janvier 2011, Brest, France.— ICWIT 2012 : 4th International conference on Web and Information Technolo-

gies, Sidi Bel Abbes, Algeria, April 29-30, 2012.— MoRe-BI 2012 : 2nd International Workshop on Modeling and Reasoning for

Business Intelligence, Florence, Italy, October 17, 2012.— EGC 2013 : 13eme Conference Internationale Francophone sur l’Extraction et la

Gestion des Connaissances, 29 janvier - 01 fevrier 2013, Toulouse, France.— EDA 2013 : 9eme Journee Francophone sur les Entrepots de Donnees et l’Analyse

en Ligne, 13 et 14 juin 2013, Blois, France.— ER 2013 : 32nd International Conference on Conceptual Modeling, November

11-13, 2013, Hong Kong.— Dawak 2014 : 16th International Conference on Data Warehousing and Know-

ledge Discovery, September 1-5, 2014, Munich, Germany.— EDA 2015 : 11eme Journee Francophone sur les Entrepots de Donnees et l’Ana-

lyse en Ligne, 2 et 3 avril 2015, Bruxelles, Belgique.— DSAA 2015 : International Conference on Data Science and Advanced Analytics,

October 19-21 2015 IEEE, Paris.

Nominations :— Nomine pour le prix du meilleur papier dans la categorie Defi EGC [11].— Nomine pour le prix du meilleur papier academique [12].

26

Page 27: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

5 Publications

Les publications indiquees ci-dessous ont toutes ete soumises a un comite de lecture(a l’exception de [8] qui est un papier invite).

References

These de doctorat

[1] Julien Aligon. Similarity-based Recommendation of OLAP Sessions UniversiteFrancois Rabelais Tours, 2013.

Journaux

[2] Julien Aligon, Enrico Gallinucci, Matteo Golfarelli, Patrick Marcel and StefanoRizzi. A collaborative filtering approach for recommending OLAP sessions. InDSS (Decision Support Systems), Volume 69, January 2015, Pages 20-30. 2015.(Facteur d’Impact : 2.036 en 2013, classe A* selon le CORE Australien)

[3] Julien Aligon, Matteo Golfarelli, Patrick Marcel, Stefano Rizzi and Elisa Turric-chia. Similarity Measures for OLAP Sessions. In KAIS, Volume 39, Number 2.2014. (Facteur d’Impact : 2.225 en 2011 et 2.008 en 2010, classe B selon le COREAustralien) Disponible en version on-line : http://link.springer.com/article/10.1007%2Fs10115-013-0614-1#page-1

Chapitre de livre

[4] Julien Aligon, Patrick Marcel and Elsa Negre. Summarizing and querying logsof OLAP queries. In Advances in Knowledge Discovery and management, vol. 3(AKDM-3), post-proceedings of EGC 2011, Studies in Computational Intelligence,Springer. 2013.

Conferences internationales

[5] Julien Aligon, Matteo Golfarelli, Patrick Marcel, Stefano Rizzi and Elisa Turric-chia. Mining Preferences from OLAP Query Logs for Proactive Personalization.In Proc. 15th East European Conference Advances in Databases and InformationSystems, ADBIS 2011. LNCS. September 2011 (classe B selon le CORE Austra-lien)).

[6] Julien Aligon, Patrick Marcel and Elsa Negre. A Framework for Summarizing a Logof OLAP queries. 1st International Conference on Machine and Web Intelligence,ICMWI 2010, special track on OLAP and Datawarehouse. IEEE. October 2010.

27

Page 28: Curriculum VitaeJulien.Aligon/docs/CV-2016.pdf · 2016-09-09 · Entrep^ots de donn ees & analyse en ligne - M2 SIAD 16 2 16 ECS - L2 Info 16 16 Int egration et qualit e des donn

Ateliers internationaux

[7] Julien Aligon, Kamal Boulil, Patrick Marcel and Veronika Peralta. A HolisticApproach to OLAP Sessions Composition : The Falseto Experience. In Proceedingsof the 17th International Workshop on Data Warehousing and OLAP, DOLAP2014, Shanghai, China, November 3-7, 2014. November 2014. (classe B selon leCORE Australien)

[8] Julien Aligon, Dominique Li, Patrick Marcel and Arnaud Soulet. Towards a logicalframework for OLAP query log manipulation. In Proc. 6th International Workshopon Personalized Access, Profile Management, and Context Awareness in Databases,PersDB 2012. August 2012. (invited paper).

Conferences nationales

[9] Julien Aligon. Gathering Real OLAP Analysis Sessions : A Feedback. In Proc.9emes journees francophones sur les Entrepots de Donnees et l’Analyse en ligne,EDA 2013. June 2013. (papier court, 21 soumissions, 29% acceptees en versioncourte).

[10] Julien Aligon and Patrick Marcel. Summarizing former sessions for user-centricOLAP. In Proc. 8emes journees francophones sur les Entrepots de Donnees etl’Analyse en ligne, EDA 2012. June 2012. (17 soumissions, 35% acceptees en versionlongue)

[11] Julien Aligon, Fabrice Guillet, Julien Blanchard, Fabien Picarougne. Defi EGC2016 : Analyse par Motifs Frequents et Topic Modeling. In Proc. 16eme ConferenceInternationale Francophone sur l’Extraction et la Gestion des Connaissances, EGC2016.

[12] Julien Aligon, Patrick Marcel and Elsa Negre. Resumes et interrogations de logsde requetes OLAP. In Proc. 11eme Conference Internationale Francophone surl’Extraction et la Gestion des Connaissances, EGC 2011. Janvier 2011. (131 sou-missions, 26% acceptees en version longue, classe C selon le CORE Australien))

Travaux Annexes

[13] Julien Aligon, Matteo Golfarelli, Patrick Marcel, Veronika Peralta and StefanoRizzi. Questionnaires et Resultats pour les logs reels. http://www.julien.

aligon.fr/index.php/research-activities/real-olap-logs/.

28