prsentation du logiciel de data-mining weka(- ricco/tanagra/sise/logicielsoct2016/3_weka.pdf1...

Download PRSENTATION DU LOGICIEL DE DATA-MINING WEKA(- ricco/tanagra/sise/LogicielsOct2016/3_Weka.pdf1 –Prsentation Historique 26/10/2016 Prsentation du logiciel WEKA(-Pentaho) 3 1992 •Dbut

Post on 22-May-2018

214 views

Category:

Documents

2 download

Embed Size (px)

TRANSCRIPT

  • PRSENTATION

    DU LOGICIEL

    DE DATA-MINING

    WEKA(-PENTAHO) V3.8

    26 octobre 2016

    Auteurs :

    Eric YABAS

    Manel MERAD

    Marc HOLZWARTH

    Charlemagne ADECHINA

  • 1 PrsentationOrigine

    Logiciel libre et gratuit (Licence GPL)

    Dvelopp en Java

    Cr lUniversit de Waikato en Nouvelle-Zlande

    Le Weka est un oiseau endmique de la Nouvelle-Zlande

    Prsentation du logiciel WEKA(-Pentaho) 226/10/2016

  • 1 PrsentationHistorique

    26/10/2016 Prsentation du logiciel WEKA(-Pentaho) 3

    1992 Dbut du dveloppement de la version originale

    1997 Dcision de dvelopper Weka en Java

    2005 Weka reoit le prix SIGKDD (Data Mining and Knowledge

    Discovery Service Award)

    2006

    Pentaho acquiert une licence exclusive pour utiliser Weka dans sa suite dcisionnelle open source (version communautaire et commerciale)

    Pentaho est un fort contributeurhttp://community.pentaho.com/projects/data-mining/

    http://community.pentaho.com/projects/data-mining/

  • 2 Installation, bibliothques et paramtrageInstallation trs simple et rapide

    Tlchargez la dernire version stable correspondant lenvironnement de votre poste de travail, partir de lun des deux sites suivants :

    Communaut Pentaho : http://community.pentaho.com/projects/data-mining/ Universit de Waikato :

    http://www.cs.waikato.ac.nz/ml/weka/downloading.html

    Lancez linstallation et suivez les instructions.

    Et voil, cest prt !

    Optionnel, installer des packages complmentaires (non indispensable pour dbuter).

    Weka comporte un mcanisme permettant dtendre ses fonctionnalits (algorithmes dapprentissage, outils) via un gestionnaire de packages complmentaires. Celui-ci est accessible dans le menu Tools de WEKA et permet dinstaller lensemble des packages publis dans le dpt en ligne officiel WEKA (Dautres dpts peuvent tre ajouts).

    4Prsentation du logiciel WEKA(-Pentaho)

    1

    2

    3

    26/10/2016

    http://community.pentaho.com/projects/data-mining/http://www.cs.waikato.ac.nz/ml/weka/downloading.html

  • 3 Fonctionnalits et mode opratoireInterfaces utilisateur Weka

    Prsentation du logiciel WEKA(-Pentaho) 526/10/2016

    Explorer

    Simple Cli

    Knowledge Flow

    ExperimenterWorkbench

    Visualizers

    Package Manager

    API +Script

    integration Interface permettant de paramtrer et raliser une analyse sur un jeu de donnes

    Interface drag-and-drop permettant de crer un processus de workflow complet danalyse dun ou plusieurs jeux de donnes (essentiellement les mmes fonctions que Explorer.)

    Interface simple (shell) qui permet l'excution directe des commandes WEKA en ligne de commandes

    Environnement pour la ralisation d'expriences de tests et de comparaison de modles statistiques

    Interface regroupant en un seul endroit le SimpleCli, Explorer, KnwoledgeFlow

    et Experimenter

    Visualisation des graphiques gnrs et jeux

    de donnes

    Gestionnaire de dextensions

    Accs aux fonctions Weka directement depuis des programmes en Java ou

    dautres langages, et intgrationdirecte de scripts R/Python

    Coeur WEKA

  • 3 Fonctionnalits et mode opratoirePrincipales fonctionnalits de traitement des donnes

    26/10/2016 Prsentation du logiciel WEKA(-Pentaho) 6

    Preprocessing Import, inspection et prparation/filtre des donnes

    Classification Mise en uvre des diffrents algorithmes de classification

    ClusteringAccs aux techniques de clustering comme l'algorithme de k-means

    AssociationAccs aux apprentissages par rgles d'association qui essaient d'identifier toutes les relations importantes entre les variables

    Feature (attribute)selection

    Choix des variables les plus pertinentes et prometteuses

    Visualization Affichage graphique scatterplot, arbres

  • 3 Fonctionnalits et mode opratoireFocus sur linterface Explorer

    26/10/2016 Prsentation du logiciel WEKA(-Pentaho) 7

    1 onglet pour chaque tape de lanalyse

    Chargement des donnes

    Statistiques descritptives

    Filtre / pr-traitementdes donnes

    Choix de lalgorithme

    Paramtrage et excution Rsultats texte

    Rsultats graphiques (clic droit)

    Preprocess Classify

    Select attributes Visualize

    Mthode dvaluation

    Mthode de recherche

    Rsultats texteRsultats graphiques (clic droit)

    Scatterplotsdes variables

  • 3 Fonctionnalits et mode opratoireFocus sur linterface knowledgeFlow

    26/10/2016 Prsentation du logiciel WEKA(-Pentaho) 8

    Slection des composants intgrer dans le workflow

    Fentre de conception du workflow de traitement

    Configuration du composant / Liens via clic

    droit

    Lancement de lexcution du

    workflow

    Rsultats de lexcution de

    chaque composant

  • 3 Fonctionnalits et mode opratoireFocus sur linterface Experimenter

    26/10/2016 Prsentation du logiciel WEKA(-Pentaho) 9

    Setup Run

    Analyze

    Choix des jeux de donnes

    Choix des algorithmes

    Excution des algorithmes

    Test des diffrents modles Rsultats

  • 4 Mthodes de datamining proposes

    Prsentation du logiciel WEKA(-Pentaho) 1026/10/2016

    Nombredalgorithmes Exemples

    134Mthodes Baysiennes, arbres de dcision, rgressions, rseau de neurones, sparateurs vaste marge, boosting, bagging

    12

    CLOPE, Cobweb, DBScan, EM (maximisation de l'esprance), FarthestFirst, FilteredClusterer, HierarchicalClusterer (classification ascendante hirarchique), MakeDensityBasedClusterer, OPTICS, sIB, SimpleKMeans, XMeans

    7Apriori, FilteredAssociator, FPGrowth, GeneralizedSequentialPatterns, HotSpot, PredictiveApriori, Tertius

    La liste exhaustive est disponible sur le wiki de la communaut Pentaho. http://wiki.pentaho.com/display/DATAMINING/Data+Mining+Algorithms+and+Tools+in+Weka

    Classification

    Clustering

    Association

    http://wiki.pentaho.com/display/DATAMINING/Data+Mining+Algorithms+and+Tools+in+Weka

  • 5 Gestion de la volumtrie et rapiditUn outil prt pour la gestion du Big Data

    Les larges volumes de donnes lis au Big data entrane rapidement des problmes de saturation mmoire lorsde lutilisation des logiciels de data-mining. Weka met en uvre un ensemble de techniques et darchitecturepermettant de contourner ces limites et de russir grer ces problmatiques Big Data :

    Prsentation du logiciel WEKA(-Pentaho) 1126/10/2016

    Sparse data1La compression, en amont du traitement, des fichiers de donnes contenant beaucoup de zros permet de rduire lempreinte mmoire ncessaire aux traitements de donnes.

    Incremental / anytime

    algorithms2

    Lutilisation dalgorithmes incrmentiels permet de construire un modle par un traitement des donnes ligne aprs ligne, ne ncessitant ainsi pas le chargement des donnes compltes en mmoire. La limite mmoire devient celle de la taille du modle.

    Reservoirsampling

    algorithms3

    La gnration dchantillons alatoires permet de gnrer un modle en minimisant la mmoire ncessaire au traitement, sans toutefois dgrader de beaucoup la qualit du modle.

    Ensembleclassifiers

    4La division des donnes en sous-ensembles permet de gnrer des sous-modles en saffranchissant des limites mmoire du volume original. Le modle final est ensuite gnr partir de lensemble de ces modles.

    Datastreammining

    5La gestion de la fouille des flots de donnes permet de traiter les donnes arrivant en flux continue, en adaptant automatiquement les paramtres du modle en fonctions des nouvelles donnes reues.

    Distributed architecture

    6La gestion des traitements sur une architecture distribue, fonctionnant avec Hadoop ou Spark, permet ainsi virtuellement de navoir plus aucune limite dans la taille des donnes.

  • 6 Points forts et points faibles

    Gratuit Richesse des algorithmes Gestion du big data Outil trs extensible via la gestion de

    packages supplmentaires et la possibilit dintgrer des scripts R ou Python

    Interface de comparaison des performances des modles

    Prsentation du logiciel WEKA(-Pentaho) 1226/10/2016

    Ergonomie et lisibilit pas toujours vidente pour une prise en main par les dbutants

    Erreurs non parlantes pour un non dveloppeur (souvent des exceptions java sans message clair lutilisateur).

    Gestion CSV par dfaut calamiteux

    Avertissement : les points forts et faibles dcrits ci-dessous sont limits notre comprhension et nos constatations issues de nos travaux pour ce projet.

    Points forts Points faibles

  • 7 Positionnement par rapport aux autres outils

    Prsentation du logiciel WEKA(-Pentaho) 1326/10/2016

    Weka RapidMiner SQL ServerData-Mining

    add-ins

    Orange Rattle-Gui Dataiku

    Licence utilisation

    Open source / Commerciale

    Open source / Commerciale

    Commerciale (version gratuite) Open source Open source

    Commerciale(versions

    gratuite et payante)

    Machine/OS Support

    Windows / Linux / Mac

    OS

    Windows / Linux / Mac

    OS

    Windows / Mac OS

    Windows / Linux / Mac

    OS

    Windows / Linux / Mac

    OSLinux

    Gestion des sriestemporelles

    Oui Oui Oui Non Oui Non

    Gestiongraphique des workFlows

    Oui Oui Non Oui Non Oui

    Gestion Big Data

    Oui Non Non Non Oui Oui

  • 7 Conclusion

    Weka est un logiciel trs puissant mais dont la prise en mainnest pas vidente pour un dbutant (ergonomie/lisibilitlimite).

    En revanche, une fois la prise en main effectue, la gnrationet le test dun modle sont ralisables trs rapidement.

    Le choix de Weka comme logiciel de datamining dpendraprobablement de la complexit de la problmatique traiter(big data, a

Recommended

View more >