data mining et statistiques - rencontre/14.  · data mining et statistiques hugues bersini

Download Data mining et statistiques - Rencontre/14.   · Data mining et statistiques Hugues Bersini

Post on 12-Sep-2018

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Data mining et statistiques

    Hugues Bersini

    IRIDIA / ULB

    Expos Bordet 14/11/2015

  • Philippe Smets (1938-2005), crateur dIRIDIA

    Expos Bordet 14/11/2015

    Thorie des croyances vs Probabilits

  • IA, IRIDIA et Data Mining

    Expos Bordet 14/11/2015

  • Les rseaux de neurones

    Expos Bordet 14/11/2015

  • IA la Google

  • Deep Learning: Reconnaissance dimages, traduction, conduite automatique, (dterministe)

    Expos Bordet 14/11/2015

  • IRIDIA dans le domaine mdical

    Diagnostique automatique de cancer: Decaestecker, Van Ham,

    Kiss Dtection de problmes respiratoires: Mathys, Degroot, Kahn Analyse dlectrocardiogrammes: Bableyantz Aide la marche assiste de paraplgiques: Preumont Aide lempowerment des diabtiques Classification des cancers par puce ADN: IRIBHM et Bordet Cration de linstitut IB2, projet BridgeIris: Bontempi

    Expos Bordet 14/11/2015

  • Gradation automatique des cancers

    Expos Bordet 14/11/2015

    Christine Decaestecker

  • Cluepoints : detection of outlier clinical site

    Real example Known fraud in

    center 191

    SMART analysis 191 is an outlier

    Other centers? 141, 155, 165?

    Most frauds are undetected by current methods

    Summary through PCA of a SMART analysis

    Expos Bordet 14/11/2015

    Marc Buyse

  • Microarray chip

    PUCE ADN

    Expos Bordet 14/11/2015

    Vincent Detours Gianluca Bontempi

  • LA SPINOFF INSILICO

    Expos Bordet 14/11/2015

  • The concept: InSilico DB is a central data hub for genomics-based biomedical research

    InSilico DB = Data + Tools Expos Bordet 14/11/2015

    David Weiss et Alain Coletta

  • Website for genomics datasets management and query

    Illustrer le propos par un projet rcemment ralis + 1 photo

    Expos Bordet 14/11/2015

  • Integration with visualisation and analysis tools

    Expos Bordet 14/11/2015

    Curated biological samples information

    Smoker

    Genes Integr. Gen. Viewer

    Excel

    GenePattern

    R/Bioconductor

  • Expos Bordet 14/11/2015

  • Expos Bordet 14/11/2015

  • Personalized Medicine

    Identifying robust drugsgenotypephenotype relationships is a key challenge in

    the process of making this vision a reality.

    This requires very large sample sets for discovery and validation.

    Phenotype Clinical annotations

    Drugs

    Genotype

    Expos Bordet 14/11/2015

  • Expos Bordet 14/11/2015

    Qui se ressemble sassemble

  • Expos Bordet 14/11/2015

  • Dernier en date: BridgeIris

    Expos Bordet 14/11/2015

  • Premire veritable infrastructure BigData lULB

    Expos Bordet 14/11/2015

  • Statistiques et Data Mining

    1. Les data scientists font tout le temps des stats frquentielles, souvent de manire maladroite et inconsciente pour trouver le meilleur modle: comptage et mtrique.

    2. Faut-il valuer les modles de manire plus scientifique: p-value, student-test, . ?

    3. Loprationalit, le dterminisme du monde et labsence de risque (envoi de mails, sms ) le rendent rarement necessaire mais en mdecine ??

    4. Le BigData renforce le bricolage oprationnel et diminue le recours lvaluation scientifique des rsultats.

    Expos Bordet 14/11/2015

  • Statistiques inconscientes pour la classification: Trois exemples

    Expos Bordet 14/11/2015

    Nave Bayes

    A model

    ?

    ?

    ? ?

    Plus proches voisins

    Arbres de dcision

  • Expos Bordet 14/11/2015

    Classification incertaine Diagnostic mdical Erreurs consquentes

    Classification certaine Reconnaissance de caractre, de scne Erreurs inconsquentes

    Stats plus formelles

    Approches plus informelles

  • Evaluation de modles plus formelle

    Validation croise

    Comparaison de modles: t-test.

    Validation de modle et intervalle de confiance : Pr[-z < val/N < +z] = c

    Conforte lide de llargissement de lensemble de donnes

    Expos Bordet 14/11/2015

    et base de la comparaison

  • Conclusions

    Stats inconscientes (le minimum quil faut savoir) dans lelaboration des modles.

    Data Mining et BigData, de plus en plus, privilgient les qualits dinformaticien sur celles de statisticiens.

    Le besoin de rigueur statistique saccroit avec lincertitude inhrente au monde et les consequences des erreurs.

    Mais la culture statistique est toujours un grand plus!

    Expos Bordet 14/11/2015

Recommended

View more >