rapport datamining

Upload: asmaa-ezzar

Post on 25-Feb-2018

234 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Rapport DataMining

    1/31

    Table des abrviations

  • 7/25/2019 Rapport DataMining

    2/31

    Liste des fgures

    2

  • 7/25/2019 Rapport DataMining

    3/31

    Sommaire

    3

  • 7/25/2019 Rapport DataMining

    4/31

    Rsum

    4

  • 7/25/2019 Rapport DataMining

    5/31

    Introduction

    5

  • 7/25/2019 Rapport DataMining

    6/31

    6

  • 7/25/2019 Rapport DataMining

    7/31

    CRISP-DM

    CRISP-DM est un modle de processus qui ofre un aperu du c!cle de

    "ie du Data Minin#$ Il comporte si% p&ases qui sont la compr'&ension du

    pro(lme) la compr'&ension des donn'es) la pr'paration des donn'es) la

    mod'lisation) l*'"aluation et le d'ploiement$

    Phase 1 Com!rhension du !robl"me

    +ace , l*e%pansion de l*industrie cin'mato#rap&ique) un #rand d'

    "isant , a%er les d'cisions sur les (esoins des consommateurs poussent lesdif'rentes industries , adapter au mieu% leurs strat'#ies$

    Par ailleurs) la comple%it' d*une prise de d'cision (as'e sur un lm)

    .acteur 'tant trs su(/ecti.) n'cessite une (onne mod'lisation an de

    #arantir l*a(outissement au% r'sultats con"oit's$

    C*est dans cette optique que l*anal!se des '"aluations de lms prend

    tout son sens) et que la pr'"ision de leurs re"enus de"ient primordiale$ 0otre

    'tude concerne pr'cis'ment ces deu% aspects 1 une anal!se descripti"e

    d'taill'e des '"aluations des productions cin'mato#rap&iques ainsi qu*une

    'tude pr'dicti"e port'e sur les re"enus #'n'r's$

    nn) et .ace , une (ase de donn'es de comportant

    enre#istrements de lms et de re"enus) 4 et 532 enre#istrements de

    directeurs et d*acteurs respecti"ement) 2 #enres) 2 pa!s) ainsi que

    75557 '"aluations) le Data Minin# s*a"re plus que n'cessaire pour mettre

    en '"idence des in.ormations dissimul'es par le "olume de donn'es et est

    indispensa(le dans le (ut d*e%trapoler de nou"elles in.ormations , partir des

    donn'es pr'sentes$

    Conclusion de la premire phase :

  • 7/25/2019 Rapport DataMining

    8/31

    Il a 't' question dans cette partie de se penc&er sur la compr'&ension

    du pro(lme , tra"ers la description de son conte%te #'n'ral) puis la

    d'termination des o(/ecti.s strat'#iques et op'rationnels du Data Minin#$

    Phase # Com!rhension des donnes

    Dans cette 'tape) il est question d*'tudier les donn'es disponi(les pour

    le processus de Data Minin#$ Cette 'tude comporte trois sous-p&ases

    .ondamentales sui"antes 1

    -La collecte de donnes Il s*a#it de traiter les entr'es de lms

    pro"enant de l*IMD( 8Internet Mo"ie Data(ase 1 par e%cellence la (ase

    de donn'es cin'mato#rap&iques d*internet9 et des s!stmes de

    critique de lm si#n's Rotten :omatoes$Ces donn'es sont stoc;'es dans di"ers c&iers 1

    - Mo"ies$dat 1 contenant des in.ormations sur les lms de la (ase

    de donn'es$- Mo"ie

  • 7/25/2019 Rapport DataMining

    9/31

    -

    La descri!tion des donnes Passant par le parcours des donn'es

    et l*'la(oration du dictionnaire de donn'es ci-dessous$

    Conclusion de la seconde phase :

  • 7/25/2019 Rapport DataMining

    10/31

    Dans cette partie) nous nous sommes penc&'s sur l*'tude des donn'es

    disponi(les pour le Data Minin#$ Cette 'tude a 't' 'ta(lie en trois 'tapes ,

    sa"oir la collecte) la description et l*e%ploration des donn'es$

    Phase & Pr!aration des donnes

    >a p&ase de pr'paration des donn'es en#lo(e toutes les acti"it's de

    construction du /eu de donn'es nal , partir des donn'es (rutes de d'part$

    - Collecte des donnes initiales - 'etto(age de donnes

  • 7/25/2019 Rapport DataMining

    11/31

    Phase ) Modlisation

    Cette p&ase consiste , s'lectionner et , tester dif'rentes tec&niques

    de mod'lisation sur les donn'es c&oisies an d*optimiser le modle ou les

    connaissances o(tenues par ces tec&niques$ Dans notre cas) nous a"ons

    opt' d*illustrer le c?t' descripti. "isant , anal!ser les '"aluations au tra"ers

    d*une mod'lisation @-means et d*une 'tude d*un A Bolden #e 8E#e id'al9

    et de mod'liser le pro(lme pr'dicti. d*o(ser"ation des re"enus a"ec 2

    al#orit&mes 8R'seau% de neurones F r(res de d'cision9) le tout sous SPSS

    Modeler$

    1*+nal(se descri!tive ,-means

    0otre modle #'n'r' , partir d*une .usion de donn'es aupara"ant ltr'es et

    d'(arrass'es de toute in.ormation non utile nous permet dans un premierlieu de .ait l*audit de qualit' sur ces donn'es) ainsi que la classication par @-

    means aprs traitement des "aleurs manquantes$

  • 7/25/2019 Rapport DataMining

    12/31

    >*audit nous con.re toute in.ormation de qualit' et d*'tendue sur c&aque

    donn'e utilis'e ainsi qu*un #rap&e de "isualisation de la r'partition de

    c&acune$

    0ous remarquons que le nom(re de A ratin#s "alides est de 5 alors que

    le nom(re d* A ID "alides est de 1 ce qui implique une n'cessit' de

    traitement de "aleurs manquantes$

    2

  • 7/25/2019 Rapport DataMining

    13/31

    >a #ure ci-dessus d'taille le processus de A mer#in# 8.usion9 des donn'es

    issus de c&iers dif'rents) et ce en emplo!ant uniquement l*identiant

    comme cl' de .usion$

    >a .enetre ce-dessus) reli' au 0ode A t!pe nous a permis de c&oisir les

    t!pes de donn'es et leur direction par rapport au 0ode A @-means 1 touteles entr'e sont en direction A in $

    3

  • 7/25/2019 Rapport DataMining

    14/31

    Pour le node A ;-means ) on a c&oisis 5 puis 4 clusters) et on l*a e%ecut' en

    mode A %pert $

    >es #ures ci-dessous montrent les r'sultats o(tenus 1

    4

  • 7/25/2019 Rapport DataMining

    15/31

    n premier lieu) nous a"ons .ait une classication A @-means par rapportau% '"aluations des utilisateurs a"ec 5 clusters) nous remarquons que le

    cluster 4) cluster 3 et le cluster restent pr'sentent des caract'ristiques

    sem(la(les) et cette classication ne permet pas de .ormuler une

    dif'renciation net et claire entre les 5 clusters

    5

  • 7/25/2019 Rapport DataMining

    16/31

    "ec un A ;-means , 4 cluster nous constatons que nous pou"ons classiernos '"aluations par rapports au% lms en 4 #roupes 1

    -Cluster 1 repr'sente des lms a"ec un ratin#s et scores ele"'s que ce soit

    pour les '"aluations des critiques) des top critiques) ou de l*audiance 1 ainsi

    ce sont des lms appr'ci' par tout le monde$

    -Cluster 2 1 d'nit une cat'#orie appr'ci' par tout le monde en de&ors des

    top critiques "us qu*ils ont o(tenus un score mo!en par ces derniers$

    -Cluster 3 1 d'nit une cat'#orie de lms non appr'ci' par toutes cat'#ories

    d*utilisateurs con.ondues$

    -Cluster 4 1 d'nie une cat'#orie non appr'ci' par une #rande parties des

    utilisateurs 8audience et critiques9 mais a!ant tout de mGme r'ussis a

    int'resser les top critiques qui lui ont ofert un score mo!en$

    #*+nal(se Descri!tive + la recherche du .olden

    +ge /

    6

  • 7/25/2019 Rapport DataMining

    17/31

    0otre deu%ime anal!se descripti"es des donn'es) nous a"ons proc'd' tout d*a(ord

    a une pr'paration de donn'e pour discr'tisation des donn'es continues 8 ann'e de

    sortie d*un lm) et ratin#s 9$ Ce qui nous a permis d*anal!ser les donn'e par rapport

    a un a%e temporelle) an de "'rier la t&'orie d*e%istence d*un A Bolden #e pour

    les lms) ou) quel que soit le nom(res des '"aluations o(tenues) le nom(res

    d*utilisateurs satis.ait par rapport , l*ensem(le des lms d'passe les nom(res des

    utilisateurs indif'rents ou insatis.aits$

    >a #ure ci-dessus montre la mod'lisation sur SPSS Modeler$

    Hn a commenc' par l*e%traction des donn'e depuis la source A mo"ies$dat puis

    nous a"ions discr'tis' les donn'es et remplac' les donn'es manquante par la

    mo!enne des "aleurs$ Par la suite nous a"ions #'n'r' la sortie sui"ante 1

  • 7/25/2019 Rapport DataMining

    18/31

    0ous constatons par la suite) l*e%istence d*un Bolden #e pour les lms 1 de la

    d'cade 3 /usqu*au la d'cade

    &*+nal(se Prdictive +rbres de dcision

    0otre anal!se pr'dicti"e consiste en la pr'diction des cat'#ories re"enues des lms8donn'e continue pr'ala(lement discr'tis' en 4 cat'#ories 1 Re"enues d'passant

    5M) Re"enus entre 5M et M) Re"enus entre M et 4M) Re"enus

    in.'rieur , 4M9$

    Cette pr'diction est .aite a partir des '"aluations) et scores des lms sur des site

    Je( tel Internet Mo"ies DataKase 8IMDK9 ou Rotten :omattoes 8R:9$

    Cette anal!se nous permettrai d*'la(orer une m't&ode de pr'diction des scores de

    lms a"ant leur sorties au marc&' mais /uste aprs la sortie des A s!nopsis et

    leur pu(lication sur des sites Je( tel R: et IMDK et a partir des r'actions des

    utilisateurs par rapports a ces A s!nopsis ou A (andes d*annonces $

    n premier lieu cette anal!se pr'dicti"e est .aite en a!ant recours au% ar(res de

    d'cisions comme le montre la #ure ci-dessous repr'sentant la mod'lisation sur

    SPSS Modeler 1

    7

  • 7/25/2019 Rapport DataMining

    19/31

    0os donn'es en 't' r'parties) comme le montre la #ure ci-dessous) en donn'e

    d*apprentissa#e 85L9 et donn'es de test 85L9$

    n appliquant l*al#orit&me de l*ar(re de d'cision C5$ nous o(tenons) un ar(re de

    d'cisions comme le montre les deu% #ures ci-dessous$

  • 7/25/2019 Rapport DataMining

    20/31

    0otre ar(re a une pro.ondeur de ni"eau) comme on le "oit ci-dessous 8r'sultat du

    node A anal!sis 9

    2

  • 7/25/2019 Rapport DataMining

    21/31

    Ci-dessous un aperu de l*al#orit&me o(tenue 1

    Brace au node A anal!sis nous o(tenons les in.ormations sui"antes sur le testin#

    de l*al#orit&me o(tenue 1

    Dans le cas d*equili(ra#e de l*ensem(le de donn'e 8a"ec une "aleur al'atoire de

    $3 pour les re"enus sup'rieur a 5M 9 $ >a #ure ci-dessous montre que 4)32L

    des r'sultat o(tenue aprs aplication de l*al#orit&me appris sur l*ensem(le de test

    est correct) alors qu*on a un tau% d*erreur de 5L$

    2

  • 7/25/2019 Rapport DataMining

    22/31

    >a #ure ci-dessous montre les r'sultats o(tenus aprs application de l*al#orit&mesd'duit sur l*ensem(le de test dans le cas de non 'quili(ra#e de donn'es$ Hnconstate que la per.ormance de ce dernier est meilleure que celle de l*al#orit&mea"ec 'quili(ra#e "u qu*il repr'sente un tau% d*erreur de 3L$

    >a #ures sui"antes sont celles de la matrice de coincidences dans les deu% cas

    8a"ec et sans 'quili(ra#e9 on remarque a!ant o(tenue de meilleur per.ormancespar rapport a la cat'#orie A re"enue 5M dans le cas d*apprentissa#e aprs'quili(ra#e de donn'es 1

    22

  • 7/25/2019 Rapport DataMining

    23/31

    )*+nal(se !rdictive Rseau% de neurones

    >*o(/ecti"e de cette anal!se est ) l*usa#e d*une deu%ime m't&ode N notamment les

    r'seau% de neurones- pour la pr'diction des re"enues d*un lm a partir des

    r'actions des utilisateurs sur les sites IMDK et R:$ >a #ure ci-dessous montre la

    mod'lisation sur SPSS Modeler 1

    23

  • 7/25/2019 Rapport DataMining

    24/31

    0ous partitionnant cette .ois notre ensem(le de donn'e) aprs pr'partion) en 3sous ensem(le comme le montre la #ure ci-dessous 1

    0ous c&oisissant par la suite) d*applique l*al#orit&me de reseau% de neurones sur

    l*ensem(le d*apprentissa#e et cela en mode %pert$

    24

  • 7/25/2019 Rapport DataMining

    25/31

    Brace au node A anal!sis nous o(tenons un #rap&ique d'taillant la contri(ution de

    c&aque "aria(le dans la pr'diction des r'sultats comme le montre la #ure

    sui"ante 1

    25

  • 7/25/2019 Rapport DataMining

    26/31

    prs application des r'sultats d*apprentissa#e sur l*ensem(le de test nouso(tenons un tau% de r'ussite de 6L comme on le constate dans le #uresui"ante 1

    26

  • 7/25/2019 Rapport DataMining

    27/31

    >*application de l*al#orit&me o(tenue sur l*ensem(le de "alidation nous permet

    d*o(tenir la matrice de coincidence sui"ante 1

    Phase 0 valuation des rsultats

    ce stade nous pou"ons constater que les modles cr''s sont tec&niquement

    corrects en .onction des critres de r'ussite du Data Minin# et que l*ar(re de

    d'cision reste le meilleur en terme de pr'cision comme le montres les trois #ures

    sui"antes 1

    2

  • 7/25/2019 Rapport DataMining

    28/31

    >a cour(e correspondante , la "aleur pr'dite de modalit' A 5M a"ec l*ar(re

    de d'cision C5$ s*'loi#ne le plus de la li#ne de r'.'rence et a une pente

    strictement positi"e$

    >*'tude propos'e nous mne ainsi) "ers une pr'diction des re"enues des lms en

    proc&aine sortie) a partir des r'actions des utilisateurs sur Internet Mo"ies DataKase

    et Rotten :omattoes$

    Conclusion de la 0"me!hase

    Dans cette partie) nous a"ons d*une part '"alu' les r'sultats o(tenus de notre

    'tude) et d*autre part c&oisi le meilleur modle en terme de pr'cision et de

    per.ormance$

    27

  • 7/25/2019 Rapport DataMining

    29/31

    Phase 2 D!loiement

    n #'n'ral) le d'ploiement est le processus consistant , utiliser les nou"elles

    connaissances pour apporter des am'liorations au sein de l*entreprise$ Dans notre

    cas) il consiste , appliquer le modle c&oisit- celui de l*ar(re de d'cision C5$- , de

    nou"elle donn'es sur les sites d*interaction , propos des lms en proc&aines sortie)

    et la pr'diction en cons'quent des re"enue des lms en question$

    Ci-dessous) une e%emple de maquette qu*on a mod'lis' sous SPSS Modeler et qui

    pr'sente un e%emple de d'ploiement de notre modle$

    2

  • 7/25/2019 Rapport DataMining

    30/31

    Conclusion

    Pour conclure) notre pro/et consiste principalement a mettre en Ou"re les

    tec&niques de DataMinin# sur la (ase de la m't&odolo#e CRISP-DM pour la

    pr'diction des re"enues de lms a partir des r'action des internautes sur IMDK et

    Rotten :omattoes) principales siteJe( de ratin# et scorin# des lm en proc&aine

    sortie$

    0ous a"ions '#alement .ait une anal!se descripti"e sur les donn'es e%traite des

    deu% site Je( sit' ci-dessus) a nous a permit de .aire un clusterin# des lms selon

    les '"aluations et scores des dif'rents internautes) comme a nous a permit de

    "'rier la t&'orie d*e%istence d*un Bolden #e pour les lms$

    0ous a"ons cr'') suite a notre anal!se pr'dicti"e) des modles pr'dicti.s qui se sont

    r'"'l's ecaces$

    0ous a"ions r'ussis a trou"er un modle traduisant la pr'diction de la r'ussite ou

    ec&ec d*un lm et en perspecti"e) on pourrait incluer d*autres 'l'ments a notre

    anal!se) tel la prise en compte du t!pe de lm) directeurs et acteurs) locations etpa!sQ etc$

    3

  • 7/25/2019 Rapport DataMining

    31/31

    Phase 2 3 D!loiement