apprentissage statistique et data mining

Upload: medo-zn

Post on 30-Oct-2015

74 views

Category:

Documents


2 download

DESCRIPTION

Apprentissage Statistique et Data mining

TRANSCRIPT

  • Apprentissage Statistique&

    Data mining

    PHILIPPE BESSE

    Version Octobre 2006

    Institut de Mathematiques de ToulouseLaboratoire de Statistique et Probabilites UMR CNRS C5583

    Institut National des Sciences Appliquees de Toulouse 31077 Toulouse cedex 4.

  • 2

  • Chapitre 1

    Introduction

    1 ObjectifLobjet de ce cours est dintroduire, sous une forme homoge`ne et synthetique, les techniques de modelisation

    statistique et issues de la theorise de lapprentissage utilisees le plus couramment en fouille de donnees oudata mining dans des champs dapplications tre`s divers : industriels, marketing, ou encore en relation avecdes thematiques de recherche en Biologie, Epidemiologie...

    La premie`re partie ou premier objectif dune telle demarche : lexploration statistique et la recherche declasses est developpee dans un autre document (Baccini et Besse 2000). Ce cours se focalise sur le deuxie`meobjectif de la fouille de donnees qui est la recherche dinformations pertinentes (de pepites dinformation)pour laide a` la decision et la prevision.

    La section 2 suivante de ce chapitre introduit a` la fouille de donnees tandis que la section 3 reprend cesobjectifs dans le cadre general de la modelisation afin den elargir les champs dapplication. La section 4decrit la strategie tre`s generalement mise en place pour optimiser choix de methodes et choix de mode`les ;la section 5 decrit brie`vement quelques exemples dapplication et notamment ceux utilises pour illustrer cecours. Enfin, la section 6 liste rapidement les methodes qui sont abordees et les raisons qui ont conduit a` cechoix.

    2 Motivations du data mining

    2.1 OrigineLe developpement des moyens informatiques et de calcul permet le stockage (bases de donnees), le

    traitement et lanalyse densembles de donnees tre`s volumineux. Plus recemment, le perfectionnement deslogiciels et de leurs interfaces offrent aux utilisateurs, statisticiens ou non, des possibilites de mise en uvretre`s simples de ces methodes. Cette evolution, ainsi que la popularisation de nouvelles techniques algorith-miques (reseaux de neurones, support vector machine...) et outils graphiques, conduit au developpementet a` la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) integrant unsous-ensemble de methodes statistiques et algorithmiques utilisees sous la terminologie de Data Mininggeneralement traduit par fouille de donnees (voir Tuffery 2007 pour un expose plus complet et detaille).Cette approche, dont la presentation est principalement issue du marketing specialise dans la gestion dela relation client (GRC) (client relation management ou CRM), trouve egalement des developpements etapplications industrielles en controle de qualite ou meme dans certaines disciplines scientifiques de`s lorsque les ingenieurs et chercheurs sont confrontes a` un volume de donnees important. Laccroche publicitairesouvent citee par les editeurs de logiciels (SAS) est :

    Comment trouver un diamant dans un tas de charbon sans se salir les mains.

    Nous proposons devaluer et dexperimenter la realite de cette annonce qui sadresse a` un marche en pleineexpansion. Les entreprises sont en effet tre`s motivees pour tirer parti et amortir, par une aide a` la decisionquantifiee, les couts de stockage des teras octets que leur service informatique semploie a` administrer.

    3

  • 4 Chapitre 1. Introduction

    2.2 EnvironnementLe contexte informationnel de la fouille de donnees est celui des data wharehouses. Un entrepot de

    donnees, dont la mise en place est assure par un gestionnaire de donnees (data manager) est un ensemblede bases relationnelles extraites des donnees brutes de lentreprise et relatives a` une problematique : gestion des stocks (flux tendu), des ventes dun groupe afin de prevoir et anticiper au mieux lestendances du marche, suivi des fichiers clients dune banque, dune assurance, associes a` des donnees socio-economiques(INSEE), a` lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler desoperations de marketing ou des attributions de credit. La gestion de la relation client (GRC ouCRM) vise a` une individualisation ou personnalisation de la production et de la communication afindevacuer la notion de client moyen. recherche, specification puis ciblage de niches de marche les plus profitables (banque) ou au contraireles plus risquees (assurance) ;

    suivi en ligne des parame`tres de production (tracabilite) en controle de qualite pour detecter au plusvite lorigine dune defaillance ; prospection textuelle (text mining) et veille technologique ; web mining et comportement des internautes ; . . .

    Cet environnement se caracterise par une informatique heteroge`ne faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) a` traversle reseau de lentreprise (intranet) ou meme des acce`s exterieurs (internet). Des contraintes deffica-cite, de fiabilite ou de securite conduisent a` repartir, stocker linformation a` la source plutot qua` ladupliquer systematiquement ou a` la centraliser.

    Lincompatibilite logique des informations observees sur des echantillons differents ne presentant pasles memes strates, les memes codifications. Des volumes et flux considerables de donnees issues de saisies automatisees et chiffres en tera-octets. Contrairement a` une demarche statistique traditionnelle (planification de lexperience), les donneesanalysees sont stockees a` dautres fins (comptabilite, controle de qualite...) et sont donc prealables a`lanalyse. La necessite de ne pas exclure a priori un traitement exhaustif des donnees afin de ne pas lais-ser echapper, a` travers le crible dun sondage, des groupes de faibles effectifs mais a` fort impacteconomique.

    3 Apprentissage statistiqueUn peu de recul permet dinscrire la demarche de la fouille de donnees dans un contexte plus large et

    donc potentiellement plus propice a` dautres domaines dapplication.

    3.1 Objectif generalDe`s quun phenome`ne, quil soit physique, biologique ou autre, est trop complexe ou encore trop bruite

    pour acceder a` une description analytique debouchant sur une modelisation deterministe, un ensemble dap-proches ont ete elaborees afin den decrire au mieux le comportement a` partir dune serie dobservations.Citons la reconnaissance de la parole ou de caracte`res manuscrits, limagerie medicale ou satellitaire, laprevision dune grandeur climatique ou economique, du comportement dun client. . . la plupart des disci-plines scientifiques sont concernees. Historiquement, la Statistique sest beaucoup developpee autour de cetype de proble`mes et a propose des mode`les incorporant dune part des variables explicatives ou predictiveset, dautre part, une composante aleatoire ou bruit. Il sagit alors destimer les parame`tres du mode`le a` par-tir des observations en controlant au mieux les proprietes et donc le comportement de de la partie aleatoire.Dans la meme situation, la communaute informatique parle plutot dapprentissage visant le meme objectif.Apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont lesprincipaux mots-clefs.

    3.2 Problematiques

  • 3. Apprentissage statistique 5

    Supervise vs. non-supervise

    Distinguons deux types de proble`mes : la presence ou non dune variable a` expliquer Y ou dune formea` reconnatre qui a ete, conjointement avec X , observee sur les memes objets. Dans le premier cas il sagitbien dun proble`me de modelisation ou apprentissage supervise : trouver une fonction susceptible, aumieux selon un crite`re a` definir, de reproduire Y ayant observe X .

    Y = (X) +

    ou` symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive.En cas derreur multiplicative, une transformation logarithmique rame`ne au proble`me precedent.

    Dans le cas contraire, en labsence dune variable a` expliquer, il sagit alors dapprentissage dit non-supervise. Lobjectif generalement poursuivi est la recherche dune typologie ou taxinomie des observa-tions : comment regrouper celles-ci en classes homoge`nes mais les plus dissemblables entre elles. Cest unproble`me de classification (clustering).

    Attention, langlais classification se traduit plutot en francais par discrimination ou classement (appren-tissage supervise) tandis que la recherche de classes (clustering) (apprentissage non-supervise) fait appela` des methodes de classification ascendante hierarchique ou a` des algorithmes de reallocation dynamique(k-means) ou de cartes auto-organisatrices (Kohonen). Ces methodes de classification ou clustering ne sontpas abordees ici, elles ont ete regroupees avec les techniques exploratoires (Baccini et Besse 2000).

    Modelisation vs. apprentissage

    Tout au long de ce document, les termes de modelisation et dapprentissage sont utilisees commedes synonymes ce qui est abusif tant que les objectifs dune etude nont pas ete clairement explicites.Dans la tradition statistique, la notion de mode`le est centrale surtout avec une finalite explicative. Il sagitalors dapprocher la realite, le vrai mode`le, suppose exister, eventuellement base sur une theorie physique,economique... sous-jacente. Le choix du mode`le (cf. ci-dessous) est alors guide par des crite`res dajustementet les decisions de validite, de presence deffets, basees sur des tests reposant eux-memes sur des hypothe`sesprobabilistes. Linterpretation du role de chaque variable explicative est preponderante dans la demarche.

    En revanche, si lobjectif est essentie`lment predictif, il apparat que le meilleur mode`le nest pas necessairementcelui qui ajusterait le mieux le vrai mode`le. La theorie de lapprentissage (Vapnik, 1999) montre alors quele cadre theorique est different et les majorations derreur requie`rent une autre approche. Les choix sontbases sur des crite`res de qualite de prevision visant a` la recherche de mode`les parcimonieux, cest-a`-dire decomplexite (nombre de parame`tres ou flexibilite limitee) dont linterpretabilite passe au deuxie`me plan. Ladeuxie`me devise des Shadoks (voir figure devshad) nest pas une reference a` suivre en Statistique !

    Discrimination vs. regression

    Le type des variables statistiques considerees diffe`rent selon lespace dans lequel elles prennent leursvaleur. Elles peuvent etre qualitatives a` valeurs dans un ensemble de cardinal fini ou quantitatives a` valeursreelles voire fonctionnelles (Besse et Cardot, 2003). Ce dernier cas est introduit en annexe par le chapitre??. Certaines methodes dapprentissage ou de modelisation sadaptent a` tout type de variables explicativestandis que dautres sont specialisees. Enfin, si Y a` expliquer est qualitative, on parle de discrimination, clas-sement ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, dun proble`me deregression. Dans ce cas encore, certaines methodes sont specifiques (regression lineaire, analyse discrimi-nante) tandis que dautres sadaptent sans modification profonde remettant en cause leur principe (reseauxde neurones, arbres de decision. . . ).

    Statistique, informatique et taille des donnees

    Lorsque des hypothe`ses relatives au mode`le (linearite) et aux distributions sont verifiees cest-a`-dire,le plus souvent, lorsque lechantillon ou les residus sont supposes suivre des lois se mettant sous la formedune famille exponentielle (gaussienne, binomiale, poisson. . . ), les techniques statistiques de modelisationtirees du mode`le lineaire general sont optimales (maximum de vraisemblance) et, surtout dans le casdechantillons de taille restreinte, il semble difficile de faire beaucoup mieux.

    En revanche, de`s que les hypothe`ses distributionnelles ne sont pas verifiees, de`s que les relations sup-

  • 6 Chapitre 1. Introduction

    FIG. 1.1 Shadok : devise numero 2

    posees entre les variables ne sont pas lineaires ou encore de`s que le volume des donnees est important,dautre methodes viennent concurrencer lapproche statistique classique.

    Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble {X1, . . . , Xp} devariables egalement quantitatives :

    Y = (X1, . . . , Xp) + .

    observees sur un echantillon (yi,xi); i = 1, . . . , n de taille n Si est supposee lineaire et p petit, de lordredune dizaine ; le proble`me est bien connu et largement debattu dans la litterature. Dans le cas ou` nestpas franchement lineaire et n grand, il est possible destimer precisement un nombre plus important deparame`tres et donc denvisager des mode`les plus sophistiques. Si on sen tient au mode`le gaussien usuel,meme le cas le plus simple dun mode`le polynomial devient vite problematique. En effet, lorsque estlineaire, prenons p = 10, la procedure de choix de mode`le est confrontee a` un ensemble de 210 mode`lespossibles et des algorithmes astucieux permettent encore de sen sortir. En revanche, considerer pour un simple polynome du deuxie`me voire troisie`me degre avec toutes ses interactions, ame`ne a` considererun nombre considerable de parame`tres et donc, par explosion combinatoire, un nombre astronomique demode`les possibles. Dautres methodes doivent alors etre considerees en prenant en compte necessairementla complexite algorithmique des calculs. Ceci explique limplication dune autre discipline, linformatique,dans cette problematique. Le souci de calculabilite lemporte sur la definition mathematique du proble`mequi se rame`ne a` loptimisation dun crite`re dajustement de sur un ensemble de solutions plus ou moinsriche. Ces methodes ont souvent ete developpees dans un autre environnement disciplinaire : informatique,intelligence artificielle. . . ; k plus proches voisins, reseaux de neurones, arbres de decisions, support vectormachine deviennent des alternatives credibles de`s lors que le nombre dobservations est suffisant ou lenombre de variables tre`s important.

    3.3 Strategies de choixChoix de methode

    Avec lave`nement du data mining, de tre`s nombreux articles comparent et opposent les techniques surdes jeux de donnees publics et proposent des ameliorations incrementales de certains algorithmes. Apre`sune periode fievreuse ou` chacun tentait dafficher la suprematie de sa methode, un consensus sest etabli au-tour de lidee quil ny a pas de meilleure methode. Chacune est plus ou moins bien adaptee au proble`mepose, a` la nature des donnees ou encore aux proprietes de la fonction a` approcher ou estimer. Sur le planmethodologique, il est alors important de savoir comparer des methodes afin de choisir la plus pertinente.Cette comparaison repose sur une estimation derreur (de regression ou de classement) quil est necessaire

  • 3. Apprentissage statistique 7

    FIG. 1.2 Sous-ajustement lineaire et sur-ajustement local (proches voisins) dun mode`le quadratique.

    de conduire avec soin. Un chapitre (5) est consacre a` ce point.

    Choix de mode`le : equilibre biais-variance

    Tous les auteurs saccordent pour souligner limportance quil y a a` construire des mode`les parcimo-nieux quelque soit la methode utilisee. Toutes les methodes sont concernees : nombre de variables expli-catives, de feuilles dans un arbre ou de neurones dans une couche cachee. . . . Seuls les algorithmes decombinaison de mode`les (bagging, boosting) contournent cette etape au prix dun accroissement sensibledu volume des calculs et surtout de linterpretabilite des resultats obtenus.

    Lalternative est claire, plus un mode`le est complexe et donc plus il inte`gre de parame`tres et plus il estflexible donc capable de sajuster aux donnees engendrant ainsi une erreur faible dajustement. En revanche,un tel mode`le peut saverer defaillant lorsquil sagira de prevoir ou generaliser, cest-a`-dire de sappliquera` des donnees qui nont pas participe a` son estimation.

    Lexemple elementaire de la figure 10.1 illustre ce point fondamental dans le cas dun proble`me dediscrimination dans IR2. Une frontie`re dolnt le mode`le vrai est quadratique est, a` cause derreurs demesure sous-ajustee par une regression lineaire mais surajustee par un polynome de degre plus eleve oulalgorithme local des k plus proches voisins.

    Ce proble`me sillustre aussi facilement en regression classique. Ajouter des variables explicatives dansun mode`le ne peut que reduire lerreur dajustement (le R2) et reduit le biais si le vrai mode`le est unmode`le plus complet. Mais, ajouter des variables fait redhibitoirement crotre la variance des estimateurs etdonc celle des previsions qui se degradent, voire explose, avec la multicolinearite des variables explicatives.Un risque pour le mode`le, ou erreur quadratique de prevision, sexprimant comme le carre du biais plus lavariance, il est important doptimiser le dosage entre biais et variance en controlant le nombre de variablesdans le mode`le (sa complexite) afin de minimiser le risque. Ces remarques conduisent a` la definition decrite`res de choix de mode`le dont le Cp de Mallows fut un precurseur en regression suivi par dautrespropositions : Akake (AIC), Schwartz (BIC). . .

    Parfois plus que celui de la methode, le choix du bon mode`le dans une classe ou ensemble de mode`lespour une methode donnee est primordial. En consequence, les proble`mes doptimisation consideres doiventmettre en uvre un crite`re qui prend en compte la complexite du mode`le, cest-a`-dire la complexite delespace ou de la classe dans lequel la solution est recherchee.

    Choix de mode`le : selection vs. regularisation

    Selon la methode consideree, la complexite du mode`le sexprime de differentes facons. Simple lorsdune selection de variable en regression lineaire, la complexite est directement liee a` la dimension delespace engendre et donc au nombre de variables. Les choses se compliquent pour les mode`les non-lineaireslorsque, a` dimension fixee, cest la plus ou moins grande flexibilite des solutions qui doit etre penalisee.

  • 8 Chapitre 1. Introduction

    Cest typiquement le cas en regression non-parametrique ou fonctionnelle. Une penalisation faisant in-tervenir la norme carree de la derivee seconde controle la flexibilite dun lissage spline. La largeur defenetre du noyau controle egalement la regularite de la solution. En regression lineaire, si le nombre etles variables sont determines, la version ridge de la regression penalise la norme carree du vecteur desparame`tres et restreint ainsi, par regularisation, lespace des solutions pour limiter leffet de la multico-linearite.

    Enfin, pour aborder en toute generalite les situations les plus compliquees, Vapnik (1999) a formalisela theorie de lapprentissage en introduisant une notion particulie`re de dimension pour toute famille demode`les.

    4 Strategie du data mining

    4.1 Les donneesDans la majorite des proble`mes rencontres, des caracteristiques ou variables X = (X1, . . . , Xp) dites

    explicatives ou predictives ont ete observees sur un ensemble de n objets, individus ou unites statistiques.Un premier travail, souvent fastidieux mais incontournable, consiste a` mener une exploration statistique deces donnees : allure des distributions, presence de donnees atypiques, correlations et coherence, transfor-mations eventuelles des donnees, description multidimensionnelle, reduction de dimension, classification.Cest lobjet dun cours distinct dexploration statistique (Baccini et Besse 2000). La deuxie`me partie decritles outils de modelisation statistique ou encore dapprentissage utilisables pour la modelisation a` fin deprevision dune variable cible Y par les variables explicatives Xj .

    Lenchanement, eventuellement iteratif, de ces etapes (exploration puis apprentissage) constitue le fon-dement de la fouille de donnees.

    Pour comprendre la structure et bien apprehender le contenu de ce cours, il est important dintegrerrapidement ce quest la strategie a` mettre en uvre pour aboutir au bon apprentissage ou encore au bonmode`le predictif recherche a` partir des donnees observees.

    Attention, contrairement a` une demarche statistique traditionnelle dans laquelle lobservation des donneesest integree a` la methodologie (planification de lexperience), les donnees sont ici prealables a` lanalyse.Neanmoins il est clair que les preoccupations liees a` leur analyse et a` son objectif doivent intervenir le plusen amont possible pour sassurer quelques chances de succe`s.

    4.2 Les etapes de lapprentissageLes traitements senchanent de facon assez systematique selon le schema suivant et quelque soit le

    domaine dapplication :

    i. Extraction des donnees avec ou sans echantillonnage faisant reference a` des techniques de sondageappliquees ou applicables a` des bases de donnees.

    ii. Exploration des donnees pour la detection de valeurs aberrantes ou seulement atypiques, dincoherences,pour letude des distributions des structures de correlation, recherche de typologies, pour des trans-formations des donnees. . .

    iii. Partition aleatoire de lechantillon (apprentissage, validation, test) en fonction de sa taille et des tech-niques qui seront utilisees pour estimer une erreur de prevision en vue des etapes de choix de mode`le,puis de choix et certification de methode.

    iv. Pour chacune des methodes considerees : mode`le lineaire general (gaussien, binomial ou poissonien),discrimination parametrique (lineaire ou quadratique) ou non parametrique, k plus proches voisins,arbre, reseau de neurones (perceptron), support vecteur machine, combinaison de mode`les (bagging,boosting). estimer le mode`le pour une valeur donnee dun parame`tre de complexite : nombre de variables, devoisins, de feuilles, de neurones, duree de lapprentissage, largeur de fenetre. . . ; optimiser ce parame`tre (sauf pour les combinaisons de mode`les affranchies des proble`mes de sur-apprentissage) en fonction de la technique destimation de lerreur retenue : echantillon de vali-dation, validation croisee, approximation par penalisation de lerreur dajustement (crite`res Cp,

  • 5. Exemples et jeux de donnees 9

    AIC).

    v. Comparaison des mode`les optimaux obtenus (un par methode) par estimation de lerreur de previsionsur lechantillon test ou, si la presence dun echantillon test est impossible, sur le crite`re de penalisationde lerreur (AIC dAkake par exemple) sil en existe une version pour chacune des methodes considerees.

    vi. Iteration eventuelle de la demarche precedente (validation croisee), si lechantillon test est trop reduit,depuis (iii). Partitions aleatoires successives de lechantillon pour moyenner sur plusieurs cas lesti-mation finale de lerreur de prevision et sassurer de la robustesse du mode`le obtenu.

    vii. Choix de la methode retenue en fonction de ses capacites de prevision, de sa robustesse mais aussi,eventuellement, de linterpretabillite du mode`le obtenu.

    viii. Re-estimation dumode`le avec la methode, le mode`les et sa complexitee optimises a` letape precedentesur lensemble des donnees.

    ix. exploitation du mode`le sue la base.

    5 Exemples et jeux de donneesEn plus des exemples pedagogiques permettant dillustre simplement les differentes methodes etudiees,

    dautres exemples en vraie grandeur permettent den evaluer reellement la pertinence mais aussi toute lacomplexite de mise en uvre. Dautres exemples sont encore plus concre`tement proposes en travaux dirigesavec leur traitement informatique.

    5.1 Banque, finance, assurance : MarketingLobjectif est une communication personnalisee et adaptee au mieux a` chaque client. Lapplication la

    plus courante est la recherche dun score estime sur un echantillon de cliente`le pour lapprentissage puisextrapole a` lensemble en vu dun objectif commercial : Appetence pour un nouveau produit financier : modelisation de la probabilite de posseder un bien(contrat dassurance...) puis application a` lensemble de la base. Les clients, pour lesquels le mode`lepredit la possession de ce bien alors que ce nest pas le cas, sont demarches (tele marketing, publi-postage ou mailing, phoning,...) prioritairement. Attrition ; meme chose pour evaluer les risques de depart (churn) des clients par exemple chez unoperateur de telephonie. Les clients pour lesquels le risque predit est le plus important recoivent desincitations a` rester. Risque pour lattribution dun credit bancaire ou louverture de certains contrats dassurance. ...Lexemple traite reprend les donnees bancaires de Baccini et Besse 2000. Apre`s la phase exploratoire,

    il sagit de construire un score dappetence de la carte Visa Premier dans lidee de fideliser les meilleursclients. La variable a` predire est binaire : possession ou non de cette carte en fonction des avoirs et compor-tements bancaires decrits par 32 variables sur un millier de clients.

    5.2 Environnement : pic dozoneLobjectif est de prevoir pour le lendemain les risques de depassement de seuils de concentration

    dozone dans les agglomerations a` partir de donnees observees : concentrations en 03, NO3, NO2... dujour, et dautres predites par Meteo-France : temperature, vent... Encore une fois, le mode`le apprend sur lesdepassements observes afin de predire ceux a` venir.

    Il sagit dun proble`me de regression : la variable a` predire est une concentration mais elle peut aussi etreconsideree comme binaire : depassement ou non dun seuil. Il y a 8 variables explicatives dont une est deja`une prevision de concentration dozone mais obtenue par un mode`le deterministe de mecanique des fluides(equation de Navier et Stockes). Lapproche statistique vient ameliorer cette prevision en modelisant leserreurs et en tenant compte dobservations de concentration doxyde et dioxyde dazote, de vapeur deau,de la prevision de la temperature ainsi que de la force du vent.

  • 10 Chapitre 1. Introduction

    5.3 Sante : aide au diagnosticLes outils statistiques sont largement utilises dans le domaine de la sante. Ils le sont systematiquement

    lors des essais cliniques dans un cadre legislatif stricte mais aussi lors detudes epidemiologiques pour larecherche de facteurs de risques dans des grandes bases de donnees ou encore pour laide au diagnostic.Lexemple etudie illustre ce dernier point : il sagit de prevoir un diagnostic a` partir de tests biologiques etdexamens elementaires. Bien entendu, la variable a` predire, dont levaluation necessite souvent une analysetre`s couteuse voire une intervention chirurgicale, est connue sur lechantillon necessaire a` lestimation desmode`les.

    Dans lexemple etudie (breast cancer), il sagit de prevoir le type de la tumeur (benigne, maligne) lorsdun cancer du sein a` laide de 9 variables explicatives biologiques.

    5.4 Biologie : selection de ge`nesLes techniques de microbiologie permettent de mesurer simultanement lexpression (la quantite dARN

    messager produite) de milliers de ge`nes dans des situations experimentales differentes, par exemple entredes tissus sains et dautres cancereux. Lobjectif est donc de determiner quels ge`nes sont les plus suscep-tibles de participer aux reseaux de regulation mis en cause dans la pathologie ou autre phenome`ne etudie. Leproble`me senonce simplement mais reve`le un redoutable niveau de complexite et pose de nouveaux defisau statisticien. En effet, contrairement aux cas precedents pour lesquels des centaines voire des milliersdindividus peuvent etre observes et participer a` lapprentissage, dans le cas des biopuces, seuls quelquesdizaines de tissus son analyses a` cause essentiellement du prix et de la complexite dune telle experience.Compte tenu du nombres de ge`nes ou variables, le proble`me de discrimination est seve`rement indetermine.Dautes approches, dautres techniques sont necessaires pour pallier a` linsuffisance des methodes clas-siques de discrimination.

    Lexemple reprend les donnees de Baccini et Besse (2000) concernant les differences dexpression desge`nes en croisant deux facteurs lors dune experience de regime alimentaire (5 regimes) chez des souris(2 genotypes). La suite de letude conduit donc a` rechercher les ge`nes expliquant au mieux les distinctionsentre genotypes et aussi entre regimes.

    5.5 Exemples industrielsLes exemples ci-dessous sont cites a` titre illustratif mais leur complexite, inherente a` beaucoup de

    proble`mes industriels, ne permet pas de les detailler a` des fins pedagogiques.

    Motorola : Detection de defaillance

    Un procede de fabrication de microprocesseurs comporte des centaines detapes (photogravures, depots,cuissons, polissages, lavages...) dont tous les parame`tres, equipement et mesures physiques (temperatures,pressions...), sont enregistres dans une grande base de donnees permettant la tracabilite des produits ma-nufactures. Le test electrique de chaque microprocesseur ne peut se faire quen fin de fabrication lorsqueceux-ci sont acheves. Il est evidement important de pouvoir determiner, lors de lapparition dune baisse durendement et en utilisant les donnees de la base, lequipement ou la fourniture responsable de la defaillanceafin dy remedier le plus rapidement possible.

    Airbus : Aide au pilotage

    Les graphes de la figure 1.3 tracent les enregistrements des commandes et positions dun avion en vol.Ceux-ci mettent en evidence un phenome`ne de resonance entre lappareil et le comportement du pilote quiest tre`s dangereux pour la securite. Lobjectif est de construire un mode`le susceptible, en temps reel, dedetecter une telle situation afin dy remedier par exemple en durcissant les commandes de vol electriques.Le proble`me est tre`s specifique car les donnees, ou signaux, sont mesurees en temps reel et constituent desdiscretisations de courbes.

  • 5. Exemples et jeux de donnees 11

    0 2 4 6 8 10 12

    0

    10

    qm

    0 2 4 6 8 10 12

    010

    q0 2 4 6 8 10 12 142

    4

    6

    8

    0 2 4 6 8 10 120

    0.5

    1Neural PIO detector

    FIG. 1.3 Airbus : Pompage pilote revele par lobservation des parame`tres en temps reel. De (haut en bas) :manche, assiette, gouverne comparer avec la prevision quen fait un reseau de neurones.

  • 12 Chapitre 1. Introduction

    6 ContenuIl a fallu faire des choix dans lensemble des techniques proposees et leurs nombreux avatars. La forme

    et le contenu sont guides par les besoins exprimes lors des stages realisees par les etudiants du departementGenie Mathematique de lINSA, du Master professionnel de Statistique & Econometrie ou encore par lesthe`mes des collaborations industrielles et scientifiques du laboratoire de Statistique et Probabilites1. Le lec-teur peut se faire une idee du nombre tre`s important de methodes et variantes concernees par lapprentissagesupervisee ou non supervise en consultant une bote a` outil Mathlab de classification2. Remarquons que lesprincipaux logiciels commerciaux (SAS, Splus, SPSS, Matlab. . . ) ou gratuits (R), performants et simposantpar des interfaces tre`s conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largementa` la diffusion, voire la penetration, de methodes tre`s sophistiquees dans des milieux impermeables a` uneconceptualisation mathematique trop abstraite.

    Chaque methode ou famille de methodes de modelisation et dapprentissage parmi les plus repandues,est presentee de facon plus ou moins succincte dans un chapitre distinct avec un objectif predictif. Laregression lineaire classique en statistique prend une place particulie`re a` titre pedagogique. Tre`s anterieureaux autres, elle donne lieu a une bibliographie abondante. Conceptuellement plus simple, elle permet din-troduire plus facilement les problematiques rencontrees comme celle du choix dun mode`le par ses deuxapproches types : la selection de variable ou la regularisation (ridge). Pour une meilleure comprehensiondes logiciels qui y font largement reference, une introduction (annexe) au mode`le lineaire general four-nit le cadre theorique necessaire a` lunification des regressions lineaire, loglineaire et logistique ; cettedernie`re reste toujours tre`s utilisee en scoring. La presentation de lanalyse discriminante decisionnelle,parametrique ou non parametrique, les k plus proches voisins, permet dintroduire egalement des notionsde theorie bayesienne de la decision. Un chapitre incontournable est consacre aux techniques destimationdune erreur de prevision sur lesquelles reposent les choix operationnels decisifs : de mode`le, de methodemais aussi levaluation de la precision des resultats escomptes. Les chapitres suivants sont consacrees auxtechniques algorithmiques : arbres binaires de decision (classification and regression trees ou CART) eta` celles plus directement issues de la theorie de lapprentissage machine (machine learning) : reseau deneurones et perceptron, agregation de mode`les (boosting, random forest), support vector machine (SVM).Enfin un chapitre conclusif propose une comparaison systematique des methodes sur les differents jeuxde donnees. Des annexes apportent des complements theoriques ou methodologiques : modelisation dedonnees fonctionnelles, introduction au mode`le lineaire general, bootstrap.

    Le choix a ete fait de conserver et expliciter, dans la mesure du possible, les concepts originaux dechaque methode dans son cadre disciplinaire tout en tachant dhomogeneiser notations et terminologies.Lobjectif principal est de faciliter la comprehension et linterpretation des techniques des principaux logi-ciels pour en faciliter une utilisation pertinente et reflechie. Ce cours ne peut etre dissocie de seances detravaux diriges sur ordinateur a` laide de logiciels (SAS, R...) pour traiter des donnees en vraie grandeurdans toute leur complexite.

    1http ://www.lsp.ups-tlse.fr2http ://tiger.technion.ac.il/ eladyt/classification/

  • Chapitre 2

    Regression lineaire

    1 IntroductionCe chapitre ne propose quune introduction au mode`le gaussien, a` sa definition et a` son estimation en

    privilegiant lobjectif de prevision. Il sattarde donc sur le proble`me delicat du choix de mode`le afin, princi-palement, den introduire et den illustrer les grands principes dans le cas relativement simple dun mode`lelineaire. Une section introduit le mode`le danalyse de covariance mais de nombreux aspects : colinearite,points influents, tests, analyse de variance, mode`le multinomial ou poissonien (mode`le log-lineaire). . . sontnegliges et a` rechercher dans la bibliographie de meme quune presentation globale du mode`le lineairegeneral incluant toutes ces approches et seulement resumee en annexe. Les statistiques des tests elemetairessont explicitees afin de faciliter la lectures et linterpretation des resultats issus des logiciels.

    Le but premier de ce chapitre est donc lexplication ou plutot, la modelisation dans un but predictif,dune variable quantitative par plusieurs variables quantitatives (regression lineaire multiple) ou par unmelange de variables quantitatives et qualitatives (analyse de covariance).

    2 Mode`leLe mode`le de regression lineaire multiple est loutil statistique le plus habituellement mis en uvre pour

    letude de donnees multidimensionnelles. Cas particulier de mode`le lineaire, il constitue la generalisationnaturelle de la regression simple.

    Une variable quantitative Y dite a` expliquer (ou encore, reponse, exoge`ne, dependante) est mise enrelation avec p variables quantitatives X1, . . . , Xp dites explicatives (ou encore de controle, endoge`nes,independantes, regresseurs).

    Les donnees sont supposees provenir de lobservation dun echantillon statistique de taille n (n > p+1)de IR(p+1) :

    (x1i , . . . , xji , . . . , x

    pi , yi) i = 1, . . . , n.

    Lecriture du mode`le lineaire dans cette situation conduit a` supposer que lesperance de Y appartientau sous-espace de IRn engendre par {1, X1, . . . , Xp} ou` 1 designe le vecteur de IRn constitue de 1 .Cest-a`-dire que les (p+ 1) variables aleatoires verifient :

    yi = 0 + 1x1i + 2x2i + + pxpi + i i = 1, 2, . . . , n

    avec les hypothe`ses suivantes :i. Les i sont des termes derreur independants et identiquement distribues ;E(i) = 0, V ar() = 2I.ii. Les termes xj sont supposes deterministes (facteurs controles) ou bien lerreur est independante de

    la distribution conjointe de X1, . . . , Xp. On ecrit dans ce dernier cas que :

    E(Y |X1, . . . , Xp) = 0 + 1X1 + 2X2 + + pXp et V ar(Y |X1, . . . , Xp) = 2.iii. Les parame`tres inconnus 0, . . . , p sont supposes constants.

    13

  • 14 Chapitre 2. Regression lineaire

    iv. En option, pour letude specifique des lois des estimateurs, une quatrie`me hypothe`se conside`re lanormalite de la variable derreur (N (0, 2I)). Les i sont alors i.i.d. de loi N (0, 2).

    Les donnees sont rangees dans une matrice X(n (p + 1)) de terme general xji , dont la premie`recolonne contient le vecteur 1 (xi0 = 1), et dans un vecteur Y de terme general yi. En notant les vecteurs = [1 p] et = [01 p], le mode`le secrit matriciellement :

    y = X + .

    3 EstimationConditionnellement a` la connaissance des valeurs des Xj , les parame`tres inconnus du mode`le : le vec-

    teur et 2 (parame`tre de nuisance), sont estimes par minimisation des carres des ecarts (M.C.) ou encore,en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les memes expres-sions, lhypothe`se de normalite et lutilisation de la vraisemblance conferant a` ces derniers des proprietescomplementaires.

    3.1 Estimation par M.C.Lexpression a` minimiser sur IRp+1 secrit :

    ni=1

    (yi 0 1x1i 2x2i pxpi )2 = y X2

    = (y X)(y X)= yy 2Xy + XX.

    Par derivation matricielle de la dernie`re equation on obtient les equations normales :

    Xy XX = 0dont la solution correspond bien a` un minimum car la matrice hessienne 2XX est semi definie-positive.

    Nous faisons lhypothe`se supplementaire que la matriceXX est inversible, cest-a`-dire que la matriceX est de rang (p + 1) et donc quil nexiste pas de colinearite entre ses colonnes. En pratique, si cettehypothe`se nest pas verifiee, il suffit de supprimer des colonnes deX et donc des variables du mode`le. Desdiagnostics de colinearite et des crite`res aident au choix des variables.

    Alors, lestimation des parame`tres j est donnee par :

    b = (XX)1Xy

    et les valeurs ajustees (ou estimees, predites) de y ont pour expression :

    y = Xb = X(XX)1Xy = Hy

    ou` H = X(XX)1X est appelee hat matrix ; elle met un chapeau a` y. Geometriquement, cest lamatrice de projection orthogonale dans IRn sur le sous-espace Vect(X) engendre par les vecteurs colonnesdeX.

    On notee = y y = y Xb = (IH)y

    le vecteur des residus ; cest la projection de y sur le sous-espace orthogonal de Vect(X) dans IRn.

    3.2 ProprietesLes estimateurs des M.C. b0, b1, . . . , bp sont des estimateurs sans biais : E(b) = , et, parmi les esti-

    mateurs sans biais fonctions lineaires des yi, ils sont de variance minimum (theore`me de Gauss-Markov) ;ils sont donc BLUE : best linear unbiaised estimators. Sous hypothe`se de normalite, les estimateurs duM.V. sont uniformement meilleurs (efficaces) et concident avec ceux des M.C.

  • 4. Inferences dans le cas gaussien 15

    On montre que la matrice de covariance des estimateurs se met sous la forme

    E[(b )(b )] = 2(XX)1,

    celle des predicteurs estE[(y X)(y X)] = 2H

    et celle des estimateurs des residus est

    E[(e u)((e u))] = 2(IH)

    tandis quun estimateur sans biais de 2 est fourni par :

    s2 =e2

    n p 1 =y X2n p 1 =

    SSEn p 1 .

    Ainsi, les termes s2hii sont des estimations des variances des predicteurs yi.

    3.3 Sommes des carresSSE est la somme des carres des residus (sum of squared errors),

    SSE = y y2 = e2 .

    On definit egalement la somme totale des carres (total sum of squares) par

    SST = y y12 = yy ny2

    et la somme des carres de la regression (regression sum of squares) par

    SSR = y y12 = yy ny2 = yHy ny2 = bXy ny2.

    On verifie alors : SST = SSR+ SSE.

    3.4 Coefficient de determinationOn appelle coefficient de determination le rapport

    R2 =SSRSST

    qui est donc la part de variation de Y expliquee par le mode`le de regression. Geometriquement, cest unrapport de carres de longueur de deux vecteurs. Cest donc le cosinus carre de langle entre ces vecteurs : yet sa projection y sur Vect(X).

    Attention, dans le cas extreme ou` n = (p + 1), cest-a`-dire si le nombre de variables explicatives estgrand comparativement au nombre dobservations, R2 = 1. Ou encore, il est geometriquement facile devoir que lajout de variables explicatives ne peut que faire crotre le coefficient de determination.

    La quantite R est appelee coefficient de correlation multiple entre Y et les variables explicatives, cestle coefficient de correlation usuel entre y et sa prevision (ou projection) y.

    4 Inferences dans le cas gaussienEn principe, lhypothe`se optionnelle (iv) de normalite des erreurs est necessaire pour cette section. En

    pratique, des resultats asymptotiques, donc valides pour de grands echantillons, ainsi que des etudes desimulation, montrent que cette hypothe`se nest pas celle dont la violation est la plus penalisante pour lafiabilite des mode`les.

  • 16 Chapitre 2. Regression lineaire

    4.1 Inference sur les coefficientsPour chaque coefficient j on montre que la statistique

    bj jbj

    ou` 2bj , variance de bj est le je`me terme diagonal de la matrice s2(XX)1, suit une loi de Student a`

    (n p 1) degres de liberte. Cette statistique est donc utilisee pour tester une hypothe`se H0 : j = a oupour construire un intervalle de confiance de niveau 100(1 )% :

    bj t/2;(np1)bj .

    Attention, cette statistique concerne un coefficient et ne permet pas dinferer conjointement (cf. 3.4)sur dautres coefficients car ils sont correles entre eux ; de plus elle depend des absences ou presences desautres variables Xk dans le mode`le. Par exemple, dans le cas particulier de deux variables X1 et X2 tre`scorrelees, chaque variable, en labsence de lautre, peut apparatre avec un coefficient significativementdifferent de 0 ; mais, si les deux sont presentes dans le mode`le, elles peuvent chacune apparatre avec descoefficients insignifiants.

    De facon plus generale, si c designe un vecteur non nul de (p + 1) constantes reelles, il est possiblede tester la valeur dune combinaison lineaire cb des parame`tres en considerant lhypothe`se nulle H0 :cb = a ; a connu. Sous H0, la statistique

    cb a(s2c(XX)1c)1/2

    suit une loi de Student a` (n p 1) degres de liberte.4.2 Inference sur le mode`le

    Le mode`le peut etre teste globalement. Sous lhypothe`se nulle H0 : 1 = 2 = . . . = p = 0, lastatistique

    SSR/pSSE/(n p 1) =

    MSRMSE

    suit une loi de Fisher avec p et (n p 1) degres de liberte. Les resultats sont habituellement presentesdans un tableau danalyse de la variance sous la forme suivante :

    Source devariation d.d.l.

    Sommedescarres

    Variance F

    Regression p SSR MSR=SSR/p MSR/MSEErreur n p 1 SSE MSE=SSE/(n p 1)Total n 1 SST

    4.3 Inference sur un mode`le reduitLe test precedent ame`ne a` rejeter H0 de`s que lune des variables Xj est liee a` Y . Il est donc dun

    interet limite. Il est souvent plus utile de tester un mode`le reduit cest-a`-dire dans lequel certains coeffi-cients, a` lexception de la constante, sont nuls contre le mode`le complet avec toutes les variables. En ayanteventuellement reordonne les variables, on conside`re lhypothe`se nulleH0 : 1 = 2 = . . . = q = 0, q F(1)

    Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)Error 27 0.14951 (3) 0.00554 (6)

  • 18 Chapitre 2. Regression lineaire

    C Total 39 0.70820 (4)Root MSE 0.07441 (9) R-square 0.7889 (12)Dep Mean 0.14275 (10) Adj R-sq 0.6951 (13)C.V. 52.12940 (11)

    (1) degres de liberte de la loi de Fisher du test global(2) SSR(3) SSE ou deviance(4) SST=SSE+SSR(5) SSR/DF(6) s2 =MSE=SSE/DF est lestimation de 2

    (7) Statistique F du test de Fisher du mode`le global(8) P (fp;np1 > F ) ;H0 est rejetee au niveau si P < (9) s =racine de MSE(10) moyenne empirique de la variable a` expliquee(11) Coefficient de variation 100 (9)/(10)(12) Coefficient de determination R2

    (13) Coefficient de determination ajuste R2

    Parameter EstimatesParameter Standard T for H0: Variance

    Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation(1) (2) (3) (4) (5) (6)

    INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805...

    (1) estimations des parame`tres (bj)(2) ecarts-types de ces estimations (sbj )(3) statistique T du test de Student deH0 : bj = 0(4) P (tnp1 > T ) ;H0 est rejetee au niveau si P < (5) 1R2(j)(6) VIF=1/(1R2(j))

    Ces resultats soulignent les proble`mes de colinearites. De grands VIF sont associes a` de grands ecart-types des estimations des parame`tres. Dautre part les nombreux tests de Student non significatifs montrentque trop de variables sont presentes dans le mode`le. Cette idee est renforcee par le calcul de lindice deconditionnement (explicite dans la section suivante : 8.76623/0.00125).

    5 Choix de mode`leDe facon un peu schematique, on peut associer la pratique de la modelisation statistique a` trois objectifs

    qui peuvent eventuellement etre poursuivis en complementarite.

    Descriptif : Il vise a` rechercher de facon exploratoire les liaisons entre Y et dautres variables, potentiel-lement explicatives, Xj qui peuvent etre nombreuses afin, par exemple den selectionner un sous-ensemble. A` cette strategie, a` laquelle peuvent contribuer des Analyses en Composantes Principales,correspond des algorithmes de recherche (pas a` pas) moins performants mais economiques en tempsde calcul si p est grand.Attention, si n est petit, et la recherche suffisamment longue avec beaucoup de variables explicatives,il sera toujours possible de trouver un bon mode`le expliquant y ; cest leffet data mining dans lesmode`les econometriques appele maintenant data snooping.

    Explicatif : Le deuxie`me objectif est sous-tendu par une connaissance a priori du domaine concerne etdont des resultats theoriques peuvent vouloir etre confirmes, infirmes ou precises par lestimationdes parame`tres. Dans ce cas, les resultats inferentiels precedents permettent de construire le bon test

  • 5. Choix de mode`le 19

    conduisant a` la prise de decision recherchee. Utilisees hors de ce contexte, les statistiques de testnont plus alors quune valeur indicative au meme titre que dautres crite`res plus empiriques.

    Predictif : Dans le troisie`me cas, laccent est mis sur la qualite des estimateurs et des predicteurs quidoivent, par exemple, minimiser une erreur quadratique moyenne. Cest la situation rencontree enapprentissage. Ceci conduit a` rechercher des mode`les parcimonieux cest-a`-dire avec un nombre vo-lontairement restreint de variables explicatives. Le meilleur mode`le ainsi obtenu peut donner des es-timateurs lege`rement biaises au profit dun compromis pour une variance plus faible. Un bon mode`lenest donc plus celui qui explique le mieux les donnees au sens dune deviance (SSE) minimale (oudunR2 max) au prix dun nombre important de variables pouvant introduire des colinearites. Le bonmode`le est celui qui conduit aux previsions les plus fiables.

    Certes, le theore`me de Gauss-Markov indique que, parmi les estimateurs sans biais, celui des moindrescarres est de variance minimum. Neanmoins, il peut etre important de preferer un estimateur lege`rementbiaise si le gain en variance est lui plus significatif. Cest tout le proble`me de trouver un bon equilibre entrebiais et variance afin de minimiser un risque quadratique de prevision. Il y a principalement deux facons debiaiser un mode`le dans le but de restreindre la variance : en reduisant le nombre de variables explicatives et donc en simplifiant le mode`le, en contraignant les parame`tres du mode`le, en les retrecissant (schrinkage), en regression ridge quiope`re une regularisation.

    Commencons par decrire les procedures de selection.

    5.1 Crite`resDe nombreux crite`res de choix de mode`le sont presentes dans la litterature sur la regression lineaire

    multiple. Citons le crite`re dinformation dAkake (AIC), celui bayesien de Sawa (BIC). . . (cf. chapitre 5).Ils sont equivalents lorsque le nombre de variables a` selectionner, ou niveau du mode`le, est fixe. Le choixdu crite`re est determinant lorsquil sagit de comparer des mode`les de niveaux differents. Certains crite`resse rame`nent, dans le cas gaussien, a` lutilisation dune expression penalisee de la fonction de vraisemblanceafin de favoriser des mode`les parcimonieux. En pratique, les plus utilises ou ceux generalement fournis parles logiciels sont les suivants.

    Statistique du F de Fisher

    Ce crite`re, justifie dans le cas explicatif car base sur une qualite dajustement est aussi utilise a` titreindicatif pour comparer des sequences de mode`les embotes. La statistique partielle de Fisher est

    (SSR SSRq)/sSSE/(n p 1) =

    (R2 R2q)1R2)

    n p 1q

    dans laquelle lindice q designe les expressions concernant le mode`le reduit avec (p q) variables explica-tives. On conside`re alors que si laccroissement (R2 R2q) est suffisamment grand :

    R2 R2R >q

    (n p 1)F;q,(np1),

    lajout des q variables au mode`le est justifie.

    R2 et R2 ajuste

    Le coefficient de determination R2 = 1SSE/SST, directement lie a` la deviance (SSE) est aussi unindice de qualite mais qui a la propriete detre monotone croissant en fonction du nombre de variables. Ilne peut donc servir qua` comparer deux mode`les de meme niveau cest-a`-dire avec le meme nombre devariables.

    En revanche, le R2 ajuste :

    R2 = 1 n 1n p 1(1R

    2) = 1 SSE/(n p 1)SST/(n 1) .

    dans lequel le rapport SSE/SST est remplace par un rapport des estimations sans biais des quantites 2 et2y introduit une penalisation liee au nombre de parame`tres a` estimer.

  • 20 Chapitre 2. Regression lineaire

    Ce coefficient sexprime encore par

    1 (n 1)MSESST

    ainsi dans la comparaison de deux mode`les partageant la meme SST, on observe que R2 > R2j si et seule-ment si MSE

  • 5. Choix de mode`le 21

    La procedure sarrete lorsque toutes les variables sont introduites ou lorsque p reste plus grandequune valeur seuil fixee par defaut a` 0, 50.

    Elimination (backward) Lalgorithme demarre cette fois du mode`le complet. A` chaque etape, la variableassociee a` la plus grande valeur p est eliminee du mode`le. La procedure sarrete lorsque les variablesrestant dans le mode`le ont des valeurs p plus petites quun seuil fixe par defaut a` 0, 10.

    Mixte (stepwise) Cet algorithme introduit une etape delimination de variable apre`s chaque etape deselection afin de retirer du mode`le deventuels variables qui seraient devenues moins indispensablesdu fait de la presence de celles nouvellement introduites.

    Global

    Lalgorithme de Furnival et Wilson est utilise pour comparer tous les mode`les possibles en cherchant a`optimiser lun des crite`res :R2,R2 ajuste, ouCp de Mallows (rsquare, adjrsq, cp) choisi par luti-lisateur. Par souci deconomie, cet algorithme evite de considerer des mode`les de certaines sous-branches delarborescence dont on peut savoir a priori quils ne sont pas competitifs. En general les logiciels executantcet algorithme affichent le (best=1) ou les meilleurs mode`les de chaque niveau.

    5.3 ExempleParmi les trois types dalgorithmes et les differents crite`res de choix, une des facons les plus efficaces

    consistent a` choisir les options du programme ci-dessous. Tous les mode`les (parmi les plus interessantsselon lalgorithme de Furnival et Wilson) sont consideres. Seul le meilleur pour chaque niveau, cest-a`-direpour chaque valeur p du nombre de variables explicatives sont donnes. Il est alors facile de choisir celuiminimisant lun des crite`res globaux (Cp ou BIC ou . . . ).

    options linesize=110 pagesize=30 nodate nonumber;title;proc reg data=sasuser.ukcomp2 ;model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST

    NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT/ selection=rsquare cp rsquare bic best=1;

    run;

    N = 40 Regression Models for Dependent Variable: RETCAPR-sq. Adjust. C(p) BIC Variables in Model

    In R-sq1 0.105 0.081 78.393 -163.2 WCFTCL2 0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT3 0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT4 0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT5 0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT6 0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT7 0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT8 0.769 0.709 7.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT9 0.776 0.708 8.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT

    CURRAT10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT

    QUIKRAT CURRAT11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST

    PAYOUT QUIKRAT CURRAT12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT

    INVTAST PAYOUT QUIKRAT CURRAT

    Dans cet example, Cp et BIC se comportent de la meme facon. Avec peu de variables, le mode`le esttrop biaise. Ils atteignent un minimum pour un mode`le a` 4 variables explicatives puis croissent de nouveauselon la premie`re bissectrice. La maximisation du R2 ajuste conduirait a` une solution beaucoup moinsparcimonieuse. On note par ailleurs que lalgorithme remplace WCFTCL par WCFTDT. Un algorithme parselection ne peut pas aboutir a` la solution optimale retenue.

  • 22 Chapitre 2. Regression lineaire

    5.4 Choix de mode`le par regularisationLautre strategie qui cherche a` conserver lensemble ou tout du moins la plupart des variables explica-

    tives pose un proble`me de multicolinearite. Il est resolu par une procedure de regularisation.

    Proble`me

    Lestimation des parame`tres ainsi que celle de leur ecart-type (standard error) necessite le calcul expli-cite de la matrice (XX)1. Dans le cas dit mal conditionne ou` le determinant de la matrice XX nestque lege`rement different de 0, les resultats conduiront a` des estimateurs de variances importantes et meme,eventuellement, a` des proble`mes de precision numerique. Il sagit donc de diagnostiquer ces situationscritiques puis dy remedier. Dans les cas descriptif ou predictif on supprime des variables a` laide desprocedures de choix de mode`le mais, pour un objectif explicatif necessitant toutes les variables, dautressolutions doivent etre envisagees : algorithme de resolution des equations normales par transformationsorthogonales (procedure orthoreg de SAS) sans calcul explicite de linverse pour limiter les proble`mesnumeriques, regression biaisee (ridge), regression sur composantes principales.

    VIF

    La plupart des logiciels proposent des diagnostics de colinearite. Le plus classique est le facteur din-flation de la variance (VIF)

    Vj =1

    1R2jou` R2j designe le coefficient de determination de la regression de la variable X

    j sur les autres variablesexplicatives ; Rj est alors un coefficient de correlation multiple, cest le cosinus de langle dans IRn entreXj et le sous-espace vectoriel engendre par les variables {X1, . . . , Xj1, Xj+1, . . . , Xp}. Plus Xj estlineairement proche de ces variables et plus Rj est proche de 1 ; on montre alors que la variance de lesti-mateur de j est dautant plus elevee. Evidemment, cette variance est minimum lorsque Xj est orthogonalau sous-espace engendre par les autres variables.

    Conditionnement

    De facon classique, les qualites numeriques de linversion dune matrice sont quantifiees par son in-dice de conditionnement. On note 1, . . . , p les valeurs propres de la matrice des correlations R rangeespar ordre decroissant. Le determinant de R est egal au produit des valeurs propres. Ainsi, des proble`mesnumeriques, ou de variances excessives apparaissent de`s que les dernie`res valeurs propres sont relativementtrop petites. Lindice de conditionnement est le rapport

    = 1/p

    de la plus grande sur la plus petite valeur propre.

    En pratique, si < 100 on conside`re quil ny a pas de proble`me. Celui-ci devient seve`re pour >1000. Cet indice de conditionnement donne un apercu global des proble`mes de colinearite tandis que lesVIF, les tolerances ou encore letude des vecteurs propres associes au plus petites valeurs propres permettentdidentifier les variables les plus problematiques.

    Regression ridge

    Ayant diagnostique un proble`me mal conditionne mais desirant conserver toutes les variables, il estpossible dameliorer les proprietes numeriques et la variance des estimations en considerant un estimateurlege`rement biaise des parame`tres. Lestimateur ridge est donne par

    bR = (XX+ kI)1Xy,

    qui a pour effet de decaler de la valeur k toutes les valeurs propres de la matrice a` inverser et, plus par-ticulie`rement, les plus petites qui refle`tent la colinearite. On montre que cela revient encore a` estimer lemode`le par les moindres carres sous la contrainte que la norme du vecteur1 des parame`tres ne soit pas

    1En pratique, la contrainte ne sapplique pas au terme constant 0 mais seulement aux coefficients du mode`le.

  • 5. Choix de mode`le 23

    FIG. 2.1 Retour sur capital : Evolution des parame`tres de la regression ridge en fonction du parame`trede regularisation.

    trop grande :bR = argmin

    {y X2 ; 2 < c

    }.

    Cest encore, en introduisant un multiplicateur de Lagrange dans le proble`me de minimisation, un proble`mede moindres carres penalises :

    bR = argmin{y X2 + 2}.

    Cela revient a` penaliser la norme de lestimateur pour empecher les coefficients dexploser et donc pourlimiter la variance. On parle aussi destimateur a` retrecisseur (shrinkage). Comme dans tout proble`me deregularisation, il est necessaire de fixer la valeur du parame`tre ; la validation croisee peut etre utilisee a`cette fin mais la lecture du graphique (cf. figure 2.1) montrant levolution des parame`tres en fonction ducoefficient ridge est souvent suffisante. La valeur est choisie au point ou` la decroissance des parame`tresdevient faible et quasi-lineaire. Une autre version (lasso) de regression biaisee est obtenue en utilisant lanorme en valeur absolue pour definir la contrainte sur les parame`tres.

    Regression sur composantes principales

    LAnalyse en Composantes Principales est, entre autres, la recherche de p variables dites principales quisont des combinaisons lineaires des variables initiales de variance maximale sous une contrainte dorthogo-nalite (cf. Baccini et Besse (2000) pour des details). En designant parV la matrice des vecteurs propres dela matrice des correlationsR ranges dans lordre decroissant des valeurs propres, les valeurs prises par cesvariables principales sont obtenues dans la matrice des composantes principales

    C = (X 1x)V.Elles ont chacune pour variance la valeur propre j associee. Le sous-espace engendre par ces variablesprincipales est le meme que celui engendre par les variables initiales. Il est donc geometriquement equivalentde regresser Y sur les colonnes deC que sur celles deX. Les proble`mes de colinearite sont alors resolus ensupprimant les variables principales de plus faibles variances cest-a`-dire associees aux plus petites valeurspropres ou encore en executant un algorithme de choix de mode`le sur les composantes.

    La solution obtenue presente ainsi de meilleures qualites predictives mais, les coefficients de la regressionsappliquant aux composantes principales, un calcul complementaire est necessaire afin devaluer et din-terpreter les effets de chacune des variables initiales.

    Regression PLS

    Une dermie`re approche est largement utilisee, par exemple en chimiometrie, afin de pourvoir traiter lessituations presentant une forte multicolinearite et meme, lorsque le nombre dobservations est inferieur aunombre de predicteurs. Il sagit de la regression PLS (partial least square).

  • 24 Chapitre 2. Regression lineaire

    Comme pour la regression sur composantes principales, le principe est de rechercher un mode`le deregression lineaire sur un ensemble de composantes orthogonales contruites a` partir de combinaisons lineairesdes variables explicatives centrees. Dans le cas de la PLS, la construction des composantes est optimiseepour que celles-ci soient le plus liees a` la variable Y a` predire au sens de la covariance empirique, alors queles composantes principales ne visent qua` extraire une part de variance maximale sans tenir compte dunevariable cible.

    Soit X(n p) la matrice des predicteurs centres avec n pouvant etre inferieur a` p. On cherche unematriceW de coefficients ou ponderations definissant les q composantes Tk par combinaisons lineaires desvariables Xj :

    T = XW.

    La matriceW est solution du proble`me suivant :

    Pour k = 1, . . . , q, wk = argmaxw

    Cov(Y, Tk)2

    = argmaxw

    wXYYXw

    Avec wkwk = 1 et tktk = w

    XYYXw = 0, pour ` = 1 . . . , k 1.

    La matrice W est obtenue par la demarche iterative de lalgorithme 1 ; il suffit ensuite de calculer laregression de Y sur les q variables Tk centrees ainsi construites. Le choix du nombre de composanteq q estoptimise par validation croisee.

    Cet algorithme se generalise directement a` une variable explicative multidimensionnelle (SIMPLS).Le crite`re a` optimiser devient une somme des carres des covariances entre une composante et chacune desvariables reponse. Plusieurs variantes de la regression PLSmultidimensionnelles ont ete proposes (NIPALS,Kernel-PLS...) ; le meme crite`re est optimise mais sous des contraintes differentes.

    Algorithm 1 regression PLSX matrice des variables explicatives centrees,Calcul deW matrice des coefficients.Pour k = 1 a` q Fairewk = X

    YXY ,

    tk = XwkDeflation deX :X = X tktkX

    Fin Pour

    6 Complements

    6.1 Mode`les polynomiauxEn cas dinvalidation de lhypothe`se de linearite, il peut etre interessant de considerer des mode`les

    polynomiaux, tre`s classiques pour decrire des phenome`nes physiques, de la forme

    Y = 0 + + jXj + + klXkX l + + jXj2

    qui sont encore appeles surfaces de reponse en plannification experimentale. Ces mode`les sont faciles a`etudier dans le cadre lineaire, il suffit dajouter des nouvelles variables constituees des produits ou descarres des variables explicatives initiales. Les choix : presence ou non dune interaction entre deux va-riables, presence ou non dun terme quadratique se traitent alors avec les memes outils que ceux des choixde variable mais en integrant une contrainte lors de la lecture des resultats : ne pas considerer des mode`lesincluant des termes quadratiques dont les composants lineaires auraient ete exclus ou encore, ne pas sup-primer dun mode`le une variable dun effet lineaire si elle intervient dans un terme quadratique.

    La procedure rsreg de SAS est plus particulie`rement adaptee aux mode`les quadratiques. Elle ne com-porte pas de procedure de choix de mode`le mais fournit des aides et diagnostics sur lajustement de lasurface ainsi que sur la recherche des points optimaux.

  • 6. Complements 25

    Attention : Ce type de mode`le accrot considerablement les risques de colinearite, il est peu recommandede considerer des termes cubiques.

    6.2 Influence, residus, validationAvant toute tentative de modelisation complexe, il est imperatif davoir conduit des analyses uni et bi-

    variees afin didentifier des proble`mes sur les distributions de chacune des variables : dissymetrie, valeursatypiques (outliers) ou sur les liaisons des variables prises deux par deux : non-linearite. Ces preliminairesacquis, des aides ou diagnostics associes a` la regression lineaire multiple permettent de detecter des viola-tions dhypothe`ses (homoscedasticite, linearite) ou des points influents dans ce contexte multidimensionnel(cf. figure 2.2).

    Points influents

    Comme toute methode quadratique, lestimation des parame`tres est tre`s sensible a` la presence de pointsextremes susceptibles de perturber gravement les resultats. Une observation est influente sur les parame`tresdune regression si, a` la fois, elle est eloignee du barycentre, et ce dans la direction dun vecteur propre associe a` une petite valeurpropre (effet levier), elle provoque un grand residu.

    Lobservation de la diagonale de la matriceH (hat matrix) reve`le un effet levier potentiel tandis que lana-lyse des residus studentises pointe ceux susceptibles de poser des proble`mes (valeur absolue plus grandeque 2).

    Les deux diagnostics precedents sont combines dans des mesures synthetiques proposees par differentsauteurs. La plus utilisee est la distance de Cook

    Di =1

    s2(p+ 1)(y y(i))(y y(i)) =

    [hii

    1 hii

    ]r2i

    (p+ 1)

    qui quantifie linfluence de la i-e`me observation sur lecart entre le predicteur y et le predicteur y(i) calculesans cette ie`me observation. On conclut a` une influence de lobservation i lorsque la valeur de Di depasse1.

    Tous ces crite`res sont illustres dans les graphiques de la figure 2.2. Les tableaux ci-dessous fournis pasSAS illustrent ces quantites sur lexemple des donnees comptables.

    Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err StudentObs RETCAP Value Predict Mean Mean Predict Predict Residual Residual Residual

    (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)1 0.2600 0.2716 0.053 0.1625 0.3808 0.0839 0.4593 -0.0116 0.052 -0.2232 0.5700 0.3690 0.039 0.2882 0.4497 0.1962 0.5417 0.2010 0.063 3.1833 0.0900 0.00897 0.063 -0.1205 0.1385 -0.1912 0.2092 0.0810 0.039 2.0554 0.3200 0.2335 0.021 0.1903 0.2768 0.0748 0.3922 0.0865 0.071 1.2125 0.1700 0.1164 0.046 0.0215 0.2113 -0.0634 0.2961 0.0536 0.058 0.920...

    Cooks Hat Diag Cov INTERCEP WCFTCL WCFTDTObs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas

    (11) (12) (13) (14) (15) (15) (15) (15) (15)1 | | | 0.004 -0.2194 0.5109 3.2603 -0.2242 0.0299 0.0632 -0.09112 | |******| 0.302 3.9515 0.2795 0.0050 2.4611 0.9316 -0.3621 0.37053 | |**** | 0.832 2.1955 0.7192 0.6375 3.5134 0.5543 2.1916 -2.02414 | |** | 0.010 1.2228 0.0803 0.8585 0.3613 -0.0132 -0.0835 0.12075 | |* | 0.041 0.9175 0.3864 1.7591 0.7280 -0.0386 0.0906 0.0060

    ...

  • 26 Chapitre 2. Regression lineaire

    FIG. 2.2 Retour sur capital : Graphe des residus studentises, de la diagonale de la matrice H et de ladistance de Cook en fonction des valeurs predites.

    (1) variable a` expliquer yi(2) valeur ajustee byi(3) ecart-type de cette estimationsbyi

    (4)et (5) Intervalle de confiance pour lestimation de E(yi)(6) et (7) Intervalle de confiance pour lestimation de yi(8) residus calcules ei(9) ecarts-types de ces estimations(10) residus standardises (ou studentises internes) ri(11) reperage graphique des residus standardises : = 0.5.(12) Distance de Cook(13) residus studentises (externes) ti(14) Termes diagonaux de la matrice chapeauH(15) autres indicateurs dinfluence

    Sum of Residuals 0Sum of Squared Residuals 0.1495 (SSE)Predicted Resid SS (Press) 1.0190 (PRESS)

    Regression partielle

    Un mode`le de regression multiple est une technique lineaire. Il est raisonnable de sinterroger sur lapertinence du caracte`re lineaire de la contribution dune variable explicative a` lajustement du mode`le. Cecipeut etre realise en considerant une regression partielle.

    On calcule alors deux regressions : la regression de Y sur les variablesX1, . . . , Xj1, Xj+1, . . . , Xp, dans laquelle la je`me variable estomise, soit ry(j) le vecteur des residus obtenus.

    La regression deXj sur les variablesX1, . . . , Xj1, Xj+1, . . . , Xp. Soit rx(j) le vecteur des residusobtenus.

    La comparaison des residus par un graphe (nuage de points ry(j) rx(j)) permet alors de representer lanature de la liaison entre Xj et Y conditionnellement aux autres variables explicatives du mode`le.

    Graphes

    Differents graphiques permettent finalement de controler le bien fonde des hypothe`ses de linearite,dhomoscedasticite, eventuellement de normalite des residus. Le premier conside`re le nuage de points des residus studentises croises avec les valeurs predites. Lespoints doivent etre uniformement repartis entre les bornes 2 et +2 et ne pas presenter de formessuspectes (cf. figure 2.2). Le deuxie`me croise les valeurs observees de Y avec les valeurs predites. Il illustre le coefficient dedetermination R qui est aussi la correlation lineaire simple entre y et y. Les points doivent saligner

  • 7. Analyse de variance a` un facteur 27

    FIG. 2.3 Retour sur capital : Graphe des valeurs observees en fonction des valeurs predites et droite deHenri des residus (normal qq-plot).

    autour de la premie`re bissectrice. Il peut etre complete par lintervalle de confiance des yi ou celui deleurs moyennes. (cf. figure 2.3). La qualite, en terme de linearite, de lapport de chaque variable est etudiee par des regressions par-tielles. Chaque graphe de residus peut etre complete par une estimation fonctionnelle ou regressionnon-parametrique (loess, noyau, spline) afin den facilite la lecture. Le dernier trace la droite de Henri (Normal QQplot) des residus dont le caracte`re lineaire de larepresentation donne une idee de la normalite de la distribution. (cf. figure 2.3)

    7 Analyse de variance a` un facteur

    7.1 IntroductionLes techniques dites danalyse de variance sont des outils entrant dans le cadre general du mode`le

    lineaire et ou` une variable quantitative est expliquee par une ou plusieurs variables qualitatives. Lobjec-tif essentiel est alors de comparer les moyennes empiriques de la variable quantitative observees pourdifferentes categories dunites statistiques. Ces categories sont definies par lobservation des variables qua-litatives ou facteurs prenant differentes modalites ou encore de variables quantitatives decoupees en classesou niveaux. Une combinaison de niveaux definit une cellule, groupe ou traitement.

    Il sagit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a un effet sur la variablequantitative en vue, par exemple, de determiner des conditions optimales de production ou de fabrication,une dose optimale de medicaments. . . . Ces techniques apparaissent aussi comme des cas particuliers dela regression lineaire multiple en associant a` chaque modalite une variable indicatrice (dummy variable)et en cherchant a` expliquer une variable quantitative par ces variables indicatrices. Lappellation analysede variance vient de ce que les tests statistiques sont batis sur des comparaisons de sommes de carres devariations.

    Lanalyse de variance est souvent utilisee pour analyser des donnees issue dune planification experimentaleau cours de laquelle lexperimentateur a la possibilite de controler a priori les niveaux des facteurs avecpour objectif dobtenir le maximum de precision au moindre cout. Ceci conduit en particulier a` construiredes facteurs orthogonaux deux a` deux (variables explicatives non lineairement correlees) afin de minimiserla variance des estimateurs. On distingue le cas particulier important ou` les cellules ont le meme effectif,on parle alors de plan orthogonal ou equirepete ou equilibre (balanced), qui conduit a` des simplificationsimportantes de lanalyse de variance associee. On appelle plan complet un dispositif dans lequel toutes lescombinaisons de niveaux ont ete experimentees. On distingue entre des mode`les fixes, aleatoires ou mixtesselon le caracte`re deterministe (controle) ou non des facteurs par exemple si les modalites resultent dun

  • 28 Chapitre 2. Regression lineaire

    choix aleatoire parmi un grand nombre de possibles. Dans cette courte introduction seuls le mode`le fixe a`un facteur est considere.

    Lanalyse de variance a` un facteur est un cas particulier detude de relations entre deux variables statis-tiques : une quantitative Y admettant une densite et une qualitativeX ou facteur qui engendre une partitionou classification de lechantillon en J groupes, cellules ou classes indicees par j. Lobjectif est de comparerles distributions de Y pour chacune des classes en particulier les valeurs des moyennes et variances. Unprealable descriptif consiste a` realiser un graphique constitue de diagrammes boites paralle`les : une pourchaque modalite. Cette representation donne une premie`re appreciation de la comparaison des distributions(moyenne, variance) internes a` chaque groupe. Les specificites de la planification dexperience ne sont pasabordees dans ce cours axe sur la fouille de donnees pour laquelle les donnees sont justement prealablementfournies. Les plans dexperience sont surtout utilises en milieu industriel : controle de qualite, optimisationdes processus de production, ou en agronomie pour la selection de varietes, la comparaison dengrais, din-secticides. . . . La bibliographie est abondante sur ce sujet.

    7.2 Mode`lePour chaque niveau j de X , on observe nj valeurs y1j , . . . , ynjj de la variable Y et ou` n =

    Jj=1 nj

    (n > J) est la taille de lechantillon. On suppose qua` linterieur de chaque cellule, les observations sontindependantes equidistribuees de moyenne j et de variance homoge`ne 2j =

    2. Ceci secrit :

    yij = j + ij

    ou` les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2) pour la constructiondes tests. Cette dernie`re hypothe`se netant pas la plus sensible. Les esperances j ainsi que le parame`tre denuisance 2 sont les parame`tres inconnus a` estimer.

    On note respectivement :

    y.j =1nj

    nji=1

    yij ,

    s2j =1

    nj 1nji=1

    (yij y.j)2,

    y.. =1n

    nji=1

    Jj=1

    yij ,

    les moyennes et variances empiriques de chaque cellule, la moyenne generale de lechantillon.

    Les parame`tres j sont estimes sans biais par les moyennes y.j et comme le mode`le secrit alors :

    yij = y.j + (yij y.j),lestimation des erreurs est eij = (yij y.j) tandis que les valeurs predites sont yij = y.j .

    Sous lhypothe`se dhomogeneite des variances, la meilleure estimation sans biais de 2 est

    s2 =

    Jj=1

    nji=1(yij y.j)2n J =

    1n J [(n 1)s

    21 + + (nJ 1)s2J ]

    qui secrit donc comme une moyenne ponderee des variances empiriques de chaque groupe.

    Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J ] mis en colonne, = [ij |i = 1, nj ; j =1, J ] le vecteur des erreurs, 1j les variables indicatrices des niveaux et 1 la colonne de 1s. Le ie`me elementdune variable indicatrice (dummy variable) 1j prend la valeur 1 si la ie`me observation yi est associee auje`me et 0 sinon.

    Comme dans le cas de la regression lineaire multiple, le mode`le consiste a` ecrire que lesperance dela variable Y appartient au sous-espace lineaire engendre par les variables explicatives, ici les variablesindicatrices :

    y = 01+ 111 + + J1J + .

  • 7. Analyse de variance a` un facteur 29

    La matrice X alors construite nest pas de plein rang p + 1 mais de rang p. La matrice XX nest pasinversible et le mode`le admet une infinite de solutions. Nous disons que les parame`tres j ne sont pasestimables ou identifiables. En revanche, certaines fonctions (combinaisons lineaires) de ces parame`tressont estimables et appelees contrastes.

    Dans le cas du mode`le danalyse de variance a` un facteur, la solution la plus simple adoptee consiste a`considerer un sous-ensemble des indicatrices ou de combinaisons des indicatrices engendrant le meme sous-espace de facon a` aboutir a` une matrice inversible. Ceci conduit a` considerer differents mode`les associes a`differentes parametrisation. Attention, les parame`tres j ainsi que la matriceX prennent a` chaque fois dessignifications differentes.

    Un premier mode`le (cell means model) secrit comme celui dune regression lineaire multiple sansterme constant avec = [1, . . . , J ] le vecteur des parame`tres :

    y = 111 + + J1J + y = X + .

    Les calculs se presentent simplement mais les tests decoulant de ce mode`le conduiraient a` etudier la nullitedes parame`tres alors que nous sommes interesses par tester legalite des moyennes.

    Une autre parametrisation, considerant cette fois le vecteur = [J , 1J , . . . , J1J ] conduita` ecrire le mode`le (base cell model) de regression avec terme constant :

    y = 01+ 111 + + J11J1 + .Cest celle de SAS alors que dautres logiciels conside`rent des parame`tres deffet differentiel j. par rap-port a` leffet moyen . = 1/J

    Jj=1 j . Ce dernier est encore un mode`le (group effect model) de regression

    lineaire avec terme constant mais dont les variables explicatives sont des differences dindicatrices et avec = [., 1 ., . . . , J1 .] :

    y = 01+ 1(11 1J) + + J1(1J1 1J) + .

    7.3 TestOn designe les differentes sommes des carres des variations par :

    SST =Jj=1

    nji=1

    (yij y..)2 =Jj=1

    nji=1

    y2ij ny2..,

    SSW =Jj=1

    nji=1

    (yij y.j)2 =Jj=1

    nji=1

    y2ij Jj=1

    nj y2.j ,

    SSB =Jj=1

    nj(y.j y..)2 =Jj=1

    nj y2.j ny2..,

    ou` T signifie totale, W (within) intra ou residuelle, B (between) inter ou expliquee par la partition. Ilest facile de verifier que SST=SSB+SSW.

    On conside`re alors lhypothe`seH0 : 1 = = J ,

    qui revient a` dire que la moyenne est independante du niveau ou encore que le facteur na pas deffet, contrelhypothe`se

    H1 : (j, k) tel que j 6= kqui revient a` reconnatre un effet ou une influence du facteur sur la variable Y .

    Dans les mode`les precedents, letude de cette hypothe`se revient a` comparer par un test de Fisher unmode`le complet (les moyennes sont differentes) avec un mode`le reduit supposant la nullite des parame`tresj et donc legalite des moyennes a` celle de la dernie`re cellule ou a` la moyenne generale.

    Les resultats necessaires a` la construction du test qui en decoule sont resumes dans la table danalysede la variance :

  • 30 Chapitre 2. Regression lineaire

    Source devariation d.d.l.

    Sommedes carres Variance F

    Mode`le (inter) J 1 SSB MSB=SSB/(J 1) MSB/MSWErreur (intra) n J SSW MSW=SSW/(n J)Total n 1 SST

    Pratiquement, un programme de regression usuel permet de construire estimation et test de la nullite des jsauf pour le premier mode`le qui doit tester legalite au lieu de la nullite des parame`tres.

    Dans le cas de deux classes (J = 2) on retrouve un test equivalent au test de Student de comparaisondes moyennes de deux echantillons independants. Si lhypothe`se nulle est rejetee, la question suivanteconsiste a` rechercher quelles sont les groupes ou cellules qui posse`dent des moyennes significativementdifferentes. De nombreux tests et procedures ont ete proposes dans la litterature pour repondre a` cettequestion. Enfin, lhypothe`se importante du mode`le induit par lanalyse de variance est lhomogeneite desvariances de chaque groupe. Conjointement a` lestimation du mode`le et en supposant la normalite, il peutetre instructif de controler cette homogeneite par un test.

    8 Analyse de covarianceLanalyse de covariance se situe encore dans le cadre general du mode`le lineaire et ou` une variable

    quantitative est expliquee par plusieurs variables a` la fois quantitatives et qualitatives. Dans les cas lesplus complexes, ont peut avoir plusieurs facteurs (variables qualitatives) avec une structure croisee ouhierarchique ainsi que plusieurs variables quantitatives intervenant de manie`re lineaire ou polynomiale. Leprincipe general, dans un but explicatif ou decisionnel, est toujours destimer des mode`les intra-groupeset de faire apparatre (tester) des effets differentiels inter-groupes des parame`tres des regressions. Ainsi,dans le cas plus simple ou` seulement une variable parmi les explicatives est quantitative, nous sommesamenes a` tester lheterogeneite des constantes et celle des pentes (interaction) entre differents mode`les deregression lineaire.

    Ce type de mode`le permet donc, toujours avec un objectif predictif, de sinteresser a` la modelisationdune variable quantitative par un ensemble de variables explicatives a` la fois quantitatives et qualitatives.La possible prise en compte dinteractions complique singulie`rement la procedure de selection de variables.

    8.1 Mode`leLe mode`le est explicite dans le cas elementaire ou` une variable quantitative Y est expliquee par une

    variable qualitative T a` J niveaux et une variable quantitative, appelee encore covariable, X . Pour chaqueniveau j de T , on observe nj valeurs x1j , . . . , xnjj de X et nj valeurs y1j , . . . , ynjj de Y ; n =

    Jj=1 nj

    est la taille de lechantillon.

    En pratique, avant de lancer une procedure de modelisation et tests, une demarche exploratoire sap-puyant sur une representation en couleur (une par modalite j de T) du nuage de points croisant Y et Xet associant les droites de regression permet de se faire une idee sur les effets respectifs des variables :parallelisme des droites, etirement, imbrication des sous-nuages.

    On suppose que les moyennes conditionnelles E[Y |T ], cest-a`-dire calculees a` linterieur de chaquecellule, sont dans le sous-espace vectoriel engendre par les variables explicatives quantitatives, ici X . Cecisecrit :

    yij = 0j + 1jxij + ij ; j = 1, . . . , J ; i = 1, , njou` les ij sont i.i.d. suivant une loi centree de variance 2 qui sera supposee N (0, 2) pour la constructiondes tests.

    Notons y le vecteur des observations [yij |i = 1, nj ; j = 1, J ] mis en colonne, x le vecteur [xij |i =1, nj ; j = 1, J ], = [ij |i = 1, nj ; j = 1, J ] le vecteur des erreurs, 1j les variables indicatrices desniveaux et 1 la colonne de 1s. On note encore x.1j le produit terme a` terme des deux vecteurs, cest-a`-direle vecteur contenant les observations deX sur les individus prenant le niveau j de T et des zeros ailleurs.

    La resolution simultanee des J mode`les de regression est alors obtenue en considerant globalement le

  • 8. Analyse de covariance 31

    mode`le :y = X +

    dans lequelX est la matrice n2J constituee des blocs [1j |x.1j ] ; j = 1, . . . , J . Lestimation de ce mode`leglobal conduit, par bloc, a` estimer les mode`les de regression dans chacune des cellules.

    Comme pour lanalyse de variance, les logiciels ope`rent une reparametrisation faisant apparatre deseffets differentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT) ou par rapport a` un effetmoyen (Systat), afin dobtenir directement les bonnes hypothe`ses dans les tests. Ainsi, dans le premier cas,on conside`re la matrice de meme rang (sans la J e`me indicatrice)

    X = [1|x|11| |1J1|x.11| |x.1J1]associee aux mode`les :

    yij = 0J + (0j 0J) + 1Jxij + (1j 1J)xij + ij ; j = 1, . . . , J 1; i = 1, . . . , nj .

    8.2 TestsDifferentes hypothe`ses sont alors testees en comparant le mode`le complet

    y = 0J1 + (01 0J)11 + + (0J1 0J)1J1 + 1Jx++ (11 1J)x.11 + + (1J1 1J)x.1J1 +

    a` chacun des mode`les reduits :

    (i) y = 0J1+ (01 0J)11 + + (0J1 0J)1J1 + 1Jx+ (ii) y = 0J1+ (01 0J)11 + + (0J1 0J)1J1 +

    +(1j 1J)x.11 + + (1J1 1J)x.1J1 + (iii) y = 0J1+ 1Jx+ (1j 1J)x.11 + + (1J1 1J)x.1J1 +

    par un test de Fisher. Ceci revient a` considerer les hypothe`ses suivantes : Hi0 : pas dinteraction, 11 = = 1J , les droites partagent la meme pente 1J , Hii0 : 1J=0, Hiii0 :01 = = 0J , les droites partagent la meme constante a` lorigine 0J .On commence donc par evaluer i), si le test nest pas significatif, on regarde ii) qui, sil nest pas non

    plus significatif, conduit a` labsence deffet de la variable X . De meme, toujours si i) nest pas significatif,on sinteresse a` iii) pour juger de leffet du facteur T .

    8.3 Choix de mode`leCe cadre theorique et les outils informatiques (SAS/GLM) permettent de considerer des mode`les beau-

    coup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives, voire des polynomes decelles-ci, ainsi que les diverses interactions entre qualitatives et quantitatives. Le choix du bon mode`ledevient vite complexe dautant que la strategie depend, comme pour la regression lineaire multiple, delobjectif vise :descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) save`rent souvent plus ef-

    ficaces pour selectionner, en premie`re approche, un sous-ensemble de variables explicatives avantdoperer une modelisation,

    explicatif : de la prudence est requise dautant que les hypothe`ses ne peuvent etre evaluees de faconindependante surtout si, en plus, des cellules sont desequilibrees ou vides,

    predictif : la recherche dun mode`le efficace, donc parcimonieux, peut conduire a` negliger des interactionsou effets principaux lorsquune faible amelioration du R2 le justifie et meme si le test correspon-dant apparat comme significatif. Lutilisation du Cp est theoriquement possible mais en general cecrite`re nest pas calcule et dutilisation delicate car necessite la consideration dun vrai mode`le dereference ou tout du moins dun mode`le de faible biais pour obtenir une estimation raisonnable dela variance de lerreur. En revanche AIC et PRESS donnent des indications plus pertinentes. Lalgo-rithme de recherche descendant est le plus couramment utilise avec la contrainte suivante : un effetprincipal nest supprime qua` la condition quil napparaisse plus dans une interaction.

  • 32 Chapitre 2. Regression lineaire

    8.4 ExempleLes donnees, extraites de Jobson (1991), sont issues dune etude marketing visant a` etudier limpact

    de differentes campagnes publicitaires sur les ventes de differents aliments. Un echantillon ou panel defamilles a ete constitue en tenant compte du lieu dhabitation ainsi que de la constitution de la famille.Chaque semaine, chacune de ces familles ont rempli un questionnaire decrivant les achats realises. Nousnous limitons ici a` letude de limpact sur la consommation de lait de quatre campagnes diffusees surdes chanes locales de television. Quatre villes, une par campagne publicitaire, ont ete choisies dans cinqdifferentes regions geographiques. Les consommations en lait par chacune des six familles par ville alorsete mesurees (en dollars) apre`s deux mois de campagne.

    Les donnees se presentent sous la forme dun tableau a` 6 variables : la region geographique, les 4consommations pour chacune des villes ou campagnes publicitaires diffusees, la taille de la famille. Cettesituation est celle classique dun mode`le danalyse de variance. Nous choisissons ici de conserver quantita-tive la variable taille de la famille et donc de modeliser la consommation de lait par un mode`le danalyse decovariance plus economique en degres de liberte moins de parame`tres sont a` estimer.

    On sinteresse a` differents mode`les de regression visant a` expliquer la consommation en fonction de lataille de la famille conditionnellement au type de campagne publicitaire.

    proc glm data=sasuser.milk;class pub;model consom=pub taille pub*taille;run;

    Les resultats ci-dessous conduiraient a` conclure a` une forte influence de la taille mais a` labsence din-fluence du type de campagne. Les droites de regression ne semblent pas significativement differentes.

    Source DF Type III SS Mean Square F Value Pr > FPUB 3 227.1807 75.7269 0.57 0.6377 (1)TAILLE 1 40926.0157 40926.0157 306.57 0.0001 (2)TAILLE*PUB 3 309.8451 103.2817 0.77 0.5111 (3)

    (1) Test de la significativite des differences des termes constants.(2) Test de linfluence du facteur quantitatif.(3) Test de la significativite des differences des pentes (interaction).

    Neanmoins, pris dun doute, le meme calcul est effectue separement pour chaque region :

    proc glm data=sasuser.milk;by region;class pub;model consom=pub taille pub*taille;run;

    Region Source DF Type III SS Mean Square F Value Pr > F

    PUB 3 72.02974 24.00991 4.62 0.01641 TAILLE 1 7178.32142 7178.32142 1380.25 0.0001

    TAILLE*PUB 3 217.37048 72.45683 13.93 0.0001

    PUB 3 231.73422 77.24474 30.36 0.00012 TAILLE 1 8655.25201 8655.25201 3402.34 0.0001

    TAILLE*PUB 3 50.15069 16.71690 6.57 0.0042

    PUB 3 79.54688 26.51563 6.01 0.00613 TAILLE 1 6993.30160 6993.30160 1585.35 0.0001

    TAILLE*PUB 3 173.19305 57.73102 13.09 0.0001

    PUB 3 415.66664 138.55555 15.23 0.00014 TAILLE 1 9743.37830 9743.37830 1071.32 0.0001

    TAILLE*PUB 3 361.39556 120.46519 13.25 0.0001

  • 9. Exemple : Prevision de la concentration dozone 33

    PUB 3 15.35494 5.11831 0.79 0.51685 TAILLE 1 8513.28516 8513.28516 1314.71 0.0001

    TAILLE*PUB 3 52.75119 17