apprentissa - grappa.univ-lille3.frgilleron/coursclassifsuper.pdf · 3 résumé ce cours présen te...

APPRENTISSAGE À PARTIR D'EXEMPLESNotes de ours 1François Denis Rémi Gilleron2 avril 2001

1. Ces notes de ours orrespondent à une partie d'un ours optionnel d'Intelligen eArti� ielle de la maîtrise d'informatique de l'université de Lille 1 et de la maîtrise mathé-matiques et s ien es so iales de l'Université de Lille 3

3

RésuméCe ours présente di�érentes te hniques d'apprentissage à partir d'exemples.Plus pré isément, il onsidère le problème de la lassi� ation supervisée : onstruire une pro édure permettant de lasser à partir d'une base d'exemples lassés. Les algorithmes présentés sont utilisés pour l'extra tion de onnais-san es à partir de données [GT00℄ et permettent d'extraire des informationsde � hiers stru turés pour l'aide au diagnosti et l'aide à la dé ision. Nousprésentons les algorithmes d'apprentissage symboliques basés sur les arbresde dé ision et des algorithmes d'apprentissage adaptatifs pour les réseaux deneurones de type per eptron multi ou hes.

Introdu tionLes méthodes de lassi� ation ont pour but d'identi�er les lasses auxquellesappartiennent des objets à partir de ertains traits des riptifs. Elles s'appliquent àun grand nombre d'a tivités humaines et onviennent en parti ulier au problèmede la prise de dé ision automatisée. Il s'agira, par exemple, d'établir un diagnosti médi al à partir de la des ription linique d'un patient, de donner une réponseà la demande de prêt ban aire de la part d'un lient sur la base de sa situationpersonnelle, de dé len her un pro essus d'alerte en fon tion de signaux reçus pardes apteurs. Une première appro he possible pour résoudre e type de problème estl'appro he �systèmes experts�. Dans e adre, la onnaissan e d'un expert (ou d'ungroupe d'experts) est dé rite sous forme de règles. Cet ensemble de règles formeun système expert qui est utilisé pour lassi�er de nouveaux as. Cette appro he,largement utilisée dans les années 80, dépend fortement de la apa ité à extraire età formaliser les onnaissan es de l'expert. Nous onsidérons i i une autre appro hepour laquelle la pro édure de lassi� ation sera extraite automatiquement à partird'un ensemble d'exemples. Un exemple onsiste en la des ription d'un as ave la lassi� ation orrespondante. Par exemple, on dispose d'un historique des prêtsa ordés ave , pour haque prêt, la situation personnelle du demandeur et le résultatdu prêt (problèmes de re ouvrement ou non). Un système d'apprentissage doit alors,à partir de et ensemble d'exemples, extraire une pro édure de lassi� ation qui, auvu de la situation personnelle d'un lient, devra dé ider de l'attribution du prêt. Ils'agit don d'induire une pro édure de lassi� ation générale à partir d'exemples. Leproblème est don un problème indu tif, il s'agit en e�et d'extraire une règle généraleà partir de données observées. La pro édure générée devra lassi�er orre tement lesexemples de l'é hantillon mais surtout avoir un bon pouvoir prédi tif pour lassi�er orre tement de nouvelles des riptions.Les méthodes utilisées par les systèmes d'apprentissage sont très nombreuses etsont issues de domaines s ienti�ques variés. Les méthodes statistiques supposentque les des riptions des objets d'une même lasse se répartissent en respe tant unestru ture spé i�que à la lasse. On fait des hypothèses sur les distributions des des- riptions à l'intérieur des lasses et les pro édures de lassi� ation seront onstruitesà l'aide d'hypothèses probabilistes. La variété des méthodes viendra de la diversitédes hypothèses possibles. Ces méthodes sont appelées semi-paramétriques. Des mé-thodes non paramétriques (sans hypothèse a priori sur les distributions) ont étéégalement proposées en statistiques. Les méthodes issues de l'intelligen e arti� iellesont des méthodes non paramétriques. On distingue les méthodes symboliques (lapro édure de lassi� ation produite peut être é rite sous forme de règles) des mé-thodes non symboliques ou adaptatives (la pro édure de lassi� ation produite estde type � boîte noire �). Parmi les méthodes symboliques, les plus utilisées sontbasées sur les arbres de dé ision. Pour les méthodes adaptatives, on distingue deuxgrandes lasses : les réseaux de neurones et les algorithmes génétiques.L'apprentissage automatique, dans une dé�nition très générale, onsiste en l'éla-boration de programmes qui s'améliorent ave l'expérien e. Les appli ations sontnombreuses et on ernent des domaines très variés. On peut iter, par exemple, la

6 re onnaissan e de formes ave , en parti ulier, la re onnaissan e de la parole et dutexte é rit, le ontr�le de pro essus et le diagnosti de pannes, les programmes dejeu. Les méthodes d'apprentissage à partir d'exemples sont très utilisées dans lare her he d'informations dans de grands ensembles de données. En e�et, l'évolutionde l'informatique permet de nos jours de manipuler des ensembles de données detrès grande taille (� datawarehouse � ou � entrep�t de données �). Par exemple, les haînes de magasin peuvent mémoriser de grandes quantités de données on ernantles onsommateurs et e qu'ils a hètent. Le développement des te hnologies Internetet Intranet font que de nombreuses données issues de sour es diverses et dans desformats variés deviennent a essibles. Le pro essus de re her he d'informations dansde grands ensembles de données (KDD : Knowledge Dis overy in Databases) om-porte di�érentes étapes : la séle tion des données (extra tion des informations del'entrep�t) ; la préparation des données (suppression des doublons, élimination desdonnées aberrantes, ...) ; le odage des données (normalisation des données, hoixde odage, ...) ; la phase d'extra tion proprement dite appelée fouille de données(Data mining) ; la sortie des résultats. La phase d'extra tion d'information utiliseles outils usuels d'interrogation tels que les requêtes SQL standard et les requêtesmultidimensionnelles, mais aussi, pour l'extra tion d'informations a hées, les algo-rithmes d'apprentissage à partir d'exemples. Les algorithmes les plus utilisés sont :les k-plus pro hes voisins, les arbres de dé ision, les systèmes de règles (program-mation logique indu tive), les réseaux de neurones et les algorithmes génétiques.Citons, parmi d'autres, quelques appli ations et leur domaine :� analyse �nan ière : prévision d'évolution de mar hés,� marketing : établir un pro�l lient, mailing (augmenter les taux de retour),� banque : attribution de prêts,� méde ine : aide au diagnosti ,� tele om : déte tion de fraudes.Dans le premier hapitre, nous présentons le adre général de l'apprentissage àpartir d'exemples : les fondements théoriques, la problématique, et les problèmes liésà l'estimation de la qualité de la pro édure de lassi� ation produite par le système.Dans le se ond hapitre, nous présentons les arbres de dé ision et deux algorithmesd'apprentissage basés sur les arbres de dé ision : CART développé par Breiman etal. [BFOS84℄, C4.5 (amélioration de ID3) développé par Quinlan [Qui93℄. Dans letroisième hapitre, nous présentons les algorithmes d'apprentissage pour les réseauxde neurones de type per eptron et de type multi ou hes. Le quatrième hapitre est onstitué d'exer i es simples qui permettent de s'assurer une bonne ompréhensionde e ours. En guise de on lusion, nous donnons des éléments de omparaison desdeux appro hes présentées.En�n, nous tenons à re ommander au le teur de es notes de ours les deuxouvrages suivants : tout d'abord, un ouvrage remarquable en tous points sur l'ap-prentissage automatique é rit par Tom Mit hell [Mit97℄ ainsi qu'un petit livre sur leData mining, é rit par Peter Adriaans et Dolf Zantinge, qui présente de façon laireet synthétique le pro essus d'extra tion d'information dans les bases de données[AZ96℄.

Chapitre 1Apprentissage à partird'exemples : présentation de laproblématiqueCe hapitre présente la problématique générale de la lassi� ation supervisée. Ilemprunte des notations et di�érents éléments aux arti les [GG96℄ et [CL96℄ auxquelsle le teur est invité à se rapporter.1.1 Appro he probabilisteÉtablir un diagnosti dans le domaine médi al, signi�e être apable d'asso ier lenom d'une maladie à un ertain nombre de sympt�mes présentés par des malades.On repère, dans e problème, trois objets essentiels : les malades, les maladies et lessympt�mes. Les malades forment la population, les sympt�mes sont les des riptionsdes malades, les maladies sont les lasses. On suppose qu'il existe un lassement orre t, 'est-à-dire qu'il existe une appli ation qui asso ie à tout malade une ma-ladie. Apprendre à établir un diagnosti , 'est asso ier une maladie à une liste desympt�mes de telle manière que ette asso iation orresponde au lassement dé�ni i-dessus. Pour formaliser notre propos, nous utiliserons les notations suivantes :� � est la population,D est l'ensemble des des riptions, et l'ensemble des lassesest f1; : : : ; g.� X : � ! D est la fon tion qui asso ie une des ription à tout élément de lapopulation.� Y : �! f1; : : : ; g est la fon tion de lassement qui asso ie une lasse à toutélément de la population.� une fon tion C : D ! f1; : : : ; g sera appelée fon tion de lassement oupro édure de lassi� ation.Le but de l'apprentissage est alors de re her her une pro édure de lassi� ationC telle que C ÆX = Y ou, de manière plus réaliste, telle que C ÆX soit une bonneapproximation de Y . En e�et, supposons que nous ayons un ensemble de patientsdont nous souhaitons savoir s'ils sont malades ou pas. Un patient est dé rit parune liste de sympt�mes et de mesures. Il est alors possible que les des riptions nepermettent pas toujours de di�éren ier un patient malade d'un patient sain. En e�et,il se peut que deux patients, l'un malade, l'autre pas, aient les mêmes des riptions.Dans e as, on ne peut espérer trouver une pro édure de lassi� ation exa te, le

8 Apprentissage à partir d'exemples : présentation de la problématiquebut sera don de trouver une � bonne � pro édure de lassi� ation dans un sensqui reste à pré iser.Π D

{1,...,c}

X

Y C

Fig. 1.1 � Apprendre, 'est trouver une fon tion CDans la pratique, on dispose souvent d'un ensemble d'attributs A1; : : : ; An lo-giques, symboliques ou numériques qui prennent leurs valeurs dans des domainesD1; : : : ; Dn. Dé rire un élément de la population onsiste alors à attribuer une va-leur à ha un de es attributs. L'espa e de des ription D est alors égal au produit artésien D1 � : : : � Dn. Par exemple, on dé rira un patient par un ensemble desympt�mes (mal de tête, douleurs abdominales , ...) et une suite de mesures (ten-sion, température, ...) ; on dé rira un lient par un ensemble de données que l'onpossède sur lui (âge, sexe, atégorie so ioprofessionnelle, ...).Comment exprimer le fait que C ÆX doit être une bonne approximation de Y ?Intuitivement, ela signi�e que C Æ X est rarement di�érent de Y . Une manièrede formaliser ela onsiste à supposer l'existen e d'une distribution de probabilitésur l'ensemble � et à dire que C Æ X est une bonne approximation de Y s'il estpeu probable que es deux fon tions di�èrent. On supposera don que l'ensemble� est probabilisé. Nous supposerons également, pour simpli�er la présentation, quel'ensemble D est dis ret. Soit P la probabilité dé�nie sur la population �. On peutalors dé�nir les probabilités et notations suivantes :� On note P (d) la probabilité qu'un élément de � ait d pour des ription, soiten ore P (d) = P (X�1(d)).� On note P (k) la probabilité qu'un élément de � soit de lasse k, soit en oreP (k) = P (Y �1(k)).� On note P (d=k) la probabilité qu'un élément de lasse k ait d pour des ription,soit en ore P (d=k) = P (X�1(d)=Y �1(k)). Cette probabilité n'est dé�nie quesi la probabilité pour un élément de � d'être de lasse k est non nulle.� On note P (k=d) la probabilité qu'un élément ayant d pour des ription soitde lasse k, soit en ore P (k=d) = P (Y �1(k)=X�1(d)). Cette probabilité n'estdé�nie que si la probabilité pour un élément de � d'avoir d pour des riptionest non nulle.La formule de Bayes s'é rit alors :P (k=d) = P (d=k)P (k)P (d) (1.1)Supposons que nous soyons dans la situation idéale où nous pouvons évaluer lesquantités P (d), P (k) et P (d=k) pour toutes les valeurs d de D et k de f1; : : : ; g.Comment hoisir la fon tion C ? Pour étudier e hoix, onsidérons un exemplesimpliste :Exemple 1. � est la population française. On dispose, en outre, d'un é hantillonreprésentatif de la population française. On dé rit les individus par un attribut

1.1 Appro he probabiliste 9logique répondeur qui vaut vrai si l'individu possède un répondeur téléphonique etfaux sinon. L'espa e de des ription est don l'ensemble frépondeur; répondeurg. Onsouhaite répartir les individus en deux lasses faisé; aiség, la lasse aisé orrespondaux individus ayant un revenu supérieur à la moyenne. On dispose des informationssuivantes : 40 pour ent de la population dispose de revenus supérieurs à la moyenne,80 pour ent des personnes aisées ont un répondeur, alors que 45 pour ent de lapopulation restante dispose d'un répondeur. Ce qui peut être résumé dans le tableausuivant : lasse k aisé aiséP (k) 0.4 0.6P (répondeur=k) 0.8 0.45Une première règle possible pour le hoix de la fon tion de lassement C pourraitêtre : � attribuer à haque des ription la lasse majoritaire �, 'est-à-dire elle pourlaquelle P (k) est maximum. La fon tion Cmaj orrespondante attribuerait à toutindividu, qu'il possède un répondeur ou pas, la lasse aisé. Le défaut prin ipal de ette règle est qu'elle ne fait jouer au un r�le à la des ription. Cette fon tion de lassement ne peut être en général que très grossière.Une se onde règle onsiste à raisonner ainsi : � si j'observe d, je hoisis la lassepour laquelle ette observation est la plus probable �, 'est-à-dire elle pour laquelleP (d=k) est maximum. C'est la règle dite du maximum de vraisemblan e. La fon -tion de lassement Cvraisemblan e orrespondante attribuerait la lasse aisé à toutindividu possédant un répondeur et la lasse aisé à tous les autres. On voit que ette fon tion de lassement est plus �ne que la pré édente et qu'elle orrespondd'avantage à e que l'on attend intuitivement. Son prin ipal défaut apparaît dansl'exemple suivant : supposons que l'ensemble Cl soit omposé des trois lasses em-ployé des Télé om, méde ins, ouvriers et que la probabilité pour qu'un employé destélé om ait un répondeur soit égale à 1. La règle du maximum de vraisemblan easso ierait alors la lasse employé des Télé om à tout individu possédant un répon-deur, e i sans tenir ompte des proportions des di�érentes lasses à l'intérieur dela population.Une troisième règle onsiste à attribuer à une des ription d la lasse k qui maxi-mise la probabilité P (k=d) qu'un élément ayant d pour des ription soit de lasse k.En utilisant la formule de Bayes 1.1, en remarquant que P (d) est onstant, il su�tdon de hoisir la lasse k qui maximise le produit P (d=k)P (k).P (répondeur=aisé)� P (aisé) = 0:8� 0:4 = 0:32P (répondeur=aisé)� P (aisé) = 0:2� 0:4 = 0:08P (répondeur=aisé)� P (aisé) = 0:45� 0:6 = 0:27P (répondeur=aisé)� P (aisé) = 0:55� 0:6 = 0:33La fon tion CBayes ainsi hoisie asso ie à toute personne possédant un répondeurla lasse aisé et à toute personne n'en possédant pas la lasse aisé. On voit sur etexemple que la fon tion CBayes est égale à la fon tion Cvraisemblan e mais e n'estpas toujours le as (exer i e 2).Nous avons introduit à l'aide de et exemple di�érents hoix possibles pour lapro édure de lassi� ation lorsque l'apprenant a a ès aux quantités P (d), P (k) etP (d=k) pour toutes les valeurs d de D et k de f1; : : : ; g. Nous dé�nissons mainte-nant es règles :Dé�nition 1. Règles de hoix des fon tions de lassement.� Règle majoritaire : Cmaj asso ie à tout élément d de D la lasse k de f1; : : : ; gtelle que P (k) soit maximum.

10 Apprentissage à partir d'exemples : présentation de la problématique� Règle du maximum de vraisemblan e : Cvraisemblan e asso ie à tout élément dde D la lasse k de f1; : : : ; g telle que P (d=k) soit maximum.� Règle de Bayes : CBayes asso ie à tout élément d de D la lasse k de f1; : : : ; gtelle que P (k=d) soit maximum, soit en ore telle que P (d=k)P (k) soit maxi-mum.On peut fa ilement véri�er que la règle de Bayes se ramène à la règle du maxi-mum de vraisemblan e lorsque les lasses sont équiprobables. Pour omparer despro édures, nous allons dé�nir l'erreur de lassi� ation :Dé�nition 2. Soit C une fon tion de lassement, l'erreur E(d) pour une des rip-tion d est la probabilité qu'un élément de la population � de des ription d soit mal lassé par C, i.e. E(d) = P (Y 6= C=X = d):L'erreur de lassi� ation E(C) d'une fon tion de lassement est la moyenne pon-dérée des erreurs sur les des riptions d, i.e.E(C) =Xd2DE(d)P (X = d):Exemple 2. En al ulant les erreurs sur l'exemple des répondeurs téléphoniques,nous obtenons pour la pro édure majoritaire E(Cmaj) = 0:4. En e�et, ette pro- édure ne se trompe que pour les personnes de la lasse aisé. Pour la pro édureobtenue à l'aide de la règle du maximum de vraisemblan e, nous avonsE(Cvraisemblan e) = E(répondeur)P (répondeur) +E(répondeur)P (répondeur), soit en ore en utilisant les dé�nitions d'erreur et la règle de BayesE(Cvraisemblan e) = P (répondeur=aisé)�P (aisé)+P (répondeur=aisé)�P (aisé), soit E(Cvraisemblan e) = 0:27 + 0:08 = 0:35.Le résultat suivant nous permet d'a�rmer que, sous nos hypothèses, il existeune fon tion de lassement optimale au sens de l'erreur de lassi� ation.Théorème 1. L'ensemble � étant probabilisé, le langage de représentation étant�xé, la règle de dé ision de Bayes est elle dont l'erreur de lassi� ation est mini-male.Démonstration : Soit C une fon tion de lassement. Pour toute des ription d,on a E(d) = P (Y 6= C=X = d) = 1� P (Y = C=X = d)Or CBayes est la fon tion de lassement qui asso ie à d la lasse k qui maxi-mise P (Y = k=X = d), don , pour toute des ription d, CBayes est la fon tion de lassement qui minimise E(d).L'erreur E(C) d'une fon tion de lassement est la moyenne pondérée des erreurssur les des riptions d don 8C E(CBayes) � E(C): ar CBayes minimise l'erreur pour toute des ription d de D.La règle majoritaire (la plus grossière) et la règle de Bayes (la plus �ne) onsti-tuent don deux bornes naturelles en apprentissage.S'il existe une fon tion de lassement orre te, i.e. qui lassi�e sans erreur tousles individus au vu de leur des ription, on a alors E(CBayes) = 0. Autrement dit, lafon tion de lassement dé�nie par la règle de Bayes est orre te. On remarque qu'unefon tion d'erreur nulle existe si et seulement si la probabilité que des individusappartenant à des lasses di�érentes aient des des riptions identiques est nulle.On dit dans e as que le problème est déterministe. Cette situation est très rareen pratique. En e�et, il est rare que les paramètres des riptifs dont on dispose

1.2 La lassi� ation supervisée 11soient su�sants pour lassi�er orre tement tous les individus de la population.Par exemple, deux patients peuvent avoir les mêmes sympt�mes et des maladiesdi�érentes, deux lients ayant les mêmes pro�ls peuvent ou non répondre à un mêmemailing. De plus, on dispose rarement de données exa tes et il su�t d'ajouter unpeu de � bruit � à un problème déterministe pour le transformer en un problèmenon déterministe.Nous avons don démontré dans ette se tion qu'il existe une règle optimale ausens de l'erreur de lassi� ation. Cependant, pour pouvoir appliquer ette règle, ilfaut que l'apprenant puisse disposer de probabilités que dans la plupart des pro-blèmes réels, il est di� ile d'estimer. Néanmoins, de nombreuses méthodes statis-tiques reposent sur la règle de Bayes, en se basant sur di�érentes te hniques d'es-timation des probabilités utiles à son appli ation. Il est important de remarquerque es méthodes sont parmi les plus performantes en � text mining � (re her hed'informations dans les do uments texte).1.2 La lassi� ation superviséeNous ommençons par pré iser la distin tion ave l'apprentissage non supervisé( lassi� ation, lustering), puis pré isons tous les présupposés et en�n dé�nissonsla lassi� ation supervisée.1.2.1 Apprentissage supervisé et non superviséNous avons supposé que l'ensemble des lasses était dé�ni : e n'est pas toujoursle as. Un enfant apprend à atégoriser, 'est-à-dire à asso ier une lasse à un objetalors même que la lasse en question n'a pas de dé�nition bien pré ise. Commentdé�nir e qui relève de la atégorie � haise �? Le fait de supposer qu'il existe uneappli ation Y asso iant une lasse à haque individu de la population � revient àéliminer e problème.Même lorsque l'espa e des lasses est bien dé�ni, il est parfois naturel de sup-poser que le système apprenant doit les retrouver au ours du pro essus d'appren-tissage. On peut par exemple espérer qu'un enfant mis en présen e de mammifères(à pattes), de reptiles, d'oiseaux et de poissons saura faire les regroupements adé-quats et apprendra d'un oup les lasses et le moyen de les di�éren ier. On parledans e as d'apprentissage non supervisé, autrement dit, sans professeur. Nous nenous intéresserons i i qu'au problème de l'apprentissage supervisé, 'est-à-dire pourlequel les exemples fournis au système sont déjà lassés.1.2.2 Choix du langage de des riptionDans les situations réelles, il faut souvent hoisir le langage de des ription, 'est-à-dire être apable de dégager les attributs sus eptibles d'être pertinents pour leproblème onsidéré. C'est un fait maintenant bien onnu des méde ins généralistesqu'on peut attraper le paludisme sans avoir jamais voyagé : il su�t pour ela d'avoirété piqué par un moustique qui a pro�té d'un vol dire t entre une zone infestée etla Fran e. Certains sympt�mes peuvent don rendre la question � habitez-vous prèsd'un aéroport � pertinente (ainsi que l'attribut orrespondant). Cet attribut n'estpas le plus immédiat à dégager !En météorologie, on peut multiplier à l'in�ni les attributs sus eptibles d'êtrepertinents : onsidérer quelques variables physiques telles que la température, lapression atmosphérique, : : : et les mesurer à autant d'endroits et de moments qu'onle souhaite. Mais se pose alors le problème de séle tionner parmi es mesures un

12 Apprentissage à partir d'exemples : présentation de la problématiquesous-ensemble � raisonnable � d'attributs essentiels à la tâ he qu'on s'est �xée : omment les hoisir?La question du hoix des attributs et don du langage de des ription est abordéelorsqu'il faut extraire des onnaissan es à partir de données ou de textes [GT00℄.1.2.3 la lassi� ation superviséeUn langage de des ription D = D1� : : :�Dn est �xé. Les éléments de D serontnotés ~x, ~y, : : : L'ensemble f1; : : : ; g est lui aussi hoisi. On suppose l'existen ed'une loi de probabilité P sur D, ette loi est �xée mais in onnue. Elle matérialisela probabilité de ren ontrer une des ription dans l'environnement du problème. Demême, on suppose l'existen e d'une loi de probabilité onditionnelle P (:=:), �xéemais in onnue, qui représente la probabilité d'appartenir à une lasse sa hant lades ription. On onsidère don un adre non déterministe, en e�et, à une mêmedes ription peuvent orrespondre plusieurs lasses ave une ertaine probabilité.Dé�nition 3. On dispose d'un é hantillon S de m exemples (~x; (~x)) tirés selonP (:; :) dé�nie par P (~x; y) = P (~x)P (y=~x). La lassi� ation supervisée onsiste àinférer une fon tion de lassement dont l'erreur de lassi� ation (au sens de ladé�nition 2) est minimale.Les termes utilisés dépendent de la dis ipline s ienti�que ou du domaine d'appli- ation, on parle de lassi� ation en re onnaissan e de formes, de dis rimination oude prédi tion en statistiques, d'apprentissage de on epts ou d'apprentissage indu tifen Apprentissage automatique.Dans ertains problèmes réels, il faut pondérer les erreurs ar elles- i n'ont pas lamême importan e quant à la qualité de la pro édure de lassi� ation. Par exemple,l'erreur onsistant à dé larer malade un patient bien portant et l'erreur onsistantà dé larer bien portant un patient malade ne doivent pas toujours être onsidérées omme équivalentes. On peut don dé�nir des mesures d'erreur introduisant desnotions de oût ou de risque (voir exer i es 4 et 7). Nous nous limiterons dans e ours à l'erreur de lassi� ation, mais les méthodes étudiées peuvent être adaptéesà des mesures de oût.Il existe également des problèmes de lassi� ation supervisée pour lesquels onasso ie, non pas une lasse, mais plusieurs lasses. C'est le as, par exemple, pourla re her he de ompli ations asso iée à une maladie dans le as où il peut y avoirplusieurs ompli ations. La fon tion her hée est alors une fon tion de l'espa e desdes riptions D dans l'ensemble des parties de f1; : : : ; g. Il existe alors plusieursfaçons de dé�nir l'erreur d'une pro édure de lassi� ation.En�n, nous nous sommes limités au problème de la lassi� ation supervisée. Ilest fréquent de ren ontrer des problèmes ou, au lieu de déterminer une lasse, ondoit estimer une valeur ontinue. On parle alors d'estimation ou de régression. Ilfaut alors modi�er la dé�nition de l'erreur. Une solution est de onsidérer l'erreurquadratique ( arré de la di�éren e entre valeur prédite et valeur attendue). Nousaborderons es notions dans la se tion sur les réseaux de neurones.1.2.4 bien lasser et bien prédireAu vu d'un é hantillon, il s'agit don d'inférer une pro édure de lassi� ation.On souhaite inférer une pro édure dont l'erreur de lassi� ation est minimale, 'est-à-dire telle que la probabilité qu'un exemple tiré aléatoirement soit mal lassé par lapro édure soit minimale. On s'intéresse, par onséquent, à générer des pro éduresayant un bon pouvoir prédi tif, soit en ore, à des pro édures apables de lasserde nouveaux exemples (nouveaux au sens de non présents dans l'é hantillon). Ce-pendant, l'apprenant n'a pour donnée que l'é hantillon et il est possible pour lui degénérer une pro édure qui lassi�e bien tous les exemples de l'é hantillon mais qui

1.3 Les méthodes de lassi� ation supervisée 13ait un mauvais pouvoir de prédi tion. En e�et, soit la pro édure de lassi� ationsuivante :Exemple 3. On mémorise tous les exemples de l'é hantillon d'apprentissage dansune table, lorsqu'une nouvelle des ription est présentée au système, on e�e tue unere her he dans la table, si la des ription orrespond à une des ription existante dansla table (des ription d'un exemple de l'é hantillon), on retourne la lasse orrespon-dante, sinon on retourne une lasse au hasard.Cette pro édure ne fait au une erreur sur les exemples de l'é hantillon, par ontre, on se doute que son pouvoir prédi tif sera très mauvais. Notons que, pour ertains problèmes réels, il peut être intéressant de déterminer une pro édure dansle seul but de bien lasser l'é hantillon. En e�et, il peut être utile d'avoir une pro- édure simple et e� a e qui al ule la lasse asso iée à une des ription en évitantd'e�e tuer des re her hes oûteuses (pour her her la lasse) dans une grande basede données. I i, l'obje tif d'un système d'apprentissage est de onstruire une pro- édure de lassi� ation qui soit non seulement orre te sur l'é hantillon mais ayanten plus un bon pouvoir de prédi tion sur de nouveaux exemples. Il sera demandé àla pro édure de lassi� ation induite au moins de dépasser le pouvoir prédi tif de lapro édure majoritaire (qui asso ie à toute des ription la lasse la plus fréquente).Ce i suppose que le langage de des ription est su�samment ri he pour permettreune prédi tion. On dit alors que le langage de représentation possède un � pouvoirprédi tif �. En tout état de ause, un système d'apprentissage automatique ne peutfaire mieux que e que lui permet le langage de des ription hoisi.Nous introduisons maintenant la dé�nition de l'erreur apparente et étudions lesrelations entre erreur réelle et erreur apparente.Dé�nition 4. Soit S un é hantillon et C une pro édure de lassi� ation, le tauxd'erreur apparent sur S est Eapp(C) = err℄S où err est le nombre d'exemples de Squi sont mal lassés par C et ℄S est le ardinal de S.Rappelons (Dé�nition 2) que l'erreur réelle ou erreur de lassi� ation E(C) estla somme pondérée des probabilités d'erreur sur l'ensemble des des riptions d deD. L'erreur réelle est indépendante de l'é hantillon alors que l'erreur apparente estmesurée sur l'é hantillon. Apprendre, 'est trouver une pro édure de lassi� ationC qui minimise E(C), or l'apprenant n'a a ès qu'à l'erreur apparente Eapp(C)mesurée sur S. On peut, ependant, démontrer que, lorsque la taille de l'é hantillontend vers l'in�ni, l'erreur apparente onverge -en probabilité ar les éléments de Ssont supposés tirés aléatoirement - vers l'erreur réelle, soit :lim℄S!1Eapp(C) = E(C)Mais, en général, on ne dispose que d'un é hantillon de taille trop petite pour que e résultat puisse être utilisé. Le problème est don de on evoir des méthodes oualgorithmes qui vont générer des pro édures de lassi� ation d'erreur apparentepetite tout en assurant une erreur de lassi� ation petite.1.3 Les méthodes de lassi� ation superviséeLa lassi� ation supervisée est une tâ he di� ile pour plusieurs raisons :� nous avons supposé l'existen e de lois de probabilité mais elles- i sont in on-nues de l'apprenant,� l'espa e des fon tions de lassement d'un ensemble D dans un ensemble de lasses a une taille démesurée,� l'é hantillon disponible est de taille limitée.Commençons d'abord par présenter une méthode simple de lassi� ation superviséebasée sur la formule de Bayes.

14 Apprentissage à partir d'exemples : présentation de la problématique1.3.1 Le lassi�eur naïf de BayesSoit D un langage de des ription, soit f1; :::; g l'ensemble des lasses, sous leshypothèses usuelles d'existen e de lois de probabilité, la règle de lassi� ation deBayes est la pro édure qui, à toute des ription d de D asso ie :CBayes(d) = argmaxk2f1;:::; gP (k=d) = argmaxk2f1;:::; gP (d=k)� P (k) (1.2)où argmaxk f(k) retourne la valeur de k qui maximise f . Mais, en règle générale,les quantités P (d=k) et P (k) ne sont pas onnues. On suppose que D est un produit artésien de domaines, on suppose également disposer d'un é hantillon S d'exemples(~x; (~x)). On souhaite lasser un élément ~d = (d1; : : : ; dn). La règle de lassi� ationde Bayes s'é rit : CBayes(~d) = argmaxk2f1;:::; gP ((d1; : : : ; dn)=k)� P (k) (1.3)Pour rendre la méthode e�e tive, on souhaite rempla er P ((d1; : : : ; dn)=k) etP (k) par des estimations faites sur l'é hantillon S. Pour toute lasse k, on estimeP (k) par P (k) qui est la proportion d'éléments de lasse k dans S. Par ontre, l'es-timation des P ((d1; : : : ; dn)=k) est di� ile ar le nombre de des riptions possiblespeut être très grand et il faudrait un é hantillon S de taille trop importante pourpouvoir estimer onvenablement es quantités. On fait don l'hypothèse simpli�- atri e suivante : les valeurs des attributs sont indépendants onnaissant la lasse.Cette hypothèse permet d'utiliser l'égalité suivante :P ((d1; : : : ; dn)=k) = Yi2f1;::: ;ngP (di=k) (1.4)maintenant, il su�t d'estimer, pour tout i et toute lasse k, P (di=k) par P (di=k)qui est la proportion d'éléments de lasse k ayant la valeur di pour le ième attribut.Finalement, le lassi�eur naïf de Bayes asso ie à toute des ription d la lasseCNaiveBayes(~d) = argmaxk2f1;:::; g Yi2f1;::: ;ng P (di=k)� P (k) (1.5)expression dans laquelle les probabilités sont estimées sur l'é hantillon S. Cette mé-thode est simple à mettre en oeuvre. Bien qu'elle soit basée sur une hypothèse fausseen général (les attributs sont rarement indépendants), elle donne ependant de bonsrésultats dans les problèmes réels. Elle fournit un seuil de performan e pour d'autresméthodes. Le domaine pour lequel le lassi�eur de Bayes naïf est performant est la lassi� ation automatique de textes qui est présentée dans l'exer i e 9.1.3.2 Méthodes paramétriques et non paramétriquesNous avons supposé l'existen e de lois de probabilité �xées mais in onnues. Le lassi�eur naïf de Bayes suppose que les probabilités de ertains événements peuventêtre estimées par leurs fréquen es et fait une hypothèse forte d'indépendan e desattributs. En statistiques, on lasse habituellement les méthodes d'apprentissageselon les hypothèses que l'on fait sur les lois de probabilité. Si elles font partied'une famille paramétrée de distributions, on parlera de problèmes ou de méthodesparamétriques. Par exemple, si l'on sait que P est une distribution normale, il su�tde onnaître deux paramètres, sa moyenne m et son é art-type �, pour identi�er Ptotalement. Il s'agit alors de mettre en oeuvre des te hniques permettant d'estimer es paramètres pour avoir une bonne approximation de P pour ensuite déterminer

1.3 Les méthodes de lassi� ation supervisée 15une pro édure de lassi� ation. Les méthodes paramétriques ont été développées enstatistiques dans les années 20-30, par Fis her en parti ulier.Lorsqu'on ne fait au une hypothèse a priori sur la distribution P , on parle de pro-blèmes et de méthodes non paramétriques. Les problèmes à résoudre sont alors plus omplexes et les premières méthodes développées en statistiques remontent aux an-nées 60. Comme exemple de méthodes non paramétriques, on peut iter les méthodesdes k-plus pro hes voisins et des noyaux de Parzen. Ces deux méthodes sont baséessur des notions de proximité entre éléments de D, la lasse attribuée à une nouvelledes ription se fait en fon tion des lasses des des riptions pro hes dans l'é hantillon(pour une présentation informelle des plus pro hes voisins, voir [GT00℄). Les mé-thodes développées en apprentissage automatique (arbres de dé ision, réseaux deneurones, algorithmes génétiques) sont également non paramétriques.1.3.3 Minimiser l'erreur apparenteEn lassi� ation supervisée, il faut hoisir une fon tion de lassement au vu d'uné hantillon S. Nous sommes onfrontés aux deux di� ultés suivantes :� L'erreur apparente est, en général, une version très (trop) optimiste de l'erreurréelle.� L'espa e de toutes les fon tions de D dans f1; : : : ; g est de taille onsidérableet, pour des raisons de omplexité en temps de al ul et en espa e mémoire,il est impossible d'explorer et espa e.Ces deux di� ultés nous amènent à limiter la re her he d'une fon tion à unespa e d'hypothèses C : C est un ensemble de pro édures de lassi� ation de D dansf1; : : : ; g. En e�et, si on limite le nombre de fon tions, on diminue la omplexitédes al uls et eux- i deviennent envisageables. De plus, restreindre l'espa e des hy-pothèses peut permettre d'éviter des hypothèses trop spé ialisées omme le montreles exemples suivants :Exemple 4. Si l'espa e des hypothèses n'est pas restreint, il est toujours possiblede hoisir la pro édure de lassi� ation itée pré édemment ( her her dans la tableet tirer à pile ou fa e sinon) pour laquelle l'erreur apparente est nulle, alors quel'erreur réelle peut être grande.Exemple 5. Supposons que l'on re her he une fon tion polyn�me dont la ourbereprésentative passe par n points. Supposons que es n points soient alignés. Enraison des erreurs de mesure et des approximations faites sur les oordonnées, lare her he d'une fon tion polyn�me dont la ourbe représentative passe par les npoints sera, en général, une fon tion de degré n � 1 alors qu'il existe une fon tionpolyn�me de degré 1 dont la ourbe passe � presque � par les n points. Si l'espa e dere her he est restreint, par exemple, à l'ensemble C des polyn�mes de degré inférieurou égal à 2, il est probable que l'on puisse trouver une bonne solution.Exemple 6. Supposons que l'on dispose d'un programme informatique apable detraduire en français un livre donné d'environ 200 pages é rit en anglais. Si le pro-gramme en question omporte 400 pages de ode, on peut légitimement soupçonnerqu'il ontient à la fois les versions françaises et anglaises du livre en question etqu'il ne sera d'au une aide pour traduire un autre livre. C'est-à-dire qu'il n'auravraisemblablement rien appris ni du français, ni de l'anglais. Mais si le programmeen question ne omporte qu'une vingtaine de pages de ode, on peut penser qu'il ontient né essairement ertains éléments de onnaissan e on ernant es deux lan-gages. Autrement dit, si l'on veut on evoir un tradu teur automatique à partird'un é hantillon limité de tradu tions déjà réalisées, on a intérêt à le hoisir dansun ensemble restreint de programmes ( eux de moins de 20 pages de ode).Le problème de la lassi� ation supervisée peut se réé rire : séle tionner dans unensemble C de pro édures de lassi� ation une pro édure de lassi� ation C telle

16 Apprentissage à partir d'exemples : présentation de la problématiqueque l'erreur apparente Eapp(C) soit petite, tout en essayant de s'assurer que l'erreurréelle E(C) soit petite.Soit CBayes la pro édure de lassi� ation de Bayes qui est la pro édure d'er-reur de lassi� ation minimale dans l'ensemble de toutes les fon tions de D dansf1; : : : ; g. L'erreur de lassi� ation E(CBayes) est une borne indépassable (voirThéorème 1) qui représente d'une ertaine manière la di� ulté intrinsèque du pro-blème. Dans la plupart des as pratiques CBayes n'appartient pas C. Soit Copt lapro édure optimale de C au sens de la erreur de lassi� ation, 'est-à-dire la pro é-dure appartenant à l'ensemble C qui est d'erreur de lassi� ation minimale. C étant�xé, le problème est de trouver ou d'appro her Copt, e qui n'est pas fa ile en raisondu problème :Problème de l'estimation du taux d'erreur : � On ne peut, à la fois sé-le tionner un lassi�eur à l'aide d'un ensemble d'apprentissage et jugerde sa qualité ave e même ensemble �.En e�et, pour le hoix de C, une solution est :Choisir la pro édure Cemp qui minimise l'erreur apparenteMais, on n'a alors que peu d'indi ation sur l'erreur réelle E(Cemp) et don surla proximité de Cemp et Copt. Les seuls résultats théoriques dont on dispose sontdes résultats de onvergen e (en probabilité) de Eapp(Cemp) vers E(Copt) lorsque lataille de l'é hantillon tend vers l'in�ni, sous ertaines onditions sur C. Ce résultata peu d'impli ations pratiques ar on ne dispose, en général, que d'é hantillonsde tailles limitées. La minimisation de l'erreur apparente ne peut donner de bonsrésultats que lorsque l'espa e des hypothèses est bien hoisi, hoix étudié dans lase tion suivante.1.3.4 Choix de l'espa e des hypothèsesIl est important de bien hoisir C pour que le système puisse inférer une � bonne �solution. Pour ela, on introduit une notion de � apa ité � d'un espa e d'hypo-thèses. Dans le as de problèmes dis rets, la apa ité de C est son ardinal. Dans le as d'espa es in�nis, la apa ité peut être dé�nie omme égale à la VC-dimension(ou dimension de Vapnik et Chervonenkis). La dé�nition de ette dimension sortdu adre de e ours, elle peut être trouvée dans les notes de ours de dea [Den00℄et dans l'ouvrage fondamental de Vapnik [Vap98℄. Pour le hoix de l'espa e d'hy-pothèses, nous sommes onfrontés au problème suivant :� si la apa ité de C est trop petite, la meilleure pro édure de C appelée Coptpeut être éloignée de CBayes et don , il sera impossible que le système donnede bons résultats ;� si la apa ité de C est trop grande, la pro édure Cemp qui minimise l'erreurapparente peut être éloignée de Copt (erreur apparente trop optimiste). Le al ul de Cemp peut être omplexe.La plupart des algorithmes utilisés e�e tuent la re her he d'une pro édure quiminimise l'erreur apparente dans un espa e d'hypothèses préalablement hoisi. Lasituation est en fait plus omplexe ar les algorithmes utilisent des heuristiques quiorientent la re her he dans l'espa e d'hypothèses. En e�et, la re her he de Cemppeut être oûteuse en temps de al ul. Dans le as des réseaux de neurones (voirChapitre 3), le hoix de l'espa e des hypothèses est le hoix d'une bonne ar hite turepour le réseau ( apa ité ni trop grande, ni trop petite), ensuite, on re her he unebonne solution en her hant à minimiser l'erreur apparente.Cependant, dans la plupart des situations pratiques, on peut onsidérer dessuites emboîtées d'ensembles de pro édures de lassi� ationC1 � C2 � : : : � Ck � : : :

1.4 Estimer l'erreur réelle 17où k représente une mesure de omplexité du système d'apprentissage (taille desarbres de dé ision, taille du réseau de neurones, ...) liée à la apa ité : plus k estgrand, plus la apa ité de l'espa e est grande. Il faut alors trouver la valeur duparamètre de omplexité k telle que Ck;emp, la pro édure de Ck qui minimise l'er-reur apparente, ait la plus faible erreur réelle possible. Il existe en général un bon ompromis ; en e�et, lorsque k augmente, l'erreur réelle E(Ck;emp) diminue lente-ment, se stabilise, puis roît lentement. Le bon ompromis se situe dans la régionoù l'erreur réelle est stable. Ce i est illustré par une �gure représentant l'évolutiondes erreurs réelle et apparente dans le as d'un système d'apprentissage pour lare onnaissan e de ara tères utilisant des arbres de dé ision (voir �gure 1.2).

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 10 20 30 40 50 60 70 80

Tau

x d’

erre

ur

Nombre de feuilles

Erreur reelleErreur apparente

Fig. 1.2 � Erreur réelle et erreur apparente pour des données réelles de re onnais-san e de ara tères ([BFOS84℄)Une solution est de minimiser l'erreur apparente en omplexi�ant de plus enplus l'espa e de re her he. Par exemple, on peut onstruire des arbres de dé ision(voir Chapitre suivant) de plus en plus grand ave l'obje tif de minimaliser l'erreurapparente. À la �n de e pro essus, l'arbre obtenu est peut être trop spé ialisé(erreur apparente faible mais erreur réelle grande). On essaie alors de diminuersa taille en diminuant l'erreur réelle (étape d'élagage). Ce i suppose que l'on soit apable d'estimer l'erreur réelle (voir se tion suivante). Une telle te hnique peut êtreappliquée aux réseaux de neurones. En�n, la méthode dite de � minimisation durisque stru turel � onsiste à hoisir onjointement le bon ompromis entre erreurréelle et apa ité de l'espa e d'hypothèses. Cette méthode est mise en oeuvre parles ma hines à support de ve teurs (voir [CST00℄).1.4 Estimer l'erreur réelleLorsque l'on apprend à partir d'un é hantillon, se pose immédiatement la ques-tion de la pertinen e statistique de la pro édure induite. Supposons, par exemple,que nous disposions d'un é hantillon de 500 patients tels que 100 d'entre eux soient

18 Apprentissage à partir d'exemples : présentation de la problématiquemalades. Une pro édure qui prédit toujours � bien portant � ( 'est la pro éduremajoritaire) fait une prédi tion orre te dans 80% des as. Tout système d'appren-tissage qui prétend apporter un é lairage sur les données doit faire mieux. Il fautdon être apable d'estimer la qualité d'une pro édure induite par un système à par-tir d'un é hantillon. Nous avons également signalé, dans la se tion pré édente, quel'estimation de l'erreur réelle pouvait être utilisée par les algorithmes pour éviter lasurspé ialisation.1.4.1 Utilisation d'un ensemble TestL'idée est de disposer d'un ensemble permettant de tester la qualité de la pro- édure de lassi� ation induite. On partitionne l'é hantillon en un ensemble d'ap-prentissage S et un ensemble test T . La répartition entre les deux ensembles doitêtre faite aléatoirement. On e�e tue l'apprentissage à l'aide de l'ensemble S et ongénère une pro édure de lassi� ation C. L'estimation E(C) de l'erreur réelle E(C)est alors l'erreur apparente de C mesurée sur l'ensemble test T , soitE(C) = ℄mal lasss(T )℄T (1.6)où mal lasss(T ) est l'ensemble des éléments de T mal lassés par la pro édure C.L'estimation est faite sur un ensemble indépendant de elui qui a servi à l'appren-tissage e qui permet de supposer que l'erreur apparente sur l'ensemble test est unebonne estimation de l'erreur réelle. Cependant, omme la qualité de l'apprentissageaugmente ave la taille de l'ensemble d'apprentissage et que de même, la pré isionde l'estimation augmente ave la taille de l'ensemble test, ette méthode ne donnede bons résultats que lorsque l'é hantillon est � su�samment � grand pour pouvoirêtre divisé en deux é hantillons de tailles signi� atives. Il existe peu de résultatsthéoriques sur les tailles d'é hantillon né essaires pour utiliser ette méthode, on nedispose que de résultats empiriques qui dépendent du problème (souvent, plusieurs entaines d'exemples). La répartition de l'é hantillon entre les deux ensembles sefait en général dans des proportions 1=2, 1=2 pour ha un des deux ensembles ou2=3 pour l'ensemble d'apprentissage et 1=3 pour l'ensemble test.Le le teur est invité à traiter les exer i es 20, 21, 22 et 23. Dans es exer i essont présentés les résultats statistiques les plus simples sur l'estimation de l'erreurà l'aide d'un ensemble test. En parti ulier, la notion d'intervalle de on�an e estintroduite. Cette notion permet de produire des a�rmations de la forme : � l'erreurréelle appartient à tel intervalle ave telle on�an e �.Dans les problèmes réels d'extra tion de onnaissan es à partir de données, ondispose en général de jeux de données de taille su�sante pour utiliser un ensembletest. Si l'algorithme utilisé utilise, pour son fon tionnement, une estimation de l'er-reur réelle (élagage, hoix de l'ar hite ture du réseau, réglage de paramètres), il estalors né essaire de posséder trois ensembles :� un ensemble d'apprentissage S,� un ensemble test T et� un ensemble de validation V .Lorsque, dans l'exé ution de l'algorithme, elui- i solli ite une estimation de l'erreurréelle, on utilise l'ensemble test T . L'ensemble de validation permet, quant à lui,d'estimer la qualité de la pro édure produite en sortie.1.4.2 Te hniques de re-é hantillonageLa méthode présentée dans la se tion pré édente n'est pas toujours appli able.En e�et, pour ertains domaines d'appli ations, les données sont rares. Et don , il

1.5 Résumons 19arrive que l'é hantillon de travail soit trop petit pour que l'on puisse envisager desa ri�er des éléments pour tester le lassi�eur. Comment peut-on à la fois apprendresur tous les exemples et obtenir malgré tout une estimation satisfaisante du tauxd'erreur?L'obje tif est toujours d'estimer l'erreur réelle d'une pro édure de lassi� ationC produite par un algorithme A sur un é hantillon S. Une première méthode pourestimer ette erreur réelle est la validation roisée. Cette méthode est présentée dansl'algorithme suivant où k est un paramètre :validation roisée - k foisPartitionner S aléatoirement en k sous-ensembles S1; : : : ; Skpour tout i de 1 à kappliquer A à l'é hantillon S � Si et générer Ci al uler ei erreur apparente de Ci sur SiRetourner E(C) = P1leqi�k eik omme estimation de E(C)Cette méthode est très largement utilisée quoique ses justi� ations théoriquessoient en ore dis utées en statistique. Les valeurs usuelles pour k sont k = 10 (ten-fold ross validation) ; pour les petits ensembles on peut hoisir k = ℄S. Il faut noterque la méthode est oûteuse en temps de al ul ar il faut e�e tuer autant k sessionsd'apprentissage, e qui peut être rédhibitoire si le temps de al ul de l'algorithmeest long.La deuxième méthode est elle du bootstrap. Étant donné un é hantillon S detaille n, on tire ave remise un ensemble d'apprentissage de taille n (un élémentde S peut ne pas appartenir à l'ensemble d'apprentissage, ou y �gurer plusieursfois), l'ensemble test est S. L'estimation de l'erreur réelle est alors la moyenne deserreurs apparentes obtenues pour un ertain nombre d'itérations de l'algorithmed'apprentissage.Ces deux méthodes fournissent de bons estimateurs de l'erreur réelle mais sonttrès oûteuses en temps de al ul. Elles sont très utiles pour les � petits � é han-tillons.D'autres problèmes, importants pour l'apprentissage automatique, sont étudiésd'un point de vue statistique. Il s'agit par exemple de omparer deux pro éduresde lassi� ation induites à partir d'un même é hantillon (voir exer i e 24) ou de omparer deux systèmes d'apprentissage.1.5 Résumons� la lassi� ation supervisée onsiste à inférer à partir d'un é hantillon d'exemples lassés une pro édure de lassi� ation. Un système d'apprentissage e�e tue lare her he d'une telle pro édure selon un modèle. Les systèmes d'apprentissagepeuvent être basés sur des hypothèses probabilistes ( lassi�eur naïf de Bayes,méthodes paramétriques) ; sur des notions de proximité (plus pro hes voisins,noyaux de Parzen) ; sur des re her hes dans des espa es d'hypothèses (arbresde dé ision, réseaux de neurones).� Une bonne onnaissan e du problème est né essaire. La di� ulté intrinsèquedu problème dépend de la qualité du langage de représentation hoisi ( hoix deD) et également de la qualité des données (problème déterministe, existen e debruit,...). Cette onnaissan e est né essaire au hoix du système d'apprentis-sage (arbres de dé ision, réseaux de neurones), 'est-à-dire en ore au hoix del'ensemble C des pro édures de lassi� ation qui sera examiné par le système.

20 Apprentissage à partir d'exemples : présentation de la problématique� Cher her une pro édure d'erreur apparente minimale n'a pas grand sens. Ene�et, d'un point de vue algorithmique, dans la plupart des as, her her unepro édure d'erreur apparente minimale est un problème NP- omplet. Parexemple, trouver une formule booléenne somme de trois mon�mes ompatibleave un é hantillon est un problème NP- omplet. De plus, l'erreur apparenten'est pas une bonne estimation de l'erreur réelle.� Il faut trouver un bon ompromis adéquation aux données/ omplexité. En e�et,si les pro édures sont peu omplexes (C est petit ou sa dimension de VapnikChervonenkis est petite) alors au une d'elles n'aura de performan es su�-santes. Si les pro édures sont très omplexes (C est grand ou sa dimension deVapnik Chervonenkis est grande) alors il est di� ile de se rappro her de l'op-timum. Bien évidemment la taille de l'é hantillon disponible est importante :plus on a d'exemples, plus des pro édures omplexes peuvent être envisagées.� appli ations de la lassi� ation supervisée : la lassi� ation supervisée est unedes tâ hes les plus importantes en fouille de données (Data Mining), elle-même onstituant une des étapes essentielle d'un projet d'extra tion de onnais-san es à partir de données. Le le teur est invité à onsulter un ours sur edomaine [GT00℄

Chapitre 2Apprentissage automatique : lesarbres de dé isionPour ertains domaines d'appli ation, il est essentiel de produire des pro éduresde lassi� ation ompréhensibles par l'utilisateur. C'est en parti ulier le as pourl'aide au diagnosti médi al où le méde in doit pouvoir interpréter les raisons dudiagnosti . Les arbres de dé ision répondent à ette ontrainte ar ils représententgraphiquement un ensemble de règles et sont aisément interprétables. Pour les arbresde grande taille, la pro édure globale peut être di� ile à appréhender, ependant, la lassi� ation d'un élément parti ulier est toujours ompréhensible. Les algorithmesd'apprentissage par arbres de dé ision sont e� a es, disponibles dans la plupart desenvironnements de fouille de données. Ils onstituent l'objet de e hapitre.2.1 Les arbres de dé isionExemple 7. La population est onstituée d'un ensemble de patients. Il y a deux lasses : malade et bien portant. Les des riptions sont faites ave les deux attri-buts : Température qui est un attribut à valeurs dé imales et gorge irritée quiest un attribut logique. On onsidère l'arbre de dé ision de la �gure 2.1.oui

oui

non

malade bien portant

non

maladeGorge irritée

Température < 37,5

Fig. 2.1 � Un exemple d'arbre de dé ision.Un arbre de dé ision est un arbre au sens informatique du terme. On rappelleque les noeuds d'un arbre sont repérés par des positions qui sont des mots surf1; : : : ; pg�, où p est l'arité maximale des noeuds. Si on note le mot vide par �, les

22 Apprentissage automatique : les arbres de dé isionpositions pour l'arbre de la �gure 2.1 sont :� � étiquetée par le test Température<37,5,� 1 étiquetée par le test Gorge irritée,� 2 étiquetée par la feuille malade,� 21 étiquetée par la feuille malade,� 22 étiquetée par la feuille bien portant.Les noeuds internes sont appelés noeuds de dé ision. Un tel noeud est étiqueté parun test qui peut être appliqué à toute des ription d'un individu de la population.En général, haque test examine la valeur d'un unique attribut de l'espa e desdes riptions. Les réponses possibles au test orrespondent aux labels des ar s issusde e noeud. Dans le as de noeuds de dé ision binaires, les labels des ar s sontomis et, par onvention, l'ar gau he orrespond à une réponse positive au test. Lesfeuilles sont étiquetées par une lasse appelée lasse par défaut.Un arbre de dé ision est la représentation graphique d'une pro édure de lassi�- ation. En e�et, à toute des ription omplète est asso iée une seule feuille de l'arbrede dé ision. Cette asso iation est dé�nie en ommençant à la ra ine de l'arbre eten des endant dans l'arbre selon les réponses aux tests qui étiquettent les noeudsinternes. La lasse asso iée est alors la lasse par défaut asso iée à la feuille qui orrespond à la des ription. La pro édure de lassi� ation obtenue a une tradu -tion immédiate en terme de règles de dé ision. Les systèmes de règles obtenus sontparti uliers ar l'ordre dans lequel on examine les attributs est �xé et les règles dedé ision sont mutuellement ex lusives.Exemple 8. Soit l'arbre de dé ision de la �gure 2.1. Un patient ayant une tempé-rature de 39 et ayant la gorge non irritée sera lassé omme malade par et arbre.La tradu tion de et arbre en règles de dé ision est :� SI Température<37,5 ET gorge irritée ALORS malade� SI Température<37,5 ET NON(gorge irritée) ALORS bien portant� SI NON(Température<37,5) ALORS maladeNous allons dans e hapitre étudier di�érents algorithmes d'apprentissage pararbres de dé ision, 'est-à-dire des algorithmes qui, prenant en entrée un é hantillonS, onstruisent un arbre de dé ision. Nous allons, tout d'abord, introduire quelquesnotations. Étant donnés un é hantillon S, un ensemble de lasses f1; : : : ; g etun arbre de dé ision t, à haque position p de t orrespond un sous-ensemble del'é hantillon qui est l'ensemble des exemples qui satisfont les tests de la ra inejusqu'à ette position. Par onséquent, on peut dé�nir, pour toute position p de t,les quantités suivantes :N(p) est le ardinal de l'ensemble des exemples asso ié à p,N(k=p) est le ardinal de l'ensemble des exemples asso ié à p qui sont de lassek, P (k=p) = N(k=p)=N(p) la proportion d'éléments de lasse k à la position p.Exemple 9. On onsidère l'arbre de dé ision de la �gure 2.1. De plus, on disposed'un é hantillon de 200 patients. On sait que 100 sont malades et 100 sont bienportants, la répartition entre les deux lasses M (pour malade) et S (pour bienportant) est donnée par : gorge irritée gorge non irritéetempérature < 37; 5 (6 S, 37 M) (91 S, 1 M)température � 37; 5 (2 S, 21 M) (1 S, 41 M)On a alors : N(11) = 43 ; N(S=11) = 6 ; N(M=11) = 37 ; P (S=11) = 643 etP (M=11) = 3743 .

2.2 Exemple introdu tif et préliminaires 232.2 Exemple introdu tif et préliminairesNous allons onsidérer l'exemple très simple suivant pour introduire les algo-rithmes d'apprentissage par arbres de dé ision. Une banque dispose des informationssuivantes sur un ensemble de lients: lient M A R E I1 moyen moyen village oui oui2 élevé moyen bourg non non3 faible âgé bourg non non4 faible moyen bourg oui oui5 moyen jeune ville oui oui6 élevé âgé ville oui non7 moyen âgé ville oui non8 faible moyen village non nonL'attribut ternaire M dé rit la moyenne des montants sur le ompte lient. Lese ond attribut ternaire A donne la tran he d'âge du lient. Le troisième attributternaire R dé rit la lo alité de résiden e du lient. Le dernier attribut binaire E a lavaleur oui si le lient a un niveau d'études supérieures. La lasse asso iée à ha unde es lients orrespond au ontenu de la olonne I . La lasse oui orrespond à un lient qui e�e tue une onsultation de ses omptes ban aires en utilisant Internet.On souhaite trouver un arbre de dé ision qui soit apable de dire si un lient e�e tuedes onsultations de ses omptes par Internet en onnaissant les valeurs des attributsM (montant), A (âge), R (résiden e) et E (études) pour e lient.À partir de e tableau, il s'agit don de onstruire un arbre de dé ision qui lassi�e les lients. Les algorithmes onstruisent les arbres de façon des endante.Lorsqu'un test est hoisi, on divise l'ensemble d'apprentissage pour ha une desbran hes et on réapplique ré ursivement l'algorithme. Sur notre exemple, on initia-lise ave l'arbre vide. L'é hantillon ontient 8 éléments, 3 sont de lasse oui et 5 de lasse non. Don , à la ra ine de l'arbre qui n'est étiqueté par au un test, l'é han-tillon peut être ara térisé par le ouple (3,5). On se pose alors la question de savoirsi e noeud est terminal, 'est-à-dire en ore s'il est né essaire de re her her un testqui dis rimine de façon intéressante l'é hantillon. Par exemple, on attribuerait unefeuille si nous étions dans le as (0,8), 'est-à-dire si au un lient n'utilise Internet.Pour notre as supposons que nous devions hoisir un test. Nous aurions quatre hoix possibles qui sont dé rits dans la �gure 2.2.Laquelle des quatre possibilités faut-il hoisir? Si on regarde le test sur le typede résiden e R, on remarque que e test ne permet une dis rimination sur au unedes bran hes, on peut don se dire que le hoix de e test ne fait rien gagner, il seradon à rejeter. Par ontre, pour le test sur l'âge A, on remarque que sur la premièrebran he, tous les éléments orrespondants de l'é hantillon sont de lasse oui et quesur la troisième bran he, tous les éléments sont de lasse non. Ce test peut don être onsidéré omme � intéressant �. Ce raisonnement informel doit être automatisé.Par onséquent, il nous faut introduire des quantités qui permettent de omparerles di�érents hoix possibles. Dans e but, on dé�nit des fon tions qui permettentde mesurer le degré de mélange des exemples entre les di�érentes lasses. Une tellefon tion doit véri�er la propriété suivante : elle doit prendre son minimum lorsquetous les exemples sont dans une même lasse (le noeud est pur) et son maximumlorsque les exemples sont équirépartis. Par exemple, si on dispose de 8 élémentset de deux lasses, une telle fon tion devra prendre son minimum pour les ouples(0,8) et (8,0) et son maximum pour le ouple (4,4). Il existe di�érentes fon tionsqui satisfont es propriétés, nous en iterons deux : la fon tion de Gini et la fon -

24 Apprentissage automatique : les arbres de dé ision(3,5) ! (1,2) (2,1) (0,2)M(3,5) ! (1,0) (2,2) (0,3)A(3,5) ! (1,1) (1,2) (1,2)R(3,5) ! (3,2) (0,3)EFig. 2.2 � hoix possibles en ra ine où les bran hes du test M sont labellés dansl'ordre par faible, moyen et élevé ; du test A dans l'ordre par jeune, moyen etâgé ; du test R dans l'ordre par village, bourg et ville ; du test E dans l'ordrepar oui et non.tion entropie. Soit S un é hantillon, soit p une position, en reprenant les notationsdé�nies pré édemment, es fon tions sont dé�nies par :Entropie(p) = �� k=1P (k=p)� log(P (k=p)) (2.1)Gini(p) = 1� � k=1P (k=p)2 (2.2)= 2�k<k0P (k=p)P (k0=p) (2.3)Considérons le as de deux lasses et appelons x la proportion d'éléments de lasse 1 en position p. On a don Entropie(p) = �x logx� (1�x) log(1�x). Cettefon tion de x prend ses valeurs dans l'intervalle [0; 1℄, a son minimum pour x = 0et x = 1 qui vaut 0 et a son maximum pour x = 1=2 qui vaut 1. La fon tion deGini est dé�nie par Gini(p) = 2x(1 � x). Cette fon tion de x prend ses valeursdans l'intervalle [0; 1=2℄, a son minimum pour x = 0 et x = 1 qui vaut 0 et a sonmaximum pour x = 1=2 qui vaut 1=2. Ces deux fon tions sont symétriques parrapport à x = 1=2. Pour notre exemple ourant, onsidérons, par exemple, l'arbre onstruit à l'aide de l'attribut E, nous avons :� Entropie(�) = � 38 log 38 � 58 log 58 ' 0; 954� Entropie(1) = � 35 log 35 � 25 log 25 ' 0:970� Entropie(2) = � 03 log 03 � 33 log 33 = 0� Gini(�) = 2� 38 � 58 ' 0; 469� Gini(1) = 2� 35 � 25 = 0:480� Gini(2) = 2� 03 � 33 = 0On dispose ainsi de fon tions permettant de mesurer le degré de mélange des lasses pour tout é hantillon et don pour toute position de l'arbre en onstru tion.Appelons i la fon tion hoisie. Il reste à dé�nir une fon tion permettant de hoisirle test qui doit étiqueter le noeud ourant. Rappelons que, sur notre exemple, à

2.3 Généralités sur l'apprentissage des arbres de dé ision 25la ra ine de l'arbre, il nous faut hoisir entre les quatre tests orrespondants auxquatre attributs disponibles. Dans e but, on introduit une fon tion gain par :Gain(p; t) = i(p)� nXj=1 Pj � i(pj) (2.4)où p désigne une position, test un test d'arité n et Pj est la proportion d'élé-ments de S à la position p qui vont en position pj (qui satisfont la jème bran he dutest test). Si on onsidère omme fon tion i la fon tion entropie, le terme i(p) repré-sente l'entropie a tuelle du noeud p, le deuxième terme de la di�éren e représentel'entropie espérée en introduisant le test test qui est égale à la somme pondéréedes entropies des nouveaux noeuds réés. On souhaite obtenir des entropies les plusfaibles possibles ar, d'après les propriétés de la fon tion entropie, si l'entropie estfaible, la plupart des éléments se trouvent dans une même lasse. On her he don à obtenir le gain maximum. Sur notre exemple, nous obtenons :� Gain(�;M) = Entropie(�)�( 38Entropie(1)+ 38Entropie(2)+ 28Entropie(3)) =Entropie(�)� 0; 620� Gain(�; A) = Entropie(�)�( 18Entropie(1)+ 48Entropie(2)+ 38Entropie(3)) =Entropie(�)� 0; 500� Gain(�; R) = Entropie(�)�( 28Entropie(1)+ 38Entropie(2)+ 38Entropie(3)) =Entropie(�)� 0; 870� Gain(�; E) = Entropie(�)� ( 58Entropie(1)+ 38Entropie(2)) = Entropie(�)�0; 607Le gain maximal ou en ore l'entropie espérée minimale est obtenue pour le hoixdu test A. On remarque que le hoix du test R est très mauvais, e qui orrespondbien à l'intuition. Dans e paragraphe, nous avons introduit la problématique etquelques éléments fondamentaux utilisés par les algorithmes d'apprentissage pararbre de dé ision. Nous allons, dans le paragraphe suivant, présenter le s hémagénéral des algorithmes, puis présenter deux algorithmes parti uliers CART et ID3.2.3 Généralités sur l'apprentissage des arbres dedé isionIdée entrale : Diviser ré ursivement et le plus e� a ement possible les exemplesde l'ensemble d'apprentissage par des tests dé�nis à l'aide des attributs jusqu'à eque l'on obtienne des sous-ensembles d'exemples ne ontenant (presque) que desexemples appartenant tous à une même lasse.Dans toutes les méthodes, on trouve les trois opérateurs suivants :1. Dé ider si un noeud est terminal, 'est-à-dire dé ider si un noeud doitêtre étiqueté omme une feuille. Par exemple : tous les exemples sont dans lamême lasse, il y a moins d'un ertain nombre d'erreurs, ...2. Séle tionner un test à asso ier à un noeud. Par exemple : aléatoirement,utiliser des ritères statistiques, ...3. A�e ter une lasse à une feuille. On attribue la lasse majoritaire saufdans le as où l'on utilise des fon tions oût ou risque.Les méthodes vont di�érer par les hoix e�e tués pour es di�érents opérateurs, 'est-à-dire sur le hoix d'un test (par exemple, utilisation du gain et de la fon tionentropie) et le ritère d'arrêt (quand arrêter la roissan e de l'arbre, soit quanddé ider si un noeud est terminal). Le s héma général des algorithmes est le suivant :

26 Apprentissage automatique : les arbres de dé isionAlgorithme d'apprentissage génériqueentrée : langage de des ription ; é hantillon SdébutInitialiser à l'arbre vide ; la ra ine est le noeud ourantrépéterDé ider si le noeud ourant est terminalSi le noeud est terminal alorsA�e ter une lassesinonSéle tionner un test et réer le sous-arbreFinSiPasser au noeud suivant non exploré s'il en existeJusqu'à obtenir un arbre de dé ision�nAve un tel algorithme, on peut al uler un arbre de dé ision dont l'erreur appa-rente est faible, voire nulle. Un arbre de dé ision parfait est un arbre de dé ision telque tous les exemples de l'ensemble d'apprentissage soient orre tement lassi�és.Un tel arbre n'existe pas toujours (s'il existe deux exemples tels que à deux des rip-tions identiques orrespondent deux lasses di�érentes). L'obje tif est de onstruireun arbre d'erreur de lassi� ation la plus petite possible. Mais, on retrouve lesproblèmes signalés dans le hapitre pré édent, 'est-à-dire :� l'erreur apparente est une vision très optimiste de l'erreur réelle,� trouver un arbre de dé ision d'erreur apparente minimale est, en général, unproblème NP- omplet.L'algorithme présenté pré édemment re her he un � bon � arbre d'erreur ap-parente faible. En e�et, l'algorithme pro ède de façon des endante sans jamais re-mettre en question les hoix e�e tués et on ne peut jamais ex lure qu'un autre hoixde test onduise en fait à un meilleur arbre. L'arbre onstruit est d'erreur apparentefaible ar les feuilles sont étiquetées de telle manière qu'il y ait peu d'erreurs. Mais, omme nous l'avions signalé dans le hapitre sur les généralités, il se peut quel'erreur réelle soit importante, 'est-à-dire que l'arbre onstruit soit bien adapté àl'é hantillon mais ait un pouvoir de prédi tion faible. Si on examine l'exemple pré-senté dans la Figure 1.2, on onstate que l'erreur apparente diminue onstammentlors de la onstru tion de l'arbre mais que l'erreur réelle diminue, se stabilise, puisaugmente.L'idéal serait de trouver un ritère qui permette d'arrêter la roissan e de l'arbreau bon moment. Malheureusement, dans l'état a tuel des re her hes, un tel ritèren'a pu être trouvé. De plus, le risque d'arrêter trop t�t la roissan e de l'arbre estplus important que de l'arrêter trop tard. Par onséquent, les méthodes utiliséespro èdent souvent en deux phases. La première phase orrespond à l'algorithmeprésenté dans e paragraphe ; dans une se onde phase, on élague l'arbre obtenu pouressayer de faire diminuer l'erreur réelle (élaguer un arbre onsiste à en supprimer ertains sous-arbres). Les méthodes se distinguent don les unes des autres par les hoix des opérateurs, mais aussi par les méthodes d'élagage utilisées. Nous revenonsplus en détail sur es hoix et es problèmes dans les deux paragraphes suivants danslesquelles nous présentons deux méthodes.

2.4 Un premier algorithme : CART (Breiman et al. [BFOS84℄) 272.4 Un premier algorithme : CART (Breiman et al.[BFOS84℄)Cette méthode permet d'inférer des arbres de dé ision binaires, i.e. tous lestests étiquetant les noeuds de dé ision sont binaires. Le langage de représentationest onstitué d'un ertain nombre d'attributs. Ces attributs peuvent être binaires,qualitatifs (à valeurs dans un ensemble �ni de modalités) ou ontinus (à valeursréelles). Le nombre de tests à explorer va dépendre de la nature des attributs. Aun attribut binaire orrespond un test binaire. A un attribut qualitatif ayant nmodalités, on peut asso ier autant de tests qu'il y a de partitions en deux lasses,soit 2n�1 tests binaires possibles. En�n, dans le as d'attributs ontinus, il y aune in�nité de tests envisageables. Dans e as, on dé oupe l'ensemble des valeurspossibles en segments, e dé oupage peut être fait par un expert ou fait de façonautomatique.Nous supposons prédé�ni un ensemble de tests binaires. Pour dé�nir l'algo-rithme, nous allons dé�nir les trois opérateurs utilisés par la méthode CART pour al uler un bon arbre de dé ision (phase d'expansion), puis nous verrons la phased'élagage. Nous nous plaçons dans le as d'un é hantillon S � assez grand � quipeut être dé oupé en un ensemble d'apprentissage A et un ensemble test T .� Phase d'expansion. On dispose en entrée d'un ensemble d'apprentissage A.La fon tion utilisée pour mesurer le degré de mélange est la fon tion de Gini(ou indi e d'impureté de Gini) dé�nie par l'équation 2.2.1. Dé ider si un noeud est terminal. Un noeud p est terminal siGini(p) �i0 ou N(p) � n0, où i0 et n0 sont des paramètres à �xer.2. Séle tionner un test à asso ier à un noeud. Soit p une position etsoit test un test. Si e test devient l'étiquette du noeud à la position p,alors on appelle Pgau he (respe tivement Pdroite) la proportion d'élémentsde l'ensemble des exemples asso iés à p qui vont sur le noeud en positionp1 (respe tivement p2). La rédu tion d'impureté dé�nie par le test testest identique au gain et dé�nie par :Gain(p; test) = Gini(p)� (Pgau he �Gini(p1) + Pdroite �Gini(p2)):Cette équation orrespond à la dé�nition du gain de l'équation 2.4 dansle as de deux lasses en hoisissant pour fon tion i la fon tion de Gini.En position p (non maximale), on hoisit le test qui maximise la quantitéGain(p; test).3. A�e ter une lasse à une feuille. On attribue la lasse majoritaire.Soit t l'arbre obtenu en sortie. Pour élaguer, on utilise l'ensemble test T . Onsuppose, en e�et, que l'erreur apparente sur T est une bonne estimation del'erreur réelle. Un élagué de t est obtenu en remplaçant un sous-arbre de t parune feuille. Une première solution serait d'estimer l'erreur réelle pour tous lesélagués de t. Cette méthode est trop oûteuse en temps de al ul. Il faut, par onséquent, introduire une heuristique permettant de limiter le nombre d'éla-gués de t sur lesquels on va estimer l'erreur réelle. Nous dé rivons maintenantla phase d'élagage qui prend pour entrée l'ensemble d'apprentissage A, l'arbret produit et un ensemble test T .� Phase d'élagage.1. onstru tion de la suite des arbres. On onstruit une suite t0 =t; : : : ; tp telle que t0 soit l'arbre obtenu à la �n de la phase d'expansion,

28 Apprentissage automatique : les arbres de dé isionpour tout i, ti+1 est un élagué de ti et le dernier arbre de la suite tp estréduit à une feuille. Il nous faut dé�nir le pro édé de onstru tion de ti+1à partir de ti. Pour toute position p de ti, on note up le sous-arbre de tien position p. On al ule la quantitég(p) = �app(p)jupj � 1 ;où �app(p) est la variation d'erreur apparente mesurée sur l'ensembled'apprentissage A lorsqu'on élague t en position p et jupj est la taille deup. On peut remarquer que�app(p) = MC(p)�MC(up)N(p) ;où N(p) est le ardinal de l'ensemble des exemples de A asso ié à laposition p de ti, MC(p) est le nombre d'éléments de A mal lassés à laposition p lorsqu'on élague ti en position p et MC(up) est le nombred'éléments de A asso iés à la position p de ti mal lassés par up.On onsidère alors la position p pour laquelle g(p) est minimale et ti+1est l'élagué de ti en position p.2. hoix �nal. On al ule pour haque arbre ti de la suite onstruite aupoint pré édent l'erreur apparente sur l'ensemble Test T . Cette valeurest prise omme estimation de l'erreur réelle. On retourne don l'arbrequi minimise l'erreur apparente sur T .Lorsque la taille de l'é hantillon ne permet pas le dé oupage en ensembles detest et d'apprentissage, on utilise alors d'autres méthodes d'élagage. Le prin ipereste similaire, la di�éren e est que l'on utilise la validation roisée pour obtenir desapproximations de l'erreur réelle.Les prin ipes de base de l'algorithme CART sont l'utilisation de la fon tionde Gini et un élagage e�e tué soit à l'aide d'un ensemble test soit par validation roisée. Cependant, CART a été intégré a de nombreux environnements de fouillede données et a subi de nombreuses modi� ations et améliorations.2.5 Un deuxième algorithme : C4.5 (Quinlan 93 [Qui93℄)2.5.1 Algorithme de baseOn suppose toujours que le langage de représentation est onstitué d'un ertainnombre d'attributs. Ces attributs peuvent être binaires, qualitatifs (à valeurs dansun ensemble �ni de modalités) ou ontinus (à valeurs réelles). Pour les attributs ontinus, on utilise des heuristiques qui permettent de les dis rétiser. On utilisepour ela des ritères statistiques qui permettent d'atteindre les deux obje tifs sui-vants : un nombre de lasses pas trop important et une bonne répartition entre lesdi�érentes lasses. On peut par exemple utiliser la fon tion entropie pour atteindre es obje tifs. Nous supposons maintenant que les attributs ont été dis rétisés.Nous supposons prédé�ni un ensemble de tests n-aires. Pour dé�nir l'algorithme,nous allons dé�nir les trois opérateurs utilisés par l'algorithme C4.5 pour al ulerun bon arbre de dé ision (phase d'expansion), puis nous verrons la phase d'élagage.On suppose disposer d'un ensemble d'apprentissage A.� On dispose en entrée d'un ensemble d'apprentissage A. On utilise la fon tionentropie dé�nie par l'équation 2.1.1. Dé ider si un noeud est terminal. Un noeud p est terminal si tous

2.5 Un deuxième algorithme : C4.5 (Quinlan 93 [Qui93℄) 29les éléments asso iés à e noeud sont dans une même lasse ou si au untest n'a pu être séle tionné (voir i-après).2. Séle tionner un test à asso ier à un noeud. À haque étape, dansl'ensemble des tests disponibles, ne peuvent être envisagés que les testspour lesquels il existe au moins deux bran hes ayant au moins deuxéléments ( ette valeur par défaut peut être modi�ée). Si au un test nesatisfait ette ondition alors le noeud est terminal. Soit p une position,on hoisit alors le test test qui maximise le gain dé�ni dans l'équation2.4 en utilisant la fon tion entropie dé�nie dans l'équation 2.1 pour me-surer le degré de mélange. La fon tion Gain, ainsi dé�nie, privilégie lesattributs ayant un grand nombre de valeurs (voir exer i e 15). Elle estdon pondérée par une fon tion qui pénalise les tests qui répartissent leséléments en un trop grand nombre de sous- lasses. Cette mesure de larépartition est nommée SplitInfo et est dé�nie par :SplitInfo(p; test) = � nXj=1 P 0(j=p)� log(P 0(j=p)) (2.5)dans laquelle n est l'arité de test et P 0(j=p) est la proportion des élémentsprésents à la position p prenant la j-ème valeur de test. Il faut remarquerque, ontrairement à l'entropie, la dé�nition pré édente est indépendantede la répartition des exemples à l'intérieur des di�érentes lasses. Lavaleur de Splitinfo ne dépend que de la répartition entre les di�érentesvaleurs possibles pour le test. Cette fon tion a des valeurs grandes lorsquele test a un grand nombre de valeurs possibles ave peu d'éléments pour ha une des valeurs. En e�et, onsidérons le as extrême d'un attribut n-aire ave un exemple par lasse, la fon tion vaut alors logn. À l'inverse, onsidérons la as d'un attribut binaire pour lequel les exemples sontrépartis uniformément entre es deux valeurs, la fon tion vaut alors 1.La nouvelle fon tion de gain, appelée ratio de gain et notée GainRatio,est alors dé�nie par :GainRatio(p; T ) = Gain(p; T )SplitInfo(p; T ) (2.6)En position p (non maximale), on hoisit le test qui maximise le Gain-Ratio (option par défaut de C4.5). On peut modi�er les options pourutiliser le Gain.3. A�e ter une lasse à une feuille. On attribue la lasse majoritaire.Si il n'y a au un exemple on attribue la lasse majoritaire du noeud père.2.5.2 Phase d'élagage de C4.5C4.5 utilise l'ensemble d'apprentissage pour élaguer l'arbre obtenu. Le ritèred'élagage est basé sur une heuristique permettant d'estimer l'erreur réelle sur unsous-arbre donné. Bien qu'il semble peu pertinent d'estimer l'erreur réelle sur l'en-semble d'apprentissage, il semble que la méthode donne des résultats orre ts. Ci-tons Quinlan :Although this method does have the subtle �aw of � indire ly trainingon test ases � it performs quite well on large samples with at least 1000test ases. With fewer ases, the risks of training on the test ases isgreater.

30 Apprentissage automatique : les arbres de dé isionCette méthode est présentée dans l'exer i e 25. Une autre heuristique est propo-sée par C4.5. On onstruit le système à base de règles asso ié à l'arbre de dé isionproduit en sortie de la phase d'expansion. On hoisit ensuite une méthode permet-tant de oder à la fois les règles et les ex eptions (exemples mal lassi�és par lesrègles). Lorsqu'on supprime une règle, on risque de voir augmenter le nombre d'ex- eptions. Mais il se peut aussi que la taille du odage diminue globalement. Dans e as, on hoisit la règle dont la suppression produit la plus forte diminution. Onapplique e pro édé de façon itérative tant que la taille des odages diminue. Cetteméthode est une appli ation du prin ipe MDL (Minimum Des ription Length) qui onsiste à hoisir parmi plusieurs théories elle dont le odage (théorie plus ex ep-tions) est minimal.2.5.3 AméliorationsAttributs dis rets Pour les attributs dis rets possédant un grand nombre de va-leurs, nous avons vu que la fon tion GainRatio permettait d'éviter de pri-vilégier es attributs. Il existe, de plus, une option de C4.5 qui permet leregroupement des valeurs. Par exemple, si on dispose d'un attribut A prenantles valeurs a, b, et d, en standard le test onsidéré serait 4-aire. Si on a -tive l'option regroupement, seront également onsidéré des tests de la forme :le test binaire A 2 fa; bg et A 2 f ; dg ; le test ternaire A = a , A = etA 2 fb; dg ; ...Attributs ontinus Pour les attributs ontinus, la dis rétisation peut être laisséeà un expert du domaine d'appli ation. Par exemple, en méde ine, l'expérien edu domaine peut avoir permis la mise en éviden e l'existen e de valeurs seuilpour un attribut orrespond à une mesure médi ale. Sinon, l'algorithme gèreles attributs ontinus de la façon suivante : les exemples sont triés dans l'ordre roissant pour l'attribut ontinu A onsidéré, on onsidère alors tous les testsde la forme A > ai+ai+12 où ai et ai+1 sont deux valeurs onsé utives del'attribut A. Par exemple, supposons que A prenne les valeurs 1 ; 3 ; 6 ; 10 ;12, alors on onsidère les tests A > 1; 5 ; A > 4; 5 ; A > 8 et A > 11, estests parti ipent alors à la ompétition dans la re her he du test apportant lemeilleur gain (fon tion Gain ou GainRatio, selon l'option hoisie).Attributs à valeurs manquantes Dans de nombreux problèmes on rets, il existe ertains attributs dont les valeurs ne sont pas renseignées. Par exemple, si ondispose du des riptif de patients, il est très probable que toutes les mesures nesoient pas disponibles ar elles n'ont pas pu être faites pour tous les patients.Pour lassi�er un exemple possédant des valeurs manquantes à l'aide d'arbresde dé ision, on pro ède omme dans le as standard, lorsque l'on ren ontreun test et que la valeur de l'attribut est manquante, on onsidère la bran hemajoritaire. Pour la phase d'apprentissage, on suppose que la valeur de etattribut suit la distribution des valeurs onnues. Le le teur peut se reporter àl'exer i e 18.2.6 Con lusionLes méthodes à base d'arbres de dé ision les plus importantes sont :� CART développée par Breiman et al. en 84. Cette méthode, développée par desstatisti iens, onstruit des arbres de dé ision binaires. Cette méthode peut êtreétendue pour traiter le as d'attributs ontinus. Le ritère de Gini est utilisépour asso ier un test à un noeud. L'élagage de l'arbre se fait par estimationde l'erreur réelle en utilisant un ensemble test. La phase d'élagage peut être

2.6 Con lusion 31modi�ée pour le as d'é hantillons de plus petite taille, on utilise alors lavalidation roisée omme estimation de l'erreur réelle.� ID3 développée par Quinlan en 83, améliorée en 93 par une nouvelle versionC4.5 (voir [Qui93℄). On ne se restreint pas à des attributs binaires. Le hoixdu test asso ié à un noeud se fait à l'aide de la fon tion Gain ou de la fon -tion GainRatio basées sur la fon tion entropie. La méthode peut prendre en ompte le as où les valeurs de ertains attributs sont non spé i�ées. Elleprend également en ompte le problème des attributs ontinus. On peut hoi-sir entre arbres et règles, l'élagage se fait sur l'arbre ou sur le système derègles et se base sur une estimation de l'erreur réelle à partir de l'ensembled'apprentissage.� Signalons une dernière méthode basée sur le prin ipe MDL (Minimum Des- ription Length) de Rissanen. Cette méthode a été développée par Quinlanet Rivest [QR89℄. Elle onstruit l'arbre de dé ision qui permet de oder dela façon la plus ourte possible l'é hantillon (on ode l'arbre et les ex ep-tions). Cette méthode permet de faire des ponts intéressants entre odages etprobabilités et a des performan es satisfaisantes.Les arbres de dé ision fournissent des méthodes e�e tives qui obtiennent debons résultats dans la pratique. Les arbres de dé ision possèdent l'avantage d'être ompréhensibles par tout utilisateur (si la taille de l'arbre produit est raisonnable)et d'avoir une tradu tion immédiate en terme de règles de dé ision. Pour le systèmeà base de règles induit, les règles sont mutuellement ex lusives et l'ordre dans lequelsont examinés les attributs est �gé. Les méthodes sont non optimales : les arbresproduits ne sont pas les meilleurs. En e�et, les hoix dans la onstru tion des arbres,basées sur de nombreuses heuristiques, ne sont jamais remis en question (pas deretour en arrière (ou ba ktraking)). En�n, il est possible de modi�er les valeurs denombreux paramètres, de hoisir entre de nombreuses variantes et faire le bon hoixn'est pas toujours aisé. La taille des é hantillons in�uera sur les ritères d'élagage à hoisir (sur l'ensemble d'apprentissage, sur un ensemble test, validation roisée, : : :). En�n, omme les algorithmes présentés dans e hapitre permettent la généra-tion de systèmes à base de règles, il nous faut faire le lien ave l'appro he SystèmesExperts. Les deux appro hes � à partir de données � et � par expertise � être onsidérées omme on urrentes et omplémentaires :� L'appro he système expert peut être envisagée si l'on dispose d'une expertisesu�sante dans le domaine d'appli ation visé et si ette expertise est forma-lisable en terme de règles. La taille du domaine d'appli ation doit être biendélimitée. L'expérien e a prouvé que la maintenan e et l'évolution des sys-tèmes experts était une tâ he di� ile.� Les méthodes d'apprentissage sont utilisés dans des domaines où les expertsn'arrivent pas à dégager les règles qu'ils utilisent (et d'ailleurs, en utilisent-ils?). Les règles sont générées à partir de données (souvent des données histo-riques pour le problème).� Mais il arrive également que es deux appro hes soient utilisées onjointement :des experts seront souvent de bon onseil pour dégager les attributs pertinentsrelativement à un problème donné ; dans ertains as, des systèmes d'appren-tissage produiront automatiquement des règles qui pourront être dire tementinsérés dans un système expert.

Chapitre 3Apprentissage automatique : lesréseaux de neurones3.1 Introdu tionComment l'homme fait-il pour raisonner, parler, al uler, apprendre, : : : ? Com-ment s'y prendre pour réer une ou de l'intelligen e arti� ielle? Deux types d'ap-pro hes ont été essentiellement explorées :� pro éder d'abord à l'analyse logique des tâ hes relevant de la ognition hu-maine et tenter de les re onstituer par programme. C'est ette appro he quia été privilégiée par l'Intelligen e Arti� ielle et la psy hologie ognitive las-siques. Cette démar he est étiquetée sous le nom de ognitivisme.� puisque la pensée est produite par le erveau ou en est une propriété, om-men er par étudier omment elui- i fon tionne. C'est ette appro he qui a onduit à l'étude de réseaux de neurones formels. On désigne par onnexion-nisme la démar he onsistant à vouloir rendre ompte de la ognition humainepar des réseaux de neurones.La se onde appro he a don menée à la dé�nition et l'étude de réseaux de neu-rones formels qui sont des réseaux omplexes d'unités de al ul élémentaire inter- onne tées. Il existe deux ourants de re her he sur les réseaux de neurones : unpremier motivé par l'étude et la modélisation des phénomènes naturels d'appren-tissage à l'aide de réseaux de neurones, la pertinen e biologique est importante ; unse ond motivé par l'obtention d'algorithmes e� a es ne se préo upant pas de lapertinen e biologique. Nous nous plaçons du point de vue du se ond groupe. Ene�et, bien que les réseaux de neurones formels aient été dé�nis à partir de onsi-dérations biologiques, pour la plupart d'entre eux, et en parti ulier eux étudiésdans e ours, de nombreuses ara téristiques biologiques (le temps, la mémoire,...) ne sont pas prises en ompte. Toutefois, nous donnons, dans la suite de etteintrodu tion, un bref aperçu de quelques propriétés élémentaires de neurophysio-logie qui permettent au le teur de relier neurones réels et neurones formels. Nousdonnons ensuite un rapide historique des réseaux de neurones. En�n, nous donnonsune lassi� ation des di�érents types de réseau et les prin ipales appli ations.3.1.1 Quelques éléments de physiologie du erveauLa physiologie du erveau montre que elui- i est onstitué de ellules (les neu-rones) inter onne tées. Quelques étapes de ette dé ouverte :� Van Leuwenhook (1718) : première des ription �dèle de e qu'on appellera

34 Apprentissage automatique : les réseaux de neuronesplus tard les axones,� Dutro het (1824) : observation du orps ellulaire des neurones� Valentin : dé ouverte des dendrites,� Deiters (1865) : image a tuelle de la ellule nerveuse� Sherington (1897) : les synapses,� les neuro-transmetteurs (première moitié du siè le).

Axone

Cellule

Dendrites

Synapses

Direction de l’impulsion

Fig. 3.1 � Les neurones s hématisésLes neurones reçoivent les signaux (impulsions éle triques) par des extensionstrès rami�ées de leur orps ellulaire (les dendrites) et envoient l'information par delongs prolongements (les axones). Les impulsions éle triques sont régénérées pendantle par ours le long de l'axone. La durée de haque impulsion est de l'ordre d'1 mset son amplitude d'environ 100 mvolts.Les onta ts entre deux neurones, de l'axone à une dendrite, se font par l'in-termédiaire des synapses. Lorsqu'un potentiel d'a tion atteint la terminaison d'unaxone, des neuromédiateurs sont libérés et se lient à des ré epteurs post-synaptiquesprésents sur les dendrites. L'e�et peut être ex itateur ou inhibiteur.Chaque neurone intègre en permanen e jusqu'à un millier de signaux synap-tiques. Ces signaux n'opèrent pas de manière linéaire (e�et de seuil).Quelques informations en vra :� le erveau ontient environ 100 milliards de neurones.� on ne dénombre que quelques dizaines de atégories distin tes de neurones.� au une atégorie de neurones n'est propre à l'homme ( ela serait trop beau !).� la vitesse de propagation des in�ux nerveux est de l'ordre de 100m/s. C'està dire bien inférieure à la vitesse de transmission de l'information dans un ir uit éle tronique.� on ompte de quelques entaines à plusieurs dizaines de milliers de onta tssynaptiques par neurone. Le nombre total de onnexions est estimé à environ1015.

3.1 Introdu tion 35� la onne tique du erveau ne peut pas être odée dans un � do ument bio-logique � tel l'ADN pour de simples raisons ombinatoires. La stru ture du erveau provient don en partie des onta ts ave l'environnement. L'appren-tissage est don indispensable à son développement.� le nombre de neurones dé roit après la naissan e. Cependant, ette a�rmationsemble remise en question.� on observe par ontre une grande plasti ité de l'axone, des dendrites et des onta ts synaptiques. Celle- i est surtout très importante après la naissan e(on a observé hez le hat un a roissement des onta ts synaptiques dequelques entaines à 12000 entre le 10ème et le 35ème jour). Cette plasti- ité est onservée tout au long de l'existen e.� les synapses entre des neurones qui ne sont pas simultanément a tifs sonta�aiblis puis éliminés.� il semble que l'apprentissage se fasse par un double mé anisme : des onne -tions sont établies de manière redondantes et aléatoires puis seules les onnexionsentre des neurones simultanément a tifs sont onservés (phase de séle tion)tandis que les autres sont éliminés. On parle de stabilisation séle tive.Nous onseillons sur le sujet deux livres a essibles au profane et passionnants :L'homme neuronal de Jean-Pierre Changeux et La biologie de la ons ien e deGerald Edelman. Pour un survol de quelques pages, voir [Kor97℄. Pour eux quel'anglais n'e�raie pas et qui aiment les bandes dessinées, voir [GZ98℄. Les re her hessur la physiologie du erveau sont a tuellement très a tives.3.1.2 Le onnexionnisme et les réseaux de neurones formelsLa question fondamentale du onnexionnisme est : omment rendre ompte des pro essus ognitifs à partir d'un ensembled'unités, dotées ha unes d'une faible puissan e de al ul et inter on-ne tées en réseau?La dé�nition de réseaux de neurones formels et l'expérimentation menée sur esréseaux permettent d'étudier et de tester ette hypothèse. Citons quelques étapesdans la formalisation des réseaux de neurones :� Première dé�nition d'un neurone formel par M Cullo h et Pitts en 1943� Les per epts ou on epts sont physiquement représentés dans le erveau parl'entrée en a tivité (simultanée) d'une assemblée de neurones (Donald Hebb,1949). L'hypothèse on urrente est la spé ialisation de ertains neurones dansdes tâ hes ognitives omplexes ( f le fameux neurone � grand-mère �).� deux neurones entrant en a tivité simultanément vont être asso iés ( 'est-à-dire que leur onta ts synaptiques vont être renfor és). On parle de loi deHebb et d'asso iationnisme� Le per eptron de Frank Rosenblatt (1958) : le premier modèle pour lequel unpro essus d'apprentissage a pu être dé�ni. De ette période, date égalementles travaux de Widrow et Ho�.� Le livre de Minski et Papert "Per eptrons" (1969). Cet ouvrage ontient uneétude ritique très omplète des per eptrons. On lui repro he parfois violem-ment d'avoir sonné le glas des re her hes sur les réseaux neuronaux dans lesannées 70, e que nient leurs auteurs. Ce livre a été réédité en 1980, ave desajouts et orre tions manus rites dans les marges, sans doute pour qu'on nepuisse pas les a user de amou�er la première version du texte !

36 Apprentissage automatique : les réseaux de neurones� l'algorithme de rétropropagation du gradient dans les réseaux multi- ou hesdé ouvert au début des années 80 par Rumelhart et M Clelland, Parker, Hin-ton, Le Cun. Les � inventeurs � sont nombreux ar l'idée de des ente degradient est naturelle. La plupart de es travaux étaient asso iés à des étudesempiriques montrant la puissan e du modèle.� le modèle de Hop�eld (1982) qui utilise des réseaux totalement onne tés baséssur la règle de Hebb qui ont permis de dé�nir la notion d'attra teurs et demémoire asso iative.� les artes de Kohonen (1984) ave un algorithme non supervisé basé sur l'auto-organisation.� la ma hine de Boltzman (1985), autre type de réseaux à attra teurs ave unedynamique de Monte-Carlo.3.1.3 Classi� ation des réseaux de neuronesUn réseau de neurones formels est onstitué d'un grand nombre de ellules debase inter onne tées. De nombreuses variantes sont dé�nies selon le hoix de la ellule élémentaire, de l'ar hite ture du réseau et de la dynamique du réseau.Une ellule élémentaire peut manipuler des valeurs binaires ou réelles. Les valeursbinaires sont représentées par 0 et 1 ou -1 et 1. Di�érentes fon tions peuvent êtreutilisées pour le al ul de la sortie. Le al ul de la sortie peut être déterministe ouprobabiliste.L'ar hite ture du réseau peut être sans rétroa tion, 'est à dire que la sortied'une ellule ne peut in�uen er son entrée. Elle peut être ave rétroa tion totale oupartielle.La dynamique du réseau peut être syn hrone : toutes les ellules al ulent leurssorties respe tives simultanément. La dynamique peut être asyn hrone. Dans e der-nier as, on peut avoir une dynamique asyn hrone séquentielle : les ellules al ulentleurs sorties ha une à son tour en séquen e ou avoir une dynamique asyn hronealéatoire.Par exemple, si on onsidère des neurones à sortie sto hastique -1 ou 1 al uléepar une fon tion à seuil basée sur la fon tion sigmoïde, une inter onne tion omplèteet une dynamique syn hrone, on obtient le modèle de Hop�eld et la notion demémoire asso iative.Si on onsidère des neurones déterministes à sortie réelle al ulée à l'aide de lafon tion sigmoïde, une ar hite ture sans rétroa tion en ou hes su essives ave une ou he d'entrées et une ou he de sorties, une dynamique asyn hrone séquentielle,on obtient le modèle du Per eptron multi- ou hes (PMC) qui sera étudié dans lesparagraphes suivants.3.1.4 Appli ations des réseaux de neuronesLes prin ipales appli ations des réseaux de neurones sont l'optimisation et l'ap-prentissage. En apprentissage, les réseaux de neurones sont essentiellement utiliséspour :� l'apprentissage supervisé ;� l'apprentissage non supervisé ;� l'apprentissage par renfor ement.Pour es trois types d'apprentissage, il y a également un hoix traditionnel entre :� l'apprentissage � o�-line � : toutes les données sont dans une base d'exemplesd'apprentissage qui sont traités simultanément ;� l'apprentissage � on-line � : Les exemples sont présentés les uns après les autresau fur et à mesure de leur disponibilité.

3.2 Le Per eptron 37Nous nous limitons, dans e ours, à l'apprentissage supervisé à partir d'unebase d'exemples. Dans e adre, l'apprentissage à l'aide de réseaux de neurones estbien adapté pour l'apprentissage à partir de données omplexes (images sur unerétine, sons, ...) mais aussi à partir de données symboliques. Les entrées peuventêtre représentées par de nombreux attributs à valeurs réelles ou symboliques, lesattributs pouvant être dépendants ou non. La ou les sorties peuvent être réelles oudis rètes. L'apprentissage à l'aide de réseaux de neurones est tolérant au bruit et auxerreurs. Le temps d'apprentissage peut être long, par ontre, après apprentissage,le al ul des sorties à partir d'un ve teur d'entrée est rapide. La ritique prin ipaleest que le résultat de l'apprentissage, 'est-à-dire le réseau de neurones al ulé parl'algorithme d'apprentissage, n'est pas interprétable par l'utilisateur : on ne peutpas donner d'expli ation au al ul d'une sortie sur un ve teur d'entrée. On parlede � boîte noire �. Ce i est la prin ipale di�éren e entre réseaux de neurones etarbres de dé ision. Si l'utilisateur a besoin de pouvoir interpréter le résultat del'apprentissage, il hoisira un système basé sur les arbres de dé ision, sinon les deuxméthodes sont on urrentes.Nous n'étudions que le per eptron, brique de base des modèles plus omplexes, etle per eptron multi- ou hes (PMC). L'a ent sera mis sur les algorithmes d'appren-tissage pour es deux modèles, en parti ulier sur l'algorithme de rétropropagationdu gradient appliqué aux PMC. Cet algorithme est, en e�et, le premier algorithmed'apprentissage onvain ant dans un modèle su�samment puissant et et algorithmea de nombreuses appli ations.3.2 Le Per eptronLe per eptron est un modèle de réseau de neurones ave algorithme d'appren-tissage réé par Frank Rosenblatt en 1958. La version i-dessous est simpli�ée parrapport à l'originale. Vous trouverez une des ription de ette dernière dans l'exer- i e 35.3.2.1 Dé�nition du Per eptronDé�nition 5. Un per eptron linéaire à seuil (voir �gure 3.2) prend en entrée nvaleurs x1; : : : ; xn et al ule une sortie o. Un per eptron est dé�ni par la donnée den + 1 onstantes : les oe� ients synaptiques w1; : : : ; wn et le seuil (ou le biais) �.La sortie o est al ulée par la formule :o = � 1 si Pi wixi > �0 sinonLes entrées x1; : : : ; xn peuvent être à valeurs dans f0; 1g ou réelles, les poidspeuvent être entiers ou réels. Une variante très utilisée de e modèle est de onsidérerune fon tion de sortie prenant ses valeurs dans f�1; 1g plut�t que dans f0; 1g. Ilexiste également des modèles pour lesquels le al ul de la sortie est probabiliste.Dans la suite de ette partie sur le per eptron, nous onsidérerons toujours le modèledéterministe ave une sortie al ulée dans f0; 1g.Pour simpli�er les notations et ertaines preuves, nous allons rempla er le seuilpar une entrée supplémentaire x0 qui prend toujours omme valeur d'entrée lavaleur x0 = 1. À ette entrée est asso iée un oe� ient synaptique w0. Le modèle orrespondant est dé rit dans la �gure 3.3. On peut dé omposer le al ul de la sortieo en un premier al ul de la quantité �iwixi appelée potentiel post-synaptique oul'entrée totale suivi d'une appli ation d'une fon tion d'a tivation sur ette entrée

38 Apprentissage automatique : les réseaux de neuronesx1x2xn

w1w2 �wn o = 1 si Pn1 wixi > �o = 0 sinon

Fig. 3.2 � Le per eptron ave seuiltotale. La fon tion d'a tivation est la fon tion de Heaviside dé�nie par :f(x) = � 1 x > 00 sinonx2xn

w1w2wn � Hw0x1 o = 1 si Pn0 wixi > 0o = 0 sinonPn0 wixix0=1

Fig. 3.3 � Le per eptron ave entrée supplémentaireBien que onsidérant une entrée supplémentaire x0, un per eptron est toujours onsidéré omme asso iant une sortie o aux n entrées x1; : : : ; xn. L'équivalen e entrele modèle ave seuil et le modèle ave entrée supplémentaire à 1 est immédiate : le oe� ient w0 est l'opposé du seuil �. Nous onsidérerons toujours e dernier modèlede per eptron linéaire à seuil par la suite.Pour passer du modèle ave sorties à valeurs dans f0; 1g au modèle à valeursdans f�1; 1g, il su�t de rempla er la fon tion de Heaviside f par la fon tion gdé�nie par : g(x) = 2f(x) � 1. D'autres fon tions d'a tivation peuvent égalementêtre utilisées.Exemple 10. Un per eptron qui al ule le OU logique ave les deux versions : seuilou entrée supplémentaire est présenté dans la �gure 3.4.On voit que quelques uns des traits prin ipaux des neurones réels ont été retenusdans la dé�nition du per eptron : les entrées modélisent les dendrites, les impulsions

3.2 Le Per eptron 39x1x2

w1=1w2=1�=0.5o = x1 _ x2 x2

x1 w2=1 o = x1 _ x2w1=1 w0=-0.5x0=1Fig. 3.4 � per eptrons qui al ulent le OUen entrée sont pondérées par les oe� ients synaptiques et l'impulsion émise, 'est-à-dire la sortie, obéit à un e�et de seuil (pas d'impulsion si l'entrée totale est tropfaible).Un per eptron à n entrées réelles (respe tivement binaires) est une fon tionde Rn (respe tivement f0; 1gn) dans f0; 1g. Si l'on veut faire le lien ave les ha-pitres pré édents, on peut voir les neurones d'entrées omme dé rivant un espa ede des ription ave des attributs réels (respe tivement binaires) et le per eptron omme une pro édure de lassi� ation binaire ( 'est-à-dire en deux lasses) sur etespa e. Un système d'apprentissage à base de per eptrons doit générer, à partird'un ensemble d'apprentissage, une hypothèse qui est un per eptron. Nous nous in-téressons, dans la se tion suivante, à et espa e d'hypothèses, 'est-à-dire à l'étudedes fon tions al ulables par per eptron.3.2.2 Interprétation géométrique et limitationsDé�nition 6. Soit S un ensemble d'exemples dans Rn�f0; 1g. On note S0 = fs 2Rnj(s; 0) 2 Sg et S1 = fs 2 Rnj(s; 1) 2 Sg. On dit que S est linéairement séparables'il existe un hyperplan H de Rn tel que les ensembles S0 et S1 soient situés de partet d'autre de et hyperplan.Théorème 2. Un per eptron linéaire à seuil à n entrées divise l'espa e des entréesRn en deux sous-espa es délimités par un hyperplan. Ré iproquement, tout ensemblelinéairement séparable peut être dis riminé par un per eptron.Démonstration : Il su�t pour s'en onvain re de se rappeler que l'équation d'unhyperplan dans un espa e de dimension n est de la forme :�1x1 + : : :+ �nxn = �Un per eptron est don un dis riminant linéaire. On montre fa ilement qu'uné hantillon de Rn est séparable par un hyperplan si et seulement si l'é hantillonde Rn+1 obtenu en rajoutant une entrée toujours égale à 1 est séparable par unhyperplan passant par l'origine.Toute fon tion de Rn dans f0; 1g est-elle al ulable par per eptron? La réponseest évidemment non. De même, toute fon tion booléenne peut-elle être al ulée parun per eptron? La réponse est également non. Le ontre-exemple le plus simple estle � OU ex lusif � (XOR) sur deux variables.Théorème 3. Le XOR ne peut pas être al ulé par un per eptron linéaire à seuil.Démonstration :

40 Apprentissage automatique : les réseaux de neuronesDémonstration algébrique : Supposons qu'il existe un per eptron dé�ni parles oe� ients synaptiques (w0; w1; w2) al ulant le XOR sur deux entrées boo-léennes x1 et x2. On devrait avoir :w0 + 0w1 + 0w2 = w0 � 0 (3.1)w0 + 0w1 + 1w2 = w0 + w2 > 0 (3.2)w0 + 1w1 + 0w2 = w0 + w1 > 0 (3.3)w0 + 1w1 + 1w2 = w0 + w1 + w2 � 0 (3.4)Il su�t d'additionner l'équation 3.1 et l'équation 3.4 d'une part, l'équation 3.2et l'équation 3.3 d'autre part pour se rendre ompte que l'hypothèse est absurde.Démonstration géométrique : on � voit � bien qu'au une droite ne peutséparer les points de oordonnées (0,0) et (1,1) des points de oordonnées (0,1) et(1,0) (voir Figure 3.5). Si on onsidère une entrée x0 = 1, il n'existe pas de planpassant par l'origine qui sépare les points de oordonnées (1,0,0) et (1,1,1) des pointsde oordonnées (1,0,1) et (1,1,0).1

(0,1) (1,1)

0

1 0

(1,0)(0,0)Fig. 3.5 � Comment trouver une droite séparant les points (0,0) et (1,1) des points(0,1) et (1,0)?3.2.3 Algorithme d'apprentissage par orre tion d'erreurPrésentation de l'algorithmeÉtant donné un é hantillon d'apprentissage S de Rn � f0; 1g (respe tivementf0; 1gn�f0; 1g), 'est-à-dire un ensemble d'exemples dont les des riptions sont surn attributs réels (respe tivement binaires) et la lasse est binaire, il s'agit de trouverun algorithme qui infère à partir de S un per eptron qui lassi�e orre tement leséléments de S au vu de leurs des riptions si 'est possible ou au mieux sinon.Exemple 11. Pour apprendre la notion de hi�re pair ou impair, on peut onsidé-rer un é hantillon omposé des 10 hi�res é rits sur une rétine à 7 leds.En représentant haque hi�re par le symbole qui le désigne habituellement, uné hantillon d'apprentissage omplet est :S = f(1111110; 0), (0110000; 1), (1101101; 0), (1111001; 1), (0010011; 0), (1011011; 1),(0011111; 0), (1110000; 1), (1111111; 0), (1111011; 1)g. Le but sera d'inférer, à partirde S, un per eptron qui prend ses entrées dans f0; 1g7 et qui retourne la lasse 0 sile ve teur d'entrée orrespond à un hi�re pair et 1 sinon. Sur et exemple, l'é han-tillon S est omplet (toutes les entrées possibles sont dé rites). Il est fréquent, pourles problèmes on rets, d'avoir un é hantillon non omplet.

3.2 Le Per eptron 41l1

l2l7

l3

l4

l5

l6

Fig. 3.6 � Les 10 hi�res sur une rétine à 7 ledsL'algorithme d'apprentissage peut être dé rit su in tement de la manière sui-vante. On initialise les poids du per eptron à des valeurs quel onques. A haque foisque l'on présente un nouvel exemple, on ajuste les poids selon que le per eptron l'a orre tement lassé ou non. L'algorithme s'arrête lorsque tous les exemples ont étéprésentés sans modi� ation d'au un poids.Dans la suite, nous noterons ~x une des ription qui sera un élément de Rn ouf0; 1gn. La i-ème omposante de ~x sera notée xi. Un é hantillon S est un ensemblede ouples (~x; ) où est la lasse de ~x. Lorsqu'il sera utile de désigner un élémentparti ulier de S, nous noterons (~xs; s) le s-ième élément de S. xsi désignera la i-ème omposante du ve teur d'entrée ~xs. Si une entrée ~xs est présentée en entréed'un per eptron, nous noterons os la sortie binaire al ulée par le per eptron. Nousrappelons qu'il existe une n+ 1-ième entrée x0 de valeur 1 pour le per eptron.L'algorithme d'apprentissage par orre tion d'erreur du per eptron linéaire àseuil est :Algorithme par orre tion d'erreur:Entrée : un é hantillon S de Rn � f0; 1g ou f0; 1gn � f0; 1gInitialisation aléatoire des poids wi pour i entre 0 et nRépéterPrendre un exemple (~x; ) dans SCal uler la sortie o du per eptron pour l'entrée ~x- - Mise à jour des poids - -Pour i de 0 à nwi wi + ( � o)xi�npour�nRépéterSortie : Un per eptron P dé�ni par (w0; w1; : : : ; wn)La pro édure d'apprentissage du per eptron est une pro édure de orre tiond'erreur puisque les poids ne sont pas modi�és lorsque la sortie attendue est égaleà la sortie al ulée o par le per eptron ourant. Étudions les modi� ations sur lespoids lorsque di�ère de o :� si o = 0 et = 1, ela signi�e que le per eptron n'a pas assez pris en ompteles neurones a tifs de l'entrée ( 'est-à-dire les neurones ayant une entrée à 1) ;dans e as, wi wi+xi ; l'algorithme ajoute la valeur de la rétine aux poidssynaptiques (renfor ement).

42 Apprentissage automatique : les réseaux de neurones� si o = 1 et = 0, alors wi wi � xi ; l'algorithme retran he la valeur de larétine aux poids synaptiques (inhibition).Remarquons que, en phase de al ul, les onstantes du per eptron sont les poidssynaptiques alors que les variables sont les entrées. Tandis que, en phase d'appren-tissage, e sont les oe� ients synaptiques qui sont variables alors que les entréesde l'é hantillon S apparaissent omme des onstantes.Certains éléments importants ont été laissés volontairement impré is. En premierlieu, il faut pré iser omment est fait le hoix d'un élément de S : aléatoirement?En suivant un ordre prédé�ni? Doivent-ils être tous présentés? Le ritère d'arrêtde la bou le prin ipale de l'algorithme n'est pas dé�ni : après un ertain nombred'étapes? Lorsque tous les exemples ont été présentés? Lorsque les poids ne sontplus modi�és pendant un ertain nombre d'étapes? Nous reviendrons sur toutes esquestions par la suite. Tout d'abord, examinons le omportement de l'algorithmesur deux exemples :Exemple 12. Apprentissage du OU : les des riptions appartiennent à f0; 1g2,les entrées du per eptron appartiennent à f0; 1g3, la première omposante orres-pond à l'entrée x0 et vaut toujours 1, les deux omposantes suivantes orrespondentaux variables x1 et x2 . On suppose qu'à l'initialisation, les poids suivants ont été hoisis : w0 = 0 ; w1 = 1 et w2 = �1. On suppose que les exemples sont présentésdans l'ordre lexi ographique.étape w0 w1 w2 Entrée �20wixi o w0 w1 w2init 0 1 -11 0 1 -1 100 0 0 0 0+0x1 1+0x0 -1+0x02 0 1 -1 101 -1 0 1 0+1x1 1+1x 0 -1+1x13 1 1 0 110 2 1 1 1 1 04 1 1 0 111 2 1 1 1 1 05 1 1 0 100 1 1 0 1+(-1)x1 1+(-1)x0 0+(-1)x06 0 1 0 101 0 0 1 0+1x1 1+1x0 0+1x17 1 1 1 110 2 1 1 1 1 18 1 1 1 111 3 1 1 1 1 19 1 1 1 100 1 1 0 1+(-1)x1 1+(-1)x0 1 +(-1)x010 0 1 1 101 1 1 1 0 1 1Au une entrée ne modi�e le per eptron à partir de ette étape. Vous pouvezaisément véri�er que e per eptron al ule le OU logique sur les entrées x1 et x2.Exemple 13. Apprentissage d'un ensemble linéairement séparable : les des- riptions appartiennent à R2, le on ept ible est dé�ni à l'aide de la droite d'équa-tion y = x=2. Les ouples (x; y) tels que y > x=2 sont de lasse 1 ; Les ouples(x; y) tels que y � x=2 sont de lasse 0. L'é hantillon d'entrée est S = f((0; 2); 1),((1; 1); 1), ((1; 2:5); 1), ((2; 0); 0), ((3; 0:5); 0)g. On suppose qu'à l'initialisation, lespoids suivants ont été hoisis : w0 = 0 ; w1 = 0 et w2 = 0. On hoisit de présentertous les exemples en alternant exemple positif (de lasse 1) et exemple négatif.étape w0 w1 w2 Entrée �20wixi o w0 w1 w2init 0 0 01 0 0 0 (1,0,2) 0 0 1 1 0 22 1 0 2 (1,2,0) 1 1 0 0 -2 23 0 -2 2 (1,1,1) 0 0 1 1 -1 34 1 -1 3 (1,3,0.5) -0.5 0 0 1 -1 35 1 -1 3 (1,1,2.5) 7.5 1 1 1 -1 3Au une entrée ne modi�e le per eptron à partir de ette étape ar e per eptron lassi�e orre tement tous les exemples de S. Le per eptron de sortie asso ie la lasse 1 aux ouples (x; y) tels que y > x=3� 1=3.

3.2 Le Per eptron 43

x’

y+

+

+

-

-

y=x/3-1/3

y=x/2

y’

x1

1

Fig. 3.7 � é hantillon S ; hyperplans séparateurs ible et apprisDans les deux exemples, l'é hantillon d'apprentissage est un ensemble linéaire-ment séparable. Lors de la phase d'apprentissage, tous les exemples sont présen-tés jusqu'à la onvergen e, 'est-à-dire jusqu'à e qu'une présentation omplète desexemples n'entraîne au une modi� ation de l'hypothèse en ours. Nous démontrons,dans la se tion suivante, que e i est un résultat général.Théorème d'apprentissage par orre tion d'erreurThéorème 4. Si l'é hantillon S est linéairement séparable et si les exemples sontprésentés équitablement ( 'est-à-dire que la pro édure de hoix des exemples n'enex lut au un), la pro édure d'apprentissage par orre tion d'erreur onverge vers unper eptron linéaire à seuil qui al ule S.Démonstration :Soit un é hantillon d'entrée sur n variables réelles (le as de variables binairess'en déduit), soit S l'é hantillon obtenu en ajoutant une n+1-ième entrée x0 toujourségale à 1, par hypothèse l'é hantillon est linéairement séparable, don il existe unhyperplan de Rn+1 passant par l'origine qui sépare S, soit en ore, il existe un ve teur~v = (v0; : : : ; vn) de Rn+1 tel que :8(~x; 1) 2 S ~x:~v = nXi=0 xivi > 0 et 8(~x; 0) 2 S ~x:~v < 0 (3.5)Comme S est �ni, ela implique qu'il existe un réel d stri tement positif tel que :8(~x; 1) 2 S ~x:~v > d et 8(~x; 0) 2 S ~x:~v < �d (3.6)Soit ~w0 le ve teur des poids synaptiques hoisi à l'initialisation de l'algorithme,soit (~wi)i2I la suite des valeurs su essives di�érentes des ve teurs de poids au ours de l'exé ution de l'algorithme, 'est-à-dire que l'on suppose que, pour touti, ~wi 6= ~wi+1 (le le teur remarquera qu'il se peut que le ve teur ~wi reste in hangépour un ertain nombre d'exemples). Supposons que l'algorithme d'apprentissage

44 Apprentissage automatique : les réseaux de neuronesne s'arrête pas, la présentation des exemples étant équitable, e i implique qu'il ya une in�nité de ~wi. Nous allons montrer que ette hypothèse est absurde.Soit M un majorant de f~x2 j (~x; ) 2 Sg, nous allons al uler des bornes pour~w2i et ~wi:~v. Lors du passage de ~wi à ~wi+1, deux as peuvent se produire :premier as : l'exemple (~x; ) véri�e = 1 et la sortie al ulée sur ette entrée parle per eptron ourant est o = 0. o = 0 don ~x:~wi � 0 ; = 1 don ~x:~v > 0.D'après la règle de mise à jour des poids, on a ~wi+1 = ~wi + ~x. On en déduitque :� ~w2i+1 = (~wi + ~x)2 = ~w2i + 2~x:~wi + ~x2 � ~w2i + ~x2 � ~w2i +M ;� ~wi+1:~v = (~wi + ~x):~v = ~wi:~v + ~x:~v > ~wi:~v + d.soit ~w2i+1 � ~w2i +M et ~wi+1:~v > ~wi:~v + d (3.7)deuxième as : l'exemple (~x; ) véri�e = 0 et la sortie al ulée sur ette entréepar le per eptron ourant est o = 1. o = 1 don ~x:~wi > 0 ; = 0 don ~x:~v � 0.D'après la règle de mise à jour des poids, on a ~wi+1 = ~wi � ~x. On montre demême que : ~w2i+1 < ~w2i +M et ~wi+1:~v � ~wi:~v + d (3.8)Par onséquent, à l'aide des inégalités 3.7 et 3.8, nous déduisons que, pour touti � 0, on a : ~w2i+1 � ~w2i +M et ~wi+1:~v � ~wi:~v + d (3.9)D'où, pour tout i � 1, nous obtenons :~w2i � ~w20 + iM et ~wi:~v � ~w0:~v + id (3.10)Comme d > 0, il existe un entier i0 tel que , pour tout i � i0, ~w0:~v + id > 0, enutilisant les inégalités de 3.10, nous obtenons que, pour tout i � i0,(~w0:~v + id)2 � (~wi:~v)2 = ~w2i ~v2 � (~w20 + iM)~v2 (3.11)Cette inégalité nous amène à la ontradi tion re her hée. En e�et, le terme degau he est un polyn�me de degré 2 en i majoré par le terme de droite qui est linéaireen i.Critiques sur la méthode par orre tion d'erreurNous venons de démontrer que si l'é hantillon est linéairement séparable, si tousles exemples sont présentés équitablement et que le ritère d'arrêt est la stabilitéde l'hypothèse après une présentation omplète de l'é hantillon alors l'algorithmes'arrête ave un per eptron qui lassi�e orre tement l'é hantillon d'apprentissage.Que se passe-t-il si l'é hantillon d'entrée n'est pas linéairement séparable? L'in- onvénient majeur de et algorithme est que si l'é hantillon présenté n'est pas li-néairement séparable, l'algorithme ne onvergera pas et l'on aura au un moyen dele savoir. On pourrait penser qu'il su�t d'observer l'évolution des poids synaptiquespour en déduire si l'on doit arrêter ou non l'algorithme. En e�et, si les poids et le

3.2 Le Per eptron 45seuil prennent deux fois les mêmes valeurs sans que le per eptron ait appris et alorsque tous les exemples ont été présentés, ela signi�e d'après le théorème pré édentque l'é hantillon n'est pas séparable. Et l'on peut penser que l'on peut borner lespoids et le seuil en fon tion de la taille de la rétine. C'est vrai mais les résultats de omplexité énon és i-dessous (sans démonstration) montrent que ette idée n'estpas appli able en pratique.Théorème 5. 1. Toute fon tion booléenne linéairement séparable sur n variablespeut être implantée par un per eptron dont les poids synaptiques entiers wi sonttels que dwie � (n+ 1)n+12 .2. Il existe des fon tion booléennes linéairement séparables sur n variables quirequièrent des poids entiers supérieurs à 2n+12 .Ces résultats sont assez dé evants. Le premier montre que l'on peut borner lespoids synaptiques en fon tion de la taille de la rétine, mais par un nombre tellementgrand que toute appli ation pratique de e résultat semble ex lue. Le se ond résultatmontre en parti ulier que l'algorithme d'apprentissage peut né essiter un nombreexponentiel d'étapes (en fon tion de la taille de la rétine) avant de s'arrêter. Ene�et, les poids ne varient qu'au plus d'une unité à haque étape.Même lorsque l'algorithme d'apprentissage du per eptron onverge, rien ne ga-rantit que la solution sera robuste, 'est-à-dire qu'elle ne sera pas remise en ausepar la présentation d'un seul nouvel exemple. Pour s'en persuader, il su�t de sereporter à l'exemple 13. Supposons qu'on ajoute l'exemple ((3; 1); 0), et exempleremet en ause l'hypothèse générée ar le per eptron sorti par notre algorithmeasso ie la lasse 1 à la des ription (3; 1). Un � bon � algorithme d'apprentissage de-vrait produire une solution robuste. Graphiquement, si on onsidère un é hantillonlinéairement séparable, une solution robuste serait � à mi- hemin � entre les pointsde lasse 1 et de lasse 0 omme le montre la Figure 3.8.x

x

x

x

xx

xx

xx

o

o o

o

o

o

oo

oo

o

solution plus robuste

solution fragile

o

nouvel exempleFig. 3.8 � Un nouvel exemple peut remettre en ause le per eptron appris.Pire en ore, et algorithme n'a au une toléran e au � bruit � : si du bruit, 'est-à-dire une information mal lassée, vient perturber les données d'entrée, le per eptronne onvergera jamais. En e�et, des données linéairement séparables peuvent ne plusl'être à ause du bruit. En parti ulier, les problèmes non-déterministes, 'est-à-direpour lesquels une même des ription peut représenter des éléments de lasses dif-férentes ne peuvent pas être traités à l'aide d'un per eptron. Si on onsidère lesdonnées de l'exemple présenté dans la Figure 3.9, les données ne sont pas linéaire-ment séparables, mais un � bon � algorithme d'apprentissage pour le per eptron

46 Apprentissage automatique : les réseaux de neuronesdevrait être apable de produire un séparateur linéaire omme elui qui est pré-senté dans ette même �gure, e qui n'est pas le as de l'algorithme par orre tiond'erreur.x

x

x

x

xx

xx

xx

o

ooo

oo

o

o

oo

x

o

solutionattendue

Fig. 3.9 � Apprentissage en présen e de bruitLe but des se tions suivantes est de présenter des algorithmes d'apprentissagedu per eptron qui produisent des solutions robustes pour des é hantillons linéai-rement séparables et des solutions � approximatives � pour des é hantillons nonlinéairement séparables.3.2.4 Apprentissage par des ente de gradientIntrodu tionPlut�t que d'obtenir un per eptron qui lassi�e orre tement tous les exemples,il s'agira maintenant de al uler une erreur et d'essayer de minimiser ette erreur.Pour introduire ette notion d'erreur, on utilise des poids réels et on élimine lanotion de seuil (ou d'entrée supplémentaire), e qui signi�e que la sortie sera égaleau potentiel post-synaptique et sera don réelle.Dé�nition 7. Un per eptron linéaire prend en entrée un ve teur ~x de n valeursx1; : : : ; xn et al ule une sortie o. Un per eptron est dé�ni par la donnée d'unve teur ~w de n onstantes : les oe� ients synaptiques w1; : : : ; wn. La sortie o estdé�nie par : o = ~x:~w = nXi=1 wixi (3.12)L'erreur d'un per eptron P dé�ni par ~w = (w1; : : : ; wn) sur un é hantillon d'ap-prentissage S d'exemples (~xs; s) est dé�nie en utilisant la fon tion erreur quadra-tique par : E(~w) = 1=2 X(~xs; s)2S( s � os)2 (3.13)où os est la sortie al ulée par P sur l'entrée ~xs. L'erreur mesure don l'é art entreles sorties attendue et al ulée sur l'é hantillon omplet. On remarque que E(~w) = 0si et seulement si le per eptron lassi�e orre tement l'é hantillon omplet.

3.2 Le Per eptron 47On suppose S �xé, le problème est don de déterminer un ve teur ~w qui mini-mise E(~w). Une méthode qui permet de re her her le minimum d'une fon tion estd'utiliser la méthode du gradient. Cette méthode est rappelée maintenant :Méthode du gradientSoit f une fon tion d'une variable réelle à valeurs réelles, su�samment dérivabledont on re her he un minimum. La méthode du gradient onstruit une suite xn quidoit en prin ipe s'appro her du minimum. Pour ela, on part d'une valeur quel- onque x0 et l'on onstruit la suite ré urrente par : pour tout n > 0, xn+1 = xn+�xnave �xn = ��f 0(xn) où � est une valeur � bien � hoisie.On a : f(xn+1) = f(xn � �f 0(xn)) � f(xn) � �(f 0(xn))2 d'après le théorèmedes approximations �nies si �f 0(xn) est � su�samment � petit. On voit que, sousréserve de la orre tion de l'approximation, f(xn+1) est inférieur à f(xn).

xn

f(xn)

xn+1

f’(x )<0 n

y = f(x)

x

y

Fig. 3.10 � La méthode du gradientOn remarque que xn+1 est d'autant plus éloigné de xn que la pente de la ourbeen xn est grande. On peut dé ider d'arrêter l'itération lorsque ette pente est su�-samment faible. Les in onvénients bien onnus de ette méthode sont :1. le hoix de � est empirique,2. si � est trop petit, le nombre d'itérations peut être très élevé,3. si � est trop grand, les valeurs de la suite risquent d'os iller autour du minimumsans onverger,4. rien ne garantit que le minimum trouvé est un minimum global.Algorithme d'apprentissage par des ente de gradientE est une fon tion des n variables wi. La méthode du gradient a été rappeléedans le as d'une variable réelle, mais ette méthode peut être étendue au as defon tions de plusieurs variables réelles. Pour mettre en oeuvre la méthode appliquéeà la fon tion erreur quadratique E, nous allons, tout d'abord, évaluer la dérivéepartielle de E par rapport à wi, pour tout i. On a :

48 Apprentissage automatique : les réseaux de neurones�E(~w)�wi = ��wi 12XS ( s � os)2= 12XS ��wi ( s � os)2= 12XS 2( s � os) ��wi ( s � os)=XS ( s � os) ��wi ( s � ~w:~xs)=XS ( s � os)(�xsi )où xsi est la ième omposante du ve teur ~xs. L'appli ation de la méthode dugradient nous invite don à modi�er le poids wi après une présentation omplète deS d'une quantité �wi dé�nie par :�wi = �� E(~w)�wi = �XS ( s � os)xsi (3.14)L'algorithme d'apprentissage par des ente de gradient du per eptron linéairepeut maintenant être dé�ni :Algorithme par des ente de gradient :Entrée : un é hantillon S de Rn � f0; 1g ; �Initialisation aléatoire des poids wi pour i entre 1 et nRépéterPour tout i �wi 0 �nPourPour tout exemple (~xs; s) de S al uler la sortie osPour tout i �wi �wi + �( s � os)xsi �nPour�nPourPour tout i wi wi +�wi �nPour�nRépéterSortie : Un per eptron P dé�ni par (w1; : : : ; wn)La fon tion erreur quadratique ne possède qu'un minimum (la surfa e est uneparaboloïde). L'algorithme pré édent est assuré de onverger, même si l'é hantillond'entrée n'est pas linéairement séparable, vers un minimum de la fon tion erreurpour un � bien hoisi su�samment petit. Si � est trop grand, on risque d'os illerautour du minimum. Pour ette raison, une modi� ation lassique est de diminuergraduellement la valeur de � en fon tion du nombre d'itérations. Le prin ipal défautest que la onvergen e peut être très lente et que haque étape né essite le al ulsur tout l'ensemble d'apprentissage.Algorithme d'apprentissage de Widrow-Ho�Cet algorithme est une variante très utilisée de l'algorithme pré édent. Au lieude al uler les variations des poids en sommant sur tous les exemples de S, l'idéeest de modi�er les poids à haque présentation d'exemple. La règle de modi� ationdes poids donnée dans l'équation 3.14 devient :�wi = �( s � os)xsi (3.15)

3.2 Le Per eptron 49Cette règle est appelée règle delta, ou règle Adaline, ou en ore règle de Widrow-Ho� d'après le nom de ses inventeurs. L'algorithme s'é rit alors :Algorithme de Widrow-Ho� :Entrée : un é hantillon S de Rn � f0; 1g ; �Initialisation aléatoire des poids wi pour i entre 1 et nRépéterPrendre un exemple (~x; ) dans SCal uler la sortie o du per eptron pour l'entrée ~x- - Mise à jour des poids - -Pour i de 1 à nwi wi + �( � o)xi�npour�nRépéterSortie : Un per eptron P dé�ni par (w0; w1; : : : ; wn)En général, on par ourt l'é hantillon dans un ordre prédé�ni. Le ritère d'ar-rêt généralement hoisi est : pour un passage omplet de l'é hantillon, toutes lesmodi� ations de poids sont en dessous d'un seuil prédé�ni.Au oe� ient � près dans la règle de modi� ation des poids, on retrouve l'algo-rithme d'apprentissage par orre tion d'erreur. Pour l'algorithme de Widrow-Ho�,il y a orre tion haque fois que la sortie totale (qui est un réel) est di�érente de lavaleur attendue (égale à 0 ou 1). Ce n'est don pas une méthode d'apprentissage par orre tion d'erreur puisqu'il y a modi� ation du per eptron dans (presque) tous les as. Rappelons également que l'algorithme par orre tion d'erreur produit en sortieun per eptron linéaire à seuil alors que l'algorithme par des ente de gradient pro-duit un per eptron linéaire. L'avantage de l'algorithme de Widrow-Ho� par rapportà l'algorithme par orre tion d'erreur est que, même si l'é hantillon d'entrée n'estpas linéairement séparable, l'algorithme va onverger vers une solution � optimale �(sous réserve du bon hoix du paramètre �). L'algorithme est, par onséquent, plusrobuste au bruit (voir Figure 3.9).L'algorithme de Widrow-Ho� s'é arte de l'algorithme du gradient sur un pointimportant : on modi�e les poids après présentation de haque exemple en fon tionde l'erreur lo ale et non de l'erreur globale. Rien ne prouve don que la diminutionde l'erreur en un point ne va pas être ompensée par une augmentation de l'erreurpour les autres points. La justi� ation empirique de ette manière de pro éder est ommune à toutes les méthodes adaptatives : le hamp d'appli ation des méthodesadaptatives est justement l'ensemble des problèmes pour lesquels des ajustementslo aux vont �nir par onverger vers une solution globale.L'algorithme de Widrow-Ho� est très souvent utilisé en pratique et donne debons résultats. La onvergen e est, en général, plus rapide que par la méthode dugradient. Il est fréquent pour et algorithme de faire diminuer la valeur de � enfon tion du nombre d'itérations omme pour l'algorithme du gradient.3.2.5 Con lusionEn on lusion, l'apprentissage par per eptron ou par la méthode du gradient nesont rien d'autre que des te hniques de séparation linéaire qu'il faudrait ompareraux te hniques utilisées habituellement en statistiques. Ces méthodes sont non pa-ramétriques, 'est-à-dire qu'elles n'exigent au une autre hypothèse sur les donnéesque la séparabilité.On peut montrer que � presque � tous les é hantillons de moins de 2n exemplessont linéairement séparables lorsque n est le nombre de variables. Une lassi� ation orre te d'un petit é hantillon n'a don au une valeur prédi tive. Par ontre, lorsque

50 Apprentissage automatique : les réseaux de neuronesl'on travaille sur su�samment de données et que le problème s'y prête, on onstateempiriquement que le per eptron appris par un des algorithmes pré édents a unbon pouvoir prédi tif.Il est bien évident que la plupart des problèmes d'apprentissage qui se posentnaturellement ne peuvent pas être résolus par des méthodes aussi simples : il n'y aque très peu d'espoir que les exemples � naturels � se répartissent � sagement � depart et d'autre d'un hyperplan. Une manière de résoudre ette di� ulté serait soitde mettre au point des séparateurs non-linéaires, soit ( e qui revient à peu près aumême) de omplexi�er l'espa e de représentation de manière à linéariser le problèmeinitial. C'est e que permettent de faire les réseaux multi ou hes que nous étudionsmaintenant.3.3 Les réseaux multi- ou hes3.3.1 Introdu tion et dé�nition de l'ar hite tureUn per eptron linéaire à seuil est bien adapté pour des é hantillons linéairementséparables. Cependant, dans la plupart des problèmes réels, ette ondition n'estpas réalisée. Un per eptron linéaire à seuil est onstitué d'un seul neurone. On s'esttrès vite rendu ompte qu'en ombinant plusieurs neurones le pouvoir de al ul étaitaugmenté. Par exemple, dans le as des fon tions booléennes, il est fa ile de al ulerle XOR en utilisant deux neurones linéaires à seuil. Cet exemple est présenté dansla �gure 3.11.

1

1

-1.5

1

1

-2

-0.5

x2x1x0=1

x1 XOR x2Fig. 3.11 � Il su�t de rajouter un neurone intermédiaire entre la rétine et la ellulede dé ision pour pouvoir al uler le XORLa notion de per eptron multi- ou hes (PMC) a ainsi été dé�nie. On onsidèreune ou he d'entrée qui orrespond aux variables d'entrée, une ou he de sorties, etun ertain nombre de ou hes intermédiaires. Les liens n'existent qu'entre les ellulesd'une ou he ave les ellules de la ou he suivante. Le XOR peut être al ulé par unper eptron multi- ou hes présenté dans la �gure 3.12 en transformant légèrementle réseau présenté dans la �gure 3.11.

3.3 Les réseaux multi- ou hes 51

1

1

-1.5

-0.5

-2

1

1

1

1

1

x2x1x0=1

x1 XOR x2Fig. 3.12 � PMC pour le XOR ; les liens ave poids nul ne sont pas représentésDé�nition 8. Un réseau de neurones à ou hes a hées est dé�ni par une ar hi-te ture véri�ant les propriétés suivantes :� les ellules sont réparties de façon ex lusive dans des ou hes C0; C1; : : : ; Cq ,� la première ou he C0 est la rétine omposée des ellules d'entrée qui orres-pondent aux n variables d'entrée ; les ou hes C1; : : : ; Cq�1 sont les ou hes a hées ; la ou he Cq est omposée de la (ou les) ellule(s) de dé ision,� Les entrées d'une ellule d'une ou he Ci ave i � 1 sont toutes les ellules dela ou he Ci�1 et au une autre ellule.La dynamique du réseau est syn hrone.Le réseau présenté dans la �gure 3.12 pour le al ul du XOR est un réseau à une ou he a hée. L'ar hite ture d'un réseau à ou hes a hées est sans rétroa tion.Dans notre dé�nition, nous avons supposé qu'une ellule avait pour entrée toutesles ellules de la ou he pré édente, e peut être un sous-ensemble des ellules dela ou he pré édente. Ce qui est primordial dans la dé�nition, 'est que les entréesappartiennent uniquement à la ou he pré édente, 'est-à-dire que la stru ture en ou hes est respe tée et qu'il n'y a pas de rétroa tion.Supposons que les ellules élémentaires soient des per eptrons linéaires à seuil,on parle alors de per eptrons multi- ou hes (PMC) linéaire à seuil. Soit n variablesbinaires, il est fa ile de montrer que le OU n-aire est al ulable par un per eptronlinéaire à seuil et que toute onjon tion sur les littéraux dé�nis à partir des n va-riables est al ulable par un per eptron linéaire à seuil. Étant donné une fon tionbooléenne sur n variables, ette fon tion peut être mise sous forme normale disjon -tive, il su�t alors que haque ellule de la ou he a hée al ule une onjon tion etque la ellule de sortie al ule la disjon tion des résultats. Nous avons ainsi démontréque :Proposition 1. Toute fon tion booléenne peut être al ulée par un PMC linéaire àseuil omprenant une seule ou he a hée.Cependant, si l'on utilise ette méthode pour onstruire un réseau de neuronespour al uler une fon tion booléenne quel onque, la ou he a hée pourra ontenirjusqu'à 2n neurones (où n est la taille de la rétine), e qui est ina eptable en

52 Apprentissage automatique : les réseaux de neuronespratique. On peut montrer par ailleurs que ette solution est loin d'être la meilleure(voir le as de la fon tion parité dans l'exer i e 39).Pour pouvoir utiliser les réseaux multi- ou hes en apprentissage, deux hosessont indispensables :� une méthode indiquant omment hoisir une ar hite ture de réseau pour ré-soudre un problème donné. C'est-à-dire, pouvoir répondre aux questions sui-vantes : ombien de ou hes a hées? ombien de neurones par ou hes a- hées?� une fois l'ar hite ture hoisie, un algorithme d'apprentissage qui al ule, àpartir de l'é hantillon d'apprentissage, les valeurs des oe� ients synaptiquespour onstruire un réseau adapté au problème.Le premier point est en ore un sujet de re her he a tif : quelques algorithmesd'apprentissage auto- onstru tifs ont été proposés. Leur r�le est double :� apprentissage de l'é hantillon ave un réseau ourant,� modi� ation du réseau ourant, en ajoutant de nouvelles ellules ou une nou-velle ou he, en as d'é he de l'apprentissage.Il semble assez fa ile de on evoir des algorithmes auto- onstru tifs qui lassent orre tement l'é hantillon, mais beau oup plus di� ile d'en obtenir qui aient unbon pouvoir de généralisation.Il a fallu attendre le début des années 80 pour que le deuxième problème trouveune solution : l'algorithme de rétropropagation du gradient, dé ouvert simultané-ment par des équipes française et améri aine. Cet algorithme est, omme son noml'indique, basé sur la méthode du gradient. Il est don né essaire de onsidérer desfon tions d'erreur dérivables. Ce i implique qu'il n'est pas possible de onsidérer omme ellule élémentaire un per eptron linéaire à seuil. L'idée est alors de prendre omme ellule élémentaire un per eptron linéaire. Malheureusement, dans e as,l'introdu tion de ellules supplémentaires n'augmente pas l'expressivité. En e�et,une ombinaison linéaire de fon tions linéaires est une fon tion linéaire ! Nous al-lons don avoir besoin de onsidérer une nouvelle ellule élémentaire. La sortie de ette ellule sera une fon tion de variable réelle dérivable qui est une approximationde la fon tion de Heaviside. Nous donnons dans la se tion suivante la dé�nitiond'une telle ellule et présentons l'algorithme de rétropropagation du gradient.3.3.2 L'algorithme de rétropropagation du gradientDé�nition du PMCLa fon tion sigmoïde de paramètre k > 0 est dé�nie par :�k(x) = ekxekx + 1 = 11 + e�kx (3.16)Cette fon tion est une approximation indé�niment dérivable de la fon tion àseuil de Heaviside, d'autant meilleure que k est grand. Nous prendrons k = 1 dansla suite, soit la fon tion � (voir �gure 3.3.2) dé�nie par :�(x) = exex + 1 = 11 + e�x (3.17)On peut remarquer que la dérivée de la fon tion � est simple à al uler :�0(x) = ex(1 + ex)2 = �(x)(1 � �(x)) (3.18)


0

0.2

0.4

0.6

0.8

1

-10 -5 0 5 10

exp(x)/(exp(x)+1)

Fig. 3.13 � La fon tion sigmoïdeIl est essentiel que e al ul soit simple ar la dérivée de ette fon tion serautilisée dans la règle de mise à jour des poids par l'algorithme de rétropropagationdu gradient. On utilise aussi parfois, pour ette raison, la fon tion th(x) qui est uneapproximation de la fon tion de Heaviside dont la dérivée est égale à 1 � th2(x).Nous pouvons maintenant dé�nir les réseaux onsidérés dans la suite de e ours :Dé�nition 9. Une ellule élémentaire à n entrées réelles ~x = (x1; : : : ; xn) est dé-�nie par les poids synaptiques réels ~w = (w1; : : : ; wn) et la sortie o est al ulée parla formule suivante : o(~x) = 11 + e�y où y = ~x:~w = nXi=1 wixi (3.19)un per eptron multi- ou hes (PMC) est un réseau de neurones à ou hes a héesave les ellules élémentaires ainsi dé�nies.Introdu tion de l'algorithmeLe prin ipe de l'algorithme est, omme dans le as du per eptron linéaire, deminimiser une fon tion d'erreur. Il s'agit ensuite de al uler la ontribution à etteerreur de ha un des poids synaptiques. C'est ette étape qui est di� ile. En e�et, ha un des poids in�ue sur le neurone orrespondant, mais, la modi� ation pour e neurone va in�uer sur tous les neurones des ou hes suivantes. Ce problème estparfois désigné sous le nom de � Credit Assignment Problem �.Soit un PMC dé�ni par une ar hite ture à n entrées et à p sorties, soit ~w leve teur des poids synaptiques asso iés à tous les liens du réseau. L'erreur du PMCsur un é hantillon d'apprentissage S d'exemples (~xs;~ s) est dé�nie par :E(~w) = 1=2 X(~xs;~ s)2S pXk=1( sk � osk)2 (3.20)où osk est la k-ième omposante du ve teur de sortie ~os al ulé par le PMC surl'entrée ~xs. L'erreur mesure don l'é art entre les sorties attendue et al ulée surl'é hantillon omplet. On suppose S �xé, le problème est don de déterminer un

54 Apprentissage automatique : les réseaux de neuronesve teur ~w qui minimise E(~w). Cependant, de la même façon que pour le per eptronave la règle de Widrow-Ho�, plut�t que de her her à minimiser l'erreur globalesur l'é hantillon omplet, on her he à minimiser l'erreur sur haque présentationindividuelle d'exemple. L'erreur pour un exemple est :E(~x;~ )(~w) = 1=2 pXk=1( k � ok)2 (3.21)Nous notons E la fon tion E(~x;~ ), E est une fon tion des poids synaptiques, pourappliquer la méthode du gradient, il nous faut évaluer les dérivées partielles de ettefon tion E par rapport aux poids synaptiques. Les al uls qui suivent sont fa iles.La seule ompli ation provient de la omplexité des notations et des indi es utilisés, ompli ation due à la stru ture du PMC. Nous utilisons les notations suivantes (voir�gure 3.14) :� haque ellule est dé�nie par un indi e,� le réseau omporte p ellules de sortie,� si i est l'indi e d'une ellule de sortie, i est la sortie attendue pour ette ellule sur l'entrée ~x,� wij est le poids synaptique asso ié au lien entre ellule j vers la ellule i, equi implique qu'elles se trouvent sur deux ou hes su essives par dé�nitionde l'ar hite ture,� xij est l'entrée asso iée au lien entre ellule j vers ellule i,� Pred(i) est l'ensemble des ellules dont la sortie est une entrée de la ellulei ; e i implique que la ellule n'est pas une ellule d'entrée et que tous leséléments de Pred(i) appartiennent à la ou he pré édente de elle à laquelleappartient la ellule i,� yi l'entrée totale de la ellule i, soit yi =Pj2Pred(i) wijxij ,� oi est la sortie de la ellule i, soit oi = �(yi),� Su (i) est l'ensemble des ellules qui prennent omme entrée la sortie de la ellule i, e i implique la ellule n'est pas une ellule de sortie et que tousles éléments de Su (i) appartiennent à la ou he suivante de elle à laquelleappartient la ellule i.Il nous reste maintenant à évaluer �E(~w)�wij que nous noterons �E�wij . Tout d'abordremarquons que wij ne peut in�uen er la sortie du réseau qu'à travers le al ul dela quantité yi, e qui nous autorise à é rire que :�E�wij = �E�yi �yi�wij = �E�yi xij (3.22)Il nous su�t don de al uler �E�yi , pour ela, nous allons distinguer deux as : le as où la ellule i est une ellule de sortie et le as où 'est une ellule interne.La ellule i est une ellule de sortie Dans e as, la quantité yi ne peut in-�uen er la sortie du réseau que par le al ul de oi. Nous avons don :�E�yi = �E�oi �oi�yi (3.23)Nous allons maintenant al uler ha une des deux dérivées partielles apparais-sant dans l'équation 3.23. Pour la première de es deux dérivées nous avons :

3.3 Les réseaux multi- ou hes 55Pred(i)j

Su (i)yi =Pwijxij kwkixki = oi ellule iwijxij oi = �(yi)��

Fig. 3.14 � notations utilisées�E�oi = ��oi 12 pXk=1( k � ok)2Seul le terme orrespondant à k = i a une dérivée non nulle, e qui nous donne�nalement : �E�oi = ��oi 12( i � oi)2 = �( i � oi) (3.24)Pour la se onde des deux dérivées de l'équation 3.23, en utilisant la dé�nitiondu al ul de la sortie d'une ellule élémentaire et la formule de al ul de ladérivée de la fon tion sigmoïde donnée en 3.18, nous avons :�oi�yi = ��(yi)�yi = �(yi)(1� �(yi)) = oi(1� oi) (3.25)En substituant les résultats obtenus par les équations 3.24 et 3.25 dans l'équa-tion 3.23, nous obtenons :�E�yi = �( i � oi)oi(1� oi) (3.26)La ellule i est une ellule interne Dans e as, la quantité yi va in�uen er leréseau par tous les al uls des ellules de l'ensemble Su (i). Nous avons alors :�E�yi = Xk2Su (i) �E�yk �yk�yi= Xk2Su (i) �E�yk �yk�oi �oi�yi= Xk2Su (i) �E�yk � wki � oi(1� oi)

56 Apprentissage automatique : les réseaux de neuronesSoit en ore : �E�yi = oi(1� oi) Xk2Su (i) �E�yk � wki (3.27)Par l'étude de es deux as, nous avons obtenu deux équations 3.26 et 3.27 quinous permettent de al uler les dérivées partielles �E�yi pour toute ellule i. Le al uldevra être fait pour les ellules de sortie puis des ellules de l'avant-dernière ou hejusqu'aux ellules de la première ou he. C'est pour ette raison que l'on parle de� rétropropagation �. Gra e à l'équation 3.22, nous pouvons al uler toutes lesdérivées partielles �E(~w)�wij . En�n, pour en déduire la modi� ation à e�e tuer sur lespoids synaptiques, il nous reste simplement à rappeler que la méthode du gradientnous indique que : �wij = ��E(~w)�wij (3.28)Tous les éléments sont don en pla e pour nous permettre de dé�nir l'algorithmede rétropropagation du gradient.Algorithme de rétropropagation du gradientPour é rire l'algorithme, nous allons simpli�er quelques notations. Nous appelonsÆi la quantité� �E�yi . En utilisant les équations 3.26 , 3.27 , 3.22 et 3.28, nous obtenonsles formules suivantes :pour une ellule i de sortie, nous avons :Æi = oi(1� oi)( i � oi) (3.29)pour une ellule i interne, nous avons :Æi = oi(1� oi) Xk2Su (i) Ækwki (3.30)la modi� ation du poids wij est alors dé�nie par :�wij = �xijÆi (3.31)On peut faire les remarques suivantes :� la règle de modi� ation des poids pour le per eptron linéaire est : wi ! wi +�( � o)xi. Dans le as du PMC, ette règle est : wij ! wij + �Æixij . Ces deuxrègles sont très similaires, le terme d'erreur � o est rempla é par un termeplus ompliqué Æi,� pour une ellule i de sortie, la quantité Æi orrespond à l'erreur usuelle i � oimultipliée par la dérivée de la fon tion sigmoïde,� pour une ellule i interne, le al ul de Æi dépend de la somme pondérée deserreurs des ellules de la ou he suivante,� après présentation de l'entrée ~x et al ul de la sortie ~o, le al ul des erreurs Æisera e�e tué de la ou he de sortie vers la ou he d'entrée.Il ne reste qu'à é rire l'algorithme.Algorithme de rétropropagation du gradient :Entrée : un é hantillon S de Rn �Rp ; �

3.3 Les réseaux multi- ou hes 57un PMC ave une ou he d'entrée C0, q � 1 ou hes a hées C1; : : : ; Cq�1,une ou he de sortie Cq , n ellules.Initialisation aléatoire des poids wi dans [�0:5; 0:5℄ pour i entre 1 et nRépéterPrendre un exemple (~x;~ ) de S et al uler ~o- - al ul des Æi par rétropropagationPour toute ellule de sortie i Æi oi(1� oi)( i � oi) �nPourPour haque ou he de q � 1 à 1Pour haque ellule i de la ou he ouranteÆi = oi(1� oi)Pk2Su (i) Ækwki�nPour�nPour- - mise à jour des poidsPour tout poids wij wij + �Æixij �nPour�nRépéterSortie : Un PMC dé�ni par la stru ture initiale hoisie et les wijRemarques� L'algorithme de rétroprogation du gradient est une extension de l'agorithme deWidrow-Ho�. En e�et, dans les deux as, les poids sont mis à jour à haqueprésentation d'exemple et don on tend à minimiser l'erreur al ulée pour haque exemple et pas l'erreur globale.� La méthode donne de bons résultats pratiques. Dans la plupart des as, onren ontre peu de problèmes dus aux minima lo aux, peut être grâ e au faitque l'on minimise une erreur lo ale.� Cependant, les problèmes de minima lo aux existent. Pour améliorer l'algo-rithme vis à vis de e problème, mais aussi pour essayer d'améliorer la vitessede onvergen e, une variante ouramment utilisée onsiste à pondérer la mo-di� ation des poids en fon tion du nombre d'itérations déja e�e tué. Plusformellement, on �xe une onstante � 2 [0; 1[ appelée moment (momentum) ;soit t un ompteur du nombre d'itérations de la bou le prin ipale, la règle demodi� ation des poids devient :wij wij +�wij(t)�wij(t) = �Æixij + ��wij(t� 1)L'intérêt de ette règle est de prendre en ompte les modi� ations antérieuresdes poids dans le but d'éviter des os illations perpétuelles.� Le ritère d'arrêt n'est pas pré isé dans l'algorithme. Ce ritère peut être :� arrêter dès que l'erreur estimée passe sous un seuil prédé�ni �. On retrouvealors le problème toujours présent en apprentissage de la sur-spé ialisation.En e�et, le ritère d'arrêt dépend de l'erreur observée mesurée sur l'ensembled'apprentissage et non de l'erreur réelle. Les méthodes pour palier à e pro-blème sont identiques à elles utilisées pour les arbres de dé ision. Par exemple,utiliser un ensemble test, quand 'est possible, pour estimer l'erreur réelle. Ouen ore, utiliser des te hniques d'élagage qui tentent de diminuer la taille duréseau.� Le mode de présentation des exemples est également absent de notre algo-rithme. En règle générale, on hoisit une présentation équitable.� Le hoix de l'ar hite ture initiale du réseau reste un problème di� ile. Ce hoix peut être fait par l'expérien e. Des méthodes dites � auto onstru tives �

58 Apprentissage automatique : les réseaux de neuronesexistent : il s'agit d'ajouter des ellules au ours de l'apprentissage pour quel'apprentissage se fasse bien. Mais es méthodes ren ontrent souvent le pro-blème de la sur-spé ialisation. L'ar hite ture peut aussi être hoisie à l'aidede méthodes basées sur les algorithmes génétiques.� Le modèle et l'ar hite ture étant hoisie, un problème est également de hoi-sir les � bonnes � valeurs pour les paramètres � et �. Pour ela, on dé oupel'ensemble d'apprentissage en un ensemble d'apprentissage, un ensemble devalidation et un ensemble test. Lors de la phase d'apprentissage, on arrêtepériodiquement l'apprentissage, on estime l'erreur réelle sur l'ensemble de va-lidation, on met à jour les paramètres � et � en fon tion de la variation de ette erreur estimée. L'ensemble test sert à estimer l'erreur réelle à la �n del'apprentissage.� L'algorithme de rétropropagation du gradient a pu être étendu à ertaines lasses de réseaux ré urrents pour lesquels il y a rétroa tion. Ces réseaux sonttrès utiles pour la prédi tion de séries temporelles.� En�n, terminons par une dernière remarque sur la puissan e de représentationdes réseaux multi- ou hes. Nous avons vu que toute fon tion booléenne peutêtre al ulée par un PMC linéaire à seuil omprenant une seule ou he a héedont on rappelle qu'elle peut être de taille exponentielle. Ce résultat a étégénéralisé par Hornik en 1989 au as des fon tions réelles et des PMC : laplupart des fon tions numériques peuvent être approximées ave une pré isionarbitraire par des réseaux à une seule ou he a hée. Mais omme dans le asbooléen, ette ou he a hée peut être démesurément grande et le théorème deHornik est essentiellement un résultat théorique sur l'expressivité des réseauxmulti- ou hes.3.3.3 Appli ationsDe nombreuses appli ations de l'algorithme de rétropropagation du gradient ontété réalisées. Parmi les plus souvent itées, nous en mentionnons deux : NetTalk deSejnowski et les familles italo-améri aines de HintonNetTalk NetTalk est un réseau qui a appris à transformer un texte (en anglais)en une suite de phonèmes orrespondant à sa le ture. Couplé en entrée à un s anneret à un OCR et en sortie à un synthétiseur de paroles, e réseau est don apablede lire un texte à haute voix.Des ription de l'ar hite ture du réseau :� la ou he d'entrée omprend 7 groupes de 29 neurones. Chaque groupe or-respond à un ara tère odé dire tement (non ompressé). Les 7 ara tèresen entrée forment un ontexte lo al de trois ara tères entourant de part etd'autre un ara tère entral. Par exemple, le ara tère ' ' se pronon e di�érem-ment dans ' ygne' et dans ' arte'. Les ambiguïtés les plus ourantes semblentpouvoir être levés ave un tel ontexte.� la ou he a hée ontient 80 neurones� la ou he de sortie omprend 26 neurones servant à oder les ara téristiquesdes phonèmes : la zone vibratoire (labiale, dentale, : : : ), le type de phonème(arrêt, nasale, fri ative, : : : ), la hauteur des voyelles, la pon tuation (silen e,pause, élision, arrêt net), l'a entuation, : : :Le réseau omprend don au total 309 neurones et omme les onnexions sont omplètes d'une ou he à l'autre, 18320 onnexions.D'après les résultats publiés : 50000 mots appartenant à un orpus de 1000 motsont été présentés au réseau. Le temps d'apprentissage a été : une nuit sur un VAX


Couched’entree

Couchecachee

Couchede sortie

26 cellules

_ a _ c a t _ 7x29 cellules

80 cellules

/k/

Fig. 3.15 � NetTalk780. Les performan es : 95% pour l'ensemble d'apprentissage et 75% pour les nou-veaux mots.Citons à e propos Jean-Pierre Nadal : � Dans ses onféren es, T. Sejnowskifaisait entendre à l'auditoire un enregistrement sonore pris à divers moments au ours de la phase d'apprentissage. On pouvait alors entendre le réseau d'abordsbalbutier, puis on distinguait un dé oupage du texte en phrases, jusqu'à �nalementune le ture raisonnable du texte. L'e�et est évidemment spe ta ulaire, et il n'y apas de doute, qu'à la suite de es démonstrations, nombreux sont eux qui se sont onvertis au onnexionnisme, si je puis dire : : : On a ainsi vu, et e i prin ipalementaux Etats-Unis, se développer la vague, née en 1985, d'une a tivité impressionnantede eux pour qui, � ça y était � : pour résoudre n'importe quel problème, il su�tde mettre dans une boîte noire quelques neurones arti� iels, d'inje ter une base dedonnées et de laisser tourner la � ba kprop � pendant une nuit ; au matin, mira le,on retrouve une ma hine intelligente. Comme l'a dit Y. Le Cun, l'un des inventeursde l'algorithme, l'usage de la RPG (rétropropagation du gradient) est à la fois wideet wilde (large et sauvage) : : :� En fait, les performan es de NetTalk étaient loin d'être ex eptionnelles, si onles ompare à e qui se fait de mieux dans e domaine de la le ture automatique. Iln'empê he que 'est une très jolie appli ation, qu'on peut onsidérer omme le pro-totype de l'utilisation de la RPG pour un problème réel. Cette simulation démontrele pouvoir potentiel des réseaux de neurones : un temps de al ul raisonnable, unemise en ÷uvre fa ile, et des performan es a eptables. Mais elle montre aussi leslimitations de l'appro he : les performan es ne sont que a eptables. �Les familles italo-améri aines Les deux arbres généalogiques i-dessous pré-sentent les relations entre les membres de deux familles omprenant ha une 12personnes. On remarque que es arbres sont isomorphes. Les relations sont : père,mère, mari, femme, �ls, �lle, on le, tante, frère, soeur, neveu et niè e.On souhaite faire apprendre es relations à un réseau de neurones, 'est-à-direque pour tout triplet de la forme (<personne1>,<relation>,<personne2>) dé ritdans l'un des deux arbres, et toute entrée égale à (<personne1>,<relation>), leréseau al ule la réponse (<personne2>).Pour ela, Hinton utilise un réseau à 3 ou hes a hées dont l'ar hite ture estdé rite i-dessous. Un groupe de 24 ellules d'entrée sert à oder les 24 personnespossibles. Un deuxième groupe de 12 ellules d'entrée sert à oder les relations.

60 Apprentissage automatique : les réseaux de neuronesFamille Anglaise

Famille Italienne

Christopher==Penelope Andrew==Christine

Margaret==Arthur Victoria==James Jennifer==Charles

Colin Charlotte

Roberto==Maria Piero==Francesca

Gina==Emilio Lucia==Marco Angela==Tomaso

Alphonso Sophia

Fig. 3.16 � Les familles améri aines et italiennes de HintonCha un de es groupes est onne té à un groupe de 6 ellules. Le r�le de ette ou he est de oder l'information en entrée de manière optimale relativement auproblème posé. La ou he entrale ontient 12 ellules ; 'est à e niveau que laliaison persone-relation doit s'e�e tuer. L'avant dernière ou he ontient 6 ellulesqui devra ontenir une version odée de la sortie.Le réseau a été entrainé sur 100 des 104 relations possibles et après apprentissageprolongé, il a été apable de généraliser orre tement sur les 4 exemples restants.Citons Hinton à e propos :�It generalized orre tly be ause during the training it learned to represent ea hof the people in terms of important features su h as age, nationality, and the bran hof the family tree that they belonged to, even these � semanti � features werenot at all expli it in the input or output ve tors. Using these underlying features,mu h of the information about family relationships an be aptured by a fairlysmall number of � mi ro-inferen es � between features. For example, the fatherof a middle-aged person is an old person, and the father of an Italian person is anItalian person. So the features of the output person an be derived from the featuresof the input person and of relationship. The learning pro edure an only dis overthese features by sear hing for a set of features that make it easy to express theasso iations. On e these features have been dis overed, the internal representationof ea h person (in the �rst hidden layer) is a distributed pattern of a tivity andsimilar people are represented by similar patterns. Thus the network onstru ts itsown internal similarity metri . This is a signi� ant advan e over simulations in whi hgood generalization is a hieved be ause the experimenter hooses representationsthat already have an appropriate similarity metri �.3.3.4 Con lusionAutant le per eptron est un dispositif très rudimentaire d'apprentissage, autantdes algorithmes omme la rétropropagation du gradient appliqué à des réseauxmulti ou hes permettent d'aborder des problèmes déjà très omplexes. Parmi les


Personne 1 - 24 neurones Relations - 12 neurones

Personne 2 - 24 neurones

6 neurones

12 neurones

6 neurones 6 neurones

Couche 0

Couche 1

Couche 2

Couche 3

Couche 4

Fig. 3.17 � Le réseauappli ations les plus fréquentes de es réseaux, on peut noter :� la re onnaissan e des formes. Il semble que e soit là un des domaines où lesréseaux neuronaux sont les plus performants. On peut signaler omme exempleun réseau re onnaissant les visages (voir ouvrage de Mit hell [Mit97℄). 'est unexemple de solution onnexionniste d'un problème pour lequel les méthodes lassiques de l'intelligen e arti� ielle ont été très peu performantes.� on urren e ave les méthodes statistiques. Les réseaux neuronaux sont de plusen plus utilisés en marketing, s oring, : : : ave des su ès divers. D'après er-tains statisti iens, si es nouvelles méthodes sont intéressantes et parfois plusperformantes que les te hniques statistiques usuelles, elles sont aussi moinsrobustes, moins bien fondées et partant, plus dangereuses.� la ognition. L'espoir qu'ont sus ité les te hniques onnexionnistes dans la ommunauté des s ien es ognitives provient du fait que l'on a pensé avoirtrouvé ave elles un dispositif expliquant ou montrant omment le � symbo-lique � pouvait émerger spontanément de l'expérien e. Le ompte-rendu desfamilles de Hinton vont dans e sens. Il me semble que les travaux et expéri-mentations visant à étudier e phénomène n'avan ent que très lentement.

Chapitre 4Exer i es4.1 Généralités et règle de BayesExer i e 1. Une épreuve est le résultat d'une expérien e aléatoire. On note l'en-semble de toutes les épreuves possibles et ! une épreuve ou événement élémentaire.Un événement aléatoire est un événement dont la réalisation ou la non réalisationdépend du résultat d'une expérien e aléatoire. Un événement aléatoire sera repré-senté par l'ensemble des événements élémentaires qui le réalisent. Les opérationslogiques sur les événements vont orrespondre aux opérations ensemblistes. Consi-dérons, par exemple le lan er de deux dés. On a = f1; : : : ; 6g2. L'événement Adé�ni par : �amener un total au moins égal à 10� est A = f(x; y) j x+ y � 10g. Soitl'événement B : �amener deux dés identiques�. On a alors A\B = f(5; 5); (6; 6)g. Les orrespondan es entre formalismes peuvent être résumées dans le tableau suivant :terminologie probabiliste terminologie ensemblisteévénement ertain espa e des épreuves événement impossible ensemble vide ;événement ontraire omplémentaireet interse tionou réunionévénements in ompatibles ensembles disjointssystème exhaustif partitionimpli ation in lusionNous nous limitons au as où est dénombrable. Une probabilité sur est uneappli ation P de dans [0; 1℄ telle que la somme des probabilités des événementsélémentaires est égale à 1. On peut montrer les résultats suivants :� soit (Ai)i2I une famille d'événements deux à deux in ompatibles, P (Si2I Ai) =Pi2I P (Ai),� P (A) =P!2A P (!),� P (A [ B) = P (A) + P (B)� P (A \ B),� P (A) = 1� P (A),� si A � B, P (A) � P (B).Soit (; P ) un espa e de probabilités et A un événement de probabilité non nulle,la probabilité onditionnelle P (B=A) d'un événement B sa hant A est dé�nie par :P (B=A) = P (A \ B)=P (A). Démontrez que :� P (:=A) est une probabilité sur et sur A,� P (A=B) = (P (A)� P (B=A))=P (B) (formule de Bayes),� soit (Ai)ni=1 un système exhaustif, P (B) =Pni=1 P (B=Ai)P (Ai).

64 Exer i esDeux événements sont indépendants si ils véri�ent les onditions équivalentessuivantes :(i) P (B=A) = P (B)(ii) P (A=B) = P (A)(iii) P (A \ B) = P (A)P (B)Exer i e 2. Soit une population � d'individus qui onsiste en un é hantillon om-posé d'ouvriers, de méde ins et d'employés des télé oms. On dé rit les individuspar un attribut logique repondeur qui vaut vrai si l'individu possède un répon-deur téléphonique et faux sinon. L'espa e de des ription est don égal à l'ensemblefrepondeur; repondeurg. On souhaite répartir les individus en trois lasses ouvrier,mede in et tele om. On dispose des informations suivantes : lasse k tele om mede in ouvrierP (k) 0.2 0.3 0.5P (repondeur=k) 1 0.9 0.45Une première règle possible pour le hoix de la fon tion de lassement C pourraitêtre : �attribuer à haque des ription la lasse majoritaire�, 'est-à-dire elle pourlaquelle P (k) est maximum ; 'est la règle majoritaire. Une se onde règle onsiste àraisonner ainsi : �si j'observe d, je hoisis la lasse pour laquelle ette observation estla plus probable�, 'est-à-dire elle pour laquelle P (d=k) est maximum. C'est la règledite du maximum de vraisemblan e. Une troisième règle (règle de Bayes) onsiste àattribuer à une des ription d la lasse k qui maximise la probabilité P (k=d) qu'unélément ayant d pour des ription soit de lasse k. La quantité P (k=d) peut êtreestimée en utilisant la formule de Bayes, il su�t don de hoisir la lasse k quimaximise le produit P (d=k)P (k).Dé rire sur et exemple les trois fon tions Cmajoritaire, Cvraisemblan e , CBayes.On peut dé�nir la probabilité d'erreur d'une fon tion de lassement de la façonsuivante : soit C une fon tion de lassement, l'erreur E(d) (ou probabilité d'erreur)pour une des ription d est la probabilité qu'un élément de la population � dedes ription d soit mal lassé par C, l'erreur E(C) d'une fon tion de lassement estla moyenne pondérée des erreurs sur les des riptions d. Cal uler les erreurs pour lestrois pro édures de lassi� ation trouvées pré édemment.Exer i e 3. On dispose d'une population � onstituée d'un ensemble de piè es quisont équitables, biaisées ave une probabilité 1/3 pour Fa e, ou en ore biaisées ave une probabilité de 1/4 pour Fa e. Une expérien e onsiste à jeter une piè e 20 foisde suite. Au vu du résultat d'une telle expérien e, on souhaite lassi�er la piè e.On onsidère don les trois lasses f1; 2; 3g qui orrespondent à une probabilité deFa e égale à respe tivement 1/2, 1/3 et 1/4. On fera l'hypothèse a priori que les lasses sont équiprobables. Une des ription est un mot de l'ensemble fP; Fg20, oùP orrespond à Pile et F à Fa e. Une pro édure de lassi� ation doit asso ier à unmot de et ensemble une lasse. Soit la des riptiond = PPFPPFFPFPPFPPFPPPFP:Trouver les formules de al ul des trois quantités P (1=d), P (2=d) et P (3=d). Com-ment d serait-elle lassi�ée si on utilise la règle de dé ision de Bayes? On dé ide deprolonger ette expérien e, on relan e ette même piè e 20 fois. Indiquer un hoix àfaire sur les probabilités a priori qui serait plus intéressant que l'hypothèse initialed'équiprobabilité.Exer i e 4. La population � est un ensemble de hampignons. Il y a deux lassesf1; 2g où 1 est la lasse des hampignons vénéneux. Le langage de des ription est onstitué de l'attribut binaire volve. On dispose des informations suivantes :

4.1 Généralités et règle de Bayes 65 lasse k 1 : vénéneux 2 : omestibleP (k) 0.05 0.95P (volve=k) 0.9 0.21. Je ramasse les hampignons si la règle de Bayes les lassi�e dans la lassedes omestibles. Est- e que je ramasse les hampignons ayant une volve ?Appliqueriez-vous ette règle si vous alliez ramasser des hampignons?2. On dé�nit un oût pour tout ouple de lasses (k; i) noté out(k; i). On dé�nitalors le oût moyen de l'a�e tation à la lasse k d'une des ription d de D par : outMoyen(k=d) = Xi2f1;::: ; g out(k; i)� P (i=d):La règle de dé ision du oût minimum est : Choisir C outmin qui à toute des- ription d asso ie la lasse k qui minimise outMoyen(k=d).On dé�nit sur notre exemple les oûts suivants : out(1; 1) = out(2; 2) = 0; out(1; 2) = 2; out(2; 1) =1:J'utilise la règle du oût minimum. Est- e que je ramasse les hampignonsayant une volve?Exer i e 5. On onsidère un problème de lassi� ation binaire, l'espa e de des rip-tion D étant onstitué de deux des ripteurs également binaires. On suppose que larépartition des des riptions dans haque lasse est onforme au tableau suivant :d 00 01 10 11 lasse 1 80 10 10 0 lasse 2 0 5 15 80On suppose que l'on ne dispose d'au une information sur les poids respe tifs des lasses. Le problème de la lassi� ation ne pose au un problème pour les des riptions00 et 11. Mais que doit-on faire si l'on observe 01 ou 10?La méthode du minimax onsiste à introduire le paramètre p = Pr( lasse1), à al uler pour haque valeur de p la règle de dé ision issue de la règle de Bayes. Pour ha une de es règles, on al ule son erreur maximale. On hoisit alors la règle quiminimise ette erreur maximale (d'où �minimax �).Quelle est la règle de dé ision dé�nie par ette pro édure pour l'exemple i-dessus?Exer i e 6. On onsidère deux attributs pour déterminer la nationalité d'un indi-vidu. L'attribut taille qui peut prendre les valeurs grand ou petit, l'attribut ouleurdes heveux qui peut prendre les valeurs brun ou blond. Les nationalités possiblessont français et suédois.On suppose que les populations françaises et suédoises se répartissent selon letableau suivant :petit, brun petit, blond grand, brun grand, blondSuédois 10 20 30 40Français 25 25 25 251. Dans une assemblée omprenant 60% de suédois et 40% de français, dé rire(a) la règle de dé ision majoritaire(b) la règle du maximum de vraisemblan e( ) la règle de Bayes2. Cal ulez les probabilités d'erreur de ha une de es règles

66 Exer i es3. On suppose maintenant que l'on ne onnaît plus les proportions respe tivesdes suédois et des français. On note p la proportion des suédois (p 2 [0; 1℄).(a) Dé rire, selon les valeurs possibles de p , les règles de Bayes orrespon-dantes.(b) Parmi les 5 règles que vous aurez détaillées à la question pré édente, hoisir elle qui dans le pire des as, possède la probabilité d'erreurminimale.Exer i e 7. La population onsiste en un ensemble de patients. Ces patients doiventêtre répartis en deux lasses, la lasse M (pour malade) et la lasse S (pour sain).Les individus sont dé rits à l'aide de deux attributs logiques T et C. L'attribut T ala valeur vrai lorsque la tension artérielle d'un patient est anormale et l'attribut Ca la valeur vrai lorsque le taux de holestérol d'un patient est anormal. On supposeque la population est un espa e probabilisé et on note P la loi de probabilité. Nousallons utiliser l'appro he Bayésienne lassique pour lasser les patients au vu deleurs des riptions. Les probabilités suivantes sont onnues : lasse k S (sain) M (malade)P (k) 0.7 0.3P (T=k) 0.25 0.7P (C=k) 0.4 0.7Dans e tableau P (k) représente la probabilité qu'un élément de la population soitde lasse k, P (T=k) représente la probabilité qu'un élément de lasse k ait unetension artérielle anormale (T vaut vrai) et P (C=k) représente la probabilité qu'unélément de lasse k ait un taux de holestérol anormal (C vaut vrai).Pour pouvoir al uler les probabilités né essaires à l'appli ation de la règle deBayes, nous allons faire l'hypothèse supplémentaire suivante : les deux attributs sontindépendants. Cette hypothèse permet, par exemple, d'é rire que P (C \ T=S) =P (C=S)� P (T=S).1. Déterminer la pro édure de lassi� ation CBayes en utilisant la règle de dé i-sion de Bayes. La donner sous forme d'un arbre de dé ision.2. Soient les pro édures de lassi� ation C1 et C2 asso iées aux arbres de dé isiont1 = S et t2 = T (M;S). Cal uler les erreurs au sens de la probabilité d'erreurpour C1, C2 et CBayes.3. Plut�t que de her her à minimiser l'erreur au sens de la probabilité d'erreur,on peut introduire des oûts pour les mauvaises lassi� ations. On dé�nit un oût pour tout ouple de lasses (k; i) noté out(k; i). On dé�nit alors le oûtmoyen de l'a�e tation à la lasse k d'une des ription d de D par : outMoyen(k=d) = Xi2f1;::: ; g out(k; i)� P (i=d):La règle de dé ision du oût minimum est : Choisir C outmin qui à toute des- ription d asso ie la lasse k qui minimise outMoyen(k=d).On dé�nit sur notre exemple les oûts suivants : out(S; S) = out(M;M) = 0; out(S;M) = 2; out(M;S) = 1:Déterminer C outmin et la donner sous forme d'un arbre de dé ision.Exer i e 8. Programmer le lassi�eur naïf de Bayes à partir de données stru tu-rées. On utilisera les onventions du logi iel C4.5 : le programme prendra en entréedeux � hiers d'extensions data et names ; le � hier d'extension data ontient autant

4.1 Généralités et règle de Bayes 67de lignes que d'exemples, les valeurs d'attribut sont séparées par des virgules, le der-nier attribut est la lasse ; le � hier d'extension names ontient sur la première ligneterminée par un point les valeurs possibles des lasses, puis une ligne par attributformée du nom de l'attribut, le symbole :, la liste des valeurs pour et attribut, ter-minée par un point. Le résultat sera un � hier d'extension bayes ontenant toutesles estimations né essaires. En�n, un programme naivebayes prenant en entrée unedes ription et les � hiers utiles permettra de lasser la des ription ave le lassi�eurnaïf.Exer i e 9. On dispose d'un orpus de textes lassés : par exemple, des ourrierséle troniques lassés dans des dossiers, des textes de journaux lassés par thème.On souhaite lasser un texte en utilisant les informations du orpus. Une méthodepossible est d'utiliser le lassi�eur de Bayes naïf. Il nous faut, auparavant, pré iserle langage de des ription, le mode d'estimation des probabilités.À partir du orpus de textes, on onstitue le vo abulaire V qui est l'ensemble detous les mots apparaissant dans le orpus. Le langage de des ription est alors l'en-semble de tous les textes possibles sur e vo abulaire V . Par sou i de simpli� ation,un texte sera ondensé en un � sa de mots � qui est l'ensemble, ave répétition, desmots du texte. On a oublié la notion de position dans le texte et la notion relativede position d'un mot par rapport à un autre. Soit f1; :::; g l'ensemble des lasses,soit t un texte (un sa de mots) à lasser, le lassi�eur naïf de Bayes s'é rit :CNaiveBayes(t) = argmaxk2f1;:::; g Ym2t\V P (m=k)� P (k) (4.1)L'estimation P (k) est faite par :P (k) = Card(T (k))Card(T ) (4.2)où Card(T (k)) est le nombre de textes de lasse k et Card(T ) le nombre total detextes. On estime P (m=k) par :P (m=k) = ℄m; T (k)℄T (k) (4.3)où ℄m; T (k) est le nombre d'o urren es du mot m de V dans l'ensemble des textesde lasse k et ℄T (k) le nombre total d'o urren es de mots dans l'ensemble destextes de lasse k.Il su�t alors d'utiliser l'équation 4.1 pour lasser un texte t. On est ependant onfronté au problème suivant : si le texte t à lasser ontient un mot m n'appa-raissant dans au un do ument de lasse k, la quantité P (m=k) vaut alors 0, demême que la quantité Qm2t\V P (m=k) � P (k). Le lassi�eur de Bayes ne pourralui attribuer la lasse k, même si, par ailleurs, le texte t ontient d'autres mots trèsfréquents dans les textes de lasse k. Pour éviter e biais, on modi�e l'estimateurutilisé par : P (m=k) = 1 + ℄m; T (k)Card(V ) + ℄T (k) (4.4)En�n, revenons sur le hoix du vo abulaire V . Plusieurs hoix sont possibles:� V est l'ensemble des mots de la langue (environ 50 000 mots en anglais) ;� V est l'ensemble des mots du orpus d'apprentissage ;� V est l'ensemble des mots du orpus d'apprentissage dont on retire1. les mots les plus fréquents qui sont souvent des mots peu signi�ants pourla lassi� ation : et, le, la, ...

68 Exer i es2. les mots rares� un algorithme détermine V en al ulant l'ensemble des mots pertinents pourla lassi� ation (en général, en utilisant des ritères basés sur le ontenu eninformation tels que l'entropie).Pour on lure, l'algorithme d'apprentissage pour le lassi�eur de Bayes naïf onsisteen un al ul du di tionnaire V et en un al ul des estimations :Phase d'apprentissage pour Bayes naïfdonnée : un ensemble T de textes lassés dans des lasses 1, : : : , 1. al uler le vo abulaire V à partir de T2. pour toute lasse k, al uler P (k) en utilisant l'équation 4.23. pour toute lasse k et tout mot m de V , al uler P (m=k) en utilisant l'équation 4.4Et la lassi� ation d'un texte t se fait par l'algorithme suivant : lassi�eur de Bayes naïfdonnée : V , les estimations P (k) et P (m=k) pour tout m et tout kentrée : un texte tpour toute lasse k, al uler Qm2t\V P (m=k)� P (k)sortie : la lasse k qui maximise le al ul pré édentIllustration : Le but est de lasser des phrases dans deux lasses, selon leurthème: la radio ou la télévision. Étant donné l'é hantillon :Exemples de la lasse TV :Le programme TV n'est pas intéressant. La TV m'ennuie.Les enfants aiment la TVOn reçoit la TV par onde radioExemples de la lasse Radio :Il est intéressant d'é outer la radioSur les ondes, les programmes pour enfants sont raresLes enfants vont é outer la radio ; 'est rare!et le vo abulaire pour mettre en oeuvre ette pro édure de lassi� ation étant :V=TV, programme, intéressant, enfants, radio, onde, é outer, rare. Comment serait lassée la phrase : J'ai vu la radio de mes poumons à la TV! ?Exer i e 10. Programmer le lassi�eur naïf de Bayes à partir de textes. On per-mettra à l'utilisateur de dé�nir des seuils de fréquen e pour la onstitution duvo abulaire V . Pour onstituer des bases d'exemples, vous n'avez que l'embarras du hoix. Prenez par exemple des news issues de di�érents groupes ou re her hez surle web la base d'exemples REUTERS.4.2 Arbres de dé isionExer i e 11. Soit l'é hantillon qui orrespond à un ensemble de onditions météo-rologiques qui permettent (P pour Positif) ou pas (N pour Négatif) la pratique duGolf :

4.2 Arbres de dé ision 69num Outlook Temperature Humidity Windy Class1 sunny 81 78 false N2 sunny 80 90 true N3 over ast 83 80 false P4 rain 75 96 false P5 rain 69 75 false P6 rain 64 70 true N7 over ast 65 65 true P8 sunny 72 83 false N9 sunny 68 72 false P10 rain 71 74 false P11 sunny 75 69 true P12 over ast 70 77 true P13 over ast 85 70 false P14 rain 73 82 true NSoit les arbres de dé ision :t1 = P ,t2 = Humidity(N;P ),t3 = Outlook(Humidity(N;P ); P;Windy(N;P )), où les ar s sont étiquetés dansl'ordre par sunny, over ast et rain pour l'attribut Outlook, par > 75 et � 75 pourl'attribut Humidity, par true et false pour l'attribut Windy.1. Montrer que t3 est un arbre parfait.2. Cal uler l'erreur apparente sur l'é hantillon pour les trois arbres.Exer i e 12. Soit l'é hantillon suivant :no P1 P2 P3 Classe1 0 V N A2 1 V I A3 0 F O B4 1 V N A5 1 V O A6 1 F N A7 0 F O B8 0 V I A9 0 F N B10 1 V I B11 1 F O A12 1 F I A13 0 V O B1. Soit l'ensemble d'apprentissage onstitué des exemples f1; : : : ; 9g. Construirel'arbre de dé ision parfait t1 en hoisissant les attributs dans l'ordre P3, P2,P1.2. Même question ave t2 en utilisant l'ordre P1, P2, P3.3. Peut-on trouver un arbre de dé ision parfait si on onsidère l'ensemble d'ap-prentissage onstitué des exemples f1; : : : ; 10g?4. Soit l'ensemble d'apprentissage onstitué des exemples f1; : : : ; 9g et l'ensembleTest onstitué des exemples f11; 12; 13g. Soit les arbres t3 = A et t4 =P1(B;A). Cal uler l' erreur apparente sur l'ensemble d'apprentissage, l'erreurapparente sur l'ensemble Test et l'erreur apparente sur l'é hantillon ompletpour ha un des arbres t1; : : : ; t4.

70 Exer i esExer i e 13. On dispose d'un é hantillon de 200 patients. On sait que 100 sontmalades et 100 sont bien portants. On dispose des informations suivantes :gorge irritée gorge non irritéetempérature < 37,5 (6 bp,37 m) (91 bp,1 m)température � 37,5 (2 bp,21 m) (1 bp,41 m)et on onsidère l'arbre de dé ision suivant :temperature<37.5 = ouigorge irritée = oui : maladegorge irritée = non : bien portanttemperature<37.5 = non : malade1. Cal uler, pour l'arbre donné en �gure 1, les quantités : i(�), i(1), i(2), i(11),et i(12) ave la fon tion de Gini.2. Cal uler, pour l'arbre donné en �gure 1, les quantités : i(�), i(1), i(2), i(11),et i(12) ave la fon tion entropie.3. On onsidère l'arbre vide, on a le hoix entre l'attribut �Température � 37,5�et l'attribut �gorge irritée�. Lequel hoisit-on si on hoisit l'attribut qui maxi-mise le Gain?Exer i e 14. On reprend l'exemple de l'exer i e 11. On suppose que les attributsTemperature et Humidity ont été dis rétisés par un expert de la façon suivante : lestempératures inférieures ou égales à 70 ( ool), elles supérieures à 70 et inférieuresou égales à 80 (mild), elles supérieures à 80 (hot) ; le taux d'humidité inférieur ouégal à 75 (normal) et supérieur à 75 (high). On initialise l'arbre à l'arbre réduit àla seule feuille P. On utilise la fon tion entropie. Ré ursivement on rempla e unefeuille de l'arbre par le test qui maximise le gain. Construire l'arbre de dé isionasso ié à notre é hantillon.Quelles méthodes pourraient être envisagées pour que l'algorithme dis rétiseautomatiquement les attributs Temperature et Humidity?Exer i e 15. Même exer i e en onsidérant que num est un des ripteur. Quel pro-blème ren ontre-t-on? L'utilisation de la fon tion GainRatio permet-elle de résoudrele problème?Exer i e 16. On dispose d'un é hantillon de 200 individus. On sait que 100 sontde lasse 1 et 100 sont de lasse 2. Le langage de représentation utilise deux attributsbinaires A et B. On dispose des informations suivantes :A vrai A fauxB vrai (0,50) (50,0)B faux (50,0) (0,50)Appliquer l'algorithme de base ave la fon tion entropie, quel problème ren ontre-t-on? Doit-on s'arrêter? Choisir un attribut et poursuivre la onstru tion de l'arbre,que remarque-t-on?Supposons maintenant que le langage de des ription ontienne non seulementles attributs A et B mais aussi d'autres attributs C, ..., Z. Que va-t-on obtenir enappliquant l'algorithme de base? Pourrait-on remédier à ette situation?Exer i e 17. Une banque dispose des informations suivantes sur un ensemble de lients:

4.2 Arbres de dé ision 71 lient M A R E I1 moyen moyen village oui oui2 élevé moyen bourg non non3 faible âgé bourg non non4 faible moyen bourg oui oui5 moyen jeune ville oui oui6 élevé âgé ville oui non7 moyen âgé ville oui non8 faible moyen village non nonL'attribut ternaire M dé rit la moyenne des montants sur le ompte lient. Lese ond attribut ternaire A donne la tran he d'âge du lient. Le troisième attributternaire R dé rit la lo alité de résiden e du lient. Le dernier attribut binaire E a lavaleur oui si le lient a un niveau d'études supérieures. La lasse asso iée à ha unde es lients orrespond au ontenu de la olonne I . La lasse oui orrespond à un lient qui e�e tue une onsultation de ses omptes ban aires en utilisant Internet.1. Utiliser le lassi�eur naïf de Bayes sur l'ensemble test T donné i-après.2. Construire l'arbre de dé ision en utilisant la fon tion gain basée sur l'entropie.Cal uler les performan es sur l'ensemble test T .test T M A R E I9 moyen âgé village oui oui10 élevé jeune ville non oui11 faible âgé village non non12 moyen moyen bourg oui nonExer i e 18. On onsidère un espa e de des ription omprenant les trois attributsforme, taille et ouleur prenant respe tivement les valeurs rond et arré, petit etgrand, bleu, blan et rouge. L'attribut ible est binaire de valeurs oui et non.Les données disponibles sont les suivantes (le ? orrespond à une valeur man-quante) : forme taille ouleur lasserond petit bleu oui arré grand rouge nonrond ? blan oui arré petit bleu ouirond grand bleu oui arré grand blan non arré ? blan oui arré grand bleu non arré petit rouge ouirond grand blan ouiValeur majoritaire de l'attribut On rempla e les valeurs manquantes par la va-leur majoritaire prise par et attribut sur l'é hantillon omplet. Quelle valeurasso ie-t-on sur notre é hantillon? Peut-on trouver un arbre de dé ision par-fait? Appliquer l'algorithme de onstru tion d'arbre de dé ision en utilisantl'entropie pour le al ul du gain. On dé ide qu'un noeud est terminal, i.e.d'attribuer une feuille, lorsqu'il y a au plus un exemple mal lassé asso ié à enoeud. Vous détaillerez les al uls pour le test à hoisir en ra ine de l'arbre.

72 Exer i esValeur majoritaire de l'attribut par lasse Étant donné un exemple ave unevaleur manquante, on rempla e la valeur manquante par la valeur majoritaireprise par l'attribut orrespondant pour les exemples de l'é hantillon appar-tenant à la même lasse. Quelles valeurs asso ie-t-on sur notre é hantillon?Peut-on trouver un arbre de dé ision parfait? Quel arbre obtient-on en appli-quant l'algorithme basé sur l'entropie?Méthode utilisée par C45 Cette méthode onsiste à ne plus attribuer une va-leur à l'attribut mais une probabilité pour ha une des valeurs possibles. Cesprobabilités sont estimées par les fréquen es des valeurs possibles de et at-tribut pour l'é hantillon asso ié à une position p de l'arbre en onstru tion.Par exemple, à la ra ine, la probabilité que l'attribut taille ait la valeur petitest de 3=8 ar il y a 8 exemples pour lesquels la valeur de l'attibut taille est onnue et 3 ont la valeur petit. Quelles seraient les modi� ations à apporterà l'algorithme?Exer i e 19. On onsidère les données suivantes : heveux taille poids rème solaire lasseblond moyenne léger non 1 = oup de soleilblond grande moyen oui 0 = bronzébrun petite moyen oui 0 = bronzéblond petite moyen non 1 = oup de soleilroux moyenne lourd non 1 = oup de soleilbrun grande lourd non 0 = bronzébrun moyenne lourd non 0 = bronzéblond petite léger oui 0 = bronzé1. On suppose que les individus sont dé rits par le seul attribut poids. On supposeégalement que les probabilités peuvent être estimées à l'aide des fréquen es al ulées à partir du tableau de données. Reproduire et ompléter le tableausuivant : lasse kEstimations 0 1P (k)P (léger=k)P (moyen=k)P (lourd=k)Dé rire les pro édures de lassi� ation asso iées à la règle majoritaire, à larègle du maximum de vraisemblan e et à la règle de Bayes.2. On suppose maintenant que les individus sont dé rits à l'aide des quatre at-tributs heveux, taille, poids et rème solaire. Construire l'arbre de dé isionproduit par l'algorithme d'apprentissage par arbre de dé ision en utilisant lafon tion Entropie et la fon tion gain asso iée. Détailler les al uls pour le hoix de la ra ine.3. Déduire de l'arbre trouvé à la question pré édente un système à base de règles.Montrer qu'une ondition d'une des règles peut être supprimée tout en onser-vant la ohéren e ave les données. Le système obtenu peut-il s'é rire sousforme d'un arbre de dé ision?

4.3 Estimation de l'erreur et élagage 734.3 Estimation de l'erreur et élagageExer i e 20. On dispose d'une piè e biaisée. On appelle p la probabilité qu'elletombe sur pile. On lan e ette piè e n fois. On obtient r piles. L'expérien e delan er n fois ette piè e peut être réalisée à souhait. On s'attend à obtenir di�érentesvaleurs de r. Soit R la variable aléatoire de valeur le nombre r de piles obtenu enn lan ers. On s'intéresse à la probabilité d'obtenir R = 0 Pile en n lan ers, à laprobabilité d'obtenir R = 1 Piles en n lan ers, ..., à la probabilité d'obtenir R = nPiles en n lan ers.1. Soit p = 1=4 et n = 3, expli iter les quantités Pr(R = 0), Pr(R = 1),Pr(R = 2) et Pr(R = 3).2. Soit p et n quel onques, expli iter Pr(R = r) en fon tion de p et n. Une telleloi est la loi binomiale de paramètres n et p3. On dispose de tables pour al uler les valeurs. Par exemple, pour p = 1=4 etn = 13, les probabilités obtenues arrondies à deux dé imales sont :0 1 2 3 4 5 6 7 8 9,130,02 0,11 0,20 0,25 0,21 0,13 0,06 0,01 0,01 0Faîtes une représentation graphique. Quelle est la probabilité d'obtenir unnombre de piles inférieur ou égal à 5 en 13 lan ers ave une piè e de proba1=4 pour pile?4. Vous lan ez 20 fois une piè e dont la probabilité d'obtenir pile est 1=4, om-bien de piles vous attendez vous à obtenir? Cette notion est apturée par lanotion d'espéran e mathématique (� expe ted value � en anglais). L'espéran emathématique d'une variable aléatoire dis rète X est dé�nie par :E(X) = �!2X(!)P (!)L'espéran e d'une loi binomiale X de paramètres n et p est E(X) = np5. Vous lan ez 20 fois une piè e dont la probabilité d'obtenir pile est 1=4, vousvous attendez à obtenir 5 piles mais êtes ons ients que des variations entrele nombre de piles obtenu et le nombre attendu sont possibles. La varian eet l'é art-type vont permettre de mesurer e i. La varian e d'une variablealéatoire dis rète X est dé�nie par :V (X) = E((X �E(X))2)et représente l'erreur quadratique attendue entre valeur observée et valeurattendue. L'é art-type est la ra ine arrée de la varian e :�(X) = �X =pV (X)La varian e d'une loi binomialeX de paramètres n et p est V (X) = np(1�p) etl'é art-type est �X =pnp(1� p). Cal ulez espéran e mathématique, varian eet é art-type dans les as suivants :� p = 1=4 et n = 20 ;� p = 1=4 et n = 40 ;� p = 1=4 et n = 100 ;� p = 1=4 et n = 400.Exer i e 21. problème de l'estimation de l'erreur Nous sommes dans un uni-vers U , une loi de probabilité �xée mais in onnue existe sur U , on a une ible f , lesystème d'apprentissage a fourni une hypothèse h d'un ensemble d'hypothèses H .On dispose également d'un ensemble test T de n exemples tiré selon la loi de proba-bilité sur l'univers indépendamment de h (et don de l'ensemble d'apprentissage).

74 Exer i esOn souhaite estimer l'erreur réelle de h qui est la probabilité que h et f di�èrentsur un exemple tiré ave la probabilité sur U .1. T ontient n = 100 exemples, h fait r = 25 erreurs, quelle est votre estimationde l'erreur réelle? T ontient n = 500 exemples, h fait r = 130 erreurs, quelleest votre estimation de l'erreur réelle? À laquelle de es deux estimations faîtesvous le plus on�an e? Le but de e travail est de pré iser et de quanti�ervotre � bon sens �.2. soit p = e(h) l'erreur réelle de h. Soit X la variable aléatoire qui a pour valeurle nombre d'exemples mal lassi�és lorsque l'on tire un ensemble test T de nexemples. Montrer que X suit une loi binomiale.3. soit r le nombre d'erreurs sur T . L'erreur estimée est r=n. Cette estimationr=n de p donne-t-elle en moyenne la bonne estimation? Pour ela, on dé�nit :Le biais d'estimation d'un estimateur Y de p est la quantité E(Y ) � p. Si ebiais est 0, on dit que Y est un estimateur sans biais de p. Soit Y la variablealéatoire de valeur l'erreur estimée r=n. Montrer que Y est un estimateursans biais de p. Note : Cet estimateur est sans biais ar nous avons fait deshypothèses d'indépendan e entre T et h.4. On s'intéresse maintenant à la varian e et l'é art-type de et estimateur. Enutilisant le fait que X est une loi binomiale, varian e et é art-type pour uneloi binomiale, le fait que n est onstant, on obtient que la varian e de l'erreurestimée est V (Y ) = p(1�p)=n et que l'é art-type de l'erreur estimée est �Y =pp(1� p)=n. Ne onnaissant pas p, nous le remplaçons par sa valeur estiméer=n, nous obtenons une estimation de l'é art-type pour l'erreur estimée :�Y 'rr=n(1� r=n)nCal ulez l'erreur estimée et l'é art-type dans les as suivants :� n = 20 et r = 4 ;� n = 100 et r = 25 ;� n = 200 et r = 48 ;� n = 500 et r = 130.5. L'inégalité de Bienaymé-T heby hev valable pour toute variable aléatoire Xd'espéran e E(X) et d'é art-type �X s'énon e :Pr(jX �E(X)j � k�X ) � 1� 1k2 pour k � 1Utilisez ette inégalité pour déterminer le nombre d'exemples à tirer pourque l'erreur estimée ne s'é arte pas de plus de 5% de l'erreur réelle ave une on�an e de 99%. On utilisera le fait que �Y � 1=pn. Même question ave pas de plus de 5% de l'erreur réelle ave une on�an e de 96%. Interprétezl'inégalité lorsque l'on fait tendre le nombre d'exemples vers l'in�ni.Exer i e 22. Nous avons un moyen d'estimer l'erreur. Une façon usuelle de quan-ti�er la pré ision asso iée à une estimation onsiste à dé�nir un intervalle danslequel on espère trouver la valeur réelle ainsi que la probabilité que la valeur réellesoit dans et intervalle. Un intervalle de on�an e à N% pour un paramètre p estun intervalle qui ave une probabilité de N% ontient p. Le but �xé est de déter-miner des intervalles de on�an e pour l'erreur réelle p = e(h). Tout d'abord, nous onnaissons la loi binomiale qui gouverne l'erreur estimée r=n et don l'espéran e de ette loi (p) et l'é art-type (voir exer i e pré édent). Par onséquent, pour trouver

4.3 Estimation de l'erreur et élagage 75un intervalle de on�an e à 95% de l'erreur réelle, il su�t de trouver un intervallede entre p qui ontient r=n ave une probabilité supérieure ou égale à 95% ou defaçon équivalente un intervalle de entre r=n qui ontient p ave une probabilitésupérieure ou égale à 95%. Pour une valeur donnée de N , omment al uler la tailled'un tel intervalle ? Les al uls étant trop di� iles pour une loi binomiale, nousallons utiliser des approximations par une loi normale.La loi normale est un exemple de loi ontinue. La loi normale de paramètres met � est dé�nie par la densité de probabilité :p(x) = 1�p2� e� 12 ( x�m� )2L'espéran e d'une loi normale de paramètres m et � est m et son é art-type est �.Construire la représentation graphique de la fon tion de densité de la loi normalede paramètres 0 et 1. Le théorème entral limite permet d'a�rmer que, pour nassez grand, on peut approximer une loi binomiale par une loi normale de mêmeespéran e et de même é art-type.Pour une loi normale, il existe des tables permettant de al uler le rayon desintervalles de on�an e. En e�et, si X suit une loi normale d'espéran em et d'é art-type �, alors la valeur mesurée x de X appartient ave une probabilité de N% àl'intervalle [m � zN�;m + zN�℄ ou de façon équivalente, m appartient ave uneprobabilité de N% à l'intervalle [x � zN�; x + zN�℄ où zN peut être déterminé àl'aide des tables suivantes :N% 50 68 80 90 95 98 99zN 0,67 1 1,28 1,64 1,96 2,33 2,58En on lusion, en utilisant l'approximation faite dans le al ul de l'é art-typeet en supposant n assez grand pour admettre l'approximation de la loi binomialepar une loi normale, nous obtenons le résultat suivant : ave une probabilité de N%,l'erreur réelle de h appartient à l'intervalle[ r=n� zNrr=n� (1� r=n)n ; r=n+ zNrr=n� (1� r=n)n ℄Nous allons utiliser es résultats pour les questions suivantes :1. Déterminez les intervalles de on�an e dans les as suivants :� n = 100, r = 25 et N = 90 ;� n = 100, r = 25 et N = 95 ;� n = 200, r = 48 et N = 95 ;� n = 500, r = 130 et N = 95.2. On sait que l'erreur est inférieure à 40%. On souhaite déterminer une ap-proximation de l'erreur réelle à 0:05 près ave une on�an e de 95%. Combiend'exemples faut-il tirer? Même question ave une on�an e de 98%.3. Dans ertains as, seule une borne supérieure sur l'erreur réelle est souhaitée.Déterminer l'intervalle de on�an e pour n = 100, r = 25 etN = 90 ; quelle estla on�an e pour l'intervalle [0; b℄ où b est la borne supérieure de l'intervalletrouvé pré édemment ? Déterminez les intervalles de on�an e de la forme[0; b℄ dans les as suivants :� n = 100, r = 25 et N = 90 ;� n = 100, r = 25 et N = 99 ;� n = 200, r = 48 et N = 95 ;� n = 500, r = 130 et N = 97; 5.

76 Exer i esNous avons don démontré que la loi qui gouverne le problème de l'estimationde l'erreur sur un ensemble test suit une loi binomiale. Nous pouvons alors al ulerdes intervalles de on�an e pour l'erreur réelle. Pour ela, nous avons e�e tué lesdeux approximations suivantes :� Rempla er l'erreur réelle par l'erreur estimée dans le al ul de l'é art-type,� Approximer la loi binomiale par une loi normale. Cette approximation n'a desens que lorsque : n � 30 et np(1� p) � 5.Pour des problèmes pour lesquels les é hantillons disponibles ne permettent pasde dé ouper en apprentissage et test, on utilise des te hniques telles que la validation roisée. D'autres problèmes intéressants n'ont pas été traités i i tels que :� Pour un même problème, deux systèmes d'apprentissage (par exemple l'unutilise les arbres de dé ision et l'autre un réseau de neurones) produisent deuxhypothèses. omment omparer les deux hypothèses? Voir exer i e 24.� Comment omparer deux systèmes d'apprentissage?Exer i e 23. 1. On réalise une expérien e dont le résultat dépend d'une épreuvealéatoire. On observe les données suivantes :0,0,1,2,0,0,0,0,1,3,13,0,0,0,2,0,0,0,0,1.Que peut-on dire?2. On poursuit l'expérien e, on observe les données suivantes :2,0,0,1,0,0,1,3,40,0,1,1,0,0,0,0,0,0,1,1.Que peut-on dire?3. Sa hant que P (n) = 6�2 � 1(n+1)2 et que X(n) = n+1, déterminer l'espéran emathématique de X .Exer i e 24. On souhaite dans et exer i e omparer des hypothèses générées pardi�érents systèmes d'apprentissage pour un même problème. La table permettantde al uler, à l'aide de la loi normale, les intervalles de on�an e est :N% 50 68 80 81 82 90 95 98 99zN 0,67 1 1,28 1,31 1,34 1,64 1,96 2,33 2,581. Pour un problème d'apprentissage, à l'aide d'un générateur de réseaux deneurones, on a généré une hypothèse h1. On estime l'erreur réelle pour ettehypothèse à l'aide d'un é hantillon test S1 de taille n1 = 200. Cette hypothèsefait r1 = 60 erreurs sur l'é hantillon test. Déterminer un intervalle de on�an eà 95% entré autour de l'erreur estimée. Déterminer un intervalle de on�an eà 95% de la forme [0; b℄.2. Pour le même problème d'apprentissage, à l'aide d'un générateur d'arbresde dé ision, on a généré une hypothèse h2. On estime l'erreur réelle pour ette hypothèse à l'aide d'un é hantillon test S2 de taille n2 = 500. Cettehypothèse fait r2 = 125 erreurs sur l'é hantillon test. Déterminer un intervallede on�an e à 95% entré autour de l'erreur estimée. Déterminer un intervallede on�an e à 95% de la forme [0; b℄.3. On souhaite omparer les hypothèses h1 et h2. On appelle p1 l'erreur réellede h1 et p1 l'erreur estimée de h1 sur S1. De même, on appelle p2 l'erreurréelle de h2 et p2 l'erreur estimée de h2 sur S2. On onsidère alors la quantitéd = p1� p2 et son estimateur d = p1� p2. On suppose que les é hantillons S1et S2 sont indépendants. On peut alors montrer que d est un estimateur nonbiaisé de d (i.e. son espéran e est d) et que d peut être approximée, sous leshypothèses usuelles, par une loi normale de varian e la somme des varian esde p1 et p2. On rappelle que la varian e pour p1 peut être approximée par

4.3 Estimation de l'erreur et élagage 77r1=n1(1�r1=n1)n1 . Cal uler une approximation de la varian e et de l'é art typede d. Cal uler un intervalle de on�an e à 95% entré autour de d pour ladi�éren e d entre les erreurs réelles.4. Déterminer la probabilité que h1 soit meilleure que h2, soit en ore la proba-bilité que d > 0.Exer i e 25. Une méthode d'élagage peu orthodoxe La méthode lassiqued'apprentissage par arbres de dé ision onsiste à onstruire un arbre à l'aide d'uné hantillon d'apprentissage puis à l'élaguer à l'aide d'un é hantillon test. L'idéesous-ja ente est que la phase d'élagage doit permettre d'améliorer l'erreur réelle etque seul l'é hantillon test permet de l'estimer de manière à peu près �able.Mais ette idée ne vaut que si l'on dispose de su�samment d'exemples pourla première phase : un arbre dont l'erreur est atastrophique ne donnera jamais debons résultats, quelque soit l'élagage qu'on lui fera subir !Une idée ré urrente onsiste à apprendre ave tous les exemples disponibles et àélaguer ave es mêmes exemples. Mais ette idée ne peut fon tionner qu'à onditionde ne pas se baser sur l'erreur apparente al ulée sur l'ensemble d'apprentissage pourestimer l'erreur réelle.Quinlan propose la méthode suivante dans C4.5 :On introduit un paramètre de on�an e CF (par défaut, e paramètre vaut25%). Pour haque feuille de l'arbre, notons N le nombre d'exemples qu'elle ouvreet E le nombre d'erreurs de lassi� ation qu'elle induit dans l'é hantillon. Soit p laprobabilité pour qu'un nouvel exemple soit mal lassé par ette feuille. La quantitéE=N est don un estimateur de p. Pour tenir ompte du fait que l'arbre onstruitn'est pas indépendant des données, nous allons supposer que et estimateur est trèsoptimiste.Plus pré isément, soit Ep une variable aléatoire de loi binomiale de paramètres(N; p). C'est-à-dire quePr(Ep = k) = CkNpk(1� p)N�k pour 0 � k � NNous posons p(E;N) = maxfpjPr(Ep � E) � CFg. Nous prendrons p(E;N) omme valeur estimée de l'erreur réelle pour ette feuille.Exemple : supposons qu'une feuille ouvre N = 4 exemples et supposons qu'elleinduise une erreur (E = 1). On prend CF = 25%. On a :p(E;N) = maxfpjPr(Ep � 1) � 0; 25g= maxfpjPr(Ep = 0) + Pr(Ep = 1) � 0; 25g= maxfpj(1� p)4 + 4p(1� p)3 � 0; 25gPour et exemple, on trouve p ' 0; 54. Autrement dit, on estime par e pro- édé l'erreur réelle pour ette feuille à 54% (au lieu des 25% fournis par l'erreurapparente).Le reste est plus lassique : on al ule l'erreur réelle estimée d'un arbre en faisantune somme pondérée des erreurs réelles estimées de ses �ls.Par exemple, si un noeud A a trois �ls A1, A2 et A3, si le nombre d'exemples ouverts par ha un de es �ls est respe tivement de N1, N2 et N3, et si les erreursréelles estimées pour ha un de es �ls sont e1, e2 et e3 alors l'erreur réelle estiméede A sera de (N1e1 +N2e2 +N3e3)=(N1+N2 +N3).Pour élaguer un arbre, on applique l'algorithme suivant :Tant qu'il existe un sous-arbre que l'on peut rempla er par une feuille sans faire roître l'erreur réelle estimée alors élaguer e sous-arbre.

78 Exer i esAppli ation : On onsidère un espa e de des ription omprenant deux attributsadoption et edu ation pouvant prendre ha un trois valeurs : y, n et u. On supposeque l'attribut ible est binaire et que ses valeurs sont A et B.On onsidère l'arbre suivant :adoption = y : A (0;151)adoption = u : A (0;1)adoption = n :edu ation = n : A (0;6)edu ation = y : A (0;9)edu ation = u : B (0;1)Cha un des ouples (0 ; 151), : : : , est de la forme (E;N).On donne p(0; 6) = 0; 206 ; p(0; 9) = 0; 143 ; p(0; 1) = 0; 750 ; p(1; 16) = 0; 159 ;p(0; 151) = 0; 009 ; p(1; 168) = 0; 016.1. Cal ulez l'erreur réelle estimée pour l'arbreadoption = n :edu ation = n : A (0;6)edu ation = y : A (0;9)edu ation = u : B (0;1)2. Cal ulez l'erreur réelle estimée pour l'arbre omplet3. Peut-on élaguer le sous-arbre de ra ine adoption = n4. Peut-on rempla er l'arbre entier par une feuille?5. Après élagage, quelle est l'erreur réelle estimée?4.4 Réseaux de neuronesExer i e 26. Simuler l'algorithme d'apprentissage par orre tion d'erreur du per- eptron linéaire à seuil de la fon tion booléenne OU pour di�érentes valeurs d'initia-lisation du ve teur de poids (voir exemple 12) : on prendra, par exemple, les valeurssuivantes :� w0 = 0 ; w1 = 0 ; w2 = 0,� w0 = 1 ; w1 = 1 ; w2 = 1,� w0 = 1 ; w1 = �1 ; w2 = 1.Exer i e 27. Même exer i e ave la fon tion ET.Exer i e 28. Même exer i e ave la fon tion XOR. Faîtes les remarques qui s'im-posent !Exer i e 29. Reprendre l'exemple 13 ave le même é hantillon d'entrée S et lesvaleurs initiales : w0 = 0 ; w1 = 0 ; w2 = 0. Simuler ensuite l'apprentissage en onsidérant l'é hantillon S [ f((3; 1); 0)g.Exer i e 30. Implémenter l'algorithme de Widrow Ho� pour une ellule à 2 en-trées. Tester et algorithme sur les données de l'exemple 13. Vous étudierez lenombre d'itérations né essaires. Vous essaierez di�érentes valeurs du paramètre �.Exer i e 31. Implémenter l'algorithme du gradient pour une ellule à 2 entrées.Choisir une fon tion linéaire de deux variables et un é hantillon d'apprentissage.Comparer les deux algorithmes, en parti ulier, la vitesse de onvergen e.Exer i e 32. Choisir une fon tion linéaire de deux variables et un é hantillon d'ap-prentissage de 100 exemples. Apporter du bruit de lassi� ation en hangeant la lasse de 10 exemples. Étudier le omportement de l'algorithme de Widrow Ho�.

4.4 Réseaux de neurones 79Exer i e 33. Une lasse C désigne un sous-ensemble de f0; 1gn. On dit qu'une lasse C est re onnaissable par per eptron s'il existe un per eptron tel queo = � 1 si ~x 2 C0 sinon1. Démontrer que les lasses suivantes sont re onnaissables par per eptron.(a) C est l'ensemble des ve teurs dont au moins m entrées sont à 1.(b) C est l'ensemble des ve teurs dont au plus m entrées sont à 1.( ) C est l'ensemble des ve teurs tels qu'il y ait plus d'entrées à 1 dans lapartie droite de la rétine que dans la partie gau he (on suppose que larétine est linéaire et que la partie droite (resp. gau he) est formée desentrées xi telles que i > n2 (resp. i � n2 )).2. Une méthode pour montrer que deux lasses ne sont pas linéairement sépa-rables : trouver p exemples ~x1; : : : ; ~xp de la première et p exemples ~y1; : : : ; ~ypde la se onde tels quePi ~xi =Pi ~yi. Montrer que ette méthode est orre te.Doit-on supposer que les exemples hoisis dans ha une des deux lasses sontdistin ts? Pourquoi?3. Montrer que les lasses suivantes ne sont pas re onnaissables par per eptron.(a) C est l'ensemble des ve teurs tels que les entrées à 1 (s'il en existe) sont ontigues. On suppose que n � 4 et que la rétine est linéaire. C est don la lasse des �gures onnexes.(b) C est l'ensemble des ve teurs symétriques par rapport au entre de larétine (on suppose en ore que la rétine est linéaire et que n > 2).( ) C est l'ensemble des ve teurs dont m entrées exa tement sont égales à 1(ave 1 � m < n).Exer i e 34. On onsidère des des riptions qui sont des ouples (X,Y) où X et Ysont des réels positifs. Le problème est un problème de lassi� ation binaire. Ondispose d'un é hantillon qui sera représenté graphiquement par des points labelléspar un + pour les exemples positifs, par un - pour les exemples négatifs.1. Soit l'é hantillon donné par l'exemple 1 de la �gure i-dessous. Déterminer unarbre dé ision binaire qui lassi�e orre tement et é hantillon. Les tests quilabellent les noeuds de dé ision seront de la forme X < m ave m entier (ouY < m). Peut-on trouver un per eptron à entrées réelles pour lassi�er eté hantillon?2. Même question ave l'exemple 2.3. Quelle ritique peut-on faire aux arbres de dé ision au vu du se ond exemple?Comment pourrait-on essayer d'y remédier? Quelle ritique peut-on faire auxper eptrons au vu du premier exemple? Construire un réseau de neurones à ou hes a hées qui al ule la fon tion de lassi� ation orrespondant à l'arbrede dé ision trouvé en 1 (le pro édé de onstru tion doit pouvoir se généraliser).Exer i e 35. Le modèle de per eptron étudié par Rosenblatt, Minski et Papertest un peu plus ompliqué que elui qui a été présenté dans le ours. Ces auteurssupposent qu'entre la rétine (les ellules d'entrées) et la ellule de dé ision ( ellulede sortie) se trouvent un ertain nombre de ellules d'asso iation. Ces ellules in-termédiaires e�e tuent un traitement préliminaire sur ertaines ellules de la rétineet transmettent le résultat de e traitement à la ellule de dé ision. Les sorties des ellules d'asso iation onstituent une nouvelle rétine qui représentent les entrées dela ellule de dé ision.

80 Exer i es

1 2 213 34 45 5 66

X X

Y Y

1

2

3

4

5

6

1

2

3

4

5

6

+

+

+

+

+

+ +

+

+++

+

+ ++ + +

+

+++

+++ +

- -

--

- - -

-

--

--

- -- -

--

---

---

----

-

-

-

-

- -

-

-

-

- -

-

-- -

--

-

+

+

+ +

+

+++

++ +

++++++

+

++

+

++

+

+

-

-

-- -

-

--

--

--

---

-

---

-

---

----

-- -

--- -

--

EXEMPLE 1. EXEMPLE 2.Fig. 4.1 � ExemplesLes ellules d'asso iation peuvent al uler a priori n'importe quelle fon tionbooléenne. Mais si l'on ne restreint pas les traitements qu'elles peuvent e�e tuer,le modèle du per eptron perd tout son intérêt puisque toute fon tion booléenne estdisponible dire tement. Une manière naturelle de restreindre les ellules d'asso ia-tion est de onsidérer qu'elles ne peuvent dépendre que d'un petit nombre de ellulesde la rétine. On peut par exemple supposer que les ellules d'asso iation ne peuventdépendre que d'au plus d ellules de la rétine (per eptron à �domaine borné�) ou,dans un ontexte géométrique, qu'elles ne peuvent dépendre que de ellules de la ré-tine au plus distantes de d (per eptron à �diamètre limité�). Plus pré isément, dansle as d'une rétine re tangulaire, on dé�nira la distan e de deux ellules dé�nies parleurs numéros de lignes et de olonnes par d((l; ); (l0; 0)) = jl � l0j+ j � 0j.x 1

x 1 x 1

x 2

x 2 x 1x 2 x 2

x 3

x 3 x 3x 3

1 1 1 -2 -2 -2

0Fig. 4.2 � Un per eptron à domaine borné (d=2) qui re onnaît si une ellule et uneseule est a tive1. On suppose dans les questions i-dessous que la rétine est linéaire.(a) Montrer qu'un per eptron à domaine borné (ave d = 2) peut re onnaîtredes �gures symétriques par rapport au entre de la rétine.(b) Montrer qu'un per eptron à diamètre limité (ave d = 1) peut re onnaîtredes �gures onnexes.( ) Montrer qu'un per eptron à domaine borné (ave d = 2) peut re onnaîtreles entrées possédant exa tement m ellules a tives. On pourra s'inspirerde l'exemple i-dessus.

4.4 Réseaux de neurones 81Cette extension semble intéressante puisque des fon tions �naturelles� qui nesont pas al ulables dans le modèle de base le deviennent ave ette variante.Malheureusement, on peut montrer que le gain n'est pas aussi important queles résultats pré édents pourraient le laisser espérer.2. Montrer qu'au un per eptron à diamètre limité ne peut re onnaître les �gures onnexes ( 'est-à-dire dont les entrées à 1 forment un seul mor eau) sur unerétine re tangulaire.Indi ation : Supposer qu'un per eptron à diamètre limité d peut re onnaîtreles �gures onnexes et onsidèrer, sur une rétine re tangulaire de dimensionau moins 5x(d+2), les quatre �gures suivantes (où les entrées à 1 sont �guréesen noir) :Fig. 4.3 � Au un per eptron à diamètre limité ne peut apprendre la onnexitéExer i e 36. � Montrer qu'il existe un per eptron qui di�éren ie les hi�respairs des hi�res impairs lorsqu'ils sont é rits sur une rétine à 7 leds (voirexemple 11).� On veut apprendre à distinguer la lasse des hi�res représentés par un systèmede 7 leds (allumés ou éteints) de la lasse des non- hi�res. Est- e possible ave un per eptron?Exer i e 37. Soit la fon tion booléenne dé�nie par :f(x; y; z) = xy + xyz + xyzDéterminez un per eptron linéaire à seuil pour ha un des trois mon�mes de f ,puis déterminez un PMC al ulant f .Exer i e 38. démontrez le théorème 1.Exer i e 39. La fon tion parité sur n variables x1; : : : ; xn est dé�nie par : la fon -tion vaut 1 si le nombre d'entrées à 1 est pair.1. La fon tion parité est-elle al ulable par un per eptron linéaire à seuil?2. On onsidère maintenant le modèle du per eptron multi ou hes (PMC) oùle neurone élémentaire est un per eptron linéaire à seuil. Donner la formenormale disjon tive de la fon tion parité pour n = 3 et n = 4. Proposer uneméthode qui permet de dé�nir un PMC pour la fon tion parité en utilisant laforme normale disjon tive de la fon tion. Donner le PMC obtenu pour n = 3.Donner le nombre de ou hes et le nombre de neurones (en fon tion de n) par ou he obtenu par ette méthode pour la fon tion parité.3. Déterminer un PMC à une ou he a hée al ulant la fon tion parité en vousbasant sur l'indi ation suivante : faire en sorte que la i-ème ellule de la ou he a hée retourne 1 si au moins i ellules de la rétine sont à 1. Donnez le PMCobtenu pour n = 3. Donner le nombre de ou hes et le nombre de neurones

82 Exer i es(en fon tion de n) par ou he obtenu par ette méthode et omparer ave laméthode pré édente.Exer i e 40. Pour un problème de lassi� ation, il a été dé idé d'utiliser des ré-seaux de neurones. Il a été hoisi d'utiliser une ar hite ture multi ou hes ave une ou he a hée et l'algorithme de rétropropagation du gradient. Il a été dé idé de omparer les résultats sur les trois hoix suivants :� deux neurones dans la ou he a hée,� quatre neurones dans la ou he a hée,� six neurones dans la ou he a hée.L'é hantillon d'apprentissageA ontient 1000 exemples, l'é hantillon test T ontient500 exemples. Ave la première ar hite ture, on a produit un PMC h1, ave la se- onde un PMC h2 et ave la troisième un PMC h3. Les performan es d'un lassi�eurh sur un ensemble S sont données par un tableau de la forme:h sur S 0 10 a b1 doù a est le nombre d'éléments de lasse 0 qui sont lassés 0 par h, b est le nombred'éléments de lasse 1 qui sont lassés 0 par h, est le nombre d'éléments de lasse0 qui sont lassés 1 par h et d est le nombre d'éléments de lasse 1 qui sont lassés1 par h.1. En utilisant les tableaux de performan e donnés en �n d'énon é, déterminerl'erreur sur l'ensemble d'apprentissage A et l'erreur réelle estimée sur T pour ha un des trois PMC h1, h2 et h3.2. En utilisant la table permettant de al uler les intervalles de on�an e, dé-terminer les intervalles de on�an e à 95% entrés autour de l'erreur estiméepour ha un des trois PMC. Déterminer les intervalles de on�an e à 95% dela forme [0; b℄ pour ha un des trois PMC.3. Laquelle des trois ar hite tures vous semble la mieux adaptée au problème?Comment expliquer les résultats obtenus pour les erreurs réelles et estiméespour les trois ar hite tures?h1 sur A 0 10 592 111 8 389 h1 sur T 0 10 287 121 8 193h2 sur A 0 10 594 51 6 395 h2 sur T 0 10 289 41 6 201h3 sur A 0 10 597 21 3 398 h3 sur T 0 10 283 131 12 192Exer i e 41. E rire l'algorithme de rétropropagation du gradient dans un langagede programmationExer i e 42. Modi�er l'algorithme de rétropropagation du gradient pour onsidé-rer le as de ellules élémentaires utilisant la fon tion th à la pla e de la fon tionsigmoïde.

4.4 Réseaux de neurones 83Exer i e 43. On utilise la fon tion sigmoïde. On souhaite pénaliser les poids éle-vés. Pour ela, on modi�e la fon tion d'erreur en introduisant un terme qui pénaliseles poids élevés. On utilise don la fon tion E dé�nie par :E(~w) = 1=2 X(~xs;~ s)2S pXk=1( sk � osk)2 + Xi;j w2jiModi�er l'algorithme de rétropropagation du gradient en onséquen e.Exer i e 44. Les hi�res sont souvent représentés sur les é rans par une ombi-naison de 7 leds (Light Emiting Diode) qui peuvent être allumés ou éteints. Nousasso ions à ha un de es leds un attribut binaire en posant qu'il prend la valeur 1si le led orrespondant est allumé et 0 s'il est éteint.

l1

l2l7

l3

l4

l5

l6

Fig. 4.4 � Représentation des hi�res par 7 ledsLa population est l'ensemble des 10 hi�res � = f0; 1; 2; 3; 4; 5; 6; 7; 8; 9g, l'en-semble des des riptions est le sous ensemble de D = f0; 1g7 qui orrespond aux des- riptions des hi�res de �. Nous nous intéressons au problème de lassi� ation des hi�res selon qu'ils sont premiers ou non. Les deux lasses sont don les ensemblesde des riptions asso iés aux deux ensembles P = f2; 3; 5; 7g et P = f0; 1; 4; 6; 8; 9g.La lasse des hi�res premiers sera notée P ou 1, l'autre lasse sera notée P ou 0.Règles de hoix des fon tions de lassement On suppose que haque hi�reest dé rit par le seul led l4. Dé rire les pro édures de lassi� ation asso iées à larègle majoritaire, à la règle du maximum de vraisemblan e et à la règle de Bayes.Cal ulez les erreurs réelles asso iées aux trois pro édures trouvées.Apprentissage par arbres de dé ision1. On suppose que les hi�res sont dé rits par les sept leds. Construire l'arbrede dé ision produit par l'algorithme d'apprentissage par arbre de dé ision enutilisant la fon tion Entropie et la fon tion gain asso iée. Vous ne détaillez queles al uls dignes d'intérêt. On poursuit les al uls jusqu'à obtenir un arbreparfait.

84 Exer i es2. On suppose que le led l1 tombe en panne (sa valeur est don 0 pour tousles hi�res). Comment l'arbre pré édent lasse t-il les 10 hi�res? Quelle estl'erreur (réelle) de e lassement.Apprentissage par réseaux de neurones1. A partir de l'arbre de dé ision trouvé pré édemment , onstruire un réseau deneurones multi ou hes qui lassi�e les hi�res premiers.2. Déterminer un per eptron à trois entrées orrespondant aux leds l1, l2 et l6qui lassi�e les hi�res premiers.3. Existe-t-il un per eptron à 7 entrées (les valeurs des 7 leds) qui soit apablede lassi�er d'une part les entrées orrespondant à des hi�res, d'autre part elles qui ne orrespondent pas à des hi�res?

Con lusionNous avons présenté dans e ours des systèmes d'apprentissage basés sur lesarbres de dé ision et les réseaux de neurones. Il nous semble important de rappelerque pour l'analyse de données les méthodes statistiques restent très importanteset sont largement utilisées. Les méthodes présentées font partie de la lasse desméthodes dites non paramétriques et sont issues de l'Intelligen e arti� ielle. Lesméthodes basées sur les arbres de dé ision sont des méthodes dites symboliques (lapro édure produite peut s'é rire sous forme symbolique, i.e. sous forme de règles). Ilexiste d'autres méthodes que elles présentées et les méthodes présentées possèdentde nombreuses variantes. Il existe également des méthodes symboliques basées surdes langages de des ription plus ri hes. Les méthodes basées sur les réseaux deneurones sont des méthodes dites adaptatives (on pro ède par ajustement de oe�- ients) et la pro édure produite est de type �boîte noire�. Il existe d'autres ar hite -tures de réseaux que elles présentées dans e ours (modèle de Hop�eld, réseauxsto hastiques, réseaux de Kohonen, réseaux réentrants, : : : ). Signalons en�n l'émer-gen e d'une nouvelle lasse de systèmes d'apprentissage basés sur les algorithmesgénétiques.Nous terminons par quelques éléments de omparaison entre les méthodes pré-sentées. Si l'on souhaite que les pro édures de lassi� ation puissent être ompréhen-sibles par l'utilisateur, on s'orientera vers les méthodes à base d'arbres de dé ision.Sinon le hoix reste ouvert. Certains auteurs prétendent que les méthodes à basede réseaux de neurones sont meilleures dès que les données d'entrée sont ontinues,mais les résultats expérimentaux ne valident pas toujours ette a�rmation. Les ré-sultats expérimentaux semblent prouver les faits suivants : le temps de al ul pourles réseaux de neurones est en général supérieur au temps de al ul pour les sys-tèmes basés sur les arbres de dé ision (le rapport variant entre 1 et beau oup), lapro édure générée par un réseau de neurones est généralement légèrement meilleure,les réseaux de neurones semblent mieux se omporter en présen e de bruit. Il sembleen�n [Qui94℄ que les réseaux de neurones se omportent mieux que les arbres dedé ision lorsque tous les attributs sont signi�ants et que l'inverse soit vrai lorsque lapertinen e d'un attribut pour la lassi� ation dépend de la valeur d'autres attributs.

Bibliographie[AZ96℄ P. Adriaans and D. Zantinge. Data Mining. Addison-Wesley, 1996.[BFOS84℄ L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone. Classi�- ation and regression trees. Te hni al report, Wadsworth International,Monterey, CA, 1984.[CL96℄ G. Caraux and Y. Le hevallier. Règles de dé ision de Bayes et méthodesstatistiques de dis rimination. Revue d'Intelligen e Arti� ielle, 10:219�283, 1996.[CST00℄ N. Cristianini and J. Shawe-Taylor. Support Ve tor Ma hines. CambridgeUniversity Press, 2000.[Den00℄ F. Denis. Notes de ours de dea informatique. Te hni al report, Grappa- Université de Lille 3, 2000.[GG96℄ P. Gallinari and O. Gas uel. statistique, apprentissage et généralisation,appli ation aux réseaux de neurones. Revue d'Intelligen e Arti� ielle,10:285�343, 1996.[GT00℄ R. Gilleron and M. Tommasi. Dé ouverte de onnaissan es à partir dedonnées. Te hni al report, Grappa - Université de Lille 3, 2000.[GZ98℄ A. Gellatly and O. Zarate. Mind and Brain for Beginners. I on Books,1998.[Kor97℄ H. Korn. Les inattendus en neurophysiologie. In Pour la S ien e, volume235, pages 10�13, mai 1997.[Mit97℄ T. Mit hell. Ma hine Learning. M Graw-Hill, 1997.[QR89℄ J.R. Quinlan and R.L. Rivest. Inferring de ision trees using the Mi-nimum Des ription Length Prin iple. Inform. Comput., 80(3):227�248,Mar h 1989. (An early version appeared as MIT LCS Te hni al reportMIT/LCS/TM-339 (September 1987).).[Qui93℄ J. R. Quinlan. C4.5: Programs for Ma hine Learning. Morgan Kauf-mann, San Mateo, CA, 1993.[Qui94℄ J. R. Quinlan. Comparing onne tionist and symboli learning methods,volume I: Constraints and Prospe ts, hapter 15, pages 445�456. MITPress, 1994.[Vap98℄ V. Vapnik. Statisti al Learning Theory. John_Wiley, 1998.

apprentissa - grappa.univ-lille3.frgilleron/coursclassifsuper.pdf · 3 résumé ce cours présen te...

Documents