projet datamining actions du sbf120

58
Alexandre PELON Projet Datamining Analyse de données sur les Actions du SBF 120 Enseignant : M. Diday DESS Informatique Décisionnelle Année 2003-2004 Université de Paris IX Dauphine

Upload: others

Post on 16-Nov-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Projet Datamining Actions du SBF120

Alexandre PELON

Projet Datamining Analyse de données sur les Actions du

SBF 120

Enseignant : M. Diday

DESS Informatique Décisionnelle Année 2003-2004 Université de Paris IX Dauphine

Page 2: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Sommaire

INTRODUCTION.................................................................................................................................................................... 3 1 PRESENTATION DU DATAMINING ET DU LOGICIEL SODAS..................................................... 4

1.1 LE DATAMINING .............................................................................................................................. 4 1.2 LES DONNEES SYMBOLIQUES ........................................................................................................... 5 1.3 PRESENTATION DU LOGICIEL SODAS.............................................................................................. 7

1.3.1 Fonctionnement du logiciel ............................................................................................................. 7 1.3.2 Interface du logiciel ........................................................................................................................ 8

2 ETUDE DES DONNEES CONCERNANT LES ACTIONS DE L’INDICE BOURSIER SBF120...... 9 2.1 SOURCE DES DONNEES ..................................................................................................................... 9 2.2 DESCRIPTION DE LA BASE DE DONNEES.......................................................................................... 10

3 INDIVIDUS, VARIABLES DE DESCRIPTION ET CONCEPTS....................................................... 10 4 REQUETES ET TAXONOMIES UTILISEES ...................................................................................... 12

4.1 REQUETES...................................................................................................................................... 12 4.2 TAXONOMIES ................................................................................................................................. 13

5 SODAS........................................................................................................................................................ 14 5.1 IMPORTATION DES DONNEES SOUS SODAS ...................................................................................... 14 5.2 APPLICATION DES DIFFERENTES METHODES................................................................................... 22

5.2.1 La méthode SOE (Symbolic Object Editor)................................................................................... 24 5.2.1.1 Présentation de la méthode.................................................................................................................. 24 5.2.1.2 Application de la méthode................................................................................................................... 24

5.2.2 La méthode DIV (Divisive Classification)..................................................................................... 33 5.2.2.1 Présentation de la méthode.................................................................................................................. 33 5.2.2.2 Application de la méthode................................................................................................................... 33

5.2.3 La méthode STAT (Histogram, Elementary Statistics) .................................................................. 37 5.2.3.1 Présentation de la méthode.................................................................................................................. 37 5.2.3.2 Application de la méthode................................................................................................................... 38

5.2.4 La méthode DI (Distance Matrix) ................................................................................................. 41 5.2.5 La méthode PYR (Pyramides) ....................................................................................................... 48

5.2.5.1 Présentation de la méthode.................................................................................................................. 48 5.2.5.2 Application de la méthode................................................................................................................... 49

5.2.6 La méthode PCM (Principal Component and Correspondence Analysis) .................................... 50 5.2.6.1 Présentation de la méthode.................................................................................................................. 50 5.2.6.2 Application de la méthode................................................................................................................... 50

5.2.7 La méthode TREE (Decision TREE) ............................................................................................. 51 5.2.7.1 Présentation de la méthode.................................................................................................................. 51 5.2.7.2 Application de la méthode................................................................................................................... 51

5.2.8 La méthode FDA (Factorial Discriminant Analysis) .................................................................... 52 5.2.8.1 Présentation de la méthode.................................................................................................................. 52 5.2.8.2 Application de la méthode................................................................................................................... 52

5.2.9 La méthode DSD (Discriminant Symbolic Descriptions) .............................................................. 53 5.2.9.1 Présentation de la méthode.................................................................................................................. 53 5.2.9.2 Application de la méthode................................................................................................................... 53

CONCLUSION....................................................................................................................................................................... 54 GLOSSAIRE .......................................................................................................................................................................... 55 INDEX..................................................................................................................................................................................... 57

DESS Informatique Décisionnelle 2 Université de Paris IX Dauphine

Page 3: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Introduction De nos jours, grâce aux avancées technologiques, il est plus facile de stocker et transmettre des données dans des proportions de plus en plus importantes. En effet, les entreprises génèrent beaucoup plus d’informations et sont donc obligées de les sauvegarder dans des bases de données de plus en plus grandes. Ces données sont enregistrées sous plusieurs formats possibles tels que les formats numériques, alphanumériques, ou encore sous forme d’images, de fichiers, de graphiques, … . Le fait est, qu’avec une explosion des quantités de données et de leurs différents formats, il est nécessaire de se doter d’outils d’analyse robustes et diversifiés sachant prendre en compte les différents formats possibles. Il existe déjà beaucoup d’outils permettant d’analyser les données quantitatives tels que SPAD, SAS ou encore les outils de « reporting » (Business Objects, Crystal Reports, Cognos, …) mais peu sont les outils permettant l’analyse des données qualitatives. Le logiciel libre SODAS a la possibilité de traiter les données qualitatives, tout comme SPAD, mais permet de les étudier sous forme de concept. C'est-à-dire que les individus de l’analyse ne seront pas comparés entre eux mais qu’ils seront réunis en groupe d’individus (Concepts) et que ces groupes ainsi formés seront analysés.

DESS Informatique Décisionnelle 3 Université de Paris IX Dauphine

Page 4: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

1 Présentation du Datamining et du logiciel SODAS

1.1 Le Datamining Les entreprises ayant de plus en plus d’informations à stocker et à analyser recherchent toujours de nouveaux outils de plus en plus robustes et variés pouvant répondre à leurs attentes et surtout à leurs besoins qui n’arrête pas de grandir au fil des ans. Désormais, les entreprises sont en quête d’outils d’aide à la décision afin de leur permettre de prendre des décisions stratégiques dans les plus brefs délai et ainsi de mieux réagir face à la demande et au marché que les concurrents. Pour cela, la mise en place de systèmes décisionnels au sein des entreprises est une étape obligatoire. Ces systèmes doivent être composés de base de données assez robustes pour stocker les données (Les entrepôts de données sont un moyen de stocker les informations les plus en vogue de nos jours car ils permettent de faire ressortir les informations dans un délai assez intéressant.) mais surtout d’outils permettant de ressortir les données sous forme de tableaux ou graphiques les plus lisibles possible afin que les décideurs de l’entreprise puisse se décider dans un court délai. Le but du datamining n’est pas d’afficher simplement des données provenant d’une base de données mais est plutôt un moyen d’analyser ces données autrement que le simple fait de croiser des données et de les agréger. Le datamining permet d’étudier de différentes manières possibles les données en fonction des différents modes d’agrégation et de regroupement utilisés. Les analyses dépendent aussi des différentes visions qu’ont les utilisateurs des différents services d’une entreprise. A partir des mêmes données, nous pouvons réaliser plusieurs analyses et arriver à des résultats diversifiés selon les différents points de vue.

DESS Informatique Décisionnelle 4 Université de Paris IX Dauphine

Page 5: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

1.2 Les données symboliques L’analyse des données en soit est très important dans les entreprises, mais ce qui n’est pas encore très développé dans le monde actuel c’est l’analyse de ces données sous forme de concepts ou plus exactement d’objets symboliques. Ces objets symboliques regroupent chacun un ensemble d’individu et permettent donc une analyse par catégorie d’individus et non par individu. Les individus peuvent être regroupés de différentes manières telles que en fonction de la classe d’age, du département de domicile, sa situation socioprofessionnelle, … . Les données relatives aux individus sont alors regroupées dans chacun des concepts sous plusieurs formes possibles. Les données quantitatives peuvent devenir des intervalles, des histogrammes, des moyennes, ou des valeurs multiples munies de règles et de taxonomies. En ce qui concerne les données qualitatives, celles-ci sont représentées sous forme d’ensemble regroupant les modalités distinctes sans prendre en compte la part de chaque modalité ou sous forme d’histogramme permettant en revanche de prendre en compte les proportions des différentes modalités. L’utilisation d’un « tableau de données symboliques » est alors nécessaire car il autorise plusieurs valeurs dans une même case. Ces valeurs pouvant être parfois pondérées et liées entre elles par des règles et des taxonomies. L'analyse des données symboliques a pour objectif d'étendre l'analyse des données traditionnelles aux tableaux de données symboliques pour en extraire des objets symboliques. Différents types d'objets symboliques sont considérés selon que les variables décrivant les individus sont à valeur « intervalle », « histogramme » ou « variable aléatoire ». Par rapport aux approches classiques, l'Analyse des données symboliques présente les caractéristiques et ouvertures suivantes :

- Elle s'applique à des données plus complexes. En entrée, elle part de données

symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité…) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques.

- Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation

et spécialisation, d'ordre, de calcul d'extension, d'intention et de mesures de ressemblance tenant compte des connaissances basées sur les règles et taxonomies.

- Elle fournit des représentations graphiques exprimant entre autres la variation interne

des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone, elle-même exprimable sous forme d'objet symbolique, et pas seulement par un point.

DESS Informatique Décisionnelle 5 Université de Paris IX Dauphine

Page 6: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

- Ils fournissent un résumé de la base plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que des taxonomies fournies.

- Ils sont explicatifs puisqu'ils s'expriment sous forme de propriétés des variables

initiales ou de variables significatives obtenues (axes factoriels). - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de

données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer.

- Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant

des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville.

- Ils peuvent être facilement transformés sous forme de requête d'une Base de Données.

DESS Informatique Décisionnelle 6 Université de Paris IX Dauphine

Page 7: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

1.3 Présentation du logiciel SODAS

1.3.1 Fonctionnement du logiciel Il s'agit d'un logiciel prototype public (accessible sur www.cisia.com). Il est issu de la collaboration de 17 équipes dans le cadre d'un projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Il permet l'extension des méthodes de l'Analyse des données classiques (Statistiques descriptives, Analyse factorielle, Classification Automatique, Arbres de décisions...) à des données symboliques. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

- Partir d'une base de données relationnelle (ORACLE, ACCESS...) - Définir ensuite un contexte par des unités statistiques de premier niveau (habitants,

familles, entreprises, actions ...), les variables qui les décrivent, des concepts (villes, pays, actionnaires, marchés ...).

- Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque action est associée à son secteur d’activité).

- Ce contexte est défini par une requête de la base. - On construit alors un tableau de données symboliques dont les nouvelles unités

statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées.

Le logiciel SODAS permet alors d’analyser les données symboliques sous forme d’histogrammes, d’étoiles..., de les comparer par des calculs de dissimilarité, de les classifier, de donner une représentation graphique et une description symbolique des classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de concepts), d'en donner une représentation graphique plane (analyse en composantes principales), de les discriminer (analyse factorielle discriminante, arbres de décision)...

DESS Informatique Décisionnelle 7 Université de Paris IX Dauphine

Page 8: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

1.3.2 Interface du logiciel

Fig1 : Interface du logiciel SODAS

DESS Informatique Décisionnelle 8 Université de Paris IX Dauphine

Page 9: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

2 Etude des données concernant les actions de l’indice boursier SBF120

2.1 Source des données La base de données DataminingSBF120.mdb qui nous servira pour notre étude est une base de données relationnelle au format Access. Elle a été entièrement créée à partir du site Internet : www.boursorama.com. Cette base de données regroupe les 119 actions présentes dans le SBF120 en février 2004. Les informations concernant les actions sont notamment le secteur d’activité de l’entreprise cotée, l’actionnaire principal, sa capitalisation et son chiffre d’affaires. Dans le but d’avoir une vue plus précise de cette base de données et de son organisation, le schéma suivant permet de montrer les différentes tables créées ainsi que les relations existantes entre elles.

Fig2 : Schéma de la base de données SBF120

DESS Informatique Décisionnelle 9 Université de Paris IX Dauphine

Page 10: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

2.2 Description de la base de données La base de données est décomposée en sept tables : • La table ACTIONS avec toutes les informations sur les actions de l’indice du SBF 120

(Chaque action correspond à une société). • La table VILLE regroupe toutes les villes des sièges des sociétés du SBF120. • La table PAYS regroupe tous les pays des sièges des sociétés. • La table SECTEURACTIVITE regroupe tous les secteurs l’activité des sociétés. • La table INDICE regroupe les indices principaux des sociétés. • La table TYPEPRINCIPALACTIONNAIRE regroupe les différents types d’actionnaire

d’une société. • La table RECOMMANDATION regroupe tous les types de recommandation des

analystes concernant les sociétés du SBF120 (Acheter, sur pondérer, conserver, sous pondérer et Vendre).

3 Individus, variables de description et concepts Les individus sont les différentes actions du SBF120 et sont au nombre de 119. Les variables de description sont les suivantes : • La ville du siège de la société • Le pays du siège de la société • L’indice principal de l’action • Le type d’actionnaire principal • La recommandation d’une action1 • Le marché sur lequel l’action est présente • Le principal actionnaire de la société • La participation du principal actionnaire • Le nombre de titre (action) d’une société • La capitalisation boursière de la société • Le dividende net versé par action détenue • Le chiffre d’affaires de la société • Les frais de personnel de la société • Le résultat d’exploitation de la société • Le résultat net de la société • Les dettes financières de la société • Les capitaux propres de la société • L’effectif de la société

DESS Informatique Décisionnelle 10

1 Indispensable pour la suite de l’étude : Les recommandations sont classées comme suit de la moins bonne à la meilleure : Vendre, Sous pondérer, Conserver, Sur pondérer, Acheter.

Université de Paris IX Dauphine

Page 11: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Les concepts sont les différents secteurs d’activité qui sont au nombre de 34 : • Hôtellerie Restauration Tourisme • Banque • Transport Stockage • Assurances • Energie et produit de base • Agroalimentaire • Autres biens d'équipement • Ingénierie • Environnement et Services aux collectivités • Services informatiques • Chimie Pharmacie Cosmétiques • Electricité Electronique • Biens de consommation non durables • Loisirs, équipements de loisirs • Distribution générale grand public • Télécommunication • Matériaux de construction • Biens d'équipement domestique • Communication Médias Multimédias • BTP Génie Civil • Aéronautique Espace Armement • Equipement automobile • Conglomérat • Immobilier • Distribution spécialisée • Transformation des métaux • Holding • Internet • Services financiers • Construction mécanique • Société de portefeuille • Textile Habillement Accessoires • Automobile • Distribution industrielle

DESS Informatique Décisionnelle 11 Université de Paris IX Dauphine

Page 12: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

4 Requêtes et taxonomies utilisées

4.1 Requêtes Une requête DataActions renvoyant toutes les informations nécessaires a été créée : SELECT Actions.RaisonSociale,

SecteurActivite.LibSecteurActivite, Actions.CodeAction, Actions.Marche, Actions.PrincipalActionnaire, [NombreTitres]/1000000 AS NombreTitres2, Actions.ParticipationPrincipalActionnaire, [CapitalisationBoursiere]/1000000000 AS CapitalisationBoursiere2, Actions.DividendeNet, [CA]/1000000000 AS CA2, [FraisPersonnel]/1000000000 AS FraisPersonnel2, [ResultatExploitation]/1000000000 AS ResultatExploitation2, [ResultatNet]/1000000000 AS ResultatNet2, [DettesFinancieres]/1000000000 AS DettesFinancieres2, [CapitauxPropres]/1000000000 AS CapitauxPropres2, Actions.Effectif, Indice.LibIndice, Pays.LibPays, Recommandation.LibRecommandation, TypePrincipalActionnaire.LibTypePrincipalActionnaire, Ville.LibVille

FROM Ville INNER JOIN (TypePrincipalActionnaire INNER JOIN (SecteurActivite INNER JOIN (Recommandation INNER JOIN (Pays INNER JOIN (Indice INNER JOIN Actions ON Indice.IdIndice = Actions.IdIndicePrincipal) ON Pays.IdPays = Actions.IdPays) ON Recommandation.IdRecommandation = Actions.IdRecommandation) ON SecteurActivite.IdSecteuActivite = Actions.IdSecteurActivite) ON TypePrincipalActionnaire.IdTypePrincipalActionnaire = Actions.IdTypePrincipalActionnaire) ON Ville.IdVille = Actions.IdVilleSiege;

DESS Informatique Décisionnelle 12 Université de Paris IX Dauphine

Page 13: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Une requête Rendement permettant de connaître le rendement moyen des actions d’un même secteur d’activité et d’autre valeur moyenne telle que le CA, … : SELECT

SecteurActivite.LibSecteurActivite, Avg(Actions.DividendeNet/[Rendement 1])*100 AS Rendement, Avg([CA]/1000000000) AS [Moy CA], Avg([CapitalisationBoursiere]/1000000000) AS [Moy CapitalisationBoursiere], Avg([FraisPersonnel]/1000000000) AS [Moy FraisPersonnel], Avg([ResultatExploitation]/1000000000) AS [Moy ResultatExploitation], Avg([ResultatNet]/1000000000) AS [Moy ResultatNet], Avg([DettesFinancieres]/1000000000) AS [Moy DettesFinancieres], Avg([CapitauxPropres]/1000000000) AS [Moy CapitauxPropres], Avg(Actions.Effectif) AS [Moy Effectif]

FROM SecteurActivite INNER JOIN (Actions INNER JOIN ValeurAction ON Actions.CodeAction = ValeurAction.CodeAction) ON SecteurActivite.IdSecteuActivite = Actions.IdSecteurActivite GROUP BY SecteurActivite.LibSecteurActivite;

4.2 Taxonomies La taxonomie créée reprend la ville et le pays du siège d’une société. En effet chaque ville ne fait partie que d’un seul pays. Cette taxonomie est représentée en SQL comme suit : SELECT Ville.LibVille,

Pays.LibPays FROM Pays INNER JOIN Ville ON Pays.IdPays = Ville.IdPays;

DESS Informatique Décisionnelle 13 Université de Paris IX Dauphine

Page 14: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5 SODAS

5.1 Importation des données sous sodas Afin d’importer des données provenant d’une base de données relationnelle telle que Access, il faut utiliser le module DB2SO de SODAS. Il est supposé qu’un ensemble d’individus est stocké dans une base de données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire une assertion pour chaque groupe d’individus. Dans ce processus, les variables parentes et les taxonomies sur des domaines de variables peuvent aussi être associées à des assertions générées. DB2SO est appelé à partir de Import dans SODAS file. Ensuite pour importer les données, il faut sélectionner la base relationnelle en allant dans File/New :

Fig3 : DB2SO sous SODAS

DESS Informatique Décisionnelle 14 Université de Paris IX Dauphine

Page 15: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

La fenêtre suivante apparaît :

Fig4 : Sélection de la base de données relationnelle

Il faut sélectionner la base de donnée qui nous intéresse et appuyer sur OK. Une fois la base de donnée sélectionnée, la fenêtre suivante s’affiche :

Fig5 : Fenêtre DB2SO de requêtage

DESS Informatique Décisionnelle 15 Université de Paris IX Dauphine

Page 16: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Il faut alors écrire une requête sql afin de rapatrier toutes les informations :

Fig6 : Fenêtre DB2SO de requêtage (2)

Après exécution de la requête, les messages suivants s’affiche quand celle-ci s’est bien exécutée.

Fig7 : Résultat après exécution d’une requête

DESS Informatique Décisionnelle 16 Université de Paris IX Dauphine

Page 17: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Ensuite pour créer les taxonomies, il faut aller dans Modify / Create a taxonomy.

Fig8 : Ajout d’une taxonomie

Il faut alors sélectionner la variable sur laquelle on veut créer la taxonomie et indiquer la requête créée à cet effet :

Fig9 : Ajout d’une taxonomie (2)

Le message suivant doit apparaître :

DESS Informatique Décisionnelle 17 Université de Paris IX Dauphine

Page 18: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Fig10 : Résultat après ajout de la taxonomie

Une taxonomie sur la variable LibVille vient donc d’être créée. Il est aussi possible de rajouter des variables uniques relatives aux concepts seulement, tel que le rendement d’une action. Pour cela il faut aller dans Modify / Add single-valued variables.

Fig11 : Ajout d’une ou plusieurs variables

La fenêtre suivante apparaît et il faut donc appelée la requête créée à cet effet :

Fig12 : Ajout d’une ou plusieurs variables (2)

DESS Informatique Décisionnelle 18 Université de Paris IX Dauphine

Page 19: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Le message suivant s’affiche quand l’exécution s’effectue correctement :

Fig13 : Résultat après ajout d’une ou plusieurs variables

Nos concepts au nombre de 34 sont donc les différents secteurs d’activité, et nous avons une variable supplémentaire qu’est le Rendement.Notre taxonomie est la suivante :

Fig14 : Représentation d’une taxonomie

DESS Informatique Décisionnelle 19 Université de Paris IX Dauphine

Page 20: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Pour continuer à travailler avec les données ainsi rapatriées, il faut enregistrer ces données sous un fichier .gaj dans File / Save :

Fig15 : Sauvegarde de la base SODAS

La fenêtre ci-dessous apparaît :

Fig16 : Sauvegarde de la base SODAS (2)

Il ne vous reste plus qu’à enregistrer.

DESS Informatique Décisionnelle 20 Université de Paris IX Dauphine

Page 21: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Ensuite, il faut exporter ce fichier pour créer un nouveau fichier SODAS de type .sds. Aller dans File/Export.

Fig17 : Exportation de la base SODAS

Dans la fenêtre suivante, il faut donner un titre au fichier SODAS et cliquez sur OK :

Fig18 : Exportation de la base SODAS (2)

Ce fichier sera la base de toutes les applications SODAS.

DESS Informatique Décisionnelle 21 Université de Paris IX Dauphine

Page 22: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2 Application des différentes méthodes Etapes indispensables afin de pouvoir appliquer les méthodes. D’une part, il faut ouvrir dans la chaîne une base SODAS comme suit : clic droit sur la base de la chaîne puis sur open.

Fig19 : Sélection d’une base SODAS

La fenêtre suivante apparaîtra :

Fig20 : Sélection d’une base SODAS (2)

Il faut sélectionner la base concernée et appuyer sur OK.

DESS Informatique Décisionnelle 22 Université de Paris IX Dauphine

Page 23: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

D’autre part, il faut enregistrer la chaîne. Pour cela, il faut insérer une méthode dans la chaîne et enregistrer la chaîne tout de suite après, avant même d’exécuter une des méthodes.

Fig21 : Enregistrement d’une chaîne

La fenêtre suivante apparaît :

Fig22 : Enregistrement d’une chaîne (2)

Il suffit de donner un nom au fichier .FIL et de cliquer sur OK. Nous pouvons désormais utiliser les méthodes que l’on veut.

DESS Informatique Décisionnelle 23

Université de Paris IX Dauphine

Page 24: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.1 La méthode SOE (Symbolic Object Editor)

5.2.1.1 Présentation de la méthode

La méthode SOE permet de visualiser tous les objets symboliques présents dans un fichier SODAS et d’opérer quelques modifications sur les données provenant du fichier. Toutes les données sont rapatriées dans une table sous SODAS. La méthode SOE permet de représenter graphiquement les données en 2D ou 3D. Chaque objet symbolique récupéré peut être ainsi représenté, la représentation la plus utilisée étant l’étoile zoom. La visualisation en étoile zoom est basée sur des axes radiaires, où chaque axe représente une variable. Chaque étoile représente un objet symbolique. Le but de la représentation est de fournir une image synthétique de l'objet, un profil, et de comparer des profils entre eux.

5.2.1.2 Application de la méthode

Les objets que nous analysons sont les suivants : • Télécommunication • Energie et produit de base • Aéronautique Espace Armement • Communication Médias Multimédias Ce sont les quatre objets symboliques représentant le plus d’individus, donc les quatre secteurs d’activité les plus important du SBF120. Les variables descriptives que nous analysons pour chaque objet sont : • Le pays du siège de la société • La recommandation des analystes • L’effectif de l’entreprise • La capitalisation boursière de l’entreprise (Mds d’Euros) • Le Chiffre d’affaire (CA) de l’entreprise (Mds d’Euros) • Le résultat net de l’entreprise (Mds d’Euros)

DESS Informatique Décisionnelle 24 Université de Paris IX Dauphine

Page 25: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Télécommunications Représentation en deux dimensions

Fig23 : Méthode SOE, Représentation en deux dimensions, Secteur des Télécommunications

Représentation en trois dimensions

Fig24 : Méthode SOE, Représentation en trois dimensions, Secteur des Télécommunications

DESS Informatique Décisionnelle 25 Université de Paris IX Dauphine

Page 26: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Les entreprises cotées au SBF 120 présentent dans le domaine des télécommunications sont assez hétérogènes sur plusieurs critères. En effet, leurs capitalisations boursières varient entre 2,4 et 29 Milliards d’Euros, leurs effectifs oscillent entre 10 132 et 240 145 employés et leurs Chiffres d’affaires varient entre 2,8 et 46,6 Mds d’Euros.

DESS Informatique Décisionnelle 26

En ce qui concerne les résultats nets des entreprises de télécommunication, ils sont tous négatifs mais selon des proportions très différentes (Entre -0,6 et – 20,9 Mds d’Euros). Certes, ces pertes peuvent être proportionnelles à leurs chiffres d’affaires respectifs, mais en réalité, elles diffèrent selon les normes comptables utilisées par les entreprises pour calculer leurs bilans. Ces différentes normes de comptabilité existent selon la part d’internationalisation des entreprises. Les pertes engendrées en 2003 par les sociétés de télécommunications peuvent être expliquées par la crise intervenue depuis les deux dernières années.

Fig25 : Méthode SOE,

les pays

Les sièges2 des entreprises de télécommunication se répartissent entre deux pays que sont les Pays-Bas et la France dans des proportions respectives de 0,33 et 0,67. Les entreprises de télécommunication, malgré leurs pertes importantes, sont bien notées par les analystes. En effet, elles récupèrent chacune une recommandation entre conserver et sur pondérer ce qui n’est pas mal du tout sachant que seulement huit sociétés ont une recommandation d’achat (meilleure recommandation possible). Ces recommandations positives peuvent être expliquées par la fin de la crise et donc par un mouvement positif généralisé sur les places boursières du monde entier.

2 Concernant l’origine des entreprises du SBF120, il faut savoir que seules huit entreprises seulement sur 119 représentées ne se situent pas en France.

Université de Paris IX Dauphine

Page 27: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Energie et produit de base Représentation en deux dimensions

Fig26 : Méthode SOE, Représentation en deux dimensions, Secteur de l’énergie et des produits de base

Représentation en trois dimensions

Fig27 : Méthode SOE, Représentation en trois dimensions, Secteur de l’énergie et des produits de base

DESS Informatique Décisionnelle 27 Université de Paris IX Dauphine

Page 28: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Les entreprises cotées au SBF 120 présentent dans le domaine de l’énergie et produit de base sont assez hétérogènes sur plusieurs critères. En effet, leurs capitalisations boursières varient entre 13,3 et 94,2 Milliards d’Euros et leurs Chiffres d’affaires varient entre 7,9 et 102,5 Milliards d’Euros. En ce qui concerne les résultats nets des entreprises du secteur, ils sont tous plus ou moins positifs (Entre 0,8 et 5,9 Milliards d’Euros). Ces bénéfices sont assez importants si l’on en juge le premier graphique car une des entreprises du secteur réalise le meilleur résultat net de l’indice SBF120. Nous pouvons donc dire que le secteur Energie et produit de base est un des secteurs le plus porteur et le plus prolifique. Les entreprises de ce secteur sont toutes basées en France, en tout cas en ce qui concerne les entreprises du SBF120. Malgré leurs résultats importants, les entreprises du secteur Energie et produits de base ne sont pas mieux notées par les analystes. En effet, les notations attribuées par ces analystes sont identiques à celles du secteur des télécommunications (Conserver et Sous pondérer). Ceci peut être expliquer par le fait que le secteur de l’énergie est un secteur cyclique et donc non soumis au périodes spéculatives comme pour le secteur des télécommunications. De plus, le rapport entre Résultat Net et effectif de l’entreprise est très favorable aux entreprises de ce secteurs car étant dans le haut de la fourchette en ce qui concerne le résultat net et dans le bas de la fourchette en ce qui concerne l’effectif.

DESS Informatique Décisionnelle 28 Université de Paris IX Dauphine

Page 29: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Aéronautique Espace Armement Représentation en deux dimensions

Fig28 : Méthode SOE, Représentation en deux dimensions, Secteur de l’aéronautique, de l’espace et de l’armement

Représentation en trois dimensions Fig29 : Méthode SOE, Représentation en trois dimensions, Secteur de l’aéronautique, de

l’espace et de l’armement

DESS Informatique Décisionnelle 29 Université de Paris IX Dauphine

Page 30: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Les entreprises cotées au SBF 120 présentent dans le domaine de l’aéronautique, l’espace et l’armement sont moins hétérogènes que les entreprises présentes dans les secteurs vus jusqu’à maintenant. En effet, seul les recommandations sont assez diversifiées. Trois des cinq modalités sont représentées dans ce secteur d’activité. Toutefois nous pouvons ajouter que toues les recommandations sont positives et se situent entre conserver et acheter. Le secteur de l’aéronautique est un des rares à avoir une recommandation d’achat. Les rapports minimum/maximum des intervalles concernant la capitalisation boursière et le chiffre d’affaires sont équivalents ce qui ne montre qu’il n’y a pas de forte distinction au niveau boursier entre les entreprises de ce secteur. Il est à remarquer qu’avec des résultats nets proches de zéro, les entreprises d’aéronautique ne font pas parties des entreprises les plus rentables de l’indice SBF120. Toutefois, elles ne sont pas non plus les plus déficitaires. Le manque de résultat de ces entreprises peut être relativisé quand on sait que les évènements du 11 septembre ne sont pas loin ainsi que l’épidémie du SRAS et les guerres en Afghanistan et en Irak. En effet, les entreprises d’aviation civile et les croisiéristes, avec le déclin de leurs occupations, n’ont pas commandé beaucoup d’appareils et de navires. En ce qui concerne les effectifs, nous pouvons dire que proportionnellement à leurs chiffres d’affaires, les entreprises en aéronautique, en armement et en systèmes de défense emploient un grand nombre de personnes.

DESS Informatique Décisionnelle 30 Université de Paris IX Dauphine

Page 31: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Communication Médias Multimédias Représentation en deux dimensions

Fig30 : Méthode SOE, Représentation en deux dimensions, Secteur de la communication, des médias et du multimédia

Représentation en trois dimensions

Fig31 : Méthode SOE, Représentation en trois dimensions, Secteur de la communication, des médias et du multimédia

DESS Informatique Décisionnelle 31 Université de Paris IX Dauphine

Page 32: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Les entreprises cotées au SBF 120 présentent dans le domaine de la communication, des médias, et des multimédias sont très hétérogènes sur plusieurs critères. En effet, leurs chiffres d’affaires varient entre moins de 10 Millions d’Euros et 58,2 Milliards d’Euros, leurs résultats nets varient entre – 22 et 0.4 Milliards d’Euros et leurs effectifs varient entre 1 226 et 335 000 employés.

DESS Informatique Décisionnelle 32

En ce qui concerne les notations attribuées par les analystes, d’après le schéma à droite, sont elles aussi biens situées entre conserver (33 %) et sur pondérer (67 %) ce qui veut dire que ce secteur est en période de reconstruction (Voir paragraphe suivant). Nous ne pouvons pas dire que c’est un secteur porteur car, même si l’intervalle concernant les chiffres d’affaires des entreprises est plus que conséquent, les profits (résultats nets) de ces entreprises sont plus ou moins inexistants. En effet, les entreprises du secteur des communications sont

Fig32 : Méthode SOE, les

recommandations

plutôt déficitaires voire même très déficitaires. La fourchette des valeurs étant comprise entre 22,5 Milliards d’Euros de pertes et 0,2 Milliards d’Euros de profits. Malgré les importants chiffres d’affaires générés par les entreprises de ce secteur, les capitalisations de celles-ci ne sont pas flamboyantes, voire même très faibles. Ceci peut être expliqué par la crise économique intervenue lors de l’année 2000 après trois années de croissance extraordinaire relative à la bulle internet. Malheureusement, la bourse est montée beaucoup trop rapidement ce qui a entraîné un mini krach boursier ayant affecté plus particulièrement les valeurs de communication et télécommunication.

Université de Paris IX Dauphine

Page 33: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.2 La méthode DIV (Divisive Classification)

5.2.2.1 Présentation de la méthode

DIV est une méthode de classification hiérarchique qui commence avec tous les objets d’une classe et procède par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l’inertie. L’algorithme se termine après k-1 divisions, où k représente le nombre de classes données en entrée par l’utilisateur.

5.2.2.2 Application de la méthode

Les variables utilisées sont le chiffre d’affaires et la capitalisation boursière d’une entreprise. Le nombre de classe choisi est de 6 donnant le résultat suivant :

Fig33 : Résultat obtenu avec la méthode DIV VARIANCE OF THE SELECTED VARIABLES : ------------------------------------ Moy_CA : 158.270930 Moy_CapitalisationBoursiere : 112.797072 ------------------------------------------------------- PARTITION IN 2 CLUSTERS : -------------------------: Cluster 1 (n=29) : "Hotellerie Restauration Tourisme" "Assurances" "Transport Stockage" "Autres biens d'équipement" "Agroalimentaire" "Ingénierie" "Transformation des métaux" "Services informatiques" "Environnement et Services aux collectivités" "Chimie Pharmacie Cosmétiques" "Biens d'équipement domestique" "Loisirs, équipements de loisirs" "Biens de consommation non durables" "BTP Génie Civil" "Electricité Electronique" "Matériaux de construction" "Aéronautique Espace Armement" "Société de portefeuille" "Services financiers" "Equipement automobile" "Conglomérat" "Immobilier" "Distribution spécialisée" "Communication Médias Multimédias" "Textile Habillement Accessoires" "Construction mécanique" "Distribution industrielle" "Internet" "Holding" Cluster 2 (n=5) : "Energie et produit de base" "Télécommunication" "Banque" "Distribution générale grand public" "Automobile" Explicated inertia : 57.270321 PARTITION IN 3 CLUSTERS : -------------------------: Cluster 1 (n=29) :

DESS Informatique Décisionnelle 33

Université de Paris IX Dauphine

Page 34: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

"Hotellerie Restauration Tourisme" "Assurances" "Transport Stockage" "Autres biens d'équipement" "Agroalimentaire" "Ingénierie" "Transformation des métaux" "Services informatiques" "Environnement et Services aux collectivités" "Chimie Pharmacie Cosmétiques" "Biens d'équipement domestique" "Loisirs, équipements de loisirs" "Biens de consommation non durables" "BTP Génie Civil" "Electricité Electronique" "Matériaux de construction" "Aéronautique Espace Armement" "Société de portefeuille" "Services financiers" "Equipement automobile" "Conglomérat" "Immobilier" "Distribution spécialisée" "Communication Médias Multimédias" "Textile Habillement Accessoires" "Construction mécanique" "Distribution industrielle" "Internet" "Holding" Cluster 2 (n=4) : "Télécommunication" "Banque" "Distribution générale grand public" "Automobile" Cluster 3 (n=1) : "Energie et produit de base" Explicated inertia : 73.672648 PARTITION IN 4 CLUSTERS : -------------------------: Cluster 1 (n=20) : "Hotellerie Restauration Tourisme" "Transport Stockage" "Autres biens d'équipement" "Agroalimentaire" "Ingénierie" "Services informatiques" "Biens d'équipement domestique" "Loisirs, équipements de loisirs" "Biens de consommation non durables" "Electricité Electronique" "Société de portefeuille" "Services financiers" "Immobilier" "Distribution spécialisée" "Communication Médias Multimédias" "Textile Habillement Accessoires" "Construction mécanique" "Distribution industrielle" "Internet" "Holding" Cluster 2 (n=4) : "Télécommunication" "Banque" "Distribution générale grand public" "Automobile" Cluster 3 (n=1) : "Energie et produit de base" Cluster 4 (n=9) : "Assurances" "Transformation des métaux" "Environnement et Services aux collectivités" "Chimie Pharmacie Cosmétiques" "BTP Génie Civil" "Matériaux de construction" "Aéronautique Espace Armement" "Equipement automobile" "Conglomérat" Explicated inertia : 85.070591

DESS Informatique Décisionnelle 34 PARTITION IN 5 CLUSTERS :

Université de Paris IX Dauphine

Page 35: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

-------------------------: Cluster 1 (n=20) : "Hotellerie Restauration Tourisme" "Transport Stockage" "Autres biens d'équipement" "Agroalimentaire" "Ingénierie" "Services informatiques" "Biens d'équipement domestique" "Loisirs, équipements de loisirs" "Biens de consommation non durables" "Electricité Electronique" "Société de portefeuille" "Services financiers" "Immobilier" "Distribution spécialisée" "Communication Médias Multimédias" "Textile Habillement Accessoires" "Construction mécanique" "Distribution industrielle" "Internet" "Holding" Cluster 2 (n=4) : "Télécommunication" "Banque" "Distribution générale grand public" "Automobile" Cluster 3 (n=1) : "Energie et produit de base" Cluster 4 (n=8) : "Assurances" "Transformation des métaux" "Environnement et Services aux collectivités" "BTP Génie Civil" "Matériaux de construction" "Aéronautique Espace Armement" "Equipement automobile" "Conglomérat" Cluster 5 (n=1) : "Chimie Pharmacie Cosmétiques" Explicated inertia : 89.285550 PARTITION IN 6 CLUSTERS : -------------------------: Cluster 1 (n=20) : "Hotellerie Restauration Tourisme" "Transport Stockage" "Autres biens d'équipement" "Agroalimentaire" "Ingénierie" "Services informatiques" "Biens d'équipement domestique" "Loisirs, équipements de loisirs" "Biens de consommation non durables" "Electricité Electronique" "Société de portefeuille" "Services financiers" "Immobilier" "Distribution spécialisée" "Communication Médias Multimédias" "Textile Habillement Accessoires" "Construction mécanique" "Distribution industrielle" "Internet" "Holding" Cluster 2 (n=3) : "Télécommunication" "Banque" "Distribution générale grand public" Cluster 3 (n=1) : "Energie et produit de base" Cluster 4 (n=8) :

DESS Informatique Décisionnelle 35

Université de Paris IX Dauphine

Page 36: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

"Assurances" "Transformation des métaux" "Environnement et Services aux collectivités" "BTP Génie Civil" "Matériaux de construction" "Aéronautique Espace Armement" "Equipement automobile" "Conglomérat" Cluster 5 (n=1) : "Chimie Pharmacie Cosmétiques" Cluster 6 (n=1) : "Automobile" Explicated inertia : 93.341782 THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=20) ! !----3- [Moy_CA <= 8.962685] ! ! ! ! +---- Classe 4 (Ng=8) ! ! ! ! !----4- [Moy_CapitalisationBoursiere <= 20.174150] ! ! ! +---- Classe 5 (Nd=1) ! !----1- [Moy_CA <= 21.795050] ! ! +---- Classe 2 (Ng=3) ! ! ! !----5- [Moy_CA <= 35.937201] ! ! ! ! ! +---- Classe 6 (Nd=1) ! ! !----2- [Moy_CapitalisationBoursiere <= 39.823199] ! +---- Classe 3 (Nd=1)

Parmi les 34 secteurs d’activité, ont remarque que seul 5 d’entre eux ont un chiffre d’affaires moyen dépassant les 21,79 Milliards d’Euros. De même, un seul d’entre eux possède une capitalisation moyenne supérieur à 39,8 Milliards d’Euros. Un seul secteur d’activité à une moyenne de son chiffre d’affaires inférieur à 8,96 Milliards d’Euros. Ceci laisse entendre que l’ensemble des objets symboliques traités réalise en moyenne un fort chiffre d’affaires. En règle générale, nous pouvons remarquer que les secteurs d’activité qui ont une capitalisation boursière moyenne très élevée réalisent des chiffres d’affaires moyens très élevés aussi. Et vis et versa.

DESS Informatique Décisionnelle 36 Université de Paris IX Dauphine

Page 37: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.3 La méthode STAT (Histogram, Elementary Statistics)

5.2.3.1 Présentation de la méthode

STAT étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. C’est un composant de SODAS et donc il fonctionne dans SODAS avec les bases de données de SODAS. Les méthodes dépendent du type des variables de la base et sont filtrées en fonction de la méthode de travail :

- Fréquences relatives pour variables multimodales (Dans cette méthode, on calcule la fréquence relative de chaque modalité de la variable multinominale en prenant en compte les règles données par la base. Le graphique associé à la distribution de la variable peut être soit un histogramme soit un diagramme circularisé.).

- Fréquences relatives pour variables intervalles (Dans cette méthode, soit X une variable intervalle observée dans un ensemble d’objets symboliques. On peut construire un histogramme pour la variable X sur l’intervalle [a,b] où a est la plus petite limite et b la plus grande. Le calcul des fréquences relatives associées à une classe Ck prend en compte le recouvrement de Ck par les valeurs intervalle de X sur chaque objet symbolique.).

- Capacités et min/max/mean pour variables multimodales probabilistes (La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. La capacité d’une modalité est représentée par l’union des différentes capacités. En ce qui concerne le graphique min/max/mean, il associe un diagramme représentant l’étendue et la moyenne de la probabilité de chaque modalité.).

- Biplot pour variables intervalles (Dans la méthode d, le graphique présente un objet symbolique comme un rectangle sur le plan à deux variables choisies par l’utilisateur. Chaque côté du rectangle représente la distance de l’axe pour l’objet symbolique.).

- Objet central. Les données des méthodes sélectionnées peuvent être regardées de deux façons : listing ou graphe. Le graphe peut être changé et personnalisé (texte, couleurs…).

DESS Informatique Décisionnelle 37 Université de Paris IX Dauphine

Page 38: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.3.2 Application de la méthode

Fréquences relatives pour variables intervalles J’ai choisi d’effectuer l’analyse sur les effectifs des entreprises, et je les ai découpé en 11 classes.

Fig34 : Fréquences relatives pour variables intervalles

Nous pouvons observer que trois classes représentent pas moins de 80 % de la population étudiées. Ceci signifie en réalité que 80 % des entreprises des différents secteurs d’activité emploient moins de 100 000 personnes. D’un autre côté les deux dernières classes ne représentent que 1 % des entreprises. Celles-ci emploient en revanche plus de 320 000 personnes chacune.

DESS Informatique Décisionnelle 38 Université de Paris IX Dauphine

Page 39: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Capacités et min/max/mean pour variables multimodales probabilistes Cette étude a été réalisée sur les recommandations de chaque entreprise attribuées par un panel d’analystes spécialistes des marchés boursiers.

Fig35 : Capacités et min/max/mean pour variables multimodales probabilistes

Nous pouvons remarquer que parmi les cinq notations possibles, trois d’entre elles sont les plus plébiscitées par les analystes. En effet, sachant que nous sommes dans une période de reprise économique, les recommandations positives ou neutres sont majoritaires (Conserver, Sur pondérer et Acheter. De même, les recommandations de vente et de sous pondération sont moins employées. Parmi les notations positives, l’achat est la moins utilisées ce qui signifie que rares sont les entreprises ayant une forte visibilité à long terme. En revanche la sur pondération représente pas loin de 40 % des recommandations ce qui veut dire que les entreprises ont une bonne visibilité et donc que le potentiel de progression des actions est très intéressant.

DESS Informatique Décisionnelle 39 Université de Paris IX Dauphine

Page 40: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Biplot pour variables intervalles L’étude s’est effectuée sur les valeurs de capitalisation boursière et de chiffre d’affaires (Seules certains concepts ont été gardés pour plus de lisibilité).

Fig36 : Biplot pour variables intervalles

D’après les résultats ci-dessus, on s’aperçoit qu’un secteur se dégage du lot en terme de capitalisation boursière et de chiffre d’affaires. En effet, le domaine de l’énergie est fortement capitalisé et dégage de gros revenus. En ce qui concerne les secteurs de la banque et de la chimie, nous pouvons remarquer qu’ils sont caractérisés par les mêmes valeurs au niveau des capitalisations boursières. En revanche, le secteur de la banque se détache au niveau du chiffre d’affaires. En effet, l’entreprise leader dans la banque réalise plus du double du chiffre d’affaire de l’entreprise leader dans la pharmacie. Cette analyse peut être flatteuse pour les banques mais en réalité cela peut signifier que celles-ci sont sous valorisées par rapports aux entreprises de chimie. Le secteur des banques a donc un potentiel de croissance des plus conséquent. Dans le secteur automobile, il n’existe pas de petite entreprise comme dans les autres secteurs car la capitalisation boursière minimum se situe aux alentours des 10 Milliards d’Euros et le chiffre d’affaires minimum aux alentours des 35 Milliards d’Euros. Les entreprises des secteurs des assurances et de la grande distribution sont très attractives avec leurs faibles capitalisations boursières et au regard de leurs importants chiffres d’affaires.

DESS Informatique Décisionnelle 40

Université de Paris IX Dauphine

Page 41: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.4 La méthode DI (Distance Matrix) Variables utilisées :

- Chiffres d’affaires - Résultat Net

Cette méthode permet de voir les corrélations entre les différents objets symboliques en fonction de variables. Le résultat obtenu est le suivant :

Fig37 : Résultat obtenu avec la méthode DI Sodas The Statistical Package for Symbolic Data Analysis Version 1.0 - 05 January 2001 **************D I S T A N C E M E A S U R E S************* Data Information: Input Sodas File: C:\ALEXAN~1\DESSID~1\DATAMI~1\SODAS\SBF120.SDS 34 Boolean Symbolic Objects (BSOs) read. 2 Variables selected for each BSO: 8 11 Selected Distance Function: U_1 Gowda & Diday LIST OF SYMBOLIC OBJECTS IN THE SET : 1 : "Hôtellerie Restauration Tourisme" 2 : "Assurances" 3 : "Transport Stockage" 4 : "Energie et produit de base" 5 : "Télécommunication" 6 : "Autres biens d'équipement" 7 : "Agroalimentaire" 8 : "Ingénierie" 9 : "Transformation des métaux" 10 : "Services informatiques" 11 : "Environnement et Services aux collectivités 12 : "Chimie Pharmacie Cosmétiques" 13 : "Biens d'équipement domestique" 14 : "Loisirs, équipements de loisirs"

DESS Informatique Décisionnelle 41 15 : "Biens de consommation non durables"

Université de Paris IX Dauphine

Page 42: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

16 : "Banque" 17 : "BTP Génie Civil" 18 : "Electricité Electronique" 19 : "Distribution générale grand public" 20 : "Matériaux de construction" 21 : "Aéronautique Espace Armement" 22 : "Société de portefeuille" 23 : "Services financiers" 24 : "Equipement automobile" 25 : "Conglomérat" 26 : "Immobilier" 27 : "Distribution spécialisée" 28 : "Communication Médias Multimédias" 29 : "Textile Habillement Accessoires" 30 : "Automobile" 31 : "Construction mécanique" 32 : "Distribution industrielle" 33 : "Internet" 34 : "Holding" Distance Matrix BSO 1 2 3 4 1 0 2 3.268 0 3 1.637 3.25 0 4 3.691 2.208 3.643 0 5 4.393 3.316 4.144 3.448 ------------------------------------------------------------------------- Page 2 SODAS 05/09/04 BSO 1 2 3 4 6 2.922 2.359 2.455 3.153 7 2.379 2.168 1.602 3.363 8 3.23 3.834 3.083 3.672 9 2.555 3.08 2.159 3.352 10 1.151 3.134 2.17 3.579 11 1.842 2.137 2.085 2.943 12 2.955 2.154 2.469 2.948 13 1.484 3.397 1.066 3.671 14 3.618 3.963 3.489 3.705 15 4.011 4.032 4.006 3.745 16 3.51 2.157 3.296 2.054 17 1.835 3.004 1.578 3.463 18 1.358 2.875 1.673 3.597 19 3.261 0.5274 3.208 2.181

DESS Informatique Décisionnelle 42 Université de Paris IX Dauphine

Page 43: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

20 2.712 2.202 2.409 3.201 21 2.536 2.768 2.199 3.209 22 3.849 4.02 3.592 3.712 23 3.976 4.029 4.003 3.755 24 1.391 3.192 2.132 3.658 25 1.974 2.565 1.316 3.533 ------------------------------------------------------------------------- Page 3 SODAS 05/09/04 BSO 1 2 3 4 26 3.535 3.938 3.6 3.726 27 3.799 3.99 3.518 3.708 28 4.548 2.961 4.365 3.353 29 4.011 4.033 4.007 3.767 30 1.583 3.337 1.489 3.808 31 3.756 4.015 3.446 3.702 32 3.966 4.084 3.493 3.76 33 4.013 4.035 3.619 3.723 34 2.646 3.626 2.539 3.509 BSO 5 6 7 8 5 0 6 3.667 0 7 4.024 1.845 0 8 4.591 3.774 3.659 0 9 3.669 1.969 2.604 2.921 10 4.392 2.582 2.389 3.284 11 2.727 2.595 2.755 3.527 12 3.649 1.33 1.464 3.795 ------------------------------------------------------------------------- Page 4 SODAS 05/09/04 BSO 5 6 7 8 13 4.263 2.794 2.091 3.134 14 4.59 3.956 3.841 2.839 15 4.628 3.981 4.008 2.891 16 2.746 2.539 2.687 3.624 17 3.967 2.112 2.116 3.084 18 4.272 2.378 1.83 3.431 19 3.251 2.51 1.959 3.82 20 3.341 1.874 1.862 3.431 21 3.416 2.138 2.707 3.258 22 4.603 4.034 3.936 3.731 23 4.608 3.915 4.001 2.894 24 4.426 2.922 2.419 2.5 25 4.099 1.962 1.005 3.583 26 4.586 3.897 3.814 2.357 DESS Informatique Décisionnelle 43 Université de Paris IX Dauphine

Page 44: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

27 4.604 3.99 3.915 2.971 28 0.7782 3.908 4.251 4.741 29 4.615 3.878 4.009 2.803 30 4.192 2.089 2.532 1.374 31 4.594 4.003 3.85 3.858 32 4.728 4.113 3.97 2.378 ------------------------------------------------------------------------- Page 5 SODAS 05/09/04 BSO 5 6 7 8 33 4.654 4.064 3.996 3.098 34 4.628 4.001 3.188 2.319 BSO 9 10 11 12 9 0 10 2.638 0 11 2.132 2.696 0 12 2.118 2.92 2.679 0 13 2.109 1.956 2.384 2.78 14 3.572 3.789 3.828 3.907 15 3.928 3.953 4.009 4.01 16 2.833 3.457 2.13 1.908 17 1.838 2.445 1.628 2.121 18 2.563 1.25 2.331 2.552 19 3.068 3.281 2.09 1.915 20 1.956 2.77 1.868 1.859 21 1.086 2.375 1.728 2.355 22 3.859 4.02 3.982 3.968 23 3.627 3.806 4.002 4.007 ------------------------------------------------------------------------- Page 6 SODAS 05/09/04 BSO 9 10 11 12 24 2.796 1.869 2.24 2.925 25 2.414 1.947 2.411 2.04 26 3.425 3.742 3.733 3.891 27 3.749 3.84 3.922 3.947 28 4.029 4.496 3.209 3.939 29 3.476 3.725 4.01 4.011 30 1.521 1.599 2.229 2.871 31 3.835 3.938 3.97 3.937 32 4.051 3.989 4.061 4.033 33 3.968 4.035 4.011 4.012 34 2.435 3.296 2.779 3.438 BSO 13 14 15 16 DESS Informatique Décisionnelle 44 Université de Paris IX Dauphine

Page 45: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

13 0 14 3.655 0 15 4.009 1.321 0 16 3.457 3.686 3.779 0 17 2.057 3.33 3.541 2.873 18 1.423 3.83 4.03 3.288 ------------------------------------------------------------------------- Page 7 SODAS 05/09/04 BSO 13 14 15 16 19 3.359 3.937 4.005 2.014 20 2.777 3.622 3.889 2.178 21 2.369 3.742 3.924 2.513 22 3.907 4.004 0.01237 3.703 23 4.006 1.525 0.006917 3.781 24 2.341 2.74 2.913 3.363 25 1.86 3.78 4.017 3.017 26 3.488 1.233 2.558 3.726 27 3.782 2.204 1.257 3.696 28 4.453 4.777 4.81 3.322 29 4.01 1.164 0.005539 3.79 30 1.405 1.388 1.406 3.399 31 3.68 3.352 0.01684 3.679 32 3.677 0.9904 0.06312 3.904 33 3.917 2.439 0.009306 3.745 34 2.48 2.115 0.04447 3.345 BSO 17 18 19 20 17 0 ------------------------------------------------------------------------- Page 8 SODAS 05/09/04 BSO 17 18 19 20 18 2 0 19 2.961 3.019 0 20 1.883 2.349 2.116 0 21 2.055 2.424 2.792 1.51 22 3.483 4.017 3.985 3.667 23 3.511 4.026 3.999 3.891 24 1.578 1.851 3.177 2.471 25 1.784 1.123 2.699 1.845 26 3.243 3.779 3.909 3.726 27 3.428 3.881 3.966 3.639 28 4.279 4.405 2.971 3.802 29 3.529 4.03 4.006 3.907 30 1.667 1.754 3.551 2.437 31 3.462 4.013 3.946 3.601 DESS Informatique Décisionnelle 45 Université de Paris IX Dauphine

Page 46: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

32 3.897 4.081 3.98 3.73 33 3.574 4.032 3.994 3.733 34 2.291 3.189 3.32 2.857 BSO 21 22 23 24 ------------------------------------------------------------------------- Page 9 SODAS 05/09/04 BSO 21 22 23 24 21 0 22 3.957 0 23 3.673 0.009153 0 24 2.814 2.867 2.89 0 25 2.389 3.901 3.966 1.927 26 3.649 3.045 2.443 2.666 27 3.876 3.59 2.205 2.821 28 3.784 4.797 4.806 4.627 29 3.566 0.01304 0.003888 2.904 30 1.814 1.391 1.412 1.776 31 3.936 0.004472 0.01363 2.852 32 4.066 0.06902 0.07004 3.437 33 4.016 0.01521 0.01622 2.939 34 2.739 0.0321 0.04125 1.779 BSO 25 26 27 28 25 0 26 3.737 0 27 3.874 2.023 0 ------------------------------------------------------------------------- Page 10 SODAS 05/09/04 BSO 25 26 27 28 28 4.299 4.78 4.781 0 29 4.008 1.742 1.5 4.806 30 1.946 1.398 1.389 4.427 31 3.852 2.401 2.206 4.793 32 4.068 0.8209 0.6488 4.861 33 4.019 1.34 2.591 4.812 34 3.16 2.159 1.856 4.765 BSO 29 30 31 32 29 0 30 1.418 0 31 0.01751 1.387 0 32 0.06866 1.414 0.07146 0 DESS Informatique Décisionnelle 46 Université de Paris IX Dauphine

Page 47: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

33 0.01484 1.395 0.0189 0.05381 34 0.04514 1.326 0.0345 0.09609 BSO 33 34 ----------------------------------------------------------------------- Page 11 SODAS 05/09/04 BSO 33 34 33 0 34 0.04653 0 D’après le résultat suivant, sept secteurs d’activité sont très proches au niveau du chiffre d’affaires et du résultat net. Ces objets symboliques présentés ci-dessous sont en effet dans un mouchoir de poche. Ils sont conjointement séparés au maximum par une distance de 0,1 (Voir les résultats en bleu et gras). 22 : "Société de portefeuille" 23 : "Services financiers" 29 : "Textile Habillement Accessoires 31 : "Construction mécanique" 32 : "Distribution industrielle" 33 : "Internet" 34 : "Holding" D’autre part, le secteur d’activité n°4 ("Energie et produit de base") est celui le plus éloigné des autres et donc le moins corrélé. En effet, on peut s’apercevoir que la distance minimum avec un autre secteur d’activité est de 2 (Voir les résultats en rouge et encadrés).

DESS Informatique Décisionnelle 47 Université de Paris IX Dauphine

Page 48: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.5 La méthode PYR (Pyramides)

5.2.5.1 Présentation de la méthode

Il s’agit d’une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce que nous autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d’agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par son extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l’intension de la classe). L’intension est héritée d’un prédécesseur vers son successeur et nous obtenons ainsi une structure d’héritage. La structure d’ordre permet l’identification de concepts intermédiaires ; c’est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L’utilisateur sera invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger.

DESS Informatique Décisionnelle 48 Université de Paris IX Dauphine

Page 49: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.5.2 Application de la méthode

Dans cette étude pyramidale, j’ai utilisé les variables Recommandation et Résultat Net pour évaluer le rapprochement possible entre ces deux variables.

Fig38 : Résultat obtenu par la méthode PYR

DESS Informatique Décisionnelle 49 Université de Paris IX Dauphine

Page 50: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.6 La méthode PCM (Principal Component and Correspondence Analysis)

5.2.6.1 Présentation de la méthode

PCM est une extension de la méthode d’analyse en composante principale (ACP) qui prend en entrée une matrice de terme général de type intervalle. Chaque valeur est un intervalle contenant toutes les valeurs possibles d’une variable (CA, Capitalisation boursière, …) pour un objet symbolique (Les différents secteurs d’activité). Dans la méthode PCM, au lieu de représenter chaque valeur sur un plan factoriel par un point comme dans la méthode ACP, chaque objet est visualisé par un rectangle regroupant l’ensemble des valeurs possibles.

5.2.6.2 Application de la méthode

La méthode ne veut pas s’exécuter. Aucun message d’erreur ne s’affiche.

DESS Informatique Décisionnelle 50 Université de Paris IX Dauphine

Page 51: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.7 La méthode TREE (Decision TREE)

5.2.7.1 Présentation de la méthode

TREE propose un algorithme par agrandissement d’arbre appliqué aux données imprécises. Celles-ci sont formellement décrites par des assertions probabilistes dans l’analyse des données symboliques. Dans ce contexte, la procédure de partage récursif peut être vue comme une recherche itérative d’un ensemble d’objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partage est obtenu à travers l’utilisation d’une mesure donnée en paramètre. On obtient une nouvelle liste d’objets symboliques qui permet d’assigner de nouveaux objets à une classe.

5.2.7.2 Application de la méthode

Dans mon cas, je n’ai pas réussi à faire fonctionner la méthode TREE à cause de la « Variable Class Identifier ». Le message d’erreur qui s’affiche est le suivant :

Fig39 : Message d’erreur lors de l’exécution de la méthode TREE nom du fichier de données C:\ALEXAN~1\ETUDES\DESS_ID\DATAMI~1\SODAS\BASES\SBF120.SDS nom du fichier LISTING : C:\ALEXAN~1\ETUDES\DESS_ID\DATAMI~1\SODAS\FILIERES\CFXDGN08.LST nom du fichier arbre sortie : C:\ALEXAN~1\ETUDES\DESS_ID\DATAMI~1\SODAS\FILIERES\CFXDGN08.TREE nom du fichier ERREUR : C:\ALEXAN~1\ETUDES\DESS_ID\DATAMI~1\SODAS\FILIERES\CFXDGN08.LOG ERROR Incorrect type for classifical variable Only nominal variable

DESS Informatique Décisionnelle 51 Université de Paris IX Dauphine

Page 52: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.8 La méthode FDA (Factorial Discriminant Analysis)

5.2.8.1 Présentation de la méthode

La méthode FDA permet de mettre en évidence les liaisons existant entre une variable à expliquer qualitative et un ensemble de variables explicatives quantitatives, à l’aide d’un plan factoriel approprié. L’objectif est de déterminer quelles classes se différencient le mieux. De même que pour la méthode PCM, on détermine un nouveau caractère, combinaison linéaire des anciens caractères. Cependant, il ne s’agit plus d’obtenir un caractère de variance maximale mais un caractère séparant au mieux les groupes entre eux.

5.2.8.2 Application de la méthode

Comme pour la méthode précédente, je n’ai pas réussi à faire fonctionner la méthode FDA à cause de la « Variable Class Identifier ». Le message d’erreur qui s’affiche est le suivant :

Fig40 : Message d’erreur lors de l’exécution de la méthode FDA -- SODAS WP2.5 Version 2.0 -- FDA : Factorial Discriminant Analysis D.M.S. University of Naples SODAS file : c:\alexan~1\etudes\dess_id\datami~1\sodas\bases\sbf120.sds Command File : c:\progra~1\sodas\Tmp\CFXDGN09.CMD Number of Symbolic Objects : 34 Number of Variables : 28 Starting Time : Mon May 10 20:02:37 2004 Parsing the PAD file : c:\progra~1\sodas\tmp\cfxdgn09.pad --------------------------------------------- Class ID variable used is n° 17 Set ID variable used is n° 0 Parameters : NUMB = 1 AXES = 1 CLSM = 1 CLASSRULE = 0 NVARS = 1 SELECT = 8 --------------------------------------------- *** WARNING using the file as testing for classification rule. ERROR . You must select a nominal variable as class identificator

DESS Informatique Décisionnelle 52 Université de Paris IX Dauphine

Page 53: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

5.2.9 La méthode DSD (Discriminant Symbolic Descriptions)

5.2.9.1 Présentation de la méthode

Cette méthode consiste à trouver des descriptions qui permettent de généraliser et de discriminer des classes données sur un ensemble d’observations. Ces descriptions sont formalisées par des objets symboliques probabilistes. La méthode DSD construit un ou plusieurs objets symboliques, pour chaque classe, à partir de seuils calculés par la comparaison de l’extension de l’objet symbolique avec sa classe. Ces objets créés peuvent éventuellement se superposer. Dans le modèle symbolique, la description générale d’une classe correspond à une disjonction d’objets symboliques. La méthode DSD demande, en entrée, une matrice de données dans laquelle toutes les variables doivent être de type nominal. L’utilisateur est invité à sélectionner les variables qui seront utilisées par DSD. Ensuite, il doit choisir une « variable de partition », appelée « Variable Class Identifier », parmi la liste des variables de la matrice de données. Ce choix est unique et les valeurs prises par cette variable correspondent aux classes évoquées précédemment. Des variables de description permettront de décrire chaque classe du domaine de la variable de partition. Cet ensemble de variables est appelé « Variable Set Identifier ». L’utilisateur est invité à choisir le nombre de variables de description qu’il désire tout en sachant qu’il est interdit de choisir la variable de partition comme variable de description.

5.2.9.2 Application de la méthode

Comme pour les méthodes précédentes, je n’ai pas réussi à faire fonctionner la méthode DSD à cause de la « Variable Class Identifier ». L’erreur est la suivante :

Fig41 : Message d’erreur lors de l’exécution de la méthode DSD ERROR 001: All variables must be nominal type The total number of variables is 28 and the number of nominal variables is 0 The execution of this program(DSD) is termined.

DESS Informatique Décisionnelle 53 Université de Paris IX Dauphine

Page 54: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Conclusion Les résultats obtenus selon les différentes méthodes sont très intéressants et diversifiés. L’intérêt de réaliser les analyses sur des ensembles d’individus me paraît très pertinent lorsque l’on choisit bien les concepts. Dans mon cas, j’ai pu analyser les différents secteurs d’activité et les comparer selon plusieurs aspects. Le principal intérêt de cette analyse est de déterminer quels sont les secteurs à suivre au niveau boursier et donc de limiter par la suite les investissements dans les secteurs les plus prometteurs. Une analyse individuelle sur les entreprises de ces secteurs peut être réalisées en complément. Pour les personnes connaissant et suivant ne serait-ce qu’un petit peu la bourse, il est facile de faire la corrélation entre les différents résultats obtenus dans cette étude et les évènements qui se sont déroulés auparavant (Données récupérées sur le site Boursorama.com en février 2004). En effet, les attentats du 11 septembre, les guerres en Afghanistan et en Irak ainsi que les épidémies du SRAS en Asie ont fortement influé sur l’évolution des actions des différentes entreprises du SBF120, surtout sur celles présentes dans les secteurs de l’aéronautique et du tourisme. Je tiens à signaler que j’ai essayé d’exécuter les méthodes TREE, FDA, PCM et DSD et que des messages d’erreur sont apparus lors du lancement de celles-ci (voir dans l’application des différentes méthodes). Malgré un certain temps passé à essayer de les faire fonctionner, je n’y suis pas parvenu. Si vous avez une explication à ces erreurs, je suis preneur.

DESS Informatique Décisionnelle 54 Université de Paris IX Dauphine

Page 55: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Glossaire • Access : Outil de base de données • Action : Part d’une entreprise que l’on peut acheter sur les places boursières telles que

la bourse de Paris. Lorsque l’on achète une action, on devient actionnaire de l’entreprise.

• Business Objects : Outil de reporting, leader mondial avec 50 % de part de marché.

• Cognos : Outil de reporting. • Concepts : Ensembles d’individus sur lesquels on effectue l’analyse.

• Crystal Reports : Outil de reporting. • Datamining : Exploitation stratégique de gros volumes de données clients pour en

tirer des corrélations et des tendances pertinentes.

• Datawarehouse (Entrepôt de données) : Grosse base de données structurée autour une table centrale regroupant l’ensemble des variables quantitatives e tcalculées.

• DB2SO : Outil intégré au logiciel SODAS permettant d’importer des données et de les

transformer dans un format spécifique à SODAS.

• DI : Distance Matrix

• DIV : Divisive Classification

• Données qualitatives : Informations non mesurables, pouvant prendre une ou plusieurs modalités.

• Données quantitatives : Informations mesurables sur lesquelles nous pouvons

effectuer des calculs (Moyenne, somme, …).

• DSD : Discriminant Symbolic Descriptions • FDA : Factorial Discriminant Analysis

• Histogramme : Manière de représenter graphiquement des données qualitatives ou

quantitatives.

• Individu : Personne ou objet faisant l’objet de l’analyse.

• Objet symbolique : voir concepts.

DESS Informatique Décisionnelle 55 Université de Paris IX Dauphine

Page 56: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

• Oracle : Outil de base de données

• PCM : Principal Component and Correspondence Analysis

• PYR : Pyramides • Recommandation : Notation donnée par un panel d’analystes financiers concernant

les actions d’une entreprise. Les valeurs possibles sont : vendre, sous pondérer, conserver, sur pondérer et acheter.

• Reporting : Manière de ressortir des données d’une base sous forme de tableaux ou

de graphiques.

• Requête : Manière de récupérer des données dans une base de données.

• SAS : Outil d’analyse de données et de reporting automatisé développé par SAS Institut.

• SODAS : Outil issu de la collaboration de 17 équipes dans le cadre d'un projet de

EUROSTAT appelé SODAS.

• SPAD : Outil d’analyse de données, datamining et CRM développé par DECISIA.

• SOE : Symbolic Object Editor • STAT : Histogram, Elementary Statistics

• TREE : Decision TREE

• Variable : Champ représentant une donnée qualitative ou quantitative.

DESS Informatique Décisionnelle 56 Université de Paris IX Dauphine

Page 57: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

Index

A

Access.....................................................................................................................................................7, 9, 14, 55 Action ..........................................................................................................................1, 7, 9, 10, 12, 13, 39, 54, 56 Analyse factorielle ............................................................................................................................................ 5, 7

B

Business Objects............................................................................................................................................ 3, 55

C

Cognos............................................................................................................................................................. 3, 55 Concept.......................................................................................................3, 5, 6, 7, 10, 11, 18, 19, 40, 48, 54, 55 Crystal Reports ............................................................................................................................................... 3, 55

D

Datamining .............................................................................................................................................1, 4, 55, 56 Datawarehouse (Entrepôt de données) .......................................................................................................... 55 DB2SO ................................................................................................................................................14, 15, 16, 55 DI (Distance Matrix) ..................................................................................................................................... 41, 55 DIV (Divisive Classification) ........................................................................................................................ 33, 55 Données qualitatives.................................................................................................................................... 52, 56 Données quantitatives ....................................................................................................................................... 56 données symboliques .................................................................................................................................5, 7, 51 DSD (Discriminant Symbolic Descriptions) .........................................................................................53, 54, 55

E

EUROSTAT..................................................................................................................................................... 7, 56

F

FDA(Factorial Discriminant Analysis)...................................................................................................52, 54, 55

H

Histogramme................................................................................................................................................... 5, 37

I

Individu..................................................................................................................................3, 5, 10, 14, 24, 54, 55 Intervalle ...............................................................................................................................................5, 32, 37, 50

M

Matrice ........................................................................................................................................................... 50, 53

O

Objet symbolique...................................................................................5, 6, 24, 36, 37, 41, 47, 48, 50, 51, 53, 55 Oracle............................................................................................................................................................... 7, 56

P

PCM (Principal Component and Correspondence Analysis) ......................................................50, 52, 54, 56 PYR (Pyramides).....................................................................................................................................48, 49, 56

R

Recommandation ................................................................................................10, 12, 24, 26, 30, 32, 39, 49, 56 Reporting ....................................................................................................................................................3, 55, 56 Requête ..........................................................................................................................6, 7, 12, 13, 16, 17, 18, 56

DESS Informatique Décisionnelle 57 Université de Paris IX Dauphine

Page 58: Projet Datamining Actions du SBF120

Projet Datamining Analyse de données sur les Actions du SBF 120

S

SAS .................................................................................................................................................................. 3, 56 SBF 120 ........................................................................................................1, 9, 10, 24, 26, 28, 30, 32, 41, 51, 54 SODAS.................................................. 3, 4, 7, 8, 14, 20, 21, 22, 24, 37, 41, 42, 43, 44, 45, 46, 47, 51, 52, 55, 56 SOE (Symbolic Object Editor) .................................................................................24, 25, 26, 27, 29, 31, 32, 56 SPAD................................................................................................................................................................ 3, 56 STAT (Histogram, Elementary Statistics) ................................................................................................. 37, 56

T

Taxonomie..................................................................................................................5, 6, 7, 12, 13, 14, 17, 18, 19 TREE (Decision TREE) ....................................................................................................................36, 51, 54, 56

V

Variable ................................... 5, 6, 7, 10, 14, 17, 18, 19, 24, 33, 37, 38, 39, 40, 41, 48, 49, 50, 51, 52, 53, 55, 56 Variable Class Identifier .........................................................................................................................51, 52, 53

DESS Informatique Décisionnelle 58 Université de Paris IX Dauphine