data mining

0

Université Mohamed Premier

Ecole Nationale de Commerce et de Gestion

Oujda

Intelligence économique et veille stratégique

Le DataMining

Réalisé par :

BABA Nour el houda N° 236

LAMKADMI Asmae N° 311

Encadré par :

M. A.AGRAR

Année universitaire 2010 – 2011

1

Sommaire I-Quoi : ..................................................................................................................................................... 2

1. Qu’est ce que le Datamining ?......................................................................................................... 2

2. Datamining Vs Analyse des données: .............................................................................................. 2

3. Histoire : .......................................................................................................................................... 2

II- Pourquoi : ............................................................................................................................................ 3

1. L’utilisation du data mining ............................................................................................................ 3

2. Secteurs d'activités utilisant le datamining .................................................................................... 3

3. Exemples d’application ................................................................................................................... 3

III-Comment ............................................................................................................................................ 6

1. Recherche et groupes de réflexion ................................................................................................. 6

2. Conduite de projet Data Mining ..................................................................................................... 6

3. Algorithmes……………………………...…...…………………………………………………6

Glossaire ................................................................................................................................................ 12

2

I-Quoi :

1. Qu’est ce que le Datamining ?

Le DataMining aussi connu sous les noms exploration de données, fouille de données, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. On la définit comme "un processus non-trivial d’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996)".1 L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web. En gros, le datamining est :

L’ensemble des techniques et méthodes;

destinées à l’exploration et l’analyse de grande bases de données informatiques;

en vue de détecter dans ces données des règles, des associations, des tendances

inconnues (non fixées a priori), des structures particulières restituant de façon concise

l’essentiel de l’information utile;

pour la prise de décision.

2. Datamining Vs Analyse des données:

Le DataMining, ou exploration de données chez les francophones, se base sur une

exploration pour dégager un sens qu’on ne sait pas au préalable. Les données ne sont pas

prédéfinies ; elles sont générées de façon naturelle (cas des supermarchés) et on peut les

exploiter par la suite. Le DataMining permet ainsi de donner du sens à notre recherche.

Par contre, dans le cadre de l’analyse de données, on sait au préalable ce qu’on cherche ; on

cherche juste à en vérifier la validité.

3. Histoire :

Le data mining est apparu au milieu des années 1990, comme une nouvelle discipline à l'interface de la statistique et des technologies de l'information, suite à : - L’évolution des SGBD vers l’informatique décisionnelle avec les entrepôts de données. - La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés: abondance de données recueillies automatiquement. -Développement de la Gestion de la Relation Client (CRM) •Marketing client au lieu de marketing produit. •Attrition, satisfaction, etc. -Recherches en Intelligence artificielle, apprentissage, extraction de connaissances,…

1 Fayyad, U. M. (1996). Data mining and knowledge discovery: making sense out of data. IEEE Expert, October,

pages 20-25.

3

II- Pourquoi :

1. L’utilisation du data mining :

L'utilisation des techniques de data mining peuvent être observées pour : • Analyser les comportements des consommateurs : ventes croisées, similarités de comportements, cartes de fidélité, … • Prédire le taux de réponse à un publipostage (mailing) ou à une opération de marketing direct. • Prédire l’attrition des clients : quels sont les indices de comportement permettant de détecter la probabilité qu’un client a de quitter son fournisseur (sa banque, son opérateur de téléphonie mobile) • Détecter des comportements anormaux ou frauduleux (transactions financières, escroquerie aux assurances, distribution d’énergie, …) • Rechercher des critères qui permettront d’établir ensuite une évaluation pour repérer les « bons » clients sans facteur de risque (Évaluation des risques-clients) et leur proposer peut-être une tarification adaptée (par exemple pour une banque ou une compagnie d’assurance).

2. Secteurs d'activités utilisant le datamining :

Selon le site www.kdnuggets.com 2la répartition aux USA (en % du total des réponses au sondage) de

l'utilisation du Data Mining par secteurs d'activités s'effectue en 2010 comme suit :

CRM 26.8 Assurance 10.3

Banque 19.2 Sciences 10.3

Santé/Ressources Humaines 13.1 Education 9.9

Détection de Fraude 12.7 Publicité 9.9

Finance 11.3 Web 8.9

Marketing direct 11.3 Médical 8

Télécommunication 10.8 Produits Manufacturés 8

3. Exemples d’application :

Comportement du consommateur :

Utiliser le data mining pour éviter le churn.

Le churn est le passage à la concurrence d'un client d'un opérateur de télécommunications. C'est

aujourd'hui une préoccupation particulièrement importante pour les opérateurs vu les taux

relativement importants (25% en europe).

Pour éviter cela, on utilise le data mining afin de calculer la propension de chaque client à passer à la

concurrence et de prévoir sa valeur pour l'opérateur (LTV - Life Time Value). On peut ensuite isoler la

2 www.kdnuggets.com, Polls » Industries /Fields for Analytics / Data Mining in 2010 (Oct 2010) [archive].

kdnuggets. Consultation : Octobre 2010.

http://www.kdnuggets.com/

http://wikiwix.com/cache/?url=http://www.kdnuggets.com/polls/2010/analytics-data-mining-industries-applications.html&title=www.kdnuggets.com%2C%20Polls%C2%A0%C2%BB%20Industries%20%2F%20Fields%20for%20Analytics%20%2F%20Data%20Mining%20in%202010%20(Oct%202010)

4

portion de clientèle susceptible d'être tentée par le churn et ayant un fort LTV. Une campagne pro-

active de rétention est alors lancée vers ces clients. Les techniques du data mining permettent

également de mesurer les retours de cette campagne.

Données utilisées :

Bases de données des clients et des appels ;

Fichiers des réclamations ;

Contrats résiliés ;

Données sur les nouveaux clients des concurrents ;

Taux de retour des mailings ;

Marketing direct :

Ciblage d’un mailling :

Une entreprise veut proposer un nouveau produit : Elle va envoyer un courrier en essayant de bien cibler les clients susceptible d’être intéressés par ce nouveau produit, et en maximisant le taux de réponse.

Données utilisées :

- Le fichier client. - Un fichier d’adresses + historique des réponses aux mailings précédents. - Un deuxième fichier d’adresses + autres infos (acheté). - Informations connexes (données démographiques …). - … Mode opératoire : - Caractériser, parmi les personnes du deuxième fichier, celles qui : ont répondu, ont

acheté le produit, ont acheté un produit similaire. - Sélectionner (dans les différents fichiers) les clients potentiels ayant le même profil. Analyse des résultats : - Comparaison avec un mailing massif précédent, avec un échantillon témoin. - Calculer le gain (inclure le coût du Data Mining !) Boucler la boucle : - Gain augmenté ; -> rendre la proposition plus attractive -> améliorer le taux de réponse. - Enrichir la base avec les résultats du mailing.

Industrie :

Motorola : Détection de défaillance Un procédé de fabrication de microprocesseurs comporte des centaines d’´etapes (photogravures, dépôts, cuissons, polissages, lavages...) dont tous les paramètres, équipement et mesures physiques (températures, pressions...), sont enregistrés dans une grande base de données permettant la traçabilité des produits manufacturés. Le test électrique de chaque microprocesseur ne peut se faire qu’en fin de fabrication lorsque ceux-ci sont achevés. Il est évidement important de pouvoir déterminer, lors de l’apparition d’une baisse du rendement et en utilisant les données de la base, l’´equipement ou la fourniture responsable de la défaillance afin d’y remédier le plus rapidement possible.

5

Airbus : Aide au pilotage

La société dispose de graphes qui retracent les enregistrements des commandes et positions d’un avion en vol. Ceux-ci mettent en évidence un phénomène de résonance entre l’appareil et le comportement du pilote qui est très dangereux pour la sécurité. L’objectif est de construire un modèle susceptible, en temps réel, de détecter une telle situation afin d’y remédier par exemple en durcissant les commandes de vol électriques. Le problème est tr`es spécifique car les données, ou signaux, sont mesurées en temps réel et constituent des discrétisations de courbes.

E-commerce :

Amazon

Opportunité : la liste des achats des clients sont stockées en mémoire et par ailleurs, les utilisateurs du site notent les produits ! Comment tirer profit des choix d’un utilisateur pour proposer des produits à un autre client ? Solutions : technique dit de filtrage collaboratif permettant de regrouper des clients ayant les mêmes “goûts”.

Dell

Problème : 50% des clients de Dell achètent leurs machines à travers le site Web. Mais seulement 0:5% des visiteurs du site deviennent clients. Solution : Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs et lors de la visite d’un client potentiel, adapter le contenu du site pour maximiser la probabilité d’un achat.

Gestion des ressources humaines :

Le calcul de la valeur des employés grâce à des données analytiques.

Comment les ressources humaines peuvent elles estimer le ROI(Return On Investment) de chaque

employé, quantitativement? Aujourd’hui seulement 1 à 2% d’entreprises utilisent la méthode, parmi

lesquelles IBM, Oracle, Microsoft ou encore Capital One Financial. Les études statistiques sur la

performance des employés a été entre autre proposée par la société Cataphora (reconnue pour son

expertise dans l’identification des fraudes) et propsoe une représentation graphique de la force de

travail selon des cercles de couleur, de tailles différente. Tandis que les employés qui génèrent des

flux d’informations et compétences non négligeables sont évalués sur les graphiques avec de larges

cercles foncés, les autres, représentés avec de petits cercles pales sont davantage en danger.

Données utilisées:

Le point de départ de l’analyse est l‘identification des facteurs de succès comme le démontre Microsoft qui étudie la corrélation entre les employés à succès et les écoles et entreprises d’où ils proviennent. De plus, en analysant les communications au sein de Microsoft, les analystes peuvent identifier les « super-connecteurs » qui aident à la diffusion des idées et les autres qui empêchent leur partage.

Les nouvelles approches des solutions de data-mining permettent ainsi de développer des programmes optimisés pour le recrutement et la préservation des employés compétents: basé sur les données des employés qui ont démissionné les cinq dernières années (profil, compétences, études et relations) chez SAS. En étudiant les tendances économiques et financières, IBM cherche à se focaliser sur la force de travail et les compétences « know how » à recruter ou à former. Les

http://www.cataphora.com/index.php

6

réseaux sociaux internes et boites à idées interactives mesurent les liens entre employés, leur cercle d’influence et leurs idées.

III- Comment :

1. Recherche et groupes de réflexion :

Le premier groupement professionnel dans le domaine du Data Mining est le Groupe d’intérêt de l'Association for Computing Machinery sur la Gestion des connaissances et le Data Mining (SIGKDD) qui accueille une conférence internationale annuellement où il publie les résultats de ses recherches.

Ainsi d’autres conférences sur le data minig sont organisées comme : DMIN - International Conference on Data Mining DMKD - Research Issues on Data Mining and Knowledge Discovery; ICDM - IEEE International Conference on Data Mining

Il est à noter que nombreuses universités ont effectué des recherches pour améliorer les algorithmes et ont développé des logiciels afin de progresser dans ce domaine et faire bénéficier les industries de leurs apports.

2. Conduite de projet Data Mining : Le projet de datamining s’organise en processus, parmi les méthodes les plus utilisées on trouve la méthodologie CRISP-DM. Le concept CRISP-Dm (CRoss-Industry Standard Process for Data Mining) est une méthodologie qui consiste à définir un cadre pour la conduite de projets data mining.

Les principales étapes de cette méthodologie sont :

a. Compréhension de la problématique métier : c'est définir le problème : le chef de projet doit

comprendre les objectifs du métier en matière de DM et connaitre les critères de réussite du projet.

b. Compréhension des données: il s’agit dans cette étape de :

Collecter des données ;

Les décrire ;

Les explorer : Utilisation de requêtes, outils de visualisation et de reporting, déterminer les

attributs importants et leurs relations (redondantes)

==>Premiers résultats statistiques (graphiques, répartitions, etc.)

Contrôler la qualité : Données manquantes, erronées, incertaines…

c. Préparation des données: transformation des données à explorer afin d’assurer leur adéquation à

la problématique et la pertinence des connaissances extraites

d. Modélisation: élaboration des méthodes d'analyse qui seront utilisées pour extraire des

connaissances à partir des données (cœur du processus). Cette activité regroupe quatre classes de

tâches pouvant être utilisées seules ou en complément avec les autres 3:

La Segmentation ;

La Classification ;

La Prédiction ;

L'Association .

2. From Data Mining to Knowledge Discovery in Databases [archive]

http://fr.wikipedia.org/wiki/Association_for_Computing_Machinery

http://fr.wikipedia.org/wiki/Gestion_des_connaissances

http://fr.wikipedia.org/wiki/SIGKDD

http://fr.wikipedia.org/wiki/IEEE

http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf

http://wikiwix.com/cache/?url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf&title=From%20Data%20Mining%20to%20Knowledge%20Discovery%20in%20Databases

7

e. Evaluation – Test: Il s'agit d'évaluer les résultats obtenus en fonction des critères de succès du

métier, d'évaluer le processus lui-même pour faire apparaître les manques et les étapes négligées.

f. Déploiement: étape de rentabilisation des efforts déployés. Elle a pour objectif intégrer les

nouvelles connaissances aux processus quotidiens pour résoudre le problème initial / améliorer

l’activité.

Autres méthodes de conduite de projet data mining :

SEMMA : La méthodologie SEMMA4 (Sample then Explore, Modify, Model, Assess) inventée par le

SAS Institute, se concentre sur les activités techniques du Data Mining. Bien qu'elle soit présentée

par SAS comme seulement une organisation logique des outils de SAS Enterprise miner, SEMMA peut

être utilisée pour organiser le processus de data mining indépendamment du logiciel utilisé.

Six Sigma (DMAIC) : DMAIC est un acronyme caractérisant la méthode comme suit : (Define, Mesure,

Analyse, Improve, Control) est une méthodologie structurée, orientée données, dont le but est

l'élimination des défauts, des redondances, et des problèmes de contrôle qualité de toutes sortes

dans les domaines de la production, de la fourniture de service, du management, et d'autres activités

métiers.

3. Algorithmes :

3.1. Classement des algorithmes :

Pour résoudre une problématique avec un processus de DM, on utilise des algorithmes. On en

distingue deux grandes familles :

A. Méthodes descriptives :

Ce sont des méthodes qui permettent d'organiser et de comprendre l'information sous-jacente à un ensemble important de données. On les utilise par exemple pour dégager d'un ensemble d'individus des groupes homogènes, pour construire des normes de comportements et donc des déviations par rapport à ces normes, pour réaliser de la compression d'informations ... Les techniques les plus utilisées dans le cadre des méthodes descriptives sont : • Les analyses factorielles : Elles permettent de dégager les variables cachées (les facteurs) dans un ensemble de mesures ; partant du principe que si les données sont corrélées c'est parce qu'elles sont liées à des facteurs qui leur sont communs. • Les classifications : Ce sont des méthodes qui permettent de regrouper des individus ayant les mêmes caractéristiques en classes. Permettant ainsi de traiter chaque classe avec des algorithmes sensibles aux données 'aberrantes'. Dans cette optique, les méthodes de classification forment une première étape du processus d'analyse.

3. STATISTICA, Statistics Glossary, Models for Data Mining [archive]

http://fr.wikipedia.org/wiki/SEMMA

http://www.statsoft.com/textbook/statistics-glossary/m/button/m/

http://wikiwix.com/cache/?url=http://www.statsoft.com/textbook/statistics-glossary/m/button/m/&title=STATISTICA%2C%20Statistics%20Glossary%2C%20Models%20for%20Data%20Mining

8

On distingue trois types de classifications :

- Le partitionnement (data clustering) : Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes.

- La classification hiérarchique : On y trouve les méthodes ascendantes où on part des individus qu'on agrège en classes, et les méthodes descendantes où on part du tout et par divisions successives on arrive aux individus qui composent les classes.

- Le recouvrement à logique floue.

• Les associations : Elles consistent à rechercher les associations entre différents éléments. Utilisées surtout en grande distribution pour analyser les produits simultanément achetés par un client ou ce qu’on appelle analyse du panier d’achat. • La corrélation : les Analyses de liens. B. Méthodes prédictives : Leur raison d'être est d'expliquer et/ou de prévoir un ou plusieurs phénomènes observables et effectivement mesurés. Concrètement, elles vont s'intéresser à une ou plusieurs variables de la base de données définies comme étant les cibles de l'analyse. Par exemple, on utilisera ce type de méthode lorsque l'on cherchera à comprendre pourquoi un individu a acheté un produit plutôt qu'un autre, pourquoi un individu a répondu favorablement à une opération de marketing direct,… En exploration de données prédictive, il y a deux types d'opérations : la discrimination qui s’intéresse aux variables qualitatives et la régression qui s’intéresse aux variables continues.

3.2. Pourquoi tant d'algorithmes ? Parce qu’il n’y a pas d’algorithme qui convient parfaitement à un objet ; c’est plutôt via la combinaison de différents algorithmes qu’on arrive à avoir des gains significatifs. Encore faut-il être en mesure de réaliser ces combinaisons facilement, ce que permettent les logiciels ateliers de Data Mining, par opposition aux outils de statistiques classiques dans lesquels l'opération est beaucoup plus délicate en pratique.

3.3. Chercher d'autres algorithmes, ou bien enrichir les données ? Pour obtenir des résultats précis, il ne suffit pas de chercher des algorithmes très fins à partir de la base de données ; mais plutôt partir d’algorithmes simples et enrichir la base de données par d’autres informations. C’est le cas notamment de Google dont l'efficacité tient bien moins à son algorithme de page rank qu'à la très grande quantité d'information qu’il peut corréler par croisement des historiques de requête, de la correspondance et du comportement de navigation sur ses sites de ses utilisateurs.

4. Logiciels : Il n'y a pas de meilleurs logiciels que d'autres tout dépend de ce qu'on veut en faire .Les logiciels commerciaux sont plus destinés aux entreprises, tandis que les logiciels libres sont destinés plus particulièrement aux étudiants et à ceux qui veulent expérimenter des techniques nouvelles.

http://fr.wikipedia.org/wiki/Donn%C3%A9e

9

4.1. KXEN Analytic Framework5 : Il s’agit d’un logiciel commercial de Datamining qui minimise les tâches fastidieuses et répétitives de programmation et de préparation des données habituellement obligatoires et permet aux spécialistes de la statistique et du datamining d’améliorer leur productivité et de se consacrer à la compréhension et la valorisation de l’information. KXEN Analytic Framework en proposant la génération automatique des modèles dans les langages les plus répandus du marché (C, Visual Basic, Java, SAS, SQL,…) réduit de manière significative le délai de mise en production des modèles et permet l’intégration du datamining dans les systèmes d’informations des entreprises.

4.2. Tanagra6 : TANAGRA est un logiciel libre de DataMining destiné à l’enseignement et à la recherche. C’est un projet ouvert au sens qu'il est possible à tout chercheur d'accéder au code et d'ajouter ses propres algorithmes pour peu qu'il respecte la licence de distribution du logiciel. Tanagra procure une plate-forme de Data Mining facile d’accès, respectant les standards des logiciels du domaine, notamment en matière d’interface et de mode de fonctionnement, et permettant de mener des études sur des données réelles et/ou synthétiques. Il propose également aux chercheurs une architecture leur permettant d'implémenter aisément les techniques qu'ils veulent étudier, de comparer les performances des algorithmes. Tanagra se comporte ainsi comme une plate-forme d'expérimentation. Par ailleurs, il vise à diffuser une méthodologie possible d'élaboration de ce type de logiciel. L'accès au code leur permettra de voir comment se construit ce type de logiciel, quels sont les écueils à éviter, quels sont les principales étapes et outils d'un tel projet,… En ce sens, Tanagra est plus un outil d'apprentissage des techniques de programmation. Tanagra n'intègre pas en revanche, à l'heure actuelle, tout ce qui fait la puissance des outils commerciaux du marché : multiplicité des sources de données, accès direct aux entrepôts de données et autres datamarts, appréhension des données à problèmes (valeurs manquantes...), …

4.3. SAS : 7 Logiciel commercial offrant toutes les facettes du Data Mining dont le process est facilité par son interface Homme-Machine bien conçue. SAS a été l'un des premiers éditeurs à s’intéresser au text mining, c’est-à-dire à l’analyse de textes et de données non structurées telles que les pages Web, les documents, les courriers électroniques, les images et autres informations non stockées dans une base de données structurée.

4.4. Statictica 8 :

5 www.kxen.com

6 http://eric.univ-lyon2.fr

7 www.sas.com

8 www.statsoft.fr

10

Logiciel commercial de data mining intégrant des techniques statistiques et de réseaux de neurones avancées. La plate-forme STATISTICA Data Miner, offre une gamme d'outils complète et efficace pour l'ensemble du processus de data mining . En effet, il augmente les chances de découvrir les éléments cruciaux grâce à plus de 13.000 fonctions de gestion, d'analyse et de représentation graphique des données telles que : Arbres de classification et régression, Règles d’asssociations,… Statistica se base sur un ensemble d'algorithmes efficaces et ultra-optimisés, une interface directe avec des bases des données distantes, une parfaite intégration avec l’architecture existante et le Web et de larges possibilités d’extension.

4.5. Weka : Weka(Waikato Environment for Knowledge Analysis) est un logiciel libre de data mining. C’est une collection d'algorithmes d'apprentissage automatique créés pour effectuer des tâches de data mining. Les algorithmes peuvent soit être appliqués directement à un ensemble de données soit appelé de votre propre code Java. Weka contient des outils pour les pré-traitements des données, la classification, la régression, le clustering, les règles d'association, et la visualisation. Il est également bien adapté au développement de nouveaux schémas pour l'apprentissage automatique.

4.6. Logiciel R : R est un language de programmation et un environnement pour effectuer des calculs statistiques et créer leurs graphiques. Un des atouts de R est la facilité avec laquelle des graphiques bien conçus de qualité digne de publications peuvent être produits, y compris des symboles mathématiques et des formules si besoin est. Egalement, ses extensions couvrent un très large champ et vont de la statistique multivariée aux méthodes de ré-échantillonnage, de l'économétrie à la biométrie, des modèles de régression sur séries chronologiques ou les modèles à équations simultanées, … Autres logiciels : SPSS ; RapidMiner ; Knime ;…

http://www.statsoft.fr/products/dataminer.php

http://fr.wikipedia.org/wiki/Analyse_des_donn%C3%A9es_(statistiques)

http://fr.wikipedia.org/wiki/%C3%89conom%C3%A9trie

http://fr.wikipedia.org/wiki/Biom%C3%A9trie

http://fr.wikipedia.org/wiki/S%C3%A9ries_temporelles

11

Glossaire : • Analyse des données Vs DataMining : Le DataMining, ou exploration de données chez les francophones, se base sur un « tâtonnement » pour dégager un sens qu’on se sait pas au préalable. Les données ne sont pas prédéfinies ; elles sont générées de façon naturelle( cas des supermarchés) et on peut les exploiter par la suite. Le DataMining permet ainsi de donner du sens à notre recherche. Par contre, dans le cadre de l’analyse de données, on sait au préalable ce qu’on cherche ; on cherche juste à en vérifier la validité.

• L’informatique décisionnelle désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. Ce type d’application utilise en règle générale un entrepôt de données pour stocker des données transverses provenant de plusieurs sources hétérogènes et fait appel à des traitements par lots pour la collecte de ces informations.

• Entrepôt de données (data warehouse) : stockage intermédiaire des données issues des

applications de production, dans lesquelles les utilisateurs finaux puisent avec des outils de

restitution et d'analyse. Concrètrement, il s'agit d'une collection de données thématiques (c'est à

dire orientées sujet : les informations sont assemblées par thème, contrairement aux modélisations

traditionnelles qui regroupent les informations par fonction, ce qui permet de passer d'une vision

verticale de l'entreprise à une vision transversale, beaucoup plus riche), intégrées (ce qui suppose

une forte normalisation des données et une bonne structuration du système d'information), non

volatiles (afin de conserver une traçabilité des informations et des décisions prises, les données

introduites dans le data warehouse ne peuvent être ni altérées, ni modifiées, ni supprimées, elles

deviennent partie intégrante de l'historique de l'entreprise... Ainsi, deux requêtes identiques, lancées

à plusieurs mois d'intervalle, donneront donc le même résultat), et historisées (actualisation de la

base à chaque nouvelle transaction, sans perte des données historiques), organisées pour le support

d'un processus d'aide à la décision).

• Magasin de donnée (data mart) : un sous-ensemble de l'entrepôt de données, qui ne contient que

les informations liées à un "métier" de l'entreprise (c'est à dire un ensemble de tâches homogènes au

sein de l'entreprise ou de l'un de ses départements - par exemple, au sein du département

commercial, il est possible de distinguer les métiers SAV, services consommateurs, force de vente,

etc.), alors que le data warehouse contient toutes les données décisionnelles de l'entreprise pour

tous les métiers. Plus "profilé" que ce dernier, il contient des informations plus ciblées et de haute

qualité (parfois de niveau critique) destinées à servir de support à la décision dans un domaine précis

(marketing, finances, production, ventes, etc.)


http://fr.wikipedia.org/wiki/Capital_immat%C3%A9riel

http://fr.wikipedia.org/wiki/Entreprise

http://fr.wikipedia.org/wiki/Strat%C3%A9gie_d%27entreprise

http://fr.wikipedia.org/wiki/Strat%C3%A9gie_d%27entreprise

http://fr.wikipedia.org/wiki/Application_%28informatique%29

http://fr.wikipedia.org/wiki/Entrep%C3%B4t_de_donn%C3%A9es


http://fr.wikipedia.org/wiki/Traitement_par_lots

12

Le datamart est nécessairement relié au data warehouse qui le "nourrit" et les informations qu'il

contient peuvent avoir été générées avec des données issues de basse de production autres que

celles relevant du métier en question.

• Les réseaux de neurones : Un réseau de neurones artificiels est un modèle de calcul dont la

conception est très schématiquement inspirée du fonctionnement des neurones biologiques.

Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type

probabiliste, en particulier bayésiens. Ils sont placés d’une part dans la famille des applications

statistiques, qu’ils enrichissent avec un ensemble de paradigmes permettant de générer des

classifications rapides, et d’autre part dans la famille des méthodes de l’intelligence artificielle

auxquelles ils fournissent un mécanisme perceptif indépendant des idées propres de l'implémenteur,

et fournissant des informations d'entrée au raisonnement logique formel.

http://fr.wikipedia.org/w/index.php?title=Mod%C3%A8le_de_calcul&action=edit&redlink=1

http://fr.wikipedia.org/wiki/Neurone

http://fr.wikipedia.org/wiki/Apprentissage_automatique

http://fr.wikipedia.org/wiki/Statistiques

http://fr.wikipedia.org/wiki/Paradigme

http://fr.wikipedia.org/wiki/Intelligence_artificielle

http://fr.wikipedia.org/wiki/Perception

http://fr.wikipedia.org/wiki/Raisonnement

data mining

Documents