cours systême d'intelligence marketing
Embed Size (px)
DESCRIPTION
L'Intelligence Marketing est un système développé afin de collecter, stocker, analyser et interpréter l'information marketing disponible dans l'environnement dans lequel se situe l'entreprise. Il doit permettre de concevoir et développer une stratégie marketing adaptée, mais également de planifier les conditions efficientes de sa mise en application.TRANSCRIPT

Ecole Nationale Supérieure de Statistique et d’Economie Appliquée
Cours à l’intention des élèves Ingénieurs des Travaux Statistiques (ITS)

Sommaire
Definitions et Objectifs 1
Struture et activités d’un SIM2
Les études de marché3
La planification, le suivi et l’évaluation4
L’Intelligence économique5
La veille concurrentielle6
Les analyses statistiques et datamining7

Objectifs
Comprendre et remplir aisement les missions d’un SIM partant de la conception à la présentation des résultats en passant par l’analyse.
Conduire un diagnostique pertinent des services marketing et commercial basé sur des indicateurs clés de performance et proposer des solutions adéquats.
Connaitre et conduire les différentes études qualitatives et quantitatives adaptées à l’optimisation des variables du mix marketing d’une entreprise.
Connaitre les principales utilisations des outils statistiques et para-statistiques appliqués aux domaines marketing et commercial.
Maitriser les outils et techniques de datamining afin de prédire des phénomènes.
A la fin de ce cours chaque étudiant doit être capable de:

Définitions
Système d’Intelligence Marketing:C’est un ensemble de ressources (humaines et techniques) et deprocessus mis en place, dans une entreprise, pour obtenir des donnéesinternes et externes suivi d’une transformation (des données) enconnaissances afin d’en faire un outil efficace d’aide à la décision.
MOTS CLES:SIM, Business Intelligence, données, Informations, Intelligence, étude de marché,analyses de données, statistiques, datamining, indicateurs, échantillon, prédiction,modèle économétriques, veille stratégique & concurrentielle, planification, suivi etévaluation, CRM, analyses décisionnelles, apprentissage, matrice de confusion,courbe ROC, courbe LIFT, analyse SWOT, analyse PEST, réseaux de neurone,analyses discriminantes, sondage, erreur, marketing, IT/IS, scoring, arbre dedécision, échantillon test, échantillon de validation. Textmining, webmining
« ceux qui marchent que fort lentement peuvent avancer
beaucoup d’avantage, s’ils suivent toujours le droit chemin, que
ne font ceux qui courent, et s’en éloignent. »
(Descartes, Discours de la méthode)

Définitions (2)
Données: nombres, mots, évènements existant en dehors d’un cadre conceptuel deréférence; en conséquence, et en absence de contexte, les données prisesindividuellement n’ont pas une grande signification.Accumulation de données n’est pas information.
Informations : ensemble de données, validées et confrontées, qui commencent àavoir un sens après être mis dans un contexte.Accumulation d’information n’est pas connaissance.
Connaissance : ensemble d’informations interprétées par l’entreprise et luipermettant de prendre des décisions.Accumulation de connaissances n’est pas intelligence.
Intelligence : elle apparait lorsque les principes fondamentaux qui ont fondés la connaissance sont compris et automatisés afin d’en former un systême. Accumulation
de connaissance n’est pas vérité.
Le marketing: Ensemble des actions ayant pour objet l’analyse du marché présentou potentiel d’un bien ou d’un service et de mettre en œuvre les moyens permettantde satisfaire la demande ou, le cas échéant, de la stimuler ou de la susciter..

Pourquoi un Systême d’IntelligenceMarketing ?
1
SIM performant Entreprise compétitive
SIM performant=
Faire face aux 3x3 = 9 défis du triangle SIM
SIM
Etudes de marché
Analyses statistiques &Data Mining
Veille concurentielle
Planification &suivi
Intelligence Economique
guidance +Domination +Pro-activité
�Techniques d’études de marché�Outils statistiques et datamining�Méthodes de planification et
modélisation
oCroissance du revenuoClients satisfaitsoProduits adaptés…
2
décrire analyser prédire
Environnement des affaires
Environnement des affaires
Vision complète du
client
Vision complète du
client
Performance de l’entreprise
3

Pourquoi un Systême d’IntelligenceMarketing ? (2)
2-Où somme
nous?
5-Comment
êtreoptimal?
4-Où allonsNous?
3-Pourquoi sommes nous là?
6-Maturité du
SIM
1-Total
aveuglement
Analyses descriptives
Analyses exploratoires
Analyses prédictives
Analyses décisionnelles
Les 6 étapes du cycle de développement d’un SIM

Compétences requises
Composantes et compétences requises d’un SIM
SIM
ManagementEconomie
Statistique
Informatique
Marketing
Finance
P.S&EEtudes marché
Data Mining
Veilleconcur.
Marketing OO OOOO O OOO
Statistique OO OO OOOO O
finance OOO O O OO
Management OO O O O
Economie OO O O OOO
Sociologie O OO O O
Chef de division Business Intelligence
P.S&E
Etudes de Marché
Veille Concurrentielle
Data Mining
Planification, rapports d’évaluation et analyse financiers
Coordinateur des études de marché et géomarketing
Veille concurrentielle et Intelligence économique
Analyse des données, étude de prix, analyse de fidélisation et de rétention.
Composantes

Structure d’un SIM
Sources externes:•Media classique
•Internet•Publications•Événement
•Analyses sectorielles
DSI:•Datawarehouse
•Fichiers log
Finance:•Declaration de
revenu•Prix/couts
Dir. Com:•Rapport d’activité
•Force de vente•fournisseurs
Dir. Mkg:•Service client
•Base de données clients
Acquisition d’une multitude de données de différentes sources(collecte, évaluation et premier stockage)
Analyse de la concurrence et de l’environnement des
affaires.
Analyses des études de marché
dataminingAnalyse des ventes
et prévisions …
Rapport, diffusion et système de sécurisation de l’information.
1- identification des besoins
2- acquisition des données
3- traitement des données
4- diffusion et protection de l’information
Sources internes
Recherche d’informations
Architecture d’un Systême d’Intelligence Marketing moderne

Les defis d’unSIM
Pour chacun des 3 “facettes du marché” d’une entreprise, un SIM doitdécrire(évaluer), analyser(comprendre), et prevoire(anticiper).
Voici le formidable défi d’un SIM.
Environnement desaffaires
Vision 360°du client
Performance De l’entreprise
3 facettes du marché
X 3 facettes d’études
Les 3x3 = 9 defis d’un SIM

Le pentagoned’un SIM
Etudes de marché
Analyses statistiques &Data Mining
Veille concurentielle & stratégique
Planification &suivi
Intelligence Economique
Les activités d’un SIM:le BI pentagone

Panorama des rapports d’un SIM
rapports Importance
����
Fréquence
����
Forme
1 Daily Flash Très élevé Journalier Mail ou Excel
2 Flash-Alert élevé Flottant Mail
3 Competition Report Très élevé HebdommadaireExcel et
PowerPoint
4 Conjoncture Note Moyen Hebdommadaire Excel
5 Marketing Dashbord Très élevé Hebdommadaire Excel
6Customer Intelligence
ReportTrès élevé Hebdo/Mensuel Powerpoint
7Commercial Channels
Reportélevé Hebdo/Mensuel Powerpoint
8 Market Reports (1&2) élevé Flottant/Trimestriel Powerpoint
9Business Environment
Reportélevé Trimestriel/Semestriel Powerpoint
10Business Intelligence
Reportélevé Mensuel PowerPoint

les études de marché
Les questions relatives au marchéglobal: tendances, opportunité ,,,
Les questions relatives au marché direct : profiles, besoins… des clients
Les questions relatives aux concurrents:Part de marché, santé de la marque…
Les questions relatives aux variables du mix-marketing: les 4 P.
Les activitésdes études
de marché aidentà repondre à
4 types de Questions:
Les activitésdes études
de marché aidentà repondre à
4 types de Questions:
C’est le processus de collecte et d’analyse des donnéesconcernant le client et les canaux de vente afin d’avoir une bonnecompréhension du marché, d’anticiper son évolution afin d’agir.

les études de marché: les étapes
Analyse des données
Collecte des données
Conception de la méthode
Définition du problême
Apparition de la volonté de régler unproblême de la part d’un employé de
l’entreprise
Redaction du rapport
1. Type d’étude2. Outils de collecte3. Plan de sondage.
Interview Quantitatif (face à face, tel, internet,courrier…)
Interview Qualitatif (camera, dictaphone…)
Analyses Quantitatifs (univarié, multivarié)Analyses Qualitatifs (analyse de contenu,
semiologie, text mining)
PowerPoint, Word, Excel …

les études de marché: définition du problême
o Les études de marché naissent , quand dans l’entreprise, quelqu’un à un problème ouvoit une opportunité de recueillir des informations.
Par exemple:� Comment nos clients partagent leur revenu� Combien de clients voudront payer notre notre nouveau service � Par quel support de communication notre campagne publicitaire aurait un
impact significatif …
o Après avoir formuler ton problème, tu as besoin de formuler tes questions derecherche: quelles sont les questions auxquelles tu as besoin pour répondre auxattentes de ton coolaborateur et quelles sont les sous-questions impliquées.
o Avec les problèmes ou opportunités définis, la prochaine étapes est le choix de tesobjectifs pour ton étude de marché,
o Les objectifs d’étude, relaté ou déterminé par la formulation du problème, sontl’ensemble de ce à quoi vous devrai aboutir en fournissant les information nécessaire àla résolution du problème.

les études de marché: la conception
La conception fournie la colle qui maintient le projet d’étude cohérent. Elle est utilisée pour structurer l’étude, pour montrer comment les différentes parties
du projet seront agencées pour répondre à la question de recherche.
Type de recherche / d’étude Outil de collecte de données
Echantillonnage(comment selectionner les
enquêtés ?)
Mode de collecte(comment contacter ces
personnes ?)Population d’étude(quelles catégories de
personnes interroger ?)
Taille de l’échantillon(combien de personnes
contacter ?)
Quantitatif (questionnaire) Qualitatif (guide d’entretien) Observation (grille de notation)
Plan d’échantillonnage
Données sécondaires: étude précedentes, publications officielles…)
Données primaires: quantitatives (sondages), qualitatives (focus groupe), observation (in situ)
3

les études de marché:la taille de l’échantillon
Niveau de confianceMarge d’erreur 90% 95% 99%
1% 6.765 9.604 16.589
2% 1.691 2.401 4.147
3% 752 1.067 1.843
4% 423 600 1.037
5% 271 384 664
Table statistique pour la détermination de la taille optimal d’un échantillon
Si n/N > 15%, la taille finale de notre échantillon est obtenu de la manière suivante:1. n’=(n*N)/(n+N) où n=taille de l’échantillon et N=taille population totale2. La correction de Kish: si l’échantillonnage n’est pas aléatoire la marge d’erreur doit être multiplié par
1,43. En règle générale il faut interroger 100 personnes pour chaque groupe significatif de notre
population et 30 personnes par sous groupe4. Afin de faire face aux divers imprévus (non-reponses, questionnaires incomplets…) il faut ajouter 2% à
10% de la taille initiale de notre échantillon.

les études de marché: la taillede l’échantillon (exemple 1)
évaluation de nouveau service
�Niveau de confiance: 99% comme nous avons besoin d’une grande précision
�Marge d’erreur accepté: 2,5%. depuis que nous avons la liste des clients post-
payés (7000) cela nous permet d’effectuer un échantillonnage probabilistique.
�Nous estimons à 70% la proportion des clients post-payés qui utiliserons ce
service, nous n’avons donc pas besoin de la correction de Kish.
�La marge pour les divers problèmes est fixée à 5%
�La taille de l’échantillon est n= [(2,576^2)x0,7x0,3/(0,0025^2)] = 2.230
�Mais comme le ratio n/N = 31,86% > 15%, nous avons donc besoin de calculer
une taille finale
�Finalement, n’=[(2.230x7.000)/ (2.230x7.000) = 1691

les études de marché:la taille de l’échantillon (exempes)
Exemples2: Retail audit
�Niveau de confiance: 95%
�Marge d’erreur accepté: 2%, alors pour considérer la correction de Kish notre
erreur sera 1,43
�Marge pour divers problèmes: 3%
�Un recensement à révélé que le pays à un total de 56.630 point de vente de 4 types
et répartis sur 4 villes: Abidjan, Daloa, San-Pedro et Yamoussoukro
�La taille d’échantillon est: n=[(1,96^2)x0,5x0,5/ (0,0143^2)]x1.03=4.847
Poids dans le recensement Distribution de l’échantillon
Abidjan Daloa San-Pedro Yakro Total Abidjan Daloa San-Pedro Yakro Total
Convenance 13,0% 11,0% 9,4% 7,0% 40% 630 533 456 339 1958
épiceries 11,0% 9,5% 5,0% 4,0% 30% 533 460 242 194 1430
Centre Commerciaux 5,3% 5,0% 4,9% 0,3% 16% 257 242 238 15 751
Loisirs 7,0% 6,0% 0,4% 1,2% 15% 339 291 19 58 708
Total 36,3% 31.5% 19,7% 12,5% 100% 1760 1527 955 606 4847

Étude de marché : typologie et processus de l’échantillonnage
Avons nous une facilitéd’accès à notre cible?
La population est-elle assezétendue ?Sondage par quotas
Avons nous une base de données détailléessur l’ensemble de notre population?
Notre population est-ellesegmenté ?
Avons nous plusieursniveaux de regroupements?
Sondage aléatoire
Un échantillonnage alléatoireserait-il coûteux ?
Avons nous une base avec des informations de regroupement ?
Est-il coûteux de sonder par groupe ?
Sondage stratifié Sondage par grappe Sondage à plusieurs dégré
Connaissons nous la structure de notrepopulation?
Sondage sur site
Boule de neige, par convenance
Sondage trotoire
Pro
babi
listiq
ues
Non
pro
babi
listiq
ue
non
oui

les études de marché:panorama
Principaux étude de marché:� Test de produit/concept� Tracking study� Étude d’usage de produits/marque� Étude de pénétration publicitaire� Évaluation d’image de marque� Étude de segmentation� Étude d’évaluation média� Étude de part/taille de marché� Études de prix� Étude de positionnement� Étude de satisfaction client� Étude de faisabilité du marché� Retail audit� Outlet census…

la plannification, le suivi et l’évaluation
Quelle est le contexte du marché et commentpouvons nous établir les objectifs de l’entreprise ?
Comment exécuter les activités de l’entrepriseafin d’atteindre ces indicateurs de performance?
Quelles activités de l’entreprise peuventvaloriser l’image de l’entreprise sur le marché?
Quelles sont les facteurs internes et externesqui peuvent expliquer le gap entre Les réalisations et les prévisions?
La plannificationet le suivi aidenta proposer des
solutions telles que:
La plannificationet le suivi aidenta proposer des
solutions telles que:
C’est un ensemble d’activités réalisé dans l’intentionde planifier, prévoire et aussi suivre l’évolution des performances
de l’entreprise et de son marché.

la plannification, le suivi et l’évaluation: les méthodes
L’arbre des méthodologies pour la planification selon Amstrong
Sources de connaissance
Par jugements Par statistiques
Des autres propres univariées multivariées
oSondage d’opinionsoTest de marché
oOpinions d’expertsoOpinion des commerciaux
Analyse de séries temporelles
oRegressions linéaires oAutres models économetriques

la plannification, le suivi et l’évaluation: les méthodes
Il est possible de conduire une « enquête d’intention
d’achat » sur un échantillon de clients potentiels ciblés.
Cette approche suppose qu’avec les intentions d’achats
actuel, sur l’échantillon, nous pourrons estimer le
niveau d’achat future.
Totalement impossible 0%
Très faible probabilité 10%
Faible probabilité 20%
Peu probable 30%
Probabilité moyenne 40%
Un peu bonne probabilité 50%
Bonne probabilité 60%
Probablement 70%
Fortement probable 80%
Quasiment sure 90%
Totalement sure 100%
Avantages :
� Fournie des informations détaillées
� Fournis une précision sur la pensé des clients
� Peu être utilisé pour de nouveaux produits/SAV
Inconvénients :
� Les intentions peuvent ne pas être actuelles
� Couteuse en terme de finance et de temps
� Utilisé uniquement lorsqu’on a une bonne
définition des clients potentiels
Intention d’achat

la plannification, le suivi et l’évaluation: les méthodes
Opinions d’experts Marché test Opinion des commerciaux
Dans cette méthode, connu sous
le nom de Delphi, un
questionnaire est envoyé à des
experts en dehors de
l’entreprise. Les résultats de
leurs réponses sont synthétisés
et renvoyées avec les mêmes
questions. On répète cela
jusqu’à ce qu’ils trouvent un
consensus.
Cela implique le lancement du
produit sur une petite partie
du marché et de supposer que
le produit se comportera de la
même manière sur l’ensemble
du marché.
L’échantillon peut être
géographique ou socio-
démographique.
L’estimation peut aussi venir de
la force de vente qui peut
estimer les ventes sur leur
territoire respectif. Ils sont,
après tout, les membres de
l’entreprise qui sont les plus
proches des clients donc
peuvent bien estimer la
demande probable.
Avantages :
� Estimateurs moins enclin
aux pressions de groupe
� Besoin d’avis de personnes
extérieurs
Inconvénients :
� Souvent difficile de trouver
un expert de nouveau prod.
� Couteuse en terme de
finance et de temps
Avantages :
� Permet une évaluation des
effets du plan marketing
� Fournis des information
réalistes
Avantages :
� Les vendeurs connaissent
bien les clients, les produits
et les concurrents
Inconvénients :
� Alerte les concurrents sur
les plans de l’entreprises
� Couteuse en terme de
finance et de temps
Inconvénients :
� Les vendeurs sont investit
d’intérêt donc peuvent faire
des estimations biaisés
� Risque de mauvaise
appréciation du marché

L’intelligence économique
Quelles sont les facteurs externes qui peuventimpacter l’activité de l’entreprise?
Quelles sont les potentiellesmenaces et opportunités du marché ?
Comment nos activités peuvent impacter l’évolutiontechnologique ou comportementale de la population ?
Quelles sont les réalités de notre activitédans d’autres pays ?
Afin de repondreà 4 types problemes:
Afin de repondreà 4 types problemes:
C’est la collecte, l’analyse et le partage de toute l’informationsur l’environnement macro-économique afin d’anticiper
les menaces et d’exploiter les opportunités.
Deux types
d’activités
Suivre l’evolutionstructurelle du macro-environnement
Anticiper les menaces et opportunités

L’intelligence économique: les raisons
Les raisons pour la recherche d’information
�La législation et la réglementation: nationales et internationales
�Les orientations en matière sociale: aspects sociologique de l’environnement
�Le contexte politique national et international
�Les tendances économiques: PIB, RN, IPC, IPI, Taux de croissance
économique…
�La concurrence: partenariat, communication, sources d’avantage compétitif…
�La propriété intellectuelle et les brevets
�Les clients : exigences, souhaits, habitudes, profil …
�Les développements technologiques
�Le marché mondial: évolution technologique…

L’intelligence économique: les outils
Les outils d’intelligence économique
Les moteurs de recherche/texte libres:www.altavista.com www.google.com...
Les méta moteurs de recherche:
www.ixquick.com ,http://vivismo.com/
Les méta sites/portails:
www.eevl.ac.uk ,www.analysis.com/default.asp?mode=article&ileftAr
tic=288
Les news group/ listes de diffusion d’e-mail:
www.liszt.com, www.freepint.com
Les alertes:
http://standard.nothernlight.com/cgi-bin/cl_cliplist.pl
www.kartoo.comwww.googlealerte.com...
Les agents intelligents:
www.strategicfinder.com
Les web invisibles:
www.invisibleweb.comwww.thebighub.com
Les web sémantique: outils en construction capable de comprendre les langues humaines
Les robots:
robot tropes…

La veille concurrentielle & stratégique
Quelle est le profile des concurrents: positionnement…
Quelles enseignement tirer des activités des concurrents
Comment établir une analyseSWOT pour chaque concurrents
Que veut et que peut faire chaqueconcurrent sur le marché
C’est la collecte et l’analyse des données des concurrents afind’appréhender leur position, leurs performances, leurs capacités
et leurs intentions.
Deux types d’activités
Pister les activités et les performances des concurrents
Anticiper les actions des concurrents
Afin de repondreà types 4 de problemes:
Afin de repondreà types 4 de problemes:

La veille concurrentielle & stratégique
Les 10 commandements de l’intelligence économique et de la veille stratégique

La veille concurrentielle & stratégique: le fonctionnement
Les sources d’informations
Internes& Externes
Formelles & Informelles
Structuré &Non structurée
La nature de l’information
Données etinformations
L’information open source ( blanche)Ce sont les informations disponibles au public: média
traditionnels, internet, publications industrielles et d’entreprise.
L’information humaine (informelle)Ce sont les informations fournies directement via la relation humaine (partenaires, clients…).
L’information traquée ( grise)Ce sont les informations disponibles par nos propres observations et l’espionnage « propre »: foire commerciales, analyses des données en circulation…)
Les données, internes ou externes, que nous recueillons sont à la fois structurées/non structurées et formelles/informelles
Les données externes selon leur mode de recueillement sont classées en trois groupes: l’information open sources (blanche), l’information humaine et l’information traquée (grise)

La veille concurrentielle & stratégique:les sources d’informations
Les informations open source ( blanches)
ofaits, opinions et analyses du macro environnementoCaractéristiques du marché et des concurrents
oTaille et croissance du marchéoPart de marché de nos concurrentsoInnovation en produits et services chez nos concurrents
Conférences sur les activités marketing et les projets de recherche (approche & outils) organisées dans le secteur.
oRésultats financiers: revenu, EBIToStructure et membre des compagniesoRésultat techniques et perspectives
Certaines informations sur vos concurrents circulent toujours sur internet
Les journaux et les magazines
Publications industrielles et des entreprises:
Conférences et séminaires:
Rapports annuels des concurrents:
Sites internet, blog et réseaux sociaux

La veille concurrentielle & stratégique: sources d’informations (2)
Les informations traquées (grises)
Évènements
Produits/ServicesIl est important pour l’équipe d’intelligence Marketing de posséder ou d’utiliser les produits des concurrents afin d’en tirer le maximum d’informations pour l’élaboration des stratégies concurentielles.
D’autres
Les concurrents ont plusieurs points de vulnérabilités que nous pouvons exploiter:�Lors des voyages, dans les hôtels et restaurants: l’utilisation des ordinateurs portables et des conversations …�Les anciens disque dur: quand ils ne sont pas détruit peuvent souvent contenir des informations confidentielles…�Les stagiaires, les agents de sécurité et de netoyage…
Par la participation aux évènements tels que les foires commerciaux et les salons, en visitant les stands des concurrents nous pouvons avoir des informations sur eux et leurs nouveaux produits/services.N.B: pendant ces évènements les concurrents ont généralement deux points de faiblesses: les jeunes ou nouveaux travailleurs qui ne font pas attention à certaines confidentialités et le staff technique qui souvent détail trop l’explication des produits et services.

La veille concurrentielle & stratégique: les sources d’informations (3)
Les informations humaines (informelles)
Les employés de l’entreprise qui sontspécialistes en quelques questions
�Le staff du service SIM�La force de vente�Le staff du commercial marketing�Le staff du sce de communication interne�Le staff supply chain�Les autres staff
Les observateurs internes:
Les personnes en dehors de la compagnie qui ont des
informations sur la concurrence.� Les distributeurs� Les clients� Les fournisseurs� Les médias� Les concurrents
Les personnes en dehors de l’entreprise qui sont spécialistes
de certains points�Les agences de recherches
�Les consultants�Les membres d’académies
Les observateursexternes:
D’autres observateurs:
1
2
3

Les analyses Statistiques et Datamining
1-Comment modeliser les differentes couches de notreclientele,
2- Comment prédire les actionsde notre clientèle.
3- Comment optimiser la valeur de nos produits proposés sur le marché.
1-Comment modeliser les differentes couches de notreclientele,
2- Comment prédire les actionsde notre clientèle.
3- Comment optimiser la valeur de nos produits proposés sur le marché.
C’est un ensemble d’activités utilisant les techniques et les Outils statistiques afin de detecter l’information critique dans
les base de données clients via un processus analytique.
�Analyse du revenu�Profiling et classification des clients�Analyse de l’attrition et de la fidelité�Analyse de la valeur du client

Le datamining : Définitions
« L’exploration et l’analyse, par des moyens automatiques ou semi-automatiques, d’un
large volume de données afin de découvrir des tendances ou des règles »
Michael J. & A. Berryc’est : « torturer l’information disponible jusqu’à ce qu’elle avoue »
Dimitris Chorafas
Data mining = fouille des données = forage des données
DATAMINING
STATISTIQUE
Le datamining:1. Traite plus de données2. S’applique à une
population entière3. Travaille sur des
données existante4. Orienté pratique5. Compréhensibilité des
modèles plutôt que précision
6. Modèles localisés
La statistique:1. Traite moins de
données2. S’applique à un
échantillon représentatif3. Recueille des données
avant le travail 4. Orienté théorie5. Précision des modèles
plutôt que Compréhensibilité
6. Modèles généralisés
techniques statistiquesLe datamining utilise des techniques statistiques

Positionnement des statistiques par rapport au datamining
Donnéesanalysées
modèleD’équations
Associations
Ensembles flous
discriminante
logistique
rétropopagation
Analyselogique
TechniquesDe projection
Analyses factorielles
Analyses De typologie
ArbresDe décisions
TechniquesDe regression
RéseauxDe neurones
Nuées dynamiques
Classification hiérarchique
Moteur bayésien
Arbres de décision
Algorithme génétique
Cartes de Kohonen
Règles
Techniques Statistiques
Techniques Datamining

Le processus de datamining
1Définition du
problème
2Extraction
des données
3Analyse
préliminaire des données
4Partition de l’échantillon
5Construction du modèle
6Comparaison des modèles
7Choix et
déploiement du modèle
LE PROCESSUS D’UN PROJET DE DATAMINING

Le processus de datamining
1Definition du
probleme
2Extraction des
données
3Analyse
préliminaire des données
classification, prédiction, règle d’induction…
L’objectif est de clairement comprendre les problèmes, à résoudre, de l’entreprise et à convertir cela en un problème de datamining:
classification, prédiction, règle d’induction…
techniques de sondage.
Extraction des données à partir des base de données internes (datawarehouse, datamart, etc)avec ou sans échantillonnage avec les
techniques de sondage.
Cette phase à 2 objectifs: � Détecter les outliers et les valeurs atypiques
� Déterminer et sélectionner les variables significatives
Pour cela, selon les types de variables (continus, discrètes), nous utilisons les techniques de statistiques descriptives et inférentielles:
1. Graph: histogrammes, boite à moustache, log(odd ratio)2. Statistiques descriptives: tendance centrale, dispersion, position…
3. Tests statistiques: T-test, F-test, Chi2, Kruskal-Wallis, etc

Le processus de datamining: partition de l’échantillon
70%
30%
1.Analyses exploratoire
2.Construction du modèle
3.Comparaison des modèles

Le processus de datamining: construction du modèle
Les techniques utilisées dans le datamining afin d’exécuter différentes activités sont variables et peuvent être partagées en deux catégories:
Les variables de notre étude sontsubdivisées en 2 groupes: les variablesexplicatives et une (ou plusieurs)variable(s) dépendante(s).Le but est de spécifier la relationexistante entre les variables explicativeset la(les) variable(s) dépendante(s).
Techniques:• Arbres de décision• Analyses discriminantes linéaires• Régression logistique• Réseaux de neurones• Support Vector Machine…
Toutes les variables sont traitées de lamême manière, il n y a pas dedistinction entre les variablesexplicatives et les variablesdépendantes,Le but peut-être aussi général commela réduction des données ou spécifiquecomme la classification.
Techniques:• Analyse de segmentation• Kohonen-SOM• Analyses factorielles• Règles d’association…
Méthodes supervisées Méthodes non-supervisées

Le processus de datamining: choix du modèle
Les modèles optimaux sont choisis en comparant les erreurs de prévision des différents modèles sur l’échantillon test.
Les modèles de Datamining sont très diférent en termes d’input comme d’output, ils ne peuvent donc être comparé via des outils tel que le coefficient de correlation,
Plusieurs techniques sont utilisées afin d’estimer les erreurs: Test de données, cross-validation ( avec plusieurs variantes K-fold, leave-one-out…), Boostrap, etc.
mais à la fin de cette étape, nous devons toujours remplir une matrice de confusion.
La seconde étape consiste à l’évaluation de l’efficacité de nos modèles via des techniques de scoring: courbe ROC, courbe LIFT, etc.
Cross-validation:Détermine comment les résultats d’unmodèle peuvent être généralisé sur toutela base. Pour cela on applique plusieursfois le modèle sur des sous-échantillonset on retient la moyenne des paramètreobtenus après chaque round.
Boostrap:
Utilisé quand la base de données estassez petite pour être subdivisé. Onutilise des remplacements d’individusdans la même base pour en former denouvelles auxquelles on applique lesmodèles. On compare donc lesmoyennes des paramètres.

datamining:choix du modèle (la matrice de confusion)
Classification prédictive
clas
se r
éelle
Sensitivité= A/(A+B)Spécificité=D/(C+D)
POSITIF NÉGATIF Total
POSITIF vrai positif (A) faux négatif (B) A+B
NÉGATIF faux positif (C) vrai négatif (D) C+D
Total A+C B+D N=A+B+C+D
VPP=A/(A+C)VPN=D/(B+D)
TAUX DE SUCCES=(A+D)/N=ℰℰℰℰTAUX D’ERREUR=1- ℰℰℰℰ
La sensitivité est la capacité du
modèle à détecter correctement un
positif
La spécificité est la capacité du
modèle à détecter correctement un
négatif
La valeur prédictive positif (VPP) est la
proportion des vrais positifs parmi les
positifs du modèle
La valeur prédictive négatif (VPN) est la proportion des vrais négatifs parmi les
négatifs du modèle 1
23

datamining: choix du modèle (courbe ROC)
La courbe ROC (receiver operating Characteristic = récepteur des caractéristiques
opératoires) est un graph qui représente:
� La probabilité de classifier correctement les individus positifs (vrais positifs)
� La probabilité de classifier les incorrectement les positifs (faux positifs)
Le meilleur modèle est celui qui
nous permet de concilier le
maximum de vrais positifs et le
minimum de faux positifs.
L’indicateur généré par la courbe
ROC est l’AUC (Area under ROC =
aire sous la courbe). Plus l’AUC est
grand et plus le modèle est
meilleur. (Lim AUC=1)

Le processus de datamining: choix du modèle (Courbe LIFT)
basé sur un échantillon randomisé.
La courbe LIFT (ascenseur) est une mesure de l’efficacité d’un modèle prédictif
calculé comme ratio entre les résultats obtenus avec ou sans le modèle prédictif.
LIFT mesure le degré auquel la prédiction du model est meilleur qu’une prédiction
basé sur un échantillon randomisé.
L’indicateur généré par la
courbe LIFT est l’AUL (Area
under LIFT = aire sous la
courbe): AUL montre de
manière graduelle comment le
modèle distingue les vrais
positifs dans la population
totale.
Une relation à été établis entre AUC et AUL donnée par la formule suivante:
AUL=p/2+(1-p)AUC
Avec p la proportion de l’évènement ( ex: churn) dans la population totale.

Les logiciels de datamining
Domaine statistique Data mining
Libre
R Sipina
Excel / OpenStat Tanagra
Microsiris Weka
commercial
SAS Clementine (SPSS)
SPAD Enterprise Miner (SAS)
SPSS KXEN
S-PLUS Intelligent Miner (IBM)
XLSTAT SPAD
« L’ouvrier qui veut bien faire sont travail doit commencer
par aiguiser ses instruments »
(Confucius, Entretiens)
Critères de sélection d’un logiciel
de Data mining:
o Variété des algorithmes et
models
o Types et volume des données
traitables
o Prix (niveau et composantes)
o Facilité de compréhension et
simplicité.

“Quand vous voyez un joueur accelerer c’est qu’il à accuser un rétard”
Johann Cruijff, Entraineur de l’équipe de football d’Hollande