final

AbstractFace à l’importance grandissante que prend l’information, le datamining offre une

solution pour maitriser la complexité et synthétiser les amas de données pour faire jaillir de la connaissance.

Cet exposé introduit la notion de datamining dans son ensemble à travers ses concepts et ses principes, et survole quelques techniques utilisées lors de ce processus.

Mots-clefs: datamining, techniques de datamining, text mining.

Abstract

Given the growing importance of the information, data mining offers a way to master the complexity, and synthesize data in order to spring knowledge.

This presentation introduces the concept of data mining as a whole, through its concepts and principles, and flew over some techniques used during this process.

Keywords: data mining, data mining techniques, text mining.

Table des matières

Introduction...........................................................................................................................................4

I. Qu'est ce que le datamining?

I.1. Définition............................................................................................................................5

I.2. Pourquoi le datamining ?....................................................................................................6

I.3. Objectif du Datamining.......................................................................................................6

I.4. Applications du datamining................................................................................................7

I.5. Avantages du datamining....................................................................................................8

II. Processus de datamining

II.1. Formaliser le problème......................................................................................................9

II.2. Collecter les données.........................................................................................................9

II.3. Prétraitement des données.............................................................................................10

II. 4. Estimer le modèle...........................................................................................................10

II.5. Interpréter le modèle et tirer les conclusions..................................................................11

III. Quelques techniques de dataming

III.1. Les réseaux de neurones.................................................................................................13

III.2. Réseaux Bayésiens..........................................................................................................15

III.3. Support Vector Machine (SVM)......................................................................................16

III.4. Ensembles flous et logique floue....................................................................................17

IV. Le text mining

IV.1. Présentation...................................................................................................................20

IV.2. Pourquoi faire du text mining ?.....................................................................................20

IV.3. Principe de fonctionnement...........................................................................................20

IV.4. Domaine d’application....................................................................................................21

IV.5. Limites du texte mining..................................................................................................23

V. Limites et perspectives du datamining

V.1. Limites.............................................................................................................................24

V.2. Perspectives.....................................................................................................................24

Conclusion...........................................................................................................................................25

Bibliographie.......................................................................................................................................26

3

Introduction

« The best way to predict the future is to invent it».

Alan C. Kay

Les vingt dernières années en vue exploser l’importance de l’information et la quantité de données stockée sur les ordinateurs, grâce à des périphériques d’entrée de plus en plus évolués et surtout à des supports de stockage toujours plus grands et toujours moins chers (loi de Moore oblige !).

Paradoxalement, on devient de plus en plus ‘pauvre’ en information, d’ou l’importance et l’urgence d’une solution pour ‘profiter’ de cette ressource, de plus en plus précieuse, qu’est l’information.

Le Datamining contribue à cette solution, en tirant le maximum de valeurs de l’information contenues dans les données ; il concourt ainsi à prévoir les tendances et comportements futurs offrant un meilleur support à la décision.

Nous allons tenter d’introduire ce vaste sujet à travers ce petit exposé, nous commencerons par définir ce qu’est le datamining, ensuite nous allons présenter les différentes étapes du processus de datamining, puis nous survolerons qu’elle que techniques misent en œuvre lors de ce processus, puis nous nous arrêterons sur le text mining et enfin, nous aborderons les limites et perspectives de cette technologies.

5

I. Qu’est-ce que le datamining ?

I.1. Définition

Traduit par « fouille de données » ou plus exactement « forage de données » pour signifier l’exploitation des données comme on exploite des mines, le datamining est ,d’après le Gartner Group, « un processus non élémentaire de mises à jour de relations, corrélations, dépendance, associations, modèles, structures, tendances, classes, facteurs obtenus en navigant à travers de grands ensembles de données, généralement consignés dans des base de données, navigation réalisée au moyen de méthodes mathématiques, statistiques ou algorithmique. Ce processus peut être itératif et/ou interactif selon les objectifs à atteindre.

Ainsi, « Le datamining est un outil qui permet la sélection, l’exploration et la modélisation de volumes important de données afin de mettre en évidence des schémas inconnus et en tirer avantage » [Rom 95].

Ces « schémas » seront validés par un analyste qui déterminera ainsi leur pertinence et utilité.

Par rapport à l’analyse de données classique, le datamining se présente comme un processus dynamique qui automatise l’utilisation des méthodes d’analyse de données et qui surtout ne présuppose aucune hypothèse mais fait émerger les inférences.

Le datamining à notamment pu croitre grâce aux avancées dans le domaine du datawarehouse, en effet, les datawarehouses, c’est « entrepôts de données d’une entreprise contenant à la fois les données opérationnelles enregistrées au fil de l’eau, les données agrégées selon toutes dimensions, les données historicisées, les données de pilotage, et éventuellement toutes données externes à l’entreprise mais ayant une relation possible avec les activités de l’entreprise »(d’après Telecom Business), représente, à coté de l’internet et de l’intranet, une source de choix pour le processus de datamining.

7

I.2. Pourquoi le datamining ?

Parmi les facteurs-clefs qui ont contribués à l’émergence du datamining, on peut citer :

- Existence de valeurs « cachées » dans les grandes bases de données ;

- Arrivée des datawarehouses ;

- Accentuation de la compétition sur le marché et saturation croissante de celui-ci ;

- Mouvement des entreprises vers la personnalisation de l’offre

I.3. Objectif du Datamining

Schématiquement, six objectifs non exclusifs motivent le processus de datamining:

1. Classification - découverte d'une fonction d'apprentissage prédictive qui classe un élément dans une des classes prédéfinies.

2. Régression - découverte d'une fonction d'apprentissage prédictive, qui fait correspondre à une variable prédictive une valeur réelle.

3. Clustering - tâche descriptive ou l'on cherche à identifier un ensemble fini de segments décrivant les données.

4. Summarization - tâche descriptive qui implique des méthodes pour trouver une description compacte d'un ensemble de données.

5. Modélisation de la dépendance - découverte d’un modèle qui décrit les dépendances entre des variables ou entre les valeurs d'un élément dans un ensemble de données.

6. Détection de changement et de déviation - découvrir les changements les plus significatifs/atypiques dans l'ensemble des données.

Il parait clair de cette énumération, que le datamining à principalement deux types de tâches :

- Prédictives : qui tendent à approximer l’état du système dans le futur

- Descriptives : qui font ressortir (sous une autre forme) des informations qui existaient déjà.

8

I.4. Applications du datamining

I.4.1 Exemples d'applications Le concept de datamining inclut une orientation forte vers l’utilisateur final et plus particulièrement le décideur. Il s’agit donc de faire abstraction de la technologie pour se concentrer sur les résultats-clef du datamining et ainsi pouvoir dégager des politiques efficientes.

On peut relever, parmi les utilisations du datamining, les exemples suivants :

Segmentation des clients : Classer et grouper les clients selon des caractéristiques et/ou comportements communs permettant ainsi d’avoir une relation privilégiée avec ceux-ci.

Fidélisation : il est plus avantageux pour une entreprise de fidéliser ses clients que d’on recruter de nouveaux, aussi, le datamining permet de proposer des offres ciblées et personnalisées selon le type de client et contribuent ainsi à le fidéliser.

Déterminer le panier de la ménagère : il s’agit d’identifier les corrélations entre produits achetés par un client, l’analyse, ainsi faites, pourra déceler des opportunités (tel produit est susceptible d’intéresser tel client) et particulièrement de proposer des offres de cross-selling efficaces.

Détection de Fraude, d’erreurs (fautes de frappe…etc.) ou tout autre comportement anormal.

I.4.2 Champ d’applicationLe datamining peut être utilisé pour :

- La grande distribution avec analyse des comportements des consommateurs, recherche de similarités des consommateurs en fonction des critères géographiques, et prédiction des taux de réponse en marketing direct ;

- Les laboratoires pharmaceutiques avec identification des meilleures thérapies pour différentes maladies, optimisation des plans d’action des visiteurs médicaux pour le lancement de nouveaux produits ;

- Les banques avec recherche de forme d’utilisation de cartes caractéristiques d’une fraude et modélisations prédictives des clients partants ;

- Les assurances avec analyse des sinistres et recherche des critères explicatifs du risque ou de fraude ;

- L’aéronautique et l’automobile avec prévision des ventes et dépouillements d’enquête de satisfaction ;

9

- Les télécommunications avec détection des formes de consommation frauduleuses, classification des clients selon la forme d’utilisation des services et prévision du départ des clients.

Ces applications sont loin d’être exhaustives puisque le datamining s’illustre dans les disciplines scientifiques confrontées à la détection de motifs (patterns) dans des volumes de données considérables : génomique, astrophysique.

I.5. Avantages Le datamining contribue à renforcer la position compétitive de l’entreprise, il permet une meilleure prise de décision et est particulièrement efficace pour le marketing.

D’autres avantages pour l’entreprise :

- Transformer des masses de données en information utile ;

- Identifier les facteurs qui déterminent le comportement du client ;

- Identifier les investissements les plus profitables et les moins couteux.

10

II. Le processus de datamining

Le datamining est un processus itératif complexe, ou intervient diverses méthodes et techniques, au travers de plusieurs étapes, en effet, il s’agit d’abord, d’étudier les données récoltées et de les examiner à l’aide d’outils analytiques, en les modifiant éventuellement, puis, de recommencer depuis le début, en appliquant éventuellement un nouvel outil à chaque fois, les résultats sont ainsi affinés à chaque itération.

Pour chaque technique, et à chaque itération, de nouvelles données sont donc mises à jour, cependant, ce processus n’est jamais aléatoire, loin de la, il s’agit plutôt d’un processus parfaitement planifier ou il faudra décider à chaque étapes, quelles sont les techniques et les données les plus utiles, et surtout les plus prometteuses. [Kan 2003]

Néanmoins, il est communément admis, que pour implémenter un processus de datamining, et pouvoir tirer des conclusions à partir des données, il faudra suivre les étapes suivantes :

II.1. Formaliser le problème

A l’instar de la modélisation de systèmes d’information, la connaissance dite « métiers » est primordiale dans un processus de datamining, ainsi dans cette étapes, l’expert en datamining travaillera conjointement avec l’expert métiers, afin d’identifier les variables pertinentes et de formuler éventuellement les « bonnes » hypothèses, et ainsi, pouvoir formaliser une problématique « qui à du sens ».

II.2. Collecter les données

Il s’agit de savoir comment les données sont collectées et générées. On distingue, en général, deux approches [Kan 2003]:

Approche par expérience préconçus : la génération de données est sous control de l’expert.

Approche par observations : le processus de génération de données n’est pas influencé par l’expert.

Dans la plus part des cas, la génération de données est aléatoire, on procédera donc par « observations », en effet, la distribution des échantillons est généralement inconnue après la collecte de données.

11

II.3. Prétraitement des données

Dans une approche par observation, Les données sont souvent collecter à partir de base de données, de datawarehouses ou de datamarts, ainsi, elles ne sont pas toujours exploitables tel quelles, d’où la nécessité d’une phase de prétraitement en amont.

Le prétraitement des données inclue généralement deux taches :

1. Atténuation du bruit :

Par bruit, en entend les données inhabituelle et/ou non consistantes, Qui peuvent altérer la pertinence des résultats.Il existe deux stratégies pour atténuer le bruit :

- Détecter et supprimer (autant que possible) le bruit lors de la phase de prétraitement

- Développer des méthodes de modélisation robustes insensible au bruit.

2. Sélections des données utiles :

Il s’agit de ne sélectionner que les données qui se rapportent à l’objectif à atteindre ;Par données en entend : l’ensemble des individus, des variables, des dimensions du domaine, et des périodes associées au domaine. [Jam 99]

- Ainsi, pour sélectionner les individus on pourra procéder par échantillonnage selon le domaine,

- Et Pour sélectionner les variables et les dimensions, on pourra utiliser le diagramme de Ishikawa [Ish 1985]

Toutefois, ces deux méthodes ne sont pas les seules, il existe un large spectre d’activités de prétraitement qu’on pourra mettre en œuvre lors d’un processus de datamining, notamment les différentes méthodes de l’analyse de données.

II. 4. Estimer le modèle

Cette phase, particulièrement ardue, consiste principalement dans le choix et l’implémentation de la technique de datamining appropriée, et cela selon les objectifs attendus. Il s’agira soit de sélectionner le modèle le plus adéquat parmi une collection de modèles, soit de découvrir carrément celui-ci par apprentissage.

On pourra citer parmi ces techniques : les arbres de décisions, réseaux neuronaux, réseaux bayésiens…etc.

12

II.5. Interpréter le modèle et tirer les conclusions

L’information dérivée des modèles devra être analysée par un expert métier, elle devra donc être pertinente et surtout facilement “interprétable”.

Par ailleurs, Le datamining étant une technologie d’aide à la décision, donc fortement orienté vers les décideurs, les résultats obtenus via datamining devront être présenté sous formes adéquates (tableaux de bord, histogrammes, graphes...etc.) pour pouvoir être exploitable par les décideur (des non informaticiens qui compte sur l’informatique pour leur faire économiser du temps et non pour en gaspiller d’avantage).

Il en ressort que le processus de datamining, si on veut qu’il puisse être efficace, doit être conduit conjointement avec un expert du domaine du début jusqu'à la fin, bien plus, ce processus ne pourra être couronné de succès a moins qu’il soit hautement itératif.

13

Processus de datamining [Kan 2003]

14

III. Quelques techniques de datamining

Nous avons vu, dans la partie précédente, que le datamining reposait notamment sur un ensemble d’outils et de techniques analytiques, mis en œuvres pendant la phase d’estimation du modèle.

Nous proposons, dans cette partie, d’introduire les techniques les plus utilisées

III.1. Les réseaux de neuronesConçu au départ pour étudier le cerveau humain, les réseaux de neurones sont aujourd’hui largement utilisés dans le domaine de l’intelligence artificielle.

L’idée de base : modéliser l’unité du cerveau humain ‘le neurone’ sur une machine et assembler plusieurs unités entre elles, afin d’approcher (par analogie) le raisonnement humain.

III.1.1. Présentation :Le modèle du neurone formel, conçu par MacCulloch et Pitts, est un modèle mathématique simple issue du neurone biologique, il s’agit d’un modèle de calcul, qui fait la somme de signaux entrant, puis l’a compare à un certain seuil (via une fonction dite d’ « activation »), ensuite, il donne en sortie un ‘1’ si le seuil est atteint, un ‘0’ sinon.

Mais l’intérêt des neurones formels est bien plus leurs capacité (et la simplicité) à se regrouper en « réseaux », en effet, pris tout seul un neurone « ne vaut rien », mais constitués en réseau, ils développent une capacité très intéressante en terme « d’apprentissage ».

Structure d'un neurone artificiel. Le neurone calcule la somme de ses entrées puis cette valeur passe à travers la fonction d'activation (Source : wikipedia.fr)

15

http://fr.wikipedia.org/wiki/Fichier:ArtificialNeuronModel_francais.png

III.1.2. Principe de fonctionnement :Les réseaux de neurones sont généralement structurés en couches successives, chacune prenant ses entrées dans les sorties de la précédente.

En effet, chaque couche ‘i’ est composée de Ni neurones, chacun puisant ces entrées sur les ‘Ni-1’ neurones de la couche ‘i-1’, ainsi de suite, jusqu'à traversé toutes les couches.

En outre, chaque synapse (connexion entre neurones) est valué par un poids, l’apprentissage consistant à modifier ce poids [Jam 1999], ainsi pour être efficace les réseaux de neurones doivent pouvoir maitriser ces valeurs, d’où l’importance de la fonction de seuillage, une fonction qui n’introduit pas de non-linéarité rends le réseau inutile.

Dans la majorité des réseaux, l’apprentissage est dit supervisé c'est-à-dire qu'on teste le réseau dans des situations connues et on cherche à obtenir la sortie voulue. On effectue alors la modification des poids pour retrouver cette sortie imposée. Il existe aussi des réseaux à apprentissage non-supervisé qui sont capable de "mémorisation" c'est à dire qu’ils raisonnent par analogie avec ce qu'ils ont déjà effectué. Enfin certains réseaux associent les deux types d’apprentissage.

Cependant plus il y a de couche, plus il est difficile de les manipuler, de plus, la plupart des réseaux neuronaux contiennent des boucle ou des mécanismes de rétropropagation, certes indispensables à l’apprentissage, mais qui augmentent encore plus la complexité.

III.1.3. Avantages et inconvénients :L'avantage des réseaux de neurones est qu'ils acceptent des données incomplètes, incertaines ou bruitées, bien plus, ils s'enrichissent de leurs expériences. En revanche, leur architecture parallèle nécessite des processeurs spécialisés, et enfin, il est nécessaire de passer par la phase d'apprentissage avant d'utiliser le réseau.

16

III.2. Réseaux Bayésiens

III.2.1. PrésentationUn réseau bayésien « est un modèle graphique pour des relations probabilistes enfouie dans un ensemble de variables » [Hec]. Il s’agit « d’acquérir, de capitaliser et d’exploiter des connaissances », cela est notamment possible grâce à un socle mathématique solide et un modèle à base de règles.

Ainsi, les réseaux bayésien se présente sous la forme de graphes, ou les relations de causes à effets entre les variables ne sont pas déterministes, mais probabilisées : l'observation d'une cause ou de plusieurs causes n'entraîne pas systématiquement l'effet ou les effets qui en dépendent, mais modifie seulement la probabilité de les observer.

Largement appréciés dans les systèmes ou l’incertitude est forte, les réseaux bayésien peuvent être décrit manuellement par les experts du domaine ou bien être générés automatiquement par apprentissage, ainsi, un réseau bayésien permet soit de représenter une connaissance qu’on a, soit de découvrir de nouvelles.

III.2.2. Principe de fonctionnementLes Réseaux bayésiens sont un savant mariage entre les probabilités et la théorie des graphes, en effet, un réseau bayésien est constitué d’un ensemble de parties « simples » associées entre elles (un graphe) à l’aide de probabilités.

A partir de ce graphe, on pourra faire de l’inférence, ainsi on pourra naviguer dans ce graphe, soit à partir des « évidences » et déterminer les causes (l’herbe est humide, il à donc dû pleuvoir) ce qu’on appelle « diagnostique » (approche bottom-up), soit à partir des causes ou des « croyances » et inférer les effets (approche top-down) [Mur 2001].

Une autre utilisation des réseaux bayésiens, dite « par apprentissage », consiste à découvrir les paramètres et la structure du réseau, et ce sans connaissances préalables du domaine, afin d’inférer des résultats pertinents ; elle peut être misent en œuvres via des techniques supervisées ou non supervisées.

17

III.3. Support Vector Machine (SVM)

III.3.1 PrésentationTechniques assez récentes, apparu vers 1998, Les machines à vecteur de support ou séparateurs à vaste marge (Support Vector Machine, SVM) sont un ensemble de techniques d’apprentissage supervisé conçus principalement pour résoudre les problèmes de classification.

S’appuyant sur une théorie statistique solide (théorie de Vapnik-Chervonenkis.), les SVM ont rapidement conquis la sphère du datamining [Wri 2009], elles sont notamment prisées pour la « précision de leurs prédictions ». [Tuf 2007]

On utilise généralement les SVM pour de la classification et de la régression, cependant, une utilisation lors de la phase de sélection et de prétraitement des données, pour le « nettoyage » des celles-ci, commence à être considérée [Guy & al.].

Toutefois, les SVM ont été brevetées au Etats-Unis par les inventeurs originels.

III.3.2. Principe de fonctionnement

Pour faire simple, la technique des SVM consiste à séparer les données en entrées via une frontière linéaire (un hyperplan).

Les SVM reposent sur deux concepts clefs [Tuf] :

- Marge maximale : il s’agit de maximiser la distance entre la frontière de séparation (l’hyperplan) et les échantillons (données en entrée) les plus proches, dit vecteurs supports.

- Transformer l’espace d’origine de représentation des données en un espace de plus grande dimension (éventuellement infini) pourvu d’un produit scalaire tel qu’il existe un séparateur linéaire dans cette espace. La transformation est effectuée grâce à une fonction dite noyau.

Il s’agira donc de trouver le séparateur linéaire optimal qui maximise la marge et ainsi rendre le problème initial un problème d’optimisation.

18

L'hyperplan optimal (en rouge) avec la marge maximale. Les échantillons entourés sont des vecteurs supports.(Source : Wikipedia.org)

III.4. Ensembles flous et logique floue

III.4.1. Présentation :

Le concept de logique floue à été formalisé par Lotfi A. Zadegh (Actuellement Professeur à l’université de Berkeley) en 1965, il étend la théorie mathématique des ensembles, mais part principalement de considérations du monde réelle, en effet, là ou la logique « classique » considère une proposition comme soit vrai soit fausse, la logique floue distingue une infinité de valeurs entre ces deux « bornes », ainsi en logique classique l’eau ne peut être que chaude ou bien froide, en fonction d’une valeur seuil, en revanche, la logique floue contourne cette aberration, l’eau peut être au même moment chaude et froide mais à des degrés différents : l’eau est tiède !

En réalité, la valeur seuil de la logique classique devient une fonction seuil dans la logique floue, fonction qui va déterminer le degré d’appartenance à chaque catégorie.

19

°C°C FroidChaud

Logique classique Logique floue

ChaudFroidtt

http://fr.wikipedia.org/wiki/Fichier:Separatrice_lineaire_avec_marges.svg

III.4.2. Principe de fonctionnement :Pour implémenter une logique floue, il faudra passer par les étapes suivantes :

1. fuzzification (quantification floue)

A partir des variables d'entrée et des fonctions d'appartenance, le système commence par déterminer le degré d'appartenance de chaque variable à chaque état. On constate qu'une variable peut être simultanément dans chaque état (l’eau est chaude et froide).

2. Application des règles.

La logique flou procède aussi par règles d’inférence (si … alors …)

Par exemple, Si la température est faible alors chauffer plus fort.

A l’instar aussi de la logique classique, on peut utiliser des connecteurs ‘et’, ‘ou’ et ‘non’ ; mais aussi, des connecteurs de précision du type ‘environ’, ‘exactement’…etc.

En appliquant les règles, on obtient le degré d'appartenance des variables de sortie à chaque état (appartenance à l’ensemble flou).

3. Defuzzification

Il s’agit du processus de production de résultat quantifiable, ainsi, les variables en sortie de ce processus auront des valeurs précises déduites à partir des degrés d’appartenance, pour ce faire, il existe différentes algorithmes notamment celui du maxima. [Lee & al]

La logique floue est particulièrement pertinente pour le datamining , en effet, les données collectées, de par leur taille importante, sont souvent imprécises et/ou incertaines, en outre, cette techniques est plus facile à mettre en œuvre que les autres techniques de datamining,

20

bien plus, il est plus aisé de trouver automatiquement des modèles « floues » à partir des données que d’autres modèles. [Kan 2003]

III.5. Conclusions sur les techniques de datamining

La liste présentée ici est loin d’être exhaustive, nous pouvons aisément rajouter d’autres techniques telles que les arbres de décision, les algorithmes génétiques et autres heuristiques.

Il reste que toutes ces techniques sont de plus en plus puissantes, cependant qu’elle que soit leur puissance, le datamining reste un processus itératif ou, pour réussir, il faudra connaitre et maitriser chaque maillon de la chaine, en effet, quel que soit la technique utilisée lors de l’estimation du modèle, le résultat ne sera pas valide si les données ne sont pas collecter et traiter convenablement, ou pire, si la formalisation du problème est fausse.

21

IV. Le Text Mining

IV.1. Présentation

Le text mining n’est autre que du datamining appliqué à des données textuelles, c’est donc un processus automatisé qui produit, à partir d’un texte, une information initialement inconnu mais de grande qualité(en terme de pertinence et d’actualité); il s’agira donc dans un premier temps de structurer le texte, ensuite, de le traiter afin de faire apparaitre des modèles dans les données structurer obtenues, et enfin, d’interpréter les résultats.

Contrairement à la Recherche d’Information (principalement utilisée dans les moteurs de recherches), Le text mining classe l’information, crée des liens entre des documents non connectés et affiche (à l’instar du datamining), sous formes appropriées, des résultats qui auraient été ignorés sinon.

IV.2. Pourquoi faire du text mining ?Principalement pour :

- classifier automatiquement des documents.

- avoir un aperçu sur le contenu d’un document sans le lire.

- alimenter automatiquement des bases de données.

- faire de la veille sur des corpus documentaires importants.

- enrichir l’index d’un moteur de recherche.

IV.3. Principe de fonctionnement

Le processus de text mining passe essentiellement par deux étapes :

1. L’analyse du texte et l’extraction d’information : Cette étape consiste, via des méthodes linguistiques, à appliquer successivement sur une phrase :

- Une analyse lexicale : découpage en mot et identification de la langue- Analyse morphosyntaxique : association de chaque mot avec sa catégorie

syntaxique- Analyse syntaxique : analyse de la structure de la phrase- Analyse sémantique : compréhension du sens de la phrase

22

2. Classification :

Il s’agit, ici, d’identifier et de classer les différentes thématiques abordées dans un corpus, on peut attaquer cette phase avec une approche statistique, sémantique ou les deux on même temps. [Fau 2007]

- Approche statistique : elle s’attache à révéler le texte sous l’angle des chiffres, nombre d’occurrence et de cooccurrence sont entre autres les outils généralement adopté sous cette approche ; cependant, parce qu’elle ne tient pas compte des spécificités et du contexte des documents, elle est souvent considérée comme moins performante qu’une approche sémantique.

- Approche sémantique : la démarche ici consiste à confronter les données avec un « référentiel », une base ou sont consignés divers informations sur un domaine précis (liste de mots clefs, thésaurus, ontologies…etc.), et ainsi tirer des informations qui viendront enrichir le document initial, par exemple, grâce à cette approche l’application déduira que « Kateb Yacine» , trouvé tel quel dans un document, est un écrivain algérien, car le moteur de text mining aura cherché et trouvé ce nom dans un référentiel des auteurs connus, sous la catégorie « écrivain algérien ».

En outre, Les lois bibliométrique peuvent contribuer à optimiser les résultats de la phase de classification [Gri 2006].

IV.4. Domaine d’applications

Dans le monde réel, et au-delà de l’activité dans le domaine de la recherche universitaire, le text mining creuse son chemin et s’émancipe de plus en plus, notamment en entreprise.On peut rencontrer le text mining en:

Sécurité et Intelligence économique

Identifier les actions ou les faits susceptibles de présenter une menace, et identifier les leaders d’opinion et les suiveurs afin de préparer des actions efficaces d’influence ou de contre-influence ;

Nous pouvons citer dans cette catégorie, le système de surveillance « ECHELON », l’un des plus grand logiciel de text mining au monde, qui vise l’interception et l’analyses des communications mondiales privées et publiques.

23

Marketing et CRM :

Mieux comprendre les besoins de ces clients via l’analyse de leurs réclamations, et l’analyse de sentiments, afin d’anticiper un départ chez un concurrent, de proposer de nouvelle offres…etc.

Knowledge Management, ou gestion des connaissances en entreprise :

Le text mining pourra contribuer à identifier et classer automatiquement les documents pertinents pour l’entreprise, les travailleurs les plus actifs mais aussi à faire des résumés automatiques de CV.

Logiciels

Les départements R&D des plus grandes entreprises en informatiques, travaillent activement dans le domaine du text mining notamment dans la recherche et l’indexation de contenus.

Media Online

Le texte mining de contenu online, ne cesse d’intéresser, notamment du fait de la « meilleure » indexation qu’il offre, mais surtout grâce la possibilité de monétiser les résultats obtenus (comme le fait déjà le système AdSend de Google) ; le text mining peut aussi présenter une solution efficace contre le spam.

Applications biomédical

Il s’agit d’un domaine assez récent mais très porteur, en effet, face à l’abondance de textes en matière de biosciences, notamment sous formats électroniques, le text mining peut apporter des solutions efficaces par la constitution automatique de résumés, et surtout par la possibilité et la facilité de suivi qu’il offre, ainsi on pourra synthétiser les données relatives à un domaine précis mais aussi, et surtout, celles relatives à toutes les implications et les interactions qu’il entretien avec les autres domaines scientifiques, pour n’en garder que l’essentielle. [Gue 2003].

24

IV.5. Limite du texte mining

Il existe principalement deux limites aux pratiques de text mining [Hea 2003]

- L’impossibilité, pour l’instant, de compréhension et d’interprétation (comme un cerveau humain) d’un texte par une machine

- Tout n’est pas textuel ! En particulier, les plus grandes décisions, négociations et autres activités stratégiques sont le plus souvent orales ou du moins sous formats non numérisés.

Conclusion

Avec plus 80% des données actuellement enregistrées dans le monde sous forme textuelle, le text mining est amener inévitablement à se développer, toutefois, ce développement devra être multi-linguiste pour être efficace.

D’autre part, le plus grand défi du text mining dans les années à venir sera certainement sa capacité a ce démocratiser et à offrir des solutions intéressantes, notamment pour le grand public, pour le traitement des informations disponible publiquement.

25

V. Limites et perspectives du datamining

V.1. Limites

On relève généralement deux écueils qui limitent l’utilisation du datamining : l’effort important pour développer chaque application ; et l’état inapproprié des données.

En effet, le datamining souffre (plus que d’autres ?) des affres de l’ingénierie logicielle, il s’agit d’un processus complexe et difficile à gérer, bien plus, son caractère transversale (le datamining concerne les fonctions de manager, analyste, développeur…etc.) requière un large éventail de compétences, autant technique que métier, qui viennent le plus souvent à manquer, conséquemment, le datamining pose beaucoup de problèmes en terme de coût, délai, qualité et organisation.

En outre, et même si les datawarehouses tendent à atténuer ce problème, les données qui alimentent le processus de datamining sont souvent réparties sur plusieurs base de données, dans différents formats (souvent incompatible), pire, les données sont souvent incomplètes ou même erronées.

V.2. Perspectives

La découverte automatique de schémas et l’analyse des tendances promettent beaucoup aux entreprises, et avec la montée en puissance des systèmes de traitement parallèle, le Datamining promet l’analyse de base de données plus importantes dans un minimum de temps, mais surtout, il promet l’exploration plus approfondie de ces base de données (toutes les combinaisons de variables pour toutes les lignes) et ainsi produire des informations largement plus pertinentes.

Aussi, le datamining est amener à se développer et a être plus simple à mettre en œuvre et ainsi, il pourra être adopté plus facilement notamment par les PME.

Une autre utilisation qui pourrai s’élargir, c’est le datamining « domestique », utilisé le datamining dans des applications aussi diverse qu’un lecteur multimédia, web browser et autres logiciel pour ordinateurs personnel pourrai être le prochain grand champ d’application du datamining.

26

Conclusion

Le datamining est un processus très puissant qui permet de faire ressortir des informations cachées auparavant. Utilisé surtout en entreprise ou il procure de nombreux avantages concurrentielles, il exploite des données en entrées pour produire des informations et surtout de la connaissance qui est à l’origine de ces fameux avantages. Il s’agit d’un formidable outil appelé à ce démocratisé et à ce développé, un outil apte à nous assister pour faire face aux défis, toujours plus complexe, qui nous attendent dans cette « âge d’or » de l’information.

Enfin, Ce travail ne représente qu’une infirme particule dans un corpus immense, il ne vise nullement l’exhaustivité et n’ambitionne qu’introduire ce très intéressant sujet qu’est le datamining.

Aussi, il semble judicieux, en complément de ce travail, d’envisager les quelques points suivants :

- Se pencher un peu plus sur les théories mathématiques et statistiques derrières les concepts énoncés ici.

- Détailler les tâches du datamining : clustering, régression…etc.- Explorer d’autres techniques pour le datamining tels que les algorithmes

génétiques.- Explorer le web mining- Mettre cette partie théorique en pratique, au sein d’une entreprise.

27

Bibliographie & Webographie

DataMining

[Ish 1985] Ishikawa K., "What is total quality control? The Japanese way", Prentice Hall, 1985.

[Kan 2003] Kantardzic M., "Data Mining: Concepts, Models, Methods, and Algorithms", John Wiley & Sons, 2003.

[Jam 1999] Jambu M., "Introduction au datamining, Analyse intelligente des données", Eyrolles, 1999.

Reseaux Bayésiens

[Hec 1997] Heckerman D., "Bayesian Networks for Data Mining", Juin 1997, <http://www.springerlink.com/content/l582u1n1061g7qh7/fulltext.pdf>.

[Mur 2001] Murphy K., "A Brief Introduction to Graphical Models and Bayesian ", 3 October 2001, <http://www.cs.berkeley.edu/~murphyk/Bayes/bayes.html>.

SVM

[Guy & al.] Guyon I., Vapnik V., "Discovering Informative Patterns and Data Cleaning ", <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=D54574EAA4F8AEADCB1909D17F6EC82D?doi=10.1.1.21.6479&rep=rep1&type=pdf>, consulté le: 28 fevrier 2009.

[Man 2001] Mangasarian Olvi L., "Data Mining via Support Vector Machines", Juillet 2001, <http://www.google.com/url?sa=t&source=web&ct=res&cd=3&url=http%3A%2F%2Fftp.cs.wisc.edu%2Fmath-prog%2Ftalks%2Fifip3tt.ppt&ei=pHCoSYybHJKv-AaOqdC4Ag&usg=AFQjCNFuGzuxQaUBCcNug9OF687L28mICw&sig2=6tD-a-JHyl0WbmV_uRRO9w>.

[Tuf 2007] Tufféry S., "Techniques prédictives de data mining 2 : réseax de neurones, SVM et algorithmes génétiques", 01 mai 2007, <http://data.mining.free.fr/cours/Neurones.PDF>.

[Wri 2009] Wright M ., "SVM Application List", <http://www.clopinet.com/isabelle/Projects/SVM/applist.html>, consulté le: 28 fevrier 2009.

28

Logique Floue

[Lee & al] Van Leekwijck W., Kerre E., "Defuzzification: criteria and classification ", 1 Septembre 1999, <http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6V05-3X9JJS7-3&_user=10&_coverDate=12%2F01%2F1999&_alid=698262587&_rdoc=2&_fmt=summary&_orig=search&_cdi=5637&_sort=d&_docanchor=&view=c&_ct=2&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=210a113d102941da62cfdaa0cb37d9b6>, consulté le: 28 fevrier 2009 .

Text Mining

[Fau 2007] Fauré C., "Introduction au Text-mining", 30 mai 2007, <http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/>.

[Gri 2006] Grivel L., "Comment faire face à l'explosion des volumes d'information, le text mining et ses applications", janvier 2006, "La revue trimestrielle du reseau Ecrin", N° 62.

[Gue 2003] GUERNSEY L., "Digging for Nuggets of Wisdom ", 16 October 2003, <http://query.nytimes.com/gst/fullpage.html?res=950CE5DD173EF935A25753C1A9659C8B63>.

[Hea 2003] Marti Hearst., "What Is Text Mining?” 17 October 2003 , <http://people.ischool.berkeley.edu/~hearst/text-mining.html>.

29

final

Technology