fouille de texte (text mining)

70
Fouille de Texte (Text Mining) 1.Objectifs, Applications 2.Exemple des CRH 3.Construction du Lexique 4.Vectorisation des Textes 5.Classification des vecteurs 6.Retour sur l'exemple des CRH

Upload: landon

Post on 21-Feb-2016

58 views

Category:

Documents


0 download

DESCRIPTION

Fouille de Texte (Text Mining). Objectifs, Applications Exemple des CRH Construction du Lexique Vectorisation des Textes Classification des vecteurs Retour sur l'exemple des CRH. Objectifs. Documents électroniques Structurés (10%) et non-structurés (90%) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Fouille de Texte (Text Mining)

Fouille de Texte (Text Mining)

1. Objectifs, Applications2. Exemple des CRH3. Construction du Lexique4. Vectorisation des Textes5. Classification des vecteurs6. Retour sur l'exemple des CRH

Page 2: Fouille de Texte (Text Mining)

2G. Gardarin

1. Objectifs

Documents électroniques Structurés (10%) et non-structurés (90%) Beaucoup d'outils limités au structuré (BDR) Grand volume, croissance exponentielle

Problèmes Recherche plein texte (IR) Extraction de connaissances (catégorie, mots-clés, …) Structuration (XML, Tables)

Page 3: Fouille de Texte (Text Mining)

3G. Gardarin

Qu’est-ce que le Text Mining ?

Le Text Mining est l’ensemble des :

Technologies et méthodes … destinées au traitement automatique … de données textuelles … disponibles sous forme informatique, … en assez grande quantité … en vue d’en dégager et structurer le contenu, les

thèmes dans une perspective d’analyse rapide de découverte d’informations cachées ou de prise automatique de décision

Page 4: Fouille de Texte (Text Mining)

4G. Gardarin

Définition

Text Mining Procédé consistant à synthétiser (classer, structurer, résumer, …) les textes

en analysant les relations, les patterns, et les règles entre unités textuelles (mots, groupes, phrases, documents)

Techniques Classification Apprentissage Recherche d’information Statistiques Extraction de patterns et d’entités Raisonnement basé cas TALN = Techniques d’analyse du langage naturel

Page 5: Fouille de Texte (Text Mining)

5G. Gardarin

Processus de Text Mining: Vue simplifiée

Morphologique, linguistique,produit des vecteurs de frequencedes mots importants

Page 6: Fouille de Texte (Text Mining)

6G. Gardarin

Analyse et Préparation

Corriger l'orthographe Eliminer les mots vides Découper les textes en unités Associer des termes à une catégorie

grammaticale ou sémantique Réduire le nombre de termes à traiter

Page 7: Fouille de Texte (Text Mining)

7G. Gardarin

Calculs de fréquence des termes

Page 8: Fouille de Texte (Text Mining)

8G. Gardarin

Réduction des dimensions

Réduire les dimensions de la table de fréquences

en déterminant les termes les plus significatifs

en groupant les termes par affinité (profile)

Approximation de la matrice d'origine par le produit de 2 sous matrices de petite dimension

Procédure itérative jusqu'à convergence

Page 9: Fouille de Texte (Text Mining)

9G. Gardarin

Classification des documents

Application de méthodes classiques aux vecteurs Segmentation des documents

Evaluation

Page 10: Fouille de Texte (Text Mining)

10G. Gardarin

Domaines d’application (1)

Exploration du contenu des documents Questions ouvertes dans une enquête Commentaires et plaintes des clients Analyse des réclamations de garantie Composition de résumés de textes

Méthodes descriptives

Page 11: Fouille de Texte (Text Mining)

11G. Gardarin

Domaines d’application (2)

Affectation de documents à des thèmes prédéfinis Traitement des e-mails (redirection, filtrage) Organisation des documents par catégories Classement des contacts au centre d’appel

Méthodes souvent supervisées

Page 12: Fouille de Texte (Text Mining)

12G. Gardarin

Domaines d’application (3)

Augmenter les performances des modèles prédictifs en combinant les données textuelles et les données

structurées Communiqués de l’entreprise + données de la bourse

prédire l’évlution de la valeur des actions Commentaires des patients + données médicales

prédire l’efficacité d’un médicament

Page 13: Fouille de Texte (Text Mining)

13G. Gardarin

Domaines d'application (4)

Recherche d’information (Information retrieval) Interrogation de textes par concepts, mots-clés, sujets, phrases visant à

obtenir des résultats triés par ordre de pertineance, à la Google Construction de résumé (Summarization)

Abstraction et condensation d’un texte pour élaborer une version réduite conservant au maximum la sémantique

Extraction d’information (Information extraction) Identification d’éléments sémantiques dans un texte (entitées, propiétés, relations, patterns …)

Catégorisation de texte (Text catégorisation) Processus consistant à déterminer des sujets dans un corpus et à classer les

documents du corpus selon ces sujets Interrogation en langage naturel (Question answering)

Interrogation de bases de données en langage naturel

Page 14: Fouille de Texte (Text Mining)

14G. Gardarin

Problèmes classiques

Moteur de recherche Web (e.g., Google) Annotation d'information Classification (supervisée) et clustering (non

supervisée) de documents Reconnaissance d'entités Reconnaissance de scénarios Extraction d'information Construction de résumés

Page 15: Fouille de Texte (Text Mining)

15G. Gardarin

Etat du sujet

On est capable de: Rechercher des documents pertinents sur un sujet avec

bonne précision mais faible rappel Identifier des entités avec une très bonne précision Identifier des relations entre entités avec une bonne

précision Résumer des documents en compressant à 20% tout en

gardant l’essentiel Classer des document dans des classes prédéfinies avec

précision et rappel supérieurs à 70%

Page 16: Fouille de Texte (Text Mining)

16G. Gardarin

Etapes de la fouille de textes

1. Sélection du corpus de documents Documents pré-classés Documents à classer

2. Extraction des termes Analyse grammaticale et/ou lemmatisation Filtrage des termes extraits

3. Transformation Passage à un espace vectoriel Réduction des dimensions

4. Classification Automatique supervisée ou non Élaboration de taxonomie (classement)

5. Visualisation des résultats 6. Interprétation des résultats

Page 17: Fouille de Texte (Text Mining)

17G. Gardarin

Architecture type: Classification

Sélection des termes

Termes uniques présents dans les documents

pré-traitement

Vecteur des documents

Calcul des similarités

k proches voisins

Calcul des scores des catégories

catégories affectées

Documentsd’apprentissage

Lexique

Représentation

Vecteurs des documents

document

Termes uniques

ApprentissageCatégorisation

Page 18: Fouille de Texte (Text Mining)

18G. Gardarin

Exemple: Classification Google16

clas

ses di

visée

s en

catég

ories

Page 19: Fouille de Texte (Text Mining)

19G. Gardarin

Text Mining versus Data Mining

Data Mining Text Mining

Objet numérique & catégorique textuel

Structure structuré non-structuré

Représentation simple complexe

Dimension milliers milliers

Maturité Implémentation vaste dès 1994

Implémentation vaste dès 2000

Page 20: Fouille de Texte (Text Mining)

20G. Gardarin

2. Problème: Classification de CRH

Comptes Rendus Hospitaliers Divisés en sections:

"MOTIF" "ANTECEDENTS" "HISTOIRE" "CLINIQUE" "EVOLUTION" "CONCLUSIONS" "LIBELLESACTES …

Page 21: Fouille de Texte (Text Mining)

21G. Gardarin

Exemple CRH

 MOTIF D'HOSPITALISATION : Décompensation respiratoire chez un patient insuffisant respiratoire chronique et

insuffisant cardiaque. ANTÉCÉDENTS MÉDICAUX ET CHIRURGICAUX : ·        Notion de diabète ·        Insuffisance respiratoire chronique obstructive post-tabagique depuis 1985 sous

oxygène à domicile ·        Tuberculose pulmonaire avec séquelles pleurales ·        Cardiopathie dilatée avec hypokinésie sévère (échographie cardiaque en juillet 2002

montrant une fraction d’éjection ventriculaire gauche à 35%) ·        Endoprothèse aortique sur anévrysme abdominal en juin 2002 ·        Appendicectomie Tabagisme sevré depuis 25 ans Traitement habituel : TRIATEC, KARDEGIC, LASILIX, VADILEX, DITROPAN,

SYMBICORT, FORLAX et O2 1,5/mn

Page 22: Fouille de Texte (Text Mining)

22G. Gardarin

Exemple CRH (suite)

HISTOIRE DE LA MALADIE ACTUELLE : Le 21/07/2003, le patient est adressé au Centre Hospitalier Spécialisé en Pneumologie de

Chevilly Larue par le SAMU pour asthénie, somnolence, altération de l’état général et selles noires depuis une semaine.

Le premier bilan montre une anémie aiguë à 4 g/dl compliquée d’une insuffisance rénale aiguë avec une créatinine à 386 micromol/l (créatinine habituelle 200 micromol/l).

Le KARDEGIC est alors arrêté, le patient est mis sous MOPRAL IV 40 mg/jour, il est transfusé de 3 CG et rempli par 200 ml de solutés cristalloïdes.

Le 24/07/2003, le patient est transféré à l’Hôpital Antoine Béclère pour une consultation d’anesthésie avant coloscopie sous anesthésie générale.

A l’arrivée à la consultation, le patient est très dyspnéique, il est alors transféré en réanimation médicale.

A l’arrivée, la pression artérielle est à 133/53 mmHg, la fréquence cardiaque à 109/mn, la fréquence respiratoire à 16/mn avec une saturation en oxygène à 100% sous 3 l/mn d’oxygène. Le patient n’est pas marbré, n’est pas cyanosé. L’abdomen est souple, indolore.

Page 23: Fouille de Texte (Text Mining)

23G. Gardarin

Exemple CRH (fin)

ÉVOLUTION DANS LE SERVICE : … AU TOTAL : Patient de 79 ans, aux antécédents d’insuffisance respiratoire chronique obstructive

post-tabagique et d’insuffisance cardiaque sévère, hospitalisé pour détresse respiratoire, insuffisance ventriculaire gauche et insuffisance rénale, survenant au décours d’un bilan pour anémie aiguë.

Insuffisance rénale oligoanurique nécessitant une hémodiafiltration. Insuffisance cardiaque sévère (FE estimée à 10%). Pneumopathie et septicémie nosocomiale à E. coli. Choc septique. Décès. TRANSFUSIONS : oui : 4 CG en Réanimation Chirurgicale. PRESENCE DE BMR : non

Page 24: Fouille de Texte (Text Mining)

24G. Gardarin

Les classes: La CIM

Classification hiérarchique à 3 niveaux

Page 25: Fouille de Texte (Text Mining)

25G. Gardarin

Résultats attendus

"LIBELLESCIM" et "CODESCIM" à déduire

Caractérisée par: Mots-clés Phrases clés Présence ou absence de symptômes Indicateurs techniques (température, tension, …)

Page 26: Fouille de Texte (Text Mining)

26G. Gardarin

3. Construction du Lexique

Elément clé dans la compréhension d'un domaine Aussi appelé dictionnaire, thésaurus, catalogue … Il existe des standards ISO Permet d'obtenir une forme canonique du document Peut contenir des entités nommées

Ex: Puy de Dôme, Mont Blanc Construction manuelle difficile Différent mais voisin du concept d'ontologie

Page 27: Fouille de Texte (Text Mining)

27G. Gardarin

Qu'est-ce-qu'un lexique ?

Définition du vocabulaire d'un domaine particulier Plus qu'une liste de mots simples ou composés Des informations linguistiques additionnelles

Morphologie (chant- e/es/ant/é → chante) Patterns syntaxique (transitivité, conjugaison) Conversions en formes normales (chiffres, dates, …)

Des informations sémantiques additionnelles Héritage (Is-a) Synonyme Mots préférés

Page 28: Fouille de Texte (Text Mining)

28G. Gardarin

Architecture: Construction du lexique

Analyse Morphologique

Documents Dictionnaires

Lexique

Analyse Linguistique

Mais pour des personnes très spontanées ...

Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ...

Etiqueteur de Brill(tagger)

Page 29: Fouille de Texte (Text Mining)

29G. Gardarin

Stop Words (de liaison)

Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants :a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant,

entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton.

Page 30: Fouille de Texte (Text Mining)

30G. Gardarin

Lemme et Stem

Lemmatisation ~ forme canonique book, books [book] mange, mangera, mangeaient, mangeant, [manger] Nécessite une grammaire Généralement entrée de référence en dictionnaire

Stemming ~ racine + dérivation [préfixe/suffixe] produire, production, productivité [produc] Calculer par un algorithme (Stemmer)

Page 31: Fouille de Texte (Text Mining)

31G. Gardarin

L’étiquetage (tagger)

Exemple d’étiquetage

Jeux de tags

Fruit flies like a banana

noun verb prep det noun

Fruit flies like a banana

noun noun verb det noun

Word Class Label

Brown Tag Word Class

Det at ArticleN nn NounV vb VerbAdj jj AdjectiveP in PrepositionCard cd Number– end Sentence-ending punctuation

adv Adverbe subc substantif commun detp Déterminant-pronom det Déterminant subp Substantif propre adjq Adjectif qualificatif infi Infinitif ppt Participe présent ppas Participe passé verb Verbe xet Auxiliaire être xav Auxiliaire avoir pnt Point

Page 32: Fouille de Texte (Text Mining)

32G. Gardarin

Analyse morphologique

Lemme Forme CAT. Variables bonjour bonjour subc sin mas monsieur madame subc sin fem la la detp sin fem tre cod marquis marquise subc sin fem. . pnt voulez-vous voulez-vous cls danser danser infi ? ? pnt

Voir http://www-clips.imag.fr/cgi-bin/pilaf/morpho.py

Page 33: Fouille de Texte (Text Mining)

33G. Gardarin

Synonymie et Polysémie

Synonyme Même concept qualifié par différents terms

Ex: bandit, brigand, voleur Dégrade le rappel

Polysémie Termes identiques utilisés dans des contextes sémantiques différents

Ex: base De données Immeuble Vectorielle

Dégrade la précision

Page 34: Fouille de Texte (Text Mining)

34G. Gardarin

Extraction d’information: Les étapes [Roche 2004]

- - - - -

- - - - -

- - - - -

Corpus brut

- - - - -

- - - - -

- - - - -

Corpus nettoyé

- - - - -

- - - - -

- - - - -

Corpus étiqueté

- - - - -

- - - - -

- - - - -

Corpus composé de

Termes

Nettoyeur Etiqueteur

Grammatical

Extraction des termes

Détection des concepts

Extraction d’informations

Page 35: Fouille de Texte (Text Mining)

35G. Gardarin

4. Vectorisation d'un texte

Présence de mots ou de phrases clés Pondération positive

Négation de mots ou de phrases clés Pondération négative (rarement pris en compte)

Indicateurs techniques Valuation par plage [x0,x1] Difficile à mixer à la fouille de texte

Page 36: Fouille de Texte (Text Mining)

36G. Gardarin

Vectorisation des documents

Basé sur le lexique Présence (+) ou

absence (-)

docs

Lexique

VecteurRéductionVecteur

Réduit

Page 37: Fouille de Texte (Text Mining)

37G. Gardarin

L’espace des vecteurs

Chaque document est vu comme une séquence de mots

Le nombre de mots du lexique présents dans les documents du corpus détermine la dimension de l’espace

Page 38: Fouille de Texte (Text Mining)

38G. Gardarin

Représentation des documents

Représentation des documents

Vecteurs de document Matrice Terme/Document ou

Document/terme Nécessité de pondérer

Pondération (importance relative)

Nécessité de réduire l’espace

Réduction de dimension

w11 w12  w1d

w21 w22  w2d

wt1 wt2  wtd

t1

t2

tt

d1 d2 dd

Freq =

Page 39: Fouille de Texte (Text Mining)

39G. Gardarin

Term frequency (TF)

Un terme qui apparait plusieurs fois dans un document est plus important qu’un terme qui apparaît une seule fois

wij = Nombre d’occurrences du terme ti dans le document dj

TFij = Fréquence du terme ti dans le document dj

j

ij

dw

TFij

Page 40: Fouille de Texte (Text Mining)

40G. Gardarin

Inverse document frequency (IDF)

Un terme qui apparaît dans peu de documents est un meilleur discriminant qu’un terme qui apparaît dans tous les documents dfi = nombre de documents contenant le terme ti d = nombre de documents du corpus

Inverse document frequency

ii

dfdIDF log

Page 41: Fouille de Texte (Text Mining)

41G. Gardarin

Pondération TF-IDF

TF-IDF signifie Term Frequency x Inverse Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un

terme dans un document relativement à l’ensemble des documents.

tf i,j = fréquence du terme i dans le document jdf i = nombre de documents contenant le terme i N = d = nombre de documents du corpus

Page 42: Fouille de Texte (Text Mining)

42G. Gardarin

Similarité entre documents

Permet de ranger les documents par pertinence

Le cosinus de l’angle est souvent utilisé

2d1d2dT1d2d1d

),cos( d1

d2

d3

• > cos()<cos()

• d2 est plus proche de d1 que de d3

Page 43: Fouille de Texte (Text Mining)

43G. Gardarin

Réduction de dimension

Seuillage de fréquence Document Frequency Thresholding

Test du Ki-2 Détermine les termes les plus caractéristiques de

chaque catégorie LSI

Latent Semantic Indexing Réduction par changement de base

Page 44: Fouille de Texte (Text Mining)

44G. Gardarin

Seuillage de fréquence

Feature Terms

Terms

Calculates DocFreq(w)

Sets threshold

Removes all words:DocFreq <

Training documents D

Page 45: Fouille de Texte (Text Mining)

45G. Gardarin

Estimation d’indépendence entre termes et catégories

FEATURE TERMS

A:=|{d| d cj w d}|B:=|{d| d cj w d}|C:=|{d| d cj w d}|D:=|{d| d cj w d}|N:=|{d| d D}|

Sets threshold

Removes all words: X2max(w)<

TermsCategory setC={c1,c2,..cm}

DCBADBCA

CBADNcw j

2

2 ,X

jj

cwXwX ,22max max

Term categorical score

Ref:[11][20][21][27]

Test du Ki-2

Page 46: Fouille de Texte (Text Mining)

46G. Gardarin

Latent Semantic Indexing (LSI)

Une technique de l’algèbre linéaire Décomposition en valeurs propres (SVD)

Essaie d’estimer les relations cachés Découvre les patterns d’association entre mots et

concepts conceptes Permet de réduire l’espace à K dimensions

Ex: de 10**6 à 100 ou 200

Page 47: Fouille de Texte (Text Mining)

47G. Gardarin

Principe de LSI (1)

m<=min(t,d)

T: t m matrice orthogonale TT*T=ID: m N matrice orthogonale DT*D=IS: S matrice diagonale singulière non croissante

= ****

*SF T Dterms

documents

(t,d) (t,m) (m,m) (m,d)

Page 48: Fouille de Texte (Text Mining)

48G. Gardarin

Principes de LSI (2)

Soit X une matrice terme-document F = [d1 . . . dd]

Latent Semantic Indexing Calcule les valeurs propres SVD de F:

Matrice singulière S non croissante Met à 0 toutes les valeurs sauf les K plus grandes Obtient appr(F) par : appr(F) = Tappr(S) D

Page 49: Fouille de Texte (Text Mining)

49G. Gardarin

L'indexation en résumé

Les étapes Eliminer les mots de liaison (stop words) Remplacer chaque mot par sa racine+ (stems) Pondérer les termes (ex: TFIDF) Sélectionner les meilleurs termes Détecter des patterns (terme composé, groupe…) Convertir les documents en vecteurs

Page 50: Fouille de Texte (Text Mining)

50G. Gardarin

5. Classification de documents

Trois algorithmes de classification supervisée souvent considérés KNN (K Nearest Neighbor)

Un document est classé dans la catégorie dominante parmi ses k plus proches voisins

Centroid Sélection de la catégorie de plus proche centroïde

Naïve Bayes Sélectionner la catégorie la plus probable

Page 51: Fouille de Texte (Text Mining)

51G. Gardarin

Principe

Classificateur

doc classésVectorisés

doc Non classé Vectorisation

doc classé

Page 52: Fouille de Texte (Text Mining)

52G. Gardarin

Classificateur Centroïde

Calculer le centroïde pour chaque catégorie en utilisant les exemples (training documents)

Moyenner les vecteurs document pour chaque catégorie

Le vecteur centroïde est utilisé comme modèle de la catégorie

Sélectionner les catégories Celles de plus haut score Avec un score plus grand qu'un

seuil

Page 53: Fouille de Texte (Text Mining)

53G. Gardarin

Classificateur KNN

Calcul de similarité Entre le nouveau doc. et les exemples pré-classés Similarité(d1,d2) = cos(d1,d2) Trouve les k exemples les plus proches

Recherche des catégories candidates Vote majoritaire des k exemples Somme des similarités > seuil

Sélection d'une ou plusieurs catégories Plus grand nombre de votes Score supérieur à un seuil

Page 54: Fouille de Texte (Text Mining)

54G. Gardarin

Naïve Bayes

Modèle probabiliste Basé sur l'observation de la présence des termes Etant donné un document d, on calcule :

probabilité(cat Ci/doc d) = P(Ci) j P(tj/Ci) où tj est le terme j Suppose l'indépendance entre les termes

La catégorie de plus grande probabilité est sélectionnée On peut utiliser un seuil pour en sélectionner plusieurs

Page 55: Fouille de Texte (Text Mining)

55G. Gardarin

Autres classificateurs

SVM déterminer un hyperplan qui sépare au mieux les données

et dont la séparation (ou marge : distance séparant la frontière du plus proche exemple) est aussi grande que possible

Arbres de décisions Construire le meilleur arbre qui classe les données en

fonctions de prédicats sur attributs successifs Règles associatives

Trouver les produits (ici les mots) souvent employés ensemble pour caractériser une catégorie

Page 56: Fouille de Texte (Text Mining)

56G. Gardarin

Évaluation des résultats

Mesures basés sur la table de contingences :

Rappel : mesure la largeur de la catégorisation ratio des documents bien classés par rapport à l’ensemble des documents

appartenant réellement à la catégorie. r=a/(a+c) Précision : mesure la qualité de la catégorisation

fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b); bruit = 1-precision

F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p)

pré-étiqueté C1 pré-étiqueté C2Affecté à C1 a b a+b

Affecté à C2 c d c+d

a+c b+d a+b+c+d

Page 57: Fouille de Texte (Text Mining)

57G. Gardarin

Précision et rappel: Exemple

D’après [email protected]

Page 58: Fouille de Texte (Text Mining)

58G. Gardarin

6. Retour à l’exemple des CRH

Corpus:= Documents d'apprentissage (CRH+CIM) + Documents de tests (CRH)

Détermination des meilleurs mots

Determination FiltragePondération

Page 59: Fouille de Texte (Text Mining)

59G. Gardarin

Rappel des objectifs

Aider le praticien à renseigner la rubrique code CIM pour un compte rendu hospitalier (CRH)

Prédire les codes CIM d’un CRH

Apprentissage automatique Phase préparation :

Construction d’un lexique Data mining textuel

Construction de modèle (apprentissage) Exploitation du modèle (classification)

Page 60: Fouille de Texte (Text Mining)

60G. Gardarin

Processus de classification: Apprentissageensemble de documents d’exemple pré-affectés

pré-traiement & sélection des termes

représentation des documents

estimation des paramètres du classifieur

Classifieur

Page 61: Fouille de Texte (Text Mining)

61G. Gardarin

Processus de classification: Classement

Utiliser leclassifieurscore(Ci, d)

affecter d à Ci

nouveau document d

document d avec la ou

les catégories affectées

représenter d

Page 62: Fouille de Texte (Text Mining)

62G. Gardarin

Application aux CRH

Catégorisation Proposition d’une liste de codes CIM dans

l’ordre des scores. Le praticien décide lesquels affecter au CRH.

CRH Moteur de catégorisation

Z489K720C182E834

R042Ontologiedes cas

Page 63: Fouille de Texte (Text Mining)

63G. Gardarin

Spécificités

Catégories nombreuses théoriquement ~30000 (en pratique ~2000). Les corpus d’apprentissage connus ont au maximum

~200 catégories Catégories non exclusives

De 1 à 36 CIM par CRH (moyenne 5). L’algo. doit proposer des dizaines La plupart des travaux considère 1 ou 2 catégories.

Catégories hiérarchiques Ontologie des maladies connue (Arbre CIM-10)

Page 64: Fouille de Texte (Text Mining)

64G. Gardarin

Nombre de catégories par document

Catégories par Document

0

1000

2000

3000

4000

5000

6000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 30 32

Nombre de catégories

Num

ber o

f doc

umen

ts

Page 65: Fouille de Texte (Text Mining)

65G. Gardarin

Phase de préparation

Construction du lexique On utilise un dictionnaire médical intégré

(Dicomed)Les concepts = les termes médicaux

On retient la liste des concepts associés à chaque CRH

Vectorisation Basée sur TF-IDF

Page 66: Fouille de Texte (Text Mining)

66G. Gardarin

Méthode proposée – Régression matricielle (1)

Basée sur la régression C = V * W + B B le biais est pris = 0 W est la matrice de transition des termes (V) aux

catégories (C) C donne une probabilité pour chaque catégorie

Page 67: Fouille de Texte (Text Mining)

67G. Gardarin

Régression matricielle (2)

A l’image de la régression linéaire, on cherche les paramètres d’une fonction liant les termes ti aux catégories cj à prédire.

Construit une matrice de poids (termes/CIMs)

Où:

Wij =dk in cj(tf-idfi,k)

Structure de W

CIMs

TCTT

C

C

www

wwwwww

W

..............................................................

21

22221

11211

Termes

Page 68: Fouille de Texte (Text Mining)

68G. Gardarin

Algorithme d'apprentissage

Entrée : collection d’apprentissage : D ={d1,.dn} ; Obtenir l’ensemble des termes de la collection

d’apprentissage : T ={t1, …tm} Obtenir l’ensemble des codes CIM de la collection

d’apprentissage : C={c1, …ck} Attacher la matrice W à ces deux ensembles

Initialiser la matrice à zèro Pour chaque document de la collection d’apprentissage

Pour chaque terme i du document courant Pour chaque code CIM j du document courant

wij += TF-IDF ;

Page 69: Fouille de Texte (Text Mining)

69G. Gardarin

Classement d'un document

En phase de classement : On fait le produit du vecteur du document et de la matrice

W pour obtenir un score par catégorie On retient les scores au-delà d’un seuil donné par

l’utilisateur Mesure de la qualité :

Le seuil permet de jouer sur le rappel et la précision. On choisit généralement un compromis entre rappel et

précision en maximisant la F-mesure.

Page 70: Fouille de Texte (Text Mining)

70G. Gardarin

Résultats comparatifs

MR est meilleure que centroide, k-NN et SVM

MR, k-NN, SVM and Centroid

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,840,750,680,620,570,520,470,430,380,330,290,260,240,210,190,170,150,140,12

Recall

Prec

isio

n MRk-NNSVMCentroid

r=0.431p=0.359

r=0.213p=0.258 r=0.330

p=0.240

r=0.237p=0.349

r=0.330p=0.298