satim : système danalyse et de traitement de linformation multidimensionnelle ismaïl biskri (*)...

20
SATIM : Système d’Analyse et de Traitement de l’Information Multidimensionnelle Ismaïl Biskri (*) (**) , Jean-Guy Meunier (**) * Université du Québec à Trois Rivières Département de Mathématiques et d ’Informatique ** Université du Québec À Montréal Laboratoire d’Analyse Cognitive de l’Information [email protected] [email protected]

Upload: laurent-puech

Post on 04-Apr-2015

105 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

SATIM : Système d’Analyse et de Traitement de l’Information Multidimensionnelle

Ismaïl Biskri (*) (**), Jean-Guy Meunier (**)

* Université du Québec à Trois RivièresDépartement de Mathématiques et d ’Informatique

** Université du Québec À MontréalLaboratoire d’Analyse Cognitive de l’Information

[email protected]@uqam.ca

Page 2: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

Analyse multidimensionnelle textuelle standard (introduction)

Premières opérations :– partition du texte en segments (domaines de

l’information) ; – extraction du lexique (unités d’information, par

exemple : les mots, les n-grams) ;– représentation vectorielle (matricielle) du texte.– Classification

Page 3: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

Analyse Multidimensionnelle (questions1)

Est-il possible d’élargir cette méthodologie à d’autres formes d’encodage de l’information textuelle (html, xml, word, etc.)?

Que faire si les objectifs du traitement divergent ?

Que faire avec les « tags » typographiques ?

Pouvons nous généraliser l’approche à d’autres types de données (image, son, graphe, etc.) ?

Quelles sont les unités d’informations ?

Page 4: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

Analyse numérique (Réponses1)

Les unités d’information doivent être des portions du document en input ;

Il doit être facile sur le plan informatique de repérer les unités d’information ;

Les unités d’information doivent être statistiquement comparables. Il doit être aisé d’en calculer les fréquences d’apparition dans les différentes parties du document et par conséquent d’estimer leur distribution et la régularité à laquelle plusieurs unités cooccurrent dans les mêmes parties du document.

Page 5: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

SATIM : un Système d’Analyse et de Traitement de l’Information Multidimensionnelle

Une plate-forme pour l’analyse de l’information multidimensionnelle– adaptable, – flexible, – modulaire – permet la création rapide d'une multitude de

chaînes de traitement– peut être augmentée par de nouveaux modules

Page 6: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

SATIM : un Système d’Analyse et de Traitement de l’Information Multidimensionnelle

Projection de la représentation vectorielle par rapport à un type d'unités d'informationReprésentation matricielle

Document en input

Représentation vectorielle à n dimensionsExtraction des unités d’information (plusieurs types d'unités d'information)segmentation

Réduction de la taille de la matrice

Réseau de neurones (classification)

Classe 1Classe 2 Classe n

Paramétrage de SATIM

Page 7: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

SATIM : Paramétrage

Sélection de la base de données qui va recevoir les résultats ;

Sélection des interfaces ;

Sélection des modules de SATIM en fonction du type de l’input;

Construction d’une chaîne de traitement en fonction des objectifs

Page 8: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

Analyse multidimensionnelle textuelle standard (questions2)

Quelle est la définition d’une unité d’information ?

Quelle est la définition informatique du mot ?– lebensversicherungsgesellschaftsangestellter

(employé d’une compagnie d’assurance vie)

– kathabthouhou (je l’ai écrit)

Le n-Gram est il une solution ?

Page 9: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

Analyse numérique textuelle standard (réponses2)

La définition d’une unité d’information dépend – de l’objectif de lecture et de compréhension; – de l’usage dont sera fait le résultat ;

Idem pour le choix du type de segmentation;

Page 10: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO – eGRAMEXCO (Deux chaînes de traitement)

Texte Ascii

Représentation matricielleExtraction des n-gramssegmentation

Réduction de la taille de la matrice

Suppression des n-grams contenant des espacesSuppression des n-grams en dessous et au dessus d’un certain seuil

Réseau de neurones (classification)

Classe 1

Classe 2Classe n

Page 11: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (les résultats)

Page 12: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (Evaluation 1)

Corpus (extraits de documents web) de 50 pages. Format ASCII.

Paramètres : – taille du segment = 10 phrases ;

– Quadri-grams ;

– Lettres majuscules identiques aux lettres minuscules ;

– caractères non alphabétique remplacés par des espaces ;

– Suppression des n-grams contenant un ou plusieurs espaces ;

– suppression des n-grams dont la fréquence est 1.

Résultats : 174 segments, 4 857 quadri-grams, 100 classes.

Page 13: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (Evaluation 1 - suite 1)

classe 100 : – segments 137 et 157.

– lexique interprétable : {bourse, francs, marchés, millions, mobile, pdg, prix}.

– le mot francs désigne la monnaie française et non la franchise ou les fameuses tribus "les francs".

– thème commun : le domaine financier.

classe 54 :– segments 141 et 143.

– lexiques interprétable : {appel, cour, décidé, juge}.

– le mot cour désigne la cour de justice et non la cour qu'on fait à une demoiselle, la cour de récréation, ou les toilettes des Belges.

– thème commun : affaires judiciaires.

Page 14: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (Evaluation 1- suite 2)

classe 13 :– segments 32, 35, 41 et 48 ;

– Lexique selon l’intersection : {russe} ;

– lexique selon l’union : {conservateur, socialisme, marxiste, conservateur, révolutionnaire, Dostoievski, doctrine, impérial, slavophile} ;

– thème commun : les slavophiles et la culture politique russe du 19ième siècle.

Page 15: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (Evaluation 2)

Corpus de deux pages extraits d’un texte sur les biotechnologies (format ASCII).

Paramètres : – taille du segment = 1 mot ;

– Quadri-grams ;

– Lettres majuscules identiques aux lettres minuscules ;

– caractères non alphabétique remplacés par des espaces ;

– Suppression des n-grams contenant un ou plusieurs espaces ;

– suppression des n-grams dont la fréquence est 1.

Page 16: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (Evaluation 2 - suite)

Classe 101 : {survécu, survie} Classe 102 : {utilisée, outil} Classe 110 : {congelé, décongelé, congelés, congélateur} Classe 112 : {simple, simplifier, simplifiée} Classe 48 : {optimisées, optimum} Classe 60 : {cellules, cellulaire} Classe 65 : {collecte, collectifs} Classe 7 : {transfert, transférables, transférés, pénétrant,

transferts, retransfert} Classe 81 : {glycol, glycérol} Classe 88 : {déshydratées, déshydratation}

Page 17: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (Evaluation 3)

Comparaison (découpage en mots vs quadri-grams). Corpus de 50 pages. Paramètres :

– taille du segment = 10 phrases ;

– lemmatisation des mots ;

– suppression des hapax ;

– suppression des n-grams dont la fréquence est 1.

Résultats : 174 segments, 4 857 quadri-grams, 1757 mots. Conclusions : l ’analyse en n-grams de caractères diminue

la taille du lexique pour des corpus de plus de 200 pages

Page 18: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO : (Evaluation 4)

classe 16 : segments 33 et 34. Le lexique (intersection): {station, shuttle, space, russian, nasa,

launch, dock }. space désigne l'espace dans son sens cosmique et non un

intervalle. shuttle désigne une navette spatiale et non le mouvement alternatif

(shuttle movement). thème commun : la conquête spatiale.

classe 2 : segments 2, 4 et 5. Le lexique : {court, investigation, israeli, sharon}. Court désigne une cour de justice et non ruelle, ou le verbe

courtiser.

Page 19: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO (Evaluation 4)

La classe 24 : segments 53, 54 et 55. Le lexique : {hospitals, patient, Hollebeek, project,

computing, data, cancer, breast, built, grid}. patient désigne un malade, et n ’introduit pas notion de

patience ou d'endurance. Le thème : un projet médical en rapport avec le cancer du

sein.

La classe 44 : segments 98, 99, 100, 101, 102. Le lexique : {central, carat, diamonds, model, platinum,

plain, weighing, head, hoop}. Pour un américain diamonds correspondra à une pierre

précieuse et non à un terrain de base-ball

Page 20: SATIM : Système dAnalyse et de Traitement de lInformation Multidimensionnelle Ismaïl Biskri (*) (**), Jean-Guy Meunier (**) * Université du Québec à Trois

GRAMEXCO : (Evaluation 5)

Classe 85 : {peace, peacekeepers, peecekeeping} Classe 97 : {accused, accusations} Classe 107 : {inquiries, required, inquiry} Classe 130 : {minor, minorities, minority} Classe 133 : {civilians, civilized} Classe 110 : {allegations, alleged} Classe 231 : {city, citizen} Classe 52 : {Belgium, belgian, belgians} Classe 14 : {thursdays, wednesday, tuesday} Classe 212 : {imprisonment, prison, prisoners, prisons} Classe 60 : {prosecute, prosecuted, prosecutor,

security}