r · r.temis un logiciel libre pour l’analyse textuelle fondé sur r gilles bastin & milan...

36
R.TeMiS Un logiciel libre pour l’analyse textuelle fondé sur R Gilles Bastin & Milan Bouchet-Valat Congrès AFS — RT 20 — Nantes 2013

Upload: truongkhuong

Post on 16-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

R.TeMiSUn logiciel libre pour l’analyse textuelle fondé sur R

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Plan de l’exposé• Introduction

• I. Trois raisons de préférer le logiciel libre en statistique lexicale

• II. Importer, coder et gérer des corpus de textes dans R.Temis

• III. Visualiser les relations entre variables du corpus

• IV. Statistiques élémentaires avec R.TeMiS

• V. Classification hiérarchique et analyse factorielle avec R.TeMiS

• Conclusion : une illustration de la richesse de l’environnement R avec la visualisation géographique des données textuelles

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Introduction

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Le sociologue (resp. politiste, anthropologue, historien...) souhaitant pratiquer l’analyse statistique de données textuelles est confronté à un troublant phénomène de double contrainte :

• du côté des données, la numérisation a conduit à un véritable « déluge » de textes disponibles à portée du clic de la souris (Hey & Trefethen, 2003), notamment dans le domaine des médias (bases de données structurées comme Lexis-Nexis ou Factiva…)

• du côté des méthodes, l’analyse de contenu traditionnelle est de plus en plus remplacée par la statistique lexicale (text mining) mais l’offre logicielle a tout du « maquis » (Demazière & Brossaud, 2006), ce qui rend nécessaire un patient travail de défrichage et de choix préalable à toute analyse (Brugidou, et al., 2000; Jenny, 1996; 1997; Klein, 2001; Weitzman & Miles, 1995).

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

IntroductionLes logiciels disponibles sont fortement ancrés dans les contextes théoriques dans lesquels ils ont été élaborés et fonctionnent souvent en vase clos du point de vue des routines statistiques ou des modalités de codage des corpus. Ce phénomène fait courir à l’utilisateur un double risque :

• celui de l’enfermement dans un environnement statistique déterminé (les coûts de constitution et de codage du corpus, comme ceux d’apprentissage du logiciel dissuadant la migration vers un autre environnement) ;

• celui d’une surestimation des capacités de cet environnement d’un point de vue épistémologique (l’indexation des opérations statistiques sur une doctrine théorique, une théorie de la langue, etc. pouvant faire croire à l’utilisateur qu’il ne fait qu’appliquer une méthode qu’il n’aurait pas à interroger) ;

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

IntroductionQu’est-ce que R.TeMiS ?• R.TeMiS [R Text Mining Solution] est un

environnement graphique de travail sous R permettant de créer, manipuler et analyser des corpus de textes.

• Il a été développé afin de minimiser les deux risques évoqués plus haut et de promouvoir une approche ouverte et réflexive des corpus de données textuelles.

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Un environnement ouvert

• Dans R.TeMiS l’utilisateur peut appliquer sur le même corpus des opérations caractéristiques de la statistique lexicale (mesure d’occurrence et de cooccurrence de termes) et de l’analyse de données textuelles (classification hiérarchique ascendante et analyse factorielle des correspondances) ;

• Il peut le faire sans avoir à recoder ses données ;

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Un environnement réflexif

Afin de limiter les effets de « boîte noire » et favoriser la réflexivité dans l’usage sociologique du logiciel (Demazière & Brossaud, 2006), R.TeMiS étend le champ d’intervention de l’utilisateur au-delà de l’analyse des termes qui caractérise les deux approches citées plus haut :

• Des fonctionnalités d’importation de corpus permettent de travailler différents formats de textes et de les structurer plus ou moins automatiquement, sans séparer cette phase de l’analyse (« text mining ») ;

• Des fonctionnalités d’analyse du corpus permettent de travailler à l’échelle du document et des variables contextuelles qui le caractérisent (date, source, auteur...) ;

• Enfin, l’utilisateur est placé au coeur de la réflexion. Grâce à l’utilisation de l’environnement statistique R les traitements disponibles et applicables au corpus sont très nombreux et ne s’arrêtent qu’aux limites de son imagination sociologique (Demazière, 2005) ;

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

RL’environnement statistique R, dans lequel est développé R.TeMiS, présente des qualités reconnues :

• sa robustesse (les procédures statistiques ont été éprouvées par des communautés d’utilisateurs avertis) ;

• la transparence de son code (l’utilisateur pouvant intervenir à chaque étape de l’analyse en modifiant celui-ci) ;

• sa gratuité (un argument important notamment parce qu’à la différence de certains logiciels propriétaires, les possibilités de traitement — en termes de taille pour un corpus textuel — ne sont pas limitées par la licence acquise) ;

• son caractère multi-plateforme (R fonctionne aussi bien sous Mac que Windows et Linux) ;

• enfin sa nature collaborative qui permet d’envisager un développement communautaire du logiciel et son adaptation à des usages initialement non prévus ;

• Afin de faciliter l’usage de R.TeMiS aux néo-utilisateurs de R, le développement d’un environnement graphique a été privilégié. Celui-ci se présente donc comme un menu de l’application R Commander (Fox, 2005) ;

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Quelques précisions

• L’architecture statistique de l’environnement R.TeMiS est fournie par le paquet tm développée par Ingo Feinerer (Feinerer, 2008; 2011; Feinerer, Hornik & Meyer, 2008).

• Celui-ci a été complété par d’autres paquets classiques de R comme ca pour la représentation des analyses factorielles des correspondances (Nenadic & Greenacre, 2007).

• Enfin des paquets spécifiques ont été développés pour faciliter l’usage de R.TeMiS dans le domaine des études sur les médias, par exemple pour la gestion des corpus constitués depuis la base de données d’articles de presse Factiva.

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Artemis, sœur d’Apollon, était vénérée dans l’Antiquité pour sa dextérité dans la chasse. Elle parcourait la nuit les forêts, les collines et tous les espaces laissés en friche par les simples mortels.

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Une étude de cas : le framing mediatique de Julian Assange• Un corpus de 667 dépêches des trois principales agences de

presse internationales (AP, Reuters, AFP) contenant le mot “Assange” dans le titre ou le premier paragraphe, publiées en anglais entre janvier 2010 et décembre 2011.

• La base de données Factiva a été utilisée comme source.

• Une hypothèse : la compétition de plusieurs « cadres » médiatiques pendant cette période concernant Assange (whistleblower vs délinquant sexuel)

• Un défi : du fait des conditions de leur production et de leur diffusion, les dépêches d’agence sont extrêmement routinisées dans leur forme. Leur analyse lexicale suppose donc des méthodes assez fines.

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

I

• Les trois avantages du logiciel libre en matière de statistique lexicale:

• Gratuité

• Robustesse

• Fonctionnement en paquets de code réutilisables

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

II• les avantages d’une constitution automatique de

corpus :

• gain de temps

• meilleur contrôle par le chercheur

• limitation des erreurs de codage

• traçabilité des opérations menées sur le corpus

• limitation des effets d’enfermements liés à la manipulation manuelle des corpus

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

II

• Quatre types de corpus peuvent être importés dans R.TeMiS :

• des fichiers de texte brut (au format .txt) ;

• des fichiers tabulés tirés d’enquêtes par questionnaire (au format .csv, .xls ou .ods, où les lignes correspondent à des individus et les colonnes à des variables descriptives et une variable texte) ;

• des fichiers en .html ou .xml structurés par la base d’articles de presse Factiva ;

• des résultats de recherche sur twitter

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

II

• Lors de l'importation d’un corpus l'utilisateur peut décider de découper celui-ci en unités plus petites. L’unité choisie est le paragraphe. Si cette option est choisie chaque paragraphe sera considéré comme un document, ce qui peut permettre d’améliorer la qualité de l’analyse de données, notamment dans la perspective d’une classification ascendante hiérarchique ;

• Le choix d’une segmentation en paragraphes vise à prendre en compte les formats d’écriture médiatique de façon moins arbitraire qu’avec un découpage en segments de longueur uniforme (Jenny, 1999). Par défaut les fichiers tabulés sont découpés en autant de documents qu’ils comportent de lignes ;

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

II

• Lors de l'importation l'utilisateur définit le niveau de traitement lexical du corpus :

• passage des termes en minuscule ;

• suppression de la ponctuation ;

• suppression des nombres ;

• suppression des mots vides (stopwords) ;

• lemmatisation (celle-ci est réalisée par le paquet Snowball qui utilise l’algorithme de Porter) ;

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

III

• Plusieurs façons de visualiser les relations entre variables

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Fig. 3 — Distribution of documents by Origin

Number of documents

Agence France Presse

Associated Press Newswires

Reuters News

0 100 200 300 400

The Coverage of Julian Assange in Newswires (July 2010-November 2011)

Nom

bre

de d

ocum

ents

par

jour

05

1015

20

oct jan avr jul oct jan

Reuters NewsAssociated Press NewswiresAgence France Presse

The Coverage of Julian Assange in Newswires (July 2010-November 2011)

Nom

bre

de d

ocum

ents

par

jour

02

46

oct jan avr jul oct

Reuters NewsAssociated Press NewswiresAgence France Presse

Agence France Presse

Associated Press Newswires Reuters News

2010-07 1.03 2.40 0.652010-08 4.91 8.00 3.232010-09 1.81 1.60 0.002010-10 3.36 2.40 0.002010-11 6.98 8.80 3.872010-12 45.48 30.40 50.972011-01 5.17 5.60 3.232011-02 8.79 12.00 13.552011-03 2.58 2.40 2.582011-04 0.78 2.40 1.292011-05 1.29 0.00 1.292011-06 1.29 3.20 1.292011-07 2.58 3.20 3.872011-08 0.00 0.80 1.942011-09 2.07 4.00 1.942011-10 2.84 4.80 0.652011-11 4.65 3.20 3.872011-12 4.39 4.80 5.81Sum 100.00 100.00 100.00

IV

• L’identification de cadres médiatiques à l’aide de statistiques élémentaires

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Fig. 6 — Frequencies of terms used to describe the facts%

de

tous

les

term

es0.0

0.2

0.4

0.6

assault

rape

molest

offens

misconduct

crime

Agence France PresseAssociated Press NewswiresReuters News

V

• Une approche inductive utilisant l’analyse de correspondances

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Conclusion

• Une illustration de la puissance de l’environnement R : la visualisation géographique du corpus Assange

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Un peu de codegetPercents <- function(terms) colSums(rbind(termFrequencies(dtm, terms, meta(corpus, "Origin")[[1]])[, 1,]))

countries <- list(SE=c("sweden", "swedish", "stockholm"), UK=c("britain", "british", "london", "england", "english", "uk"), AF=c("afghanistan", "afghan"), IQ=c("iraq", "iraqi", "baghdad"), AU= c("australia", "australian"), US=c("america", "american", "washington", "york", "usa"), IC=c("iceland"), RU=c("russia", "russian"), CH=c("switzerland", "swiss"), DE=c("germani", "german", "berlin"), FR=c("franc", "french"), IR=c("iran"), PK=c("pakistan"), EC=c("ecuador"), ES=c("spain"))

freqs <- t(sapply(countries, getPercents))

freqs

Agence France Presse

Associated Press

Newswires Reuters News

SE 1.6801 2.1796 1.7514

GB 1.4403 1.3084 1.6043

AF 0.3193 0.3443 0.2149

IQ 0.2735 0.2135 0.2237

AU 0.7087 0.4511 0.4474

US 0.4621 0.5647 0.5505

IS 0.0593 0.0448 0.0353

RU 0.0808 0.0482 0.0736

CH 0.1415 0.1412 0.1531

DE 0.0714 0.1653 0.1030

FR 0.0768 0.0413 0.0353

IR 0.0162 0.0207 0.0589

PK 0.0310 0.0069 0.0088

EC 0.0216 0.0034 0.0206

ES 0.0202 0.0103 0.0059

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Un peu plus...# Creation of a data frame containing all country frequencies

# (countries being designated with the two-letter ISO 3166 code that is used in the country centroids file)

freqs <- as.data.frame(freqs)

# Simplification of agency names

names(freqs)[1] <- "AFP"

names(freqs)[2] <- "AP"

names(freqs)[3] <- "Reuters"

# Importation of the country centroids file (previously downloaded on the hard disk)

centroids <- read.delim(file="country_centroids_primary.csv", header=TRUE)

dat <- merge(freqs, centroids, by.x="row.names", by.y="ISO3136")

# Drawing of the three maps

library(maps)

map(database="world", col="grey")

title("Agence France Presse")

points(dat$LONG, dat$LAT, pch=21, cex=10*sqrt(dat$AFP), bg="#00000040")

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013

Sources et références

• http://rtemis.hypotheses.org/

• Bouchet-Valat & Bastin, « RcmdrPlugin.temis, a Graphical Integrated Text Mining Solution in R », The R Journal, 5 (1), 2013, p. 188-196.

• Bastin & Bouchet-Valat, « Media Corpora, Text Mining and the Sociological Imagination. A Free Software Text Mining Approach to the Framing of Julian Assange in Three News Agencies Using R.TeMiS », submitted to the BMS in August 2013.

Gilles Bastin & Milan Bouchet-ValatQuanti-Lille 2012

Gilles Bastin & Milan Bouchet-ValatCongrès AFS — RT 20 — Nantes 2013