analyse automatique d'entretiens
DESCRIPTION
TRANSCRIPT
1
L’analyse automatique de contenu automatisée appliquée aux entretiens
Avril 2010
Essai de Méthodes Quantitatives, réalisé par Frédéric Garcias, Vincent Réveillère et
Abdelouahab Yagoubi (Master GDO)
L’analyse de contenu peut potentiellement intéresser toutes les sciences sociales.
Historiquement, elle a été appliquée aux grandes œuvres littéraires (par exemple travaux de
Muller), puis aux discours politique (avec notamment le laboratoire « lexicométrie et textes
politiques » créé par Wagner à l’ENS Saint Cloud en 1967).
Elle peut se définir comme « un ensemble de techniques d’analyse des communications
visant, par des procédures systématiques et objectives de description du contenu des
messages, à obtenir des indicateurs (quantitatifs ou non) permettant l’inférence de
connaissances relatives aux conditions de production/réception (variables inférées) de ces
messages. »1. Elle répond à la volonté de dépasser une approche intuitive du texte, « Content
analysis should begin where traditional modes of research end. » (Lasswell, Lerner et Pool)2.
Le but est d’arriver à une certaine objectivité, d’aller plus loin qu’une simple interprétation
subjective du texte. Le chercheur veut se « faire méfiant », adopter une attitude de « vigilance
critique » selon Laurence Bardin. « Dire non à la « simple lecture du réel », toujours
réductrice, c’est forger des concepts opératoires, accepter le provisoire d’hypothèses, mettre
en place des plans d’expériences ou d’investigations (afin de déconcerter les impressions
premières, dirait P. H. Lasarsfeld). »3
Il existe de nombreuses méthodes d’analyse de contenu, qui reflètent les différents courants
de pensée, toutefois, on peut distinguer quatre grandes étapes dans le déroulement d’une
analyse : pré-analyse, catégorisation, codage et comptage, et interprétation (nous reprenons la
présentation d’André Robert et Annick Bouillaguet4).
1 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 47 2 Laswell, Lerner, Pool, The comparative study of symbols, Standford, Standford University Press, 1952. Cité par Laurence Bardin, in Bardin, L’analyse de contenu, puf quadridge, 2007, p. 15 3 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 31 4 Robert et Bouillaguet, L’analyse de contenu, puf, 2007
2
- La pré-analyse. Cette phase permet au chercheur de définir le support de son analyse
de contenu, le corpus qu’il va utiliser. Il faut évidemment que celui-ci puisse apporter
des éléments de réponse par rapport à sa problématique. Il faut ensuite que la
recherche soit faisable, pratiquement.
- La catégorisation : Il s’agit d’appliquer au corpus un traitement permettant d’accéder
à une signification non immédiatement visible (par le biais de dénombrement par
exemple). L’enjeu est de respecter une double exigence d’originalité (apport de
l’application de la méthode) et de fidélité (ne pas dénaturer le contenu). Le point
critique est alors l’élaboration d’une grille de catégories, c'est-à-dire de définir un
classement. Les catégories obtenues doivent répondre à quatre qualités : la pertinence,
l’exhaustivité, l’exclusivité et l’objectivité.
- Codage et comptage des unités : l’application des catégories au corpus implique de
délimiter des unités de découpage du contenu. On peut distinguer l’unité
d’enregistrement (segment déterminé de contenu utilisé pour le faire entrer dans la
grille d’analyse), l’unité de numération (manière dont l’analyste va compter lorsqu’il
choisit de recourir à la quantification) et l’unité de contexte (unité immédiatement
supérieure à l’unité d’enregistrement.
- L’interprétation des résultats : en prenant appui sur une lecture originale et objective
du corpus étudié, le but est d’évaluer les hypothèses formulées.
A bien des égards, l’analyse de contenu peut apparaître fastidieuse. Deux visées sous tendent
ce « travail de Pénélope »5 selon Laurence Bardin : dépasser l’incertitude (ce que je vois dans
le message est-il effectivement contenu, ma lecture est-elle valide et généralisable ?) et
enrichir la lecture (aller plus loin qu’une lecture immédiate et spontanée). Il y a donc à la fois
un besoin de rigueur et une volonté de découvrir, que l’on peut considérer comme deux pôles
de l’analyse de contenu, auxquels correspondent deux fonctions : une fonction heuristique et
une fonction d’administration de la preuve.
Nous nous interrogerons sur un cas spécifique de l’analyse de contenu, à deux égards. D’une
5 Bardin, L’analyse de contenu, puf quadridge, 2007, p. 31
3
part il s’agit de se demander dans quelle mesure on peut recourir à l’analyse de contenu dans
le cadre de l’analyse d’entretiens. En effet, la méthode était initialement utilisée dans un cadre
très différent, les textes littéraires ainsi que les discours politiques. L’entretien implique une
relation d’interaction et une communication verbale ainsi que non verbale. D’autre part, nous
considérerons plus particulièrement la possibilité de recourir à des outils automatiques
d’analyse, les logiciels.
Quels outils d’analyse automatique le chercheur peut-il utiliser pour analyser des
entretiens ?
Une présentation générale des différentes possibilités qui s’offrent au chercheur (I) sera suivie
par la présentation critique d’une méthode, (la méthode des « rafales » dans le cadre de
l’analyse chronologique d’entretiens) associée à un logiciel en particulier (TROPES) (II).
I) Analyser automatiquement des entretiens
Le développement des méthodes d’analyse automatique de contenu depuis quelques
décennies permet au chercheur de disposer d’un éventail important de méthodes (A). La
question du choix de l’outil n’en est que plus difficile (B).
A) L’analyse de contenu et l’informatique
La méfiance originelle des chercheurs en sciences sociales envers les outils automatisant leur
travail (1) semble révolue au regard de la diversité des méthodes qui ont été développées pour
analyser automatiquement des contenus (2).
1) Défiance du chercheur
Deux phénomènes conjugués ont permis le développement important de l’analyse
automatisée, recourant à l’informatique. D’une part, les corpus sont de plus en plus numérisés,
ce qui permet leur traitement informatique. D’autre part, de nouvelles techniques d’analyse de
contenu sont apparues avec le développement de logiciels.
4
Ceux-ci ont parfois été reçus avec une certaine crainte. Ainsi, Brossaud et Demazière6
montrent qu’en sociologie ces logiciels ont parfois été perçus comme risquant de fournir des
solutions clés en mains pour le traitement de grands corpus, conduisant à une dérive vers un
pilotage de la recherche par les outils techniques. Le logiciel, peut à certains égards être perçu
comme une « boîte noire ». Pourtant, un usage réflexif de ces nouvelles méthodes est possible
et ils constituent un nouvel outil pour le chercheur, au service du questionnement.
Comme le remarque Emmanuel Le Roy Ladurie, dans le domaine de l’histoire « en historie
comme ailleurs, ce qui compte ce n’est pas la machine, mais le problème. La machine n’a
d’intérêt que dans la mesure où elle permet d’aborder des questions neuves, originales par les
méthodes, les contenus et surtout l’ampleur »7.
2) Diversité des méthodes existantes
L’existence même de nombreuses méthodes souligne que l’analyse de contenu, qu’elle soit
automatisée ou non, implique une prise de position par le chercheur.
Dans un article de 19978, qui reste la référence dans la classification des différents types de
logiciels, Jenny remarquait que « le paysage de l’analyse textuelle française semble aussi
varié et diversifié que nos paysages, nos vins et nos fromages ; aussi compartimenté que nos
vieux cantons ; aussi séduisant par certains côtés que notre langue chérie. » Dans une tentative
de classification, il distingue cinq grands types d’approches de « pratiques textuelles
informatisées » :
- lexicométrique, « qui consiste à comparer des profils lexicaux (distributions relatives
des occurrences lexicales, sans nécessité de lecture préalable) » ;
6 Brossaud, Demazière, « Méthodes logicielles et réflexivité du sociologue », in Demazière, Brossaud, Trabal, Van Meter dir., Analyses textuelles en sociologie : logiciels, méthodes, usages, Presses Universitaires de Rennes, pp. 11-21 7 Le Roy Ladurie, Le territoire de l’historien, Gallimard, « Bibliothèque des histoires », 1973, cité par cité par Robert et Bouillaguet, in L’analyse de contenu, puf, 2007, p. 123 8Jenny « Méthodes et pratiques formalisées d’analyse de contenu et de discours dans la recherche sociologique française contemporaine. Etat des lieux et essai de classification », Bulletin de Méthodologie Sociologique, 54, 1997.
5
- socio-sémantique, « par segmentation du corpus en unités de significations pertinentes
et par catégorisation multidimensionnelle conforme aux grilles d’analyse
conceptuelles spécifiques de chaque recherche (dans une optique classique de codage
a posteriori » ;
- par réseaux de mots associés « qui visent à re-présenter des configurations cognitives
liées à un ou plusieurs thèmes, considérées comme cachées sous la surface textuelle » ;
- propositionnelle et prédicative qui visent à décrire « les logiques de construction
progressive de tout univers référentiel cohérent…ainsi que les finalités ou intentions
de chaque mise en scène langagière particulière » ;
- d’ingénierie textuelle, « à visée d’audit textuel ou à dominante de documentation-
communication » et de systèmes experts « dédiés à des problématiques de recherche
sociologique particulière ».
Sans aller plus loin dans la description de chacune des méthodes, on peut souligner leur
diversité et les différences de conceptions du langage et de posture méthodologique qu’elles
sous tendent. Cette diversité apparaît comme un peu désarmante pour le novice. Quel logiciel
choisir alors ? Doit-on apprendre à maîtriser l’ensemble des logiciels ou bien la connaissance
de certains d’entre eux suffit-elle ?
B) Choisir un logiciel pour analyser des entretiens en sciences de gestion
Le choix du logiciel est donc très complexe et donner des critères de choix impliquerait une
bonne connaissance des différents logiciels et une grande pratique de ceux-ci. Ce n’est
évidemment pas notre cas. En revanche nous pouvons présenter deux propositions de
classement faites par des chercheurs qui ont l’expérience de ce type de logiciels et qui
travaillent dans le milieu de l’entreprise.
Devant choisir un logiciel, l’analyste prend-il celui qu’il connait, dont il a une certaine
pratique ? Ou tout simplement celui dont il possède une licence ? Ces facteurs influents
6
certainement sur le choix, toutefois, il s’agit ici de se demander un peu plus
fondamentalement quels critères de choix peut-on dégager le chercheur. On peut imaginer que
des questions comme la vision de la langue, le type de matériaux, la représentation du
discours, le type de question posée vont jouer un rôle déterminant.
Nous présenterons deux tentatives de classification des différentes méthodes d’analyse
automatique de contenu, qui cherchent à se demander ce qui motive l’utilisateur dans le choix
d’un logiciel. Ces classifications se recoupent en partie avec celle proposée par Jenny,
toutefois la première propose une vision plus concrète. Le premier est adressé aux chercheurs
en stratégie ; le second présente a posteriori les logiciels choisi par une équipe de recherche en
entreprise.
Falleru et Rodhain9 s’interrogent sur les facteurs de choix entre différentes méthodes. Ils
distinguent quatre types d’analyses.
- les analyses lexicales visent à décrire de quoi on parle, (ex de logiciels : Sphinx-
Lexica, Spad-T, Alceste) ;
- les analyses linguistiques cherchent à décrire comment on parle, (ex de logiciels :
Tropes, MCA, Prospéro) ;
- la cartographie cognitive permet de structurer une pensée, (les auteurs distinguent les
outils utilisés dabs l’analyse de relations causales de ceux utilisés dans les associations
sémantiques : Web Rain) ;
- l’analyse thématique est utilisée pour interpréter un contenu, (ex de logiciels : N Vivo,
Sato.
9 Fallery et Rodhain, « Quatre approches pour l’analyse de données textuelles : lexicale, linguistique, cognitive, thématique », communication à la XVIème Conférence Internationale de Management Stratégique, Montréal, 6-9 Juin 2007
7
Les facteurs de choix d’un type d’analyse de données textuelles selon Fallery et Rodhain10
Le second article11 est le fruit des travaux du Groupe de Recherche Energie Technologie et
Société (GRETS) qui est une équipe de recherche en entreprise (EDF) et qui a une assez
grande expérience de l’utilisation de logiciels d’analyse automatique de contenu. En outre,
l’équipe travail sur des questions très différentes et est composée de chercheurs
d’appartenance disciplinaire variée. L’intérêt de l’article est de fournir un aperçu des types de
méthodes qui ont été utilisés par une unité de recherche.
10 Fallery et Rodhain, ibid. p. 3 11 Brugidou, Escoffier, Folch, Lahlou, Le Roux, Morin-Andreani, Piat, « Les facteurs de choix et d’utilisation de logiciels d’analyse de données textuelles », 5e journées Internatinales d’Analyse Statistique de Données Textuelles.
8
9
II) Un exemple de logiciel, lié à une méthode : TROPES et la « méthode des rafales »
dans le cadre de l’analyse chronologique de récits et de discours
Une application spécifique de l’analyse automatique de contenu susceptible de nous intéresser
fortement, en tant qu’étudiants et futurs doctorants en gestion, est son utilisation dans le cas
d’analyses d’entretiens, et particulièrement dans le cas d’entretiens non-directifs ou semi-
directifs orientés vers les récits personnels, les « récits de vie ». C’est un matériau que nous
serons éventuellement amenés à travailler en grande quantité.
Dans cette perspective, le choix du logiciel TROPES offre des possibilités originales
d’analyse sémantique (ou socio-sémantique, voir la classification de Jenny ci-dessus),
s’appuyant sur des postulats théoriques forts, et que nous allons détailler.
Pour mémoire, TROPES a été développé initialement par Pierre Molette, sur la base du
groupe de recherche GRP (Groupe de Recherche sur la Parole) de l’Université de Paris VIII.
Ses fonctionnalités sont multiples, ne se réduisant pas à la seule analyse chronologique de
récits, et encore moins au seul cas des entretiens. Sur le site des développeurs, nous trouvons
la liste des fonctions d’analyse sémantique offertes par TROPES :
• La classification automatique des mots du texte ;
• La contraction du texte (automatique et réglable) ;
• La détection du contexte global du document ;
• La catégorisation des mots-outils (analyse qualitative) ;
• La localisation de séries chronologiques (analyse du discours) ;
• Le calcul des relations entre thèmes (lexicométrie) ;
• Des dictionnaires sémantiques personnalisables, appelés Scénarios, conçus pour
fabriquer rapidement des outils d'interprétation ou des thesaurus automatiques ;
• L'extraction terminologique (couplée à l'analyse sémantique) ;
• L'affichage sélectif par thème ou par catégorie linguistique ;
• Le filtrage des thèmes en fonction de leur pertinence ;
• Des graphes hypertextes permettant d'analyser et de naviguer dans les documents.
10
Dans la liste de ces utilisations, nous nous intéressons particulièrement au cas de la
« localisation des séries chronologiques (analyse du discours) ». Cette fonction repose sur
la méthode d’analyse séquentielle en « rafales » et en « épisodes ».
C’est une méthode particulièrement utilisée en sociologie : son utilisation est en effet
pertinente lorsque le matériau du chercheur est composé d’entretiens dont le propos est
essentiellement narratif, voire, le plus souvent, autobiographique. Dans de nombreux cas,
l’entretien non-directif (voire semi-directif) est l’occasion, pour un locuteur, de raconter et de
mettre en scène une histoire, sa propre histoire. Le parti-pris des créateurs de TROPES a été
de postuler que de tels récits obéissent à des « règles » de structuration, de type littéraire, qui
peuvent être mises en évidence par un travail automatisé.
La logique de fonctionnement du logiciel est fondée sur une hypothèse principale : la
dynamique du récit (de vie), lorsqu’il est exprimé oralement, repose sur le mécanisme de la
répétition : afin d’exprimer un élément de signification, un locuteur est amené,
inconsciemment, à insister sur l’emploi d’un terme, ou de termes de la même famille
sémantique. Plus précisément, cette hypothèse émane du laboratoire de R. Ghiglione, qui a
formulé une théorie psycho-socio-cognitive expliquant les mécanismes de distribution des
propositions au sein d’un texte. L’enseignement principal qu’on retire de cette théorie est que
« la répétition […] agit comme un moyen de pallier les insuffisances de la mémoire, et
constitue un outil privilégié de la production de la cohérence interne et séquentielle du récit »
(Bruguidou et Le Quéau).
L’ensemble des répétitions d’un même terme forme ce que l’on appelle une « rafale ». Une
rafale est définie comme « la redondance ‘remarquable’ de certains termes, essentiellement
substantifs, qui organise le développement du discours. Dans ce contexte, est définie comme
‘remarquable’ une distribution irrégulière de ces mots ». C’est la juxtaposition de plusieurs
rafales dans un espace anormalement ramassé du texte, qu’on appelle « épisode », qui
constitue un « paquet de sens », une séquence de la progression narrative.
C’est à ce niveau que l’utilisation de procédés automatiques d’analyse revêt un intérêt de
premier ordre : l’identification des « rafales » repose sur la détection de phénomènes
d’irrégularité dans la distribution des termes au sein du texte. Nous savons, et c’est l’un des
outils de base de l’analyse de contenu, que les « lemmes » ont une certaine fréquence dans un
11
texte donné12. Le repérage de « rafales » dans un texte suppose donc d’identifier, pour un
lemme donné, des segments du texte dans lesquels ce lemme obéit à une distribution
« anormale », c’est-à-dire nettement supérieure à sa distribution globale. En clair, ce travail
d’identification ne peut être fait que par le biais d’allers-retours permanents entre une zone
locale du texte et la globalité de celui-ci. Bien que l’œil, à la lecture, soit capable de percevoir
certaines de ces irrégularités, ruptures, variations, les algorithmes automatiques de TROPES
présentent l’avantage d’être systématiques : quand notre œil, dans un passage donné d’un
texte, va repérer une séquence de sens privilégiée, il peut en négliger une autre, moins
immédiatement perceptible, précisément parce qu’elle est reléguée au second plan par l’autre,
plus marquante. La systématicité des repérages opérés par TROPES permet d’éviter cet écueil
de sélection inconsciente, et tend à l’exhaustivité de l’analyse.
A quoi ressemble le résultat d’un tel travail ? A bien des égards, nous pouvons dire que
TROPES fait apparaître le « squelette » du texte. Là où bien des logiciels d’analyse textuelle
se contentent d’isoler les mots à forte récurrence, et de les classer selon leur importance
relative dans le texte, TROPES apporte l’idée fondamentale selon laquelle la stylisation et
l’épuration d’un texte gagnent à intégrer une dimension temporelle et spatiale. Ainsi, si
certains logiciels écartent l’essentiel du « corps » du texte pour nous en livrer, en vrac, les
« os », TROPES opère une sélection autrement plus fine, qui conserve et représente la
disposition des unités fondamentales de sens.
Le « produit fini » d’une analyse chronologique de discours opérée par TROPES (il ne s’agit
pas, on le rappelle de sa seule fonctionnalité, loin de là) se présente donc comme la
présentation d’une série de « séquences », représentées par des segments plus ou moins longs
en fonction des « adresses » de début et de fin de la séquence. Cette succession séquentielle
n’est cependant pas linéaire, et c’est là une des subtilités de la méthode : un passage donné du
texte peut être inclus dans plusieurs rafales, et opérer la transition de l’une à l’autre.
La réduction du texte à une série de rafales fournit un aperçu clair et synthétique du
déroulement chronologique du récit. La juxtaposition de rafales renvoyant à un univers
sémantique proche forme ce que l’on appelle un « épisode ». C’est au niveau des épisodes que
va se jouer l’analyse sémantique proprement dite. D’après Bruguidou et Le Quéau, un épisode
12 La fréquence d’un lemme dans un texte donné est tout simplement donnée par le rapport de son nombre d’occurrences au nombre total d’unités graphiques présentes dans le texte.
12
constitue « un moment privilégié de l’intégration du récit ». Qu’entend-on par « intégration »
d’un discours ou d’un récit ? Cette expression renvoie aux théories développées en analyse
structurale par Roland Barthes, selon qui « la langue proprement dite peut être définie comme
le concours de deux procès fondamentaux : l’articulation ou segmentation, qui produit des
unités (c’est la forme, selon Benveniste), l’intégration, qui recueille ces unités dans des unités
d’un rang supérieur (c’est le sens) »13. L’ « épisode » constitue, en quelque sorte, un espace
où la répétition de certaines formes tire le texte de sa fragmentation en formes dispersées pour
« coaguler » et créer du sens.
Une des principales difficultés consiste dans le passage de la rafale à l’épisode, qui constitue
l’élément clé de la représentation du récit. TROPES propose bien des « méta-algorithmes »
analytiques visant à opérer un groupement des rafales, dans de « super-rafales » qui
constitueraient les véritables séquences narratives du récit. Il semble néanmoins qu’à ce stade,
l’automaticité du logiciel ait grandement besoin de l’assistance d’une main humaine pour
produire un résultat intéressant, et ce pour plusieurs raisons. La première est que la langue
orale comporte beaucoup de « déchet », se matérialisant par exemple par les « tics » de
langage : le repérage et l’élimination de ce parasitage du sens par les béquilles orales que
représentent ces tics ne peut être fait que par une main humaine. De façon plus générale, les
répétitions interviennent de façon privilégiée pour les catégories grammaticales les moins
porteuses de sens immédiat : adverbes, conjonctions, articles, pronoms… Or il se trouve que,
d’après Bruguidou et Le Quéau, « l’intégration du récit décrite par Barthes s’exprime de
manière privilégiée à travers les substantifs ». Bien que TROPES soit capable de repérer
automatiquement la nature des lemmes employés dans le texte, et donc d’appuyer ce degré
supplémentaire d’épuration du texte, cela suppose tout de même une intervention de
l’intelligence humaine.
Nous touchons ici à ce qui constitue une des « limites » de l’analyse sémantique assistée par
ordinateur, et qui est la question de la marge de manœuvre laissée à l’intervention du
chercheur, face à l’automaticité des processus. Nous ne l’avons pas précisé jusqu’ici (puisque
cela porte sur des processus assez « techniques » et fastidieux), mais l’analyse chronologique
visant à la représentation d’un texte en épisodes successifs ne peut se faire qu’une fois
effectué un travail important de « nettoyage » du texte. En effet, TROPES, comme la plupart
13 R. Barthes, Introduction à l’analyse structurale des récits, 1966
13
des logiciels d’analyse automatique de textes, travaille avec des formes graphiques comme
unités de base. Le problème vient du fait qu’un même mot peut se décliner sous des formes
graphiques différentes, en se déclinant au pluriel, au féminin… Or, un épisode étant une unité
de sens, et non de forme, il va de soi que le repérage de la distribution « anormale » d’un
terme doit inclure le comptage des formes déclinées de ce terme. Il existe donc tout un travail
préalable de « désambiguation » à opérer avant de lancer les procédures automatisées
d’analyse. Travail qui inclut notamment le traitement des homonymes et des synonymes.
TROPES propose, parmi ses fonctionnalités, la constitution de « classes d’équivalence »
(sortes de familles sémantiques), qui sont un outil efficace de désambiguation en vue de
l’intégration du sens.
Mais là encore, le logiciel ne semble pas en mesure de répondre à toutes les subtilités que
suppose une analyse fine. S’il semble utile de regrouper et de lier entre eux des termes d’une
même famille dans une classe d’équivalence, ne prend-on pas le risque, en procédant de
manière trop automatisée, d’appauvrir considérablement l’analyse ? Ne prenons qu’un
exemple, qui est celui donné par Bruguidou et Le Quéau : « clope » et « cigarette » sont
indiscutablement des synonymes, et pourraient en toute logique être rendus équivalents par le
logiciel, qui les dénombrerait ensemble dans le repérage des rafales. Mais ce serait là se priver
d’un niveau d’analyse supplémentaire, étant donné que le choix du mot « clope » ne recouvre
pas, sémantiquement parlant, exactement la même intention que celui de « cigarette ».
Ce simple exemple illustre que l’automatisation totale de l’analyse est encore loin d’être
d’actualité, et n’est peut être pas réellement souhaitable. La plupart des logiciels, d’autant plus
ceux comme SATO ou TROPES qui sont des structures « ouvertes », se présentent comme de
simples outils, auxquels le chercheur « passe la main » pour les tâches les plus fastidieuses (ce
qui est bien utile en présence de corpus de grande taille). Mais le chercheur, pour produire de
véritables analyse, ne peut raisonnablement s’exonérer d’une intervention très forte dans les
processus automatiques, qui ne sont finalement, le plus souvent, que semi-automatiques.
14
Bibliographie :
Bardin, L’analyse de contenu, puf quadridge, 2007
Barthes, « Introduction à l’analyse structurale des récits », in L’analyse structurale du récit,
Communications n°8, Paris, Seuil, 1981
Brossaud, Demazière, « Méthodes logicielles et réflexivité du sociologue », in Demazière,
Brossaud, Trabal, Van Meter dir., Analyses textuelles en sociologie : logiciels, méthodes,
usages, Presses Universitaires de Rennes, pp. 11-21
Brugidou, Escoffier, Folch, Lahlou, Le Roux, Morin-Andreani, Piat, « Les facteurs de choix
et d’utilisation de logiciels d’analyse de données textuelles », 5e journées Internatinales
d’Analyse Statistique de Données Textuelles.
http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2000/pdf/04/04.pdf
Bruguidou, Le Quéau, « Les « rafales », une méthode pour identifier les différents épisodes
du récit : contribution au traitement et à l’interprétation des entretiens non-directifs de
recherche », Bulletin de Méthodologie sociologique, 1999.
Fallery et Rodhain, « Quatre approches pour l’analyse de données textuelles : lexicale,
linguistique, cognitive, thématique », communication à la XVIème Conférence Internationale
de Management Stratégique, Montréal, 6-9 Juin 2007. http://www.aims2007.uqam.ca/actes-
de-la-conference/Communications/falleryb300/at_download/article.pdf
Mucchielli, L’analyse de contenu, ESF éditeur, 2006
Ghiglione, Landré, Bromberg et Molette, L’analyse automatique des contenus, Dunod, 1998
Robert et Bouillaguet, L’analyse de contenu, PUF, 2007