www.lingway.com
Opinion MiningEtat de l’art et exemples d’applications
Documation / MIS 22 mars 2012
[email protected]@lingway.com
Qui sommes nous ?
Une société spécialisée sur l’analyse des données tex tuelles� Transformer une information non structurée en données utilisables par des logiciels� Une centaine de clients dans différents domaines� Une offre e-Reputation lancée il y a un peu plus d’un an
Un laboratoire de Sciences-PO� Spécialiste de la sociologie des nouveaux médias� Ouvrage de Dominique Boullier et Audrey Lohard « opinion mining »
Le projet iPinion 2010-2011� Avec Sciences-PO MEDIALAB et PIKKO� Projet CAP DIGITAL, financement Ministère de l’ Industrie
>
2
e-Réputation: un enjeu incontournable
Selon plusieurs études concordantes, en gros:
Les 3/4 des français sont des internautes
Les 3/4 des internautes consultent Internet avant d’a cheter un produit
La moitié des internautes consultent les avis des aut res avant de choisir un produit
L’analyse des opinions est au cœur de la e-réputation
3
Opinion mininget sentiment analysisMéthodes et outils
Dominique Boullieret Audrey Lohard
Opinion Mininget Sentiment Analysis
Dominique BoullierEt Audrey Lohard
Les SHS Sciences Humaines et Sociales et l’opinion mining� Traditions
� quantitatives: questionnaires et de sondages� qualitatives: entretiens
� = des opinions provoquées et attribuées à des auteurs aux propriétés socio-démographiquesprédéfinies
� Web� des opinions spontanées dans une conversation sans
auteur à identité fiable� Mais des opinions quantifiables en masse et
analysables en détail (qualiquantitatif)
� (Tarde): la sociologie devrait être la « science des conversations »
Un état de l’art académique
� Sources:� TAL (NLP)� Linguistique de corpus
� Text mining (Fouille de texte)� Opinion mining (spécialisée web)� Sentiment analysis (analyse de
tonalité)
Les Défis Fouille de Textes (DEFT)
� 2005 : identification du locuteur d'un discours.� 2006 : segmentation thématique de textes.� 2007 : détection de l'opinion exprimée dans un texte, quatre corpus, deux à trois classes (positif, neutre, négatif) par corpus.
� 2008 : classification automatique de textes en genre et en thème.
� 2009 : Analyse multilingue d'opinion� 2010 : Étude de la variation diachronique et
diatopique du français : identification de la période et du lieu de publication d'articles de presse.
� 2011: la variation diachronique en corpus de presse et l'appariement d'articles scientifiques et de résumés.
État de l’art commercial
� Prérequis avant toute analyse de tonalité
� Sourcing (mots-clés ou bouquets)� L’actuelle ruée sur Twitter, l’oubli des blogs
� Extraction� Nettoyage� Base de données des verbatims
Sourcing et influence
� Risques � niveler tous les verbatims� attribuer a priori un poids plus grand à
certains émetteurs
� Théorie de l’influence � Avec un indicateur « MédialabInfluence Ranking » domaine par domaine
Rôle des experts
� Connaissance du domaine toujours requise� Pour le sourcing� Pour la structure de traitement de la
base de données� Pour le traitement
� Retour de pertinence
� Les solutions prétendument tout automatiques sont sans intérêt
Ce que l’on mesure en analyse de tonalité n’est pas assez distingué
� Avis� Jugement� Évaluation� Sentiment� Goût� Récits d’expérience
Méthodes
� Détection de phrases subjectives� Dictionnaires de mots
� Niveau de l’analyse: � n-grams vs document� en fait le niveau de la phrase est le plus
pertinent
� Analyseur syntaxique et sémantique nécessaires avec méthodes d’apprentissage (non statistiques)
Utilité et limites� E-reputation? Oui mais sans la stratégie et
au-delà pour la relation client
� Limites� Non traitement des figures rhétoriques par
exemple � D’où limites pour les analyses politiques sur des
thèmes� Ok pour des produits/ services/ entités bien
identifiées� Veiller à pouvoir identifier Target and features
Des exemples de réalisationBasés sur la plateformeLINGWAY e-Reputation
16
Pages et messagesPages et
messages
Transformation en données structurées personnes, lieux, marques, thèmes, tonalités,
avis, etc.
Transformation en données structurées personnes, lieux, marques, thèmes, tonalités,
avis, etc.
Analyseurs sémantiques =
Logiciels + dictionnaires
Base de données de
textes enrichis et structurés
MOTS CLES
Liste de sourceswww.xxx.com…
Analyse du contenu: exemple sur un forum
Contenu analysé, structuré automatiquement
Exemple: suivi de médicaments
20
Exemple: Que se dit-il sur les médicaments dans les blogs et forums ?
21
Thèmes + et – associés aux benzodiazépines
22
23
« angoisse » est un élément du lexique marqué comme
« Négatif »
Verbatims négatifs autour de l’angoisse
24
Inversion de la tonalité: Exemples :
� La négation
� Certains verbes à tonalité positive
Verbatims positifs autour de l’angoisse
Les différents types d’extraction
Les Entités nommées� Entités nommées standard
• Noms de personnes, de sociétés, de lieux• E-mails, téléphone, URLs, dates, evènements, N°siret, …
Les Thèmes� Thèmes contrôlés (catégorisation selon des thématiques prédéfinies)� Thèmes libres ( qui ne sont pas préalablement connus)
La Tonalité� Identification d’une opinion, d’ un avis à l‘égard d’une personne, d’un
produit, d’une société, d’une marque…
25
Extraction d’entités nommées standard
Sur la base de � Lexiques de prénoms, noms de villes, régions, pays, sociétés� Règles contextuelles : Marqueurs d’introduction de noms de
personnes, de lieu ou d’organisation� Exemples avec noms de personnes, d’organisations et de lieux
26
Extraction de thèmes puis de la tonalité
En français
27
Types de tonalités dans les lexiques
Types de tonalité utilisés dans les lexiques� Négatif / positif / positif
ambigu / négatif ambigu� deux fonctions : Intensifieur
et Modérateur qui influent grandement sur la tonalitécelle des mots qui leur sont proches.
Multilingue� Anglais, Français, Espagnol� Plusieurs autres langues en
préparation sur la base des dictionnaires Lingway
Type de
tonalité
Exemples d’entrées des lexiques de
tonalité
Positif Embellie, agréable, adorer,
agréablement
Negatif Horreur, déplorable, détester,
horriblement, en dépit de
Positif ambigu rentabilité
Négatif
ambigu
coût
Modérateur Diminution, limiter, Peu
Intensifieur Augmentation, progresser,
impressionnant, manifestement
28
Importance de l’Analyse linguistique
Importance analyse morpho-syntaxique : la tonalitéd’un mot peu dépendre de sa catégorie
En français on distingue « bien » adjectif positif de « bien »adverbe intensifieur
En anglais, l'analyse permet de distinguer le nom « good » qui est neutre, de l'adjectif « good » qui est positif.
29
Analyse de la tonalité : Exemples FR
Texte avec séquences analysées comme négatives
Texte avec séquences analysées comme positives
30
L’analyse lnguistique de la phrase
� Une phrase comprend souvent plusieurs opinions qu’il faut savoir identifier
31
Analyse de la tonalité : cas simples
32
Analyse de la tonalité : cas simples
Négatif� Exemples en français
� Exemples en anglais
� Exemples en espagnol
Les mots encadrés sont à l’origine de tonalité de la séquence
33
Impact des intensifieurs (FR)
Les intensifieurs permettent de révéler la tonalitéd’un mot ambigu positif comme « rentabilité »
Mais aussi de renforcer celle de mots déjà positifs comme « efficace »
séquence neutre
séquences positives
34
Impact des intensifieurs(EN)
L’intensifieur « increase » révèle la tonalité positive de « benefit »
Exemple de renforcement de la tonalité sur un mot déjà négatif comme « disaster »
séquence neutre
séquence positive
35
L’inversion de tonalité
Négation de verbes (ne pas, ne plus, …)
Négations de noms (aucun, pas de, zéro)
36
L’inversion de tonalité
Verbes négatifs inversant la tonalité de leurs compléments et/ou sujet
37
L’inversion de tonalité
Impact des « modérateurs »
38
Exemples avec plusieurs inversions
Verbe modérateur à la forme négative
Double négation de verbe
39
En conclusion
Les technologies du TAL sont indispensables2 cas d’utilisation
Sans révision� Même si l’analyse
automatique ne marche pas à 100%, les résultats sont globalement significatifs
Avec révision� 3 à 5 fois plus rapide
que sans ce type d’outil d’aide à la lecture
40
Quelques cas
Constructeur automobile� Suivi des critiques de la marque, community management
Marques de grandes consommation� Suivi des opinions sur les « valeurs » mises en avant
� Environnement, Ethique, Qualité…� Base de données de suivi permanent des marques
Assurances� Analyse des remontées sur les réseaux sociaux
Telecoms� Suivi du lancement de nouvelles offres
Administration� Veille « sujets sensibles »
41
MERCI…[email protected]@sciences-po.fr
42