d etection de fausses informations dans les r …val 2016", mediaeval 2016 workshop [2]...

1
D ´ etection de fausses informations dans les r ´ eseaux sociaux : vers des approches multi-modales C ´ edric Maigrot Vincent Claveau Ewa Kijak Ronan Sicre {Pr´enom}.{Nom}@irisa.fr D ´ etection de fausses informations dans les r ´ eseaux sociaux : vers des approches multi-modales C ´ edric Maigrot Vincent Claveau Ewa Kijak Ronan Sicre {Pr´enom}.{Nom}@irisa.fr ache R´ epartion des messages selon leur v ´ eracit ´ e dans l’ensemble d’entrainement (gauche) et de test (droite) Verifying Multimedia Use (VMU) - Campagne d’ ´ evaluation Mediae- val 2016 [1] But : classer des messages provenant de Twitter selon leur v ´ eracit ´ e en trois classes : vrai, faux ou inconnu. ´ Evaluation sur le score de F-Mesure de la classe faux Chaque message est accompagn ´ e d’un contenu multim´ edia (image ou vid ´ eo) Utilisation d’une image ou vid ´ eo par un maximun de 580 messages Approche textuelle (run-T) D ´ etecte si le message pos- s ` ede un style d’ ´ ecriture ty- pique des hoax Rep ` ere les commentaires similaires entre l’image ` a classer et les images de l’ensemble d’entrainement (e.g. It’s photoshopped ) et des caract ´ eristiques de commentaires similaires (e.g. pr ´ e- sence d’ ´ emoticˆ ones) Pr ´ ediction r ´ ealis ´ ee par une approche k - Plus-Proche-Voisin (ici k = 1) Approche bas´ ee sur les sources (run-S) D ´ etecte si le message est li ´ e ` a une source de confiance Deux types de sources recherch ´ ees : les organismes li ´ ees aux actualit ´ es (e.g. agence de presse) et les sources expli- cites de l’image (e.g. le motif photogra- phed by + Nom ) [2] Pr ´ edit vrai si une source de confiance est d ´ etect ´ ee, faux sinon Approche bas´ ee sur les images (run-I) D ´ etecte les images connues Compare l’image ` a classer ` a une base d’image de 8 000 images connues (7 500 fausses and 500 images vraies) Base d’image est construite ` a partir de 5 sites sp ´ ecialis ´ es Description par une sortie d’une couche d’un CNN (vecteur de description de di- mension 4096) [3] Pr ´ edit vrai (resp. faux ) si une image si- milaire vraie (resp. fausse ) est trouv ´ ee dans la base, inconnu sinon Combinaison des pr´ edictions (run-C) Fusion tardive : apprentissage de la meilleure combinaison Algorithme de Boosting (adaboost.MH, les para- m ` etres de l’algorithme sont appris par validation crois ´ ee sur les donn ´ ees de l’ensemble d’entraine- ment) Analyse Approche textuelle : r ´ esultats proches de ceux de l’approche bas ´ ee sur les sources au niveau du score de rappel mais tend ` a classer chaque tweet comme faux Approche bas ´ ee sur les images : faible pr ´ ecision compar ´ ee aux estimations r ´ ealis ´ ees sur l’ensemble d’entrainement. Causes : (1) la faible taille de la base d’images de r ´ ef ´ erence ; (2) la ressemblance entre les images originales et les versions modi- ´ ees; (3) la pr ´ esence de tampons sur certaines images Combinaison des pr ´ edictions : ne permet pas d’augmenter les r ´ esultats du fait d’un surappren- tissage esultats RAPPEL - PR ´ ECISION - F-MESURE run-T run-I run-S run-C 92.28% 34.07% 94.63% 91.22% 63.98% 49.18% 90.3% 75.25% 75.57% 40.25% 92.42% 82.47% Nos approches Score en % baseline VMU MMLAB MCG-ICT 55.21% 88.69% 93.65% 62.92% 100% 98.82% 81.35% 74.71% 71.14% 93.48% 87.07% 68.31% Autres approches Score en % Perspectives confrontation de nos approches ` a celles employ ´ ees par les autres ´ equipes en ´ etudiant le gain de pr ´ ediction lors de l’utilisation de toutes ces approches en m ˆ eme temps am´ elioration de la base d’images connues en collectant les sujets tendances sur Twitter ainsi que les articles d’actua- lit ´ e publi ´ es par plusieurs sources d’informations mise en place de techniques de post-traitement pour d ´ etec- ter les zones de modification dans le but de diff ´ erencer les images originales de leurs versions modifi ´ ees ef´ erences [1] Boididou C., Papadopoulos S., Dang-Nguyen D.-T., Boato G., Riegler M., Middleton S. E., Andreadou K., Kompatsiaris Y., ”Verifying multimedia use at MediaE- val 2016”, MediaEval 2016 Workshop [2] Middleton S., ”Extracting attributed verification and debunking reports from social media : mediaeval-2015 trust and credibility analysis of image and video”, Me- diaeval 2015 Workshop [3] Simonyan K., Zisserman A., ”Very deep convolutional networks for large-scale image recognition”,Computing Research Repository (CRR), 2014

Upload: others

Post on 10-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: D etection de fausses informations dans les r …val 2016", MediaEval 2016 Workshop [2] Middleton S., "Extracting attributed veri cation and debunking reports from social media : mediaeval-2015

Detection de fausses informations dans les reseauxsociaux : vers des approches multi-modales

Cedric Maigrot Vincent Claveau Ewa Kijak Ronan Sicre{Prenom}.{Nom}@irisa.fr

Detection de fausses informations dans les reseauxsociaux : vers des approches multi-modales

Cedric Maigrot Vincent Claveau Ewa Kijak Ronan Sicre{Prenom}.{Nom}@irisa.fr

Tache

Repartion des messages selon leur veracite dans l’ensemble

d’entrainement (gauche) et de test (droite)

ú Verifying Multimedia Use (VMU)- Campagne d’evaluation Mediae-val 2016 [1]

ú But : classer des messages provenantde Twitter selon leur veracite en troisclasses : vrai, faux ou inconnu.

ú Evaluation sur le score de F-Mesure dela classe faux

ú Chaque message est accompagne d’un contenu multimedia (image ou video)

ú Utilisation d’une image ou video par un maximun de 580 messages

Approche textuelle

(run-T)

Detecte si le message pos-sede un style d’ecriture ty-pique des hoaxú Repere les commentaires similaires

entre l’image a classer et les imagesde l’ensemble d’entrainement (e.g. It’sphotoshopped) et des caracteristiquesde commentaires similaires (e.g. pre-sence d’emoticones)

ú Prediction realisee par une approche k -Plus-Proche-Voisin (ici k = 1)

Approche basee sur les

sources (run-S)

Detecte si le message est liea une source de confianceú Deux types de sources recherchees :

les organismes liees aux actualites (e.g.agence de presse) et les sources expli-cites de l’image (e.g. le motif photogra-phed by + Nom) [2]

ú Predit vrai si une source de confianceest detectee, faux sinon

Approche basee sur les images (run-I)

Detecte les images connuesú Compare l’image a classer a une base

d’image de 8 000 images connues (7 500fausses and 500 images vraies)

ú Base d’image est construite a partir de 5sites specialises

ú Description par une sortie d’une couched’un CNN (vecteur de description de di-mension 4096) [3]

ú Predit vrai (resp. faux ) si une image si-milaire vraie (resp. fausse) est trouveedans la base, inconnu sinon

Combinaison des predictions

(run-C)

ú Fusion tardive : apprentissage de la meilleurecombinaison

ú Algorithme de Boosting (adaboost.MH, les para-metres de l’algorithme sont appris par validationcroisee sur les donnees de l’ensemble d’entraine-ment)

Analyse

ú Approche textuelle : resultats proches de ceuxde l’approche basee sur les sources au niveau duscore de rappel mais tend a classer chaque tweetcomme faux

ú Approche basee sur les images : faible precisioncomparee aux estimations realisees sur l’ensembled’entrainement. Causes : (1) la faible taille de labase d’images de reference ; (2) la ressemblanceentre les images originales et les versions modi-fiees ; (3) la presence de tampons sur certainesimages

ú Combinaison des predictions : ne permet pasd’augmenter les resultats du fait d’un surappren-tissage

Resultats

RAPPEL - PRECISION - F-MESURE

run-T run-I run-S run-C

92.2

8%

34.0

7%

94.6

3%

91.2

2%

63.9

8%

49.1

8%

90.3

%

75.2

5%

75.5

7%

40.2

5%

92.4

2%

82.4

7%

Nos approches

Sco

reen

%

baseline VMU MMLAB MCG-ICT

55.2

1%

88.6

9%

93.6

5%

62.9

2%

100%

98.8

2%

81.3

5%

74.7

1%

71.1

4%

93.4

8%

87.0

7%

68.3

1%

Autres approches

Sco

reen

%

Perspectives

ú confrontation de nos approches a celles employees par lesautres equipes en etudiant le gain de prediction lors del’utilisation de toutes ces approches en meme temps

ú amelioration de la base d’images connues en collectant lessujets tendances sur Twitter ainsi que les articles d’actua-lite publies par plusieurs sources d’informations

ú mise en place de techniques de post-traitement pour detec-ter les zones de modification dans le but de differencer lesimages originales de leurs versions modifiees

References

[1] Boididou C., Papadopoulos S., Dang-Nguyen D.-T.,Boato G., Riegler M., Middleton S. E., Andreadou K.,Kompatsiaris Y., ”Verifying multimedia use at MediaE-val 2016”, MediaEval 2016 Workshop

[2] Middleton S., ”Extracting attributed verification anddebunking reports from social media : mediaeval-2015trust and credibility analysis of image and video”, Me-diaeval 2015 Workshop

[3] Simonyan K., Zisserman A., ”Very deep convolutionalnetworks for large-scale image recognition”,ComputingResearch Repository (CRR), 2014