Download - La Toile des Fictions. Serge Abiteboul
La toile des fictions et
les connaissances
Serge Abiteboul
INRIA & ENS Cachan
Conseil national du numérique & Académie des sciences
5/18/2013 1La toile des fictions
• Les personnages de ce roman étant réels, toute ressemblance avec des individus imaginaires, serait fortuite. Raymond Queneau (Le Dimanche de la vie)
• … l'histoire est entièrement vraie, puisque je l'ai imaginée d'un bout à l'autre. Boris Vian (L'Écume des jours)
• Mettons-nous bien d'accord, mes drôles : ces personnages et cette compagnie sont fictifs absolument ! Ils n'existent pas, n'ont jamais existé, ne se permettront jamais d'exister. Et c'est bien dommage ! San-Antonio (Les Vacances de Bérurier)
5/18/2013 La toile des fictions 2
Préambule
• J’ai découvert ce sujet très récemment en discutant avec Yannick Maignien
– Je n’ai encore rien fait de sérieux là-dessus
• Pour en savoir plus sur mon travail
– Web: abiteboul.com
– Blog: http://abiteboul.blogspot.fr/
5/18/2013 La toile des fictions 3
Organisation
• Introduction
• Créer une ontologie
• Aligner des ontologies
• Données probabilistes
• Quelques aspects en vrac
• Séparer le vrai du faux
• Conclusion
5/18/2013 La toile des fictions 4
INTRODUCTION
5/18/2013 La toile des fictions 5
La vérité dans/sur la Toile
• Erreurs• Exagérations• Mensonges• Omissions• Manipulations• Délires• Folies• …• Fiction• …• Où est la vérité? Quelle vérité ?
– Qui est le gouvernement légitime en Syrie ?– Est-ce qu’Elvis est mort ?– Peut-on voler sur un balai ? Et dans l’univers de J. K. Rowling ?
Une information prise au hasard sur la toile n’a aucun
sens avec une forte probabilité,
Et si elle en a un, il est faux avec une forte probabilité
5/18/2013 La toile des fictions 6
La fiction sur la Toile
• De plus en plus de fiction sur la toile• Romans et toutes sortes de textes en
Creativecommons– E.g: fanfics(récits que des fans écrivent pour
prolonger, amender ou même totalement transformer un roman, un manga, une série télévisée, un film, un jeu vidéo…)
• D’autres références que dans le monde réel – Personnages, lieux….
• Extraire les connaissances du Web, c’est aussi retrouver ces références
5/18/2013 La toile des fictions 7
HIRONDELLES SUR LE WEBAVEC LUC BLANCHARD, EDITION STUDIO GRAPH
Je prendrai parfois mes exemples de l’extraction de connaissances d’un roman disponible sur la toile
5/18/2013 La toile des fictions 8
Le mélange banal : réalité et fiction
• Une fiction
– Une énigme policière inventée
– Personnages, évènements, lieux fictifs
– La fin du roman se passe dans le futur
• Des lieux, personnages, évènements vrais
– Autour de la ville de Sèvres
– Simone Hagnauer – Hirondelle
– L’histoire oubliée de La maison d’enfants de Sèvres
5/18/2013 La toile des fictions 9
CONSTRUIRE UNE ONTOLOGIE
5/18/2013 La toile des fictions 10
Extraction manuelle sur la toile
Ajouter manuellement des annotations sémantiques dans des langages formels sur les ressources de la Toile
Freebase: Freebase is an open, Creative Commons licensed graph database with millions of entities
Linked data: publish RDF links between Web data
Gros succès mais limites– Sur la toile, les gens aiment écrire du texte pas éditer des
ontologies
5/18/2013 La toile des fictions 11
Extraction manuelle
• C’est ce qui se passe dans des domaines scientifiques ou industriels
• Et dans le domaine de la fiction ?– Personnage fictif– Personnage réel – yago:jean_martin– Probable lieu réel – gmap:sèvres-france– Possible personnage réel : [email protected]
• Un écrivain voudra-il passer du temps à annoter sémantiquement son roman ?
• Qui d’autre ?
5/18/2013 La toile des fictions 12
Extraction automatique de connaissances de la Toile
A partir de tables en HTML et pdf
A partir de données disponibles de formulaires
– Énormément de données structurées disponibles
A partir de textes (en HTML)
– Des sources comme Wikipedia contiennent beaucoup de connaissance
– Exemple : Yago
18/05/2013 13La toile des fictions
Extraction de texte : Yago
• E.g., thesis of Fabian Suchanek• YAGO is a knowledge base developed at the Max
Planck Institute for Computer Science in Saarbrücken
• As of 2012, YAGO has knowledge of more than 10 million entities and contains more than 120 million facts about these entities
• The information in YAGO is automatically extrac-ted from Wikipedia, WordNet, and GeoNames
• The accuracy of YAGO was manually evaluated to be above 95% on a sample of facts
5/18/2013 La toile des fictions 14
Mes excuses pour les textes en anglais ici
ou là
Extraction de texte : Yago
• E.g., thesis of Fabian Suchanek• YAGO is a knowledge base developed at the Max
Planck Institute for Computer Science in Saarbrücken
• As of 2012, YAGO has knowledge of more than 10 million entities and contains more than 120 million facts about these entities
• The information in YAGO is automatically extrac-ted from Wikipedia, WordNet, and GeoNames
• The accuracy of YAGO was manually evaluated to be above 95% on a sample of facts
5/18/2013 La toile des fictions 15
Extraction from text : difficile
Natural language processing is complex and error prone
Simpler if we already have an ontology with lots of instances– Possible to semi-automatically wrap new data
sources using overlaps with already known data
– Use specific techniques adapted to the particular domain
– Heavy use of statistics
5/18/2013 16La toile des fictions
ALIGNER DES ONTOLOGIES
5/18/2013 La toile des fictions 17
Hirondelles sur la Toile
Ontologie universelle
Contexte du roman: plusieurs ontologies
5/18/2013 La toile des fictions 18
Ontologie perso de
Serge Abiteboul
Ontologie de la
Maison d’enfants de Sèvres
Alignement d’ontologies[SuchanekAbiteboulSenellart, PVLDB Journal 201O]
Aligner les entités/relations du texte avec ces ontologies– La ville de Sèvres– Le directeur d’Espace dans le roman, dans la réalité, dans
les contacts de Serge A.
Le système ParisAlignement des conceptsAlignement des relationsDétecter la fonctionalité des relationsEvaluer les probabilités
Délicat : précision et rappel (recall)
5/18/2013 19La toile des fictions
Difficulté: précision et rappel (recall)
• Exemple « identifier un personnage du roman »
• Trop de précision : on va en rater parce que le roman est imprécis où qu’il prend des libertés avec la réalité
• Trop de témérité : on va identifier à tord des personnages du livre
• Incertain
• Quantifier l’incertain – les probabilités
5/18/2013 La toile des fictions 20
DONNÉES PROBABILISTES
5/18/2013 La toile des fictions 21
Bases de données probabilistes
• E.g., thèse de Pierre Senellart
• Faits avec des probabilités– Alice est à Londres 98%
– et Bob aussi 98%
– Mais les deux faits sont indépendants
• Faits conditionnés par des évènements– Alice est à Londres si x est vrai (x est 98%)
– Bob aussi si x est vrai
– Sue est à Edinbourg si x est faux
5/18/2013 La toile des fictions 22
Calculer des réponses
• Répondre aux requêtes dans ce contexte – Faits certains– Faits possibles – Faits avec probabilité 42%?
• Complexe sur de gros volumes de données• Techniques d’échantillonnage• Raisonner sur des bases de connaissances
probabilistes – pas simple
• Sujet de recherche
5/18/2013 La toile des fictions 23
QUELQUES ASPECTS EN VRAC
5/18/2013 La toile des fictions 24
Aspects spatio-temporels
• Résoudre la localisation dans le texte
• Résoudre la temporalité dans le texte
• L’ontologie peut évoluer– Vous changez d’adresse, d’emploi
– Les identités peuvent changerDes pays fusionnent (Allemagne), se découpent (Yougoslavie)
– Les lois changent« un mariage unit un homme et une femme »
5/18/2013 La toile des fictions 25
Erreurs dans les schémas des ontologies
• En plus d’erreurs sur les faits
– Alice est à Paris alors qu’elle est en fait à Londres
• Des erreurs sur les schémas – les règles
– On ne peut pas être enseignant et étudiant à la fois – des contrexemples
– Les personnes sont des véhicules – quasi que des contrexemples
– Une seule règle fausse peut générer des millions de faits erronés
5/18/2013 La toile des fictions 26
Cœur du problème dans la fiction: séparer réalité ou fiction
• Personnages réels ou pas
• Evènements réels ou pas
• Lieux réels ou pas
• …
• Et toute la zone grise– Peut-être réel
– Aurait pu exister
– Improbable
– Impossible…
5/18/2013 La toile des fictions 27
Dans un mondeoù rien n’est certain
• Mondes possibles : le coupable du deuxième meurtre pourrait être M. X ou M. Y – le roman laisse le doute
• Mondes parallèles : dans le roman, Tadeo Ando a construit un musée sur l’Île Seguin
– Ce n’est pas juste faux, c’est un autre monde
5/18/2013 La toile des fictions 28
SÉPARER LE VRAI DU FAUX
5/18/2013 La toile des fictions 29
Raisonner en monde ouvert…
• Dans un monde ouvert où tout est positif, tout pourrait être vrai
• Le monde des moteurs de recherche– Une référence à une page indique de l’intérêt – même si
vous dites « tout faux »
• On ne passe pas son temps à dire :– Je ne suis jamais allé au Chili– Je ne suis pas un serial killer…
• Plus rarement– voici la liste complète de tous les pays où je suis allé
• Une bonne source de faits négatifs: les fonctions
5/18/2013 La toile des fictions 30
Contradictions
• Des sources de données & des faits• S13 dit qu’Alice est à Paris
– Elle n’est pas à Rome, Madrid…
• S12 dit qu’Elvis est vivant– Il n’est pas mort
• En votant on estime la vraisemblance des faits
• Du coup, on estime la qualité des sources (taux d’erreur)
• Du coup, on peut même estimer la probabilité de faits nouveaux
5/18/2013 La toile des fictions 31
Travail sur la corroboration[GallandAbiteboulMarianSenellart, WSDM 2010]
• Des sources de données & des faits
• Peut-on faire mieux que le vote ?
• On peut faire mieux
– En estimant la probabilité d’erreur des sources
– En réévaluant la probabilité d’erreur des faits
– …
– Jusqu’à arriver à un point fixe
• Plus grosse difficulté : la complexité
5/18/2013 La toile des fictions 32
Améliorations possibles
• Déterminer l’expertise dans des domaines particuliers
– Sources spécialisées
• Déterminer les corrélations entre des sources
– Si S4 dit toujours la même chose (y compris pour les erreurs) que S12, ce n’est plus de la corroboration mais peut-être des copies
5/18/2013 La toile des fictions 33
Vraisemblance
1. Obama assiste à ma présentation
2. Obama a assisté à ma dernière présentation
3. Obama va venir à la fin de ma présentation
5/18/2013 La toile des fictions 34
Séparer le vrai du faux
On peut donc déduire (avec forte probabilité) qu’un fait est faux pour pas mal de raisons
• Parce qu’il contredit d’autres faits plus probables• Parce qu’il n’y a pas assez de raisons de le croire• Parce qu’il est absent de sources assez complètes
sur ce sujet • Parce qu’il est trop improbable• Parce que le locuteur est un menteur chronique• …
5/18/2013 La toile des fictions 35
CONCLUSION
5/18/2013 La toile des fictions 36
5/18/2013
L’acquisition de connaissances
• Dépend du texte– De sa nature : roman, fanfic, etc.
– De ses hypothèses : Dans le monde de Harry Potter, on peut voler avec un balai
– De sa place dans une série comme Le Poulpe
• Dépend du lecteur– De ses connaissances préalables
– De ses intérêts
– De ses biais/croyances personnels
5/18/2013 La toile des fictions 37
Le biais de la fiction
• Par défaut les personnages sont inventés peut-être « inspirés »
• On est éventuellement dans une logique particulière
• On est dans le monde de l’auteur
Sur la toile : on aimerait avoir des fléchage des sites en « fiction », « bidon », « paranoïa »… « HP fanfic »…
– Ces annotations simplifieraient l’analyse
– Pourraient varier selon la personne qui annote
La toile des fictions 38
5/18/2013 395/18/2013 39
Merci !
5/18/2013 39La toile des fictions