Download - Base de Données "Titres"
![Page 1: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/1.jpg)
Base de Données "Titres"
Projet "Visu"
Réalisée dans le cadre de la maîtrise IL
![Page 2: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/2.jpg)
Objectifs
• Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus :– Forme des titres (avec différents niveaux de
détail)– Niveau de hiérarchie– Reprises (occurrences et position)
![Page 3: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/3.jpg)
Etapes du travail• Constitution d'un corpus de départ
• Extraction des titres (Perl)
• Extraction des informations sur les titres (Perl)
• Extraction des reprises (Perl)
• Conditionnement des données extraites pour Access
• Fabrication et remplissage de la base
![Page 4: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/4.jpg)
Corpus de départ
• Constitué de 2 textes :– L'HDR de C. Jacquemin (138120 mots)– Le chapitre E/A de P. Rigaux (6315 mots)
• Format des textes : balisage XML
![Page 5: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/5.jpg)
Perl (1)
• Programmes pour extraire les informations des textes :– Utilisation d'expressions régulières– Utilisation des balises pour le repérage et
l'extraction des titres et de leur niveau de hiérarchie
– Repérage et extraction des reprises totales et des mots composant les titres
![Page 6: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/6.jpg)
Perl (2)
• Stockage dans des fichiers "texte brut"
• Mise en forme des information pour automatiser le renseignement de la base de données :
Information 1 Information 2 Information 3Tab Tab etc.
• La tabulation servira à séparer les différents champs dans la table
![Page 7: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/7.jpg)
La base de données• Composée de tables, de requêtes et de
formulaires• Les tables contiennent toutes les
informations extraites par les programmes perl
• Les enregistrements sont créés à partir des tables et servent à organiser les informations d'une ou plusieurs tables ou d'autres requêtes
• Les formulaires permettent de présenter les informations ou de faciliter l'entrée de nouvelles informations dans la base
![Page 8: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/8.jpg)
Les tables• La base contient 11 tables :
– La table Titres qui contient 6 champs :texte niveau occurrence reprise forme N° Id
– La table Reprise qui contient 6 champs :
occurrence reprise position position chiffrée type N° Id
– La table Corpus qui contient 6 champs :
corpus texte taille type genre N° Id
– 8 tables Forme (SN, SP, SV, SAdj, Formel, >Syntagme, Phrase, PropSub) : Ex : Forme_SN :
texte occurrence type de SN N° Id
![Page 9: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/9.jpg)
Les requêtes
• Les tables et les requêtes sont liées entre elles
• Les requêtes permettent d'organiser les informations de la base
• Exemple : Requête pour savoir combien de SN introduits par un article défini sont présents dans chaque texte du corpus
![Page 10: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/10.jpg)
Les formulaires
• Ils permettent de mettre en forme et de présenter les informations de la table
• Ils permettent aussi de rentrer de nouvelles informations dans la table
![Page 11: Base de Données "Titres"](https://reader036.vdocuments.fr/reader036/viewer/2022082322/56815027550346895dbe1347/html5/thumbnails/11.jpg)
Objectifs (ce qu'il reste à faire)
• Renseigner la "position chiffrée" dans la base pour les reprises
• Inclure dans la base les annonces de titre
• Inclure dans la base les reprises anaphoriques
• Adapter la base aux besoins du projet
• Ajouter des textes au corpus
• Analyser la base