![Page 1: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/1.jpg)
Les trois applications du projet portail des thèses
Equipe Portail des thèses - ABES
Journées ABES - 17 mai 2011
![Page 2: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/2.jpg)
Le projet Portail des thèses• Rapport du comité Information Scientifique et Technique présidé par Jean Salençon (mai
2008)• Rapport final du groupe de travail FutuRIS Entreprise et recherche publique : développer les
synergies, « Adéquation public - privé », Avril 2008 présidé par Germain Sanz (avril 2008)
• L’accès aux thèses françaises, en cours et soutenues, est très difficile. L’absence de guichet unique nuit :– au monde académique– et au monde économique
• Fin 2008, commande du Ministère (MISTRD) à l’ABES
Journées ABES - 17 mai 2011
![Page 3: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/3.jpg)
Les principes directeurs
• Exhaustivité : toutes les thèses françaises de doctorat
• Validation : des données validées par l’établissement de soutenance
• Actualité : des données à jour• Utilité : des services autour des données• Réutilisation : des données ouvertes• Ubiquité : des données pour le web
3Journées ABES - 17 mai 2011
![Page 4: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/4.jpg)
La structure du projet• Un comité de pilotage qui réunit des acteurs des thèses en France
– administration centrale ( MISTRD, DGESIP, DGRI)– Conférence des Présidents d’Université et Conférence des Grandes
Ecoles– représentants des formations doctorales dans les établissements
habilités– représentants de la recherche privée et du monde économique– opérateurs documentaires nationaux des thèses (CNRS-INIST, Atelier
national de reproduction des thèses, CINES)– des représentants d’associations : Intelli’agence (ex-Association Bernard
Gregory), ADBU, AURA.
Toutes les décisions du comité de pilotage ont fait l’objet de compte-rendus sur le blog de l’ABES : Fil ABES, thème Portail des thèses
4Journées ABES - 17 mai 2011
![Page 5: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/5.jpg)
Le périmètre du projet
• Toutes les thèses de doctorat (mais uniquement les thèses de doctorat)
– En préparation en France– Soutenues en France• Quel que soit le type de dépôt• Quel que soit le support matériel
• Toutes les personnes et tous les organismes liés à ces thèses
Journées ABES - 17 mai 2011
![Page 6: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/6.jpg)
Calendrier du projet• 2010 :
• Hébergement du Fichier central des thèses• Refonte de STAR
• 2011 :• Une application professionnelle pour les thèses en
préparation• Un moteur de recherche pour les thèses de STAR• Le chargement des données de Thésa• Un moteur de recherche pour les thèses en préparation• « FRBrisation » et moteur de recherche pour les thèses du
Sudoc• 2012 :
• Amélioration du moteur de recherche• Lien vers les thèses en ligne externes : TEL et archives
institutionnelles• Lien vers les données des partenaires : Intelli’Agence, ANRT..
![Page 7: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/7.jpg)
Les applications relatives aux thèses et gérées par l’ABES de 2000 à 2006
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultation
![Page 8: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/8.jpg)
Les applications relatives aux thèses et gérées par l’ABES fin 2006
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultation
![Page 9: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/9.jpg)
Les applications relatives aux thèses et gérées par l’ABES en 2010
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle des thèses en préparation
Interface de consultation des thèses en préparation
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultation
![Page 10: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/10.jpg)
Les applications relatives aux thèses et gérées par l’ABES courant 2011
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle des thèses en préparation
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultationMoteur de recherche pour toutes les thèses françaises
![Page 11: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/11.jpg)
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle des thèses en préparation
Moteur de recherche pour toutes les thèses françaises
Les trois applications du projet Portail des thèses
![Page 12: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/12.jpg)
I. Les thèses en préparation
Journées ABES - 17 mai 2011
![Page 13: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/13.jpg)
Plan
1. Le FCT aujourd’hui2. Les remplaçants du FCT : STEP et theses.fr3. Le workflow de STEP4. Les flux des données de STEP5. La structure et la migration des données du
FCT vers STEP6. Le calendrier
Journées ABES - 17 mai 2011
![Page 14: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/14.jpg)
1. Deux fichiers nationaux de thèses en cours
• Le Fichier Central des Thèses (FCT) géré par l’ABES depuis le 1er janvier 2010– Constitué selon un axe disciplinaire, il concerne les
thèses de lettres, de sciences humaines et sociales
• Thésa, le portail des Thèses de doctorat en cours dans les Grandes Ecoles de la CGE, géré par l’INIST et la CGE– Fédère les thèses des établissements d’un type
particulier : les Grandes Ecoles
Journées ABES - 17 mai 2011
![Page 15: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/15.jpg)
1. Le réseau FCT
• En 2010, 92 établissements sont des partenaires actifs du FCT
• 165 personnes, travaillant au sein des services de scolarité et les écoles doctorales, saisissent et mettent à jour les données relatives aux thèses en cours de leur établissement
Journées ABES - 17 mai 2011
![Page 16: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/16.jpg)
1. Les statistiques en 2010
• En 2010, 8671 sujets de thèses en cours ont été signalés et 11498 mis à jour
• Aujourd’hui, environ 73 000 thèses sont signalées comme en cours dans le Fichier Central des Thèses (2001-2011)
Journées ABES - 17 mai 2011
![Page 17: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/17.jpg)
2. Deux nouvelles applications pour le signalement des thèses en
cours• L’interface actuelle du Fichier Central des Thèses va
disparaître.
• Une application professionnelle va le remplacer -> STEP (signalement des thèses en préparation)– Le périmètre va être étendu à toutes les disciplines
• Une interface publique va permettre la visualisation des thèses en préparation issues de STEP -> theses.fr (périmètre des thèses en préparation)– Les données de Thésa y seront accessibles
Journées ABES - 17 mai 2011
![Page 18: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/18.jpg)
2. Zoom sur STEP
STEP signalement des thèses en préparationhttp://step.theses.frUne application jumelle de STAR pour :• Saisir les métadonnées de description des thèses en
préparation• Importer ces métadonnées depuis les applications
locales de gestion des doctorants• Exporter ces métadonnées
Journées ABES - 17 mai 2011
![Page 19: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/19.jpg)
Etablissement de soutenance
Créé la ficheDoit saisir :•l’identité du doctorant•la date d’inscription dans l’établissement
Initialisation du workflow par l’établissement
3. Le workflow dans l’éditeur de métadonnées de STEP
![Page 20: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/20.jpg)
Etablissement de soutenance
Doit compléter la fiche
Doctorant
Doit saisir :•le directeur de thèse•le titre du projet•l’école doctoralePeut saisir plus
Peut saisir :•la description du projet•les mots-clés
Visible dans Thèses en préparation
Peut compléter la fiche
Visibilité selon la complétude des métadonnées
![Page 21: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/21.jpg)
Etablissement de soutenance
Peut mettre à jourPeut saisir un indicateur d’invisibilité
Visible dans Thèses en préparation
Rendre invisible
![Page 22: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/22.jpg)
Etablissement de soutenance
Doit saisir :La date de soutenance
Visible dans Toutes les thèses
Doit mettre à jour
Fin du workflow : la soutenance
![Page 23: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/23.jpg)
Etablissement de soutenance
Doit mettre à jour
Doctorant
Doit saisir :•La date d’abandon
Peut saisir :•La date d’abandon
Peut mettre à jour
Fin du workflow : l’abandon
![Page 24: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/24.jpg)
Processus de création dans STEP
4. STEP : les flux de données en amont• En amont, STEP pourra être alimenté par les établissements par export des
données présentes dans leur logiciel de gestion administrative des doctorants.• Le cas APOGEE : partenariat avec l’AMUE pour que le module Thèses d’APOGEE
(2012) soit nativement interconnecté avec STEP.
![Page 25: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/25.jpg)
4. STEP : les flux de données en aval
• Les données de STEP seront visibles dans le périmètre « thèses en préparation » de theses.fr
• STEP sera connecté à STAR• STEP interrogera régulièrement le Sudoc pour vérifier qu’une
thèse en préparation n’est pas soutenue
Journées ABES - 17 mai 2011
![Page 26: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/26.jpg)
Si l’établissement est en production dans STAR,Lorsque la date de soutenance est saisie dans STEP :
- push vers STAR en cycle dépôt national statut « à traiter »,
- statut soutenu dans STEP.
Processus d’alimentation de STAR
Périmètre « thèses en préparation »
![Page 27: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/27.jpg)
Lorsque la thèse soutenue est traitée dans STAR- alerte de STAR : statut thèse dans STEP
- visibilité dans les thèses de theses.fr.
Processus de mise à jour de STEP par interrogation de STAR et d’alimentation de theses.fr par STAR
Puis périmètre « toutes les thèses »Périmètre « thèses en préparation »
![Page 28: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/28.jpg)
Puis périmètre « toutes les thèses »
Périmètre « thèses en préparation »
Si l’établissement n’est pas en production dans STAR,lorsque la date de soutenance est saisie dans STEP , requête régulière du Sudoc pour savoir si la thèse soutenue existe dans le Sudoc.Si oui,
- visibilité dans les thèses de theses.fr- et statut thèse dans STEP.
Processus de mise à jour de STEP par interrogation du Sudoc
![Page 29: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/29.jpg)
5. Transformer et enrichir les données du FCT
• Les données du FCT sont aujourd’hui stockées dans une base relationnelle traditionnelle.
• Chaque thèse sera convertie en un fichier XML fortement inspiré du modèle de données TEF.
• Les données issues du FCT vont être enrichies avant la migration dans STEP :
– Lien entre les directeurs de thèses en préparation et les autorités personnes physiques (PPN) via le WS d'IdRef
– Lien entre les établissement du FCT et les autorités collectivités (PPN)
– Attribution à chaque thèse en préparation d’un code de domaine basé sur la classification Dewey (« oaiset », déjà utilisé dans STAR)
Journées ABES - 17 mai 2011
![Page 30: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/30.jpg)
5. Migration des données• Seules les thèses en préparation depuis moins de 10 ans seront
migrées dans STEP (décision du comité de pilotage du Portail des Thèses)– A l’avenir, les thèses en préparation depuis plus de 10 ans seront
automatiquement supprimées de STEP
• Pour les 70 000 thèses en préparation (2001-2011) à migrer, la qualité des données a été expertisée et est en cours d’amélioration :– Traitement des doublons en collaboration avec les
établissements– Comparaison entre les thèses en préparation du FCT et les
thèses soutenues signalées dans le SUDOC– Subsiste le problème des thèses abandonnées pour lesquelles
seul l’établissement possède l’information
Journées ABES - 17 mai 2011
![Page 31: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/31.jpg)
6. Calendrier du sous-projet
• Septembre 2011 : – arrêt de l’interface professionnelle du FCT– Migration des données dans STEP et dans
theses.fr– Arrêt de l’interface publique du FCT– Ouverture du périmètre « thèses en préparation »
dans theses.fr
• Fin septembre 2011 : ouverture de STEP
Journées ABES - 17 mai 2011
![Page 32: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/32.jpg)
II. Un moteur de recherche pour les thèses françaises
Journées ABES - 17 mai 2011
![Page 33: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/33.jpg)
Plan
1. Présentation de l’application et démonstration2. Point technique
1. L’application2. Les données3. L’indexation et la recherche4. Les principaux problèmes rencontrés5. La plateforme de production
3. Les données disponibles à l’ouverture de theses.fr
Journées ABES - 17 mai 2011
![Page 34: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/34.jpg)
1. Les quatre périmètres
• Toutes les thèses : une page par thèse– Les thèses soutenues et les thèses en préparation– Deux restrictions possibles :
• uniquement les thèses soutenues• uniquement les thèses soutenues accessibles en ligne
• Thèses en préparation : une page par thèse en préparation
• Personnes : docteurs, directeurs de thèse, membres du jury
• Organismes : établissement de soutenance, de co-tutelle, écoles doctorales, partenaires de recherche
Journées ABES - 17 mai 2011
![Page 35: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/35.jpg)
1. Au choix de l’utilisateur
• Consultation par l’encart de recherche• Consultation par l’encart de recherche puis
raffinement par utilisation des facettes• Consultation par navigation pure via les facettes
Journées ABES - 17 mai 2011
![Page 36: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/36.jpg)
1. L’encart de recherche
• Moteur de recherche présent sur toutes les pages– Périmètre toutes les thèses : métadonnées et
texte intégral.• Affichage d’un extrait du texte intégral contenant le
mot recherché (highlight = surlignage)
– Autres périmètres : métadonnées
• Autocomplétion de deux types : personne ou sujet
![Page 37: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/37.jpg)
1. La recherche par facettes• Sept facettes
disponibles pour le périmètre Toutes les thèses
• Multisélection possible au sein d’une facette (OU) et croisement entre facettes (ET).
• Deux affichages possibles des facettes :– liste courte– ou surimpression
![Page 38: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/38.jpg)
1. La page de la thèse
• Une page par thèse:– www.theses.fr/NNT pour les thèses soutenues– www.theses.fr/sXXX pour les thèses en
préparation saisies dans STEP– www.theses.fr/tXXX pour les thèses en
préparation saisies dans Thésa
• Eventuellement, accès au texte intégral
Journées ABES - 17 mai 2011
![Page 39: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/39.jpg)
1. La page d’une personne
• Docteurs, directeurs de thèse, président du jury, rapporteurs, autres membres du jury
• Une page par personne : www.theses.fr/PPN sous réserve que les personnes soient identifiées par leur notice d’autorité dans le Sudoc
• Rôle de la personne et affichage d’un extrait des thèses liées
• Nuage de mots construit à partir de l’indexation de toutes les thèses liées
Journées ABES - 17 mai 2011
![Page 40: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/40.jpg)
1. La page d’un organisme
• Etablissement de soutenance, de cotutelle, écoles doctorales, partenaires de recherche (laboratoire, entreprise…)
• Une page par organisme : www.theses.fr/PPN sous réserve que les organismes soient identifiés par leur notice d’autorité dans le Sudoc
• Affichage d’un extrait des thèses liées• Nuage de mots construit à partir de l’indexation
de toutes les thèses liées
Journées ABES - 17 mai 2011
![Page 41: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/41.jpg)
1. Les services proposés par l’interface
• Panier de requêtes ou panier de notices
• Exporter les résultats ou une notice : format bureautique (CSV, text) mais aussi format des logiciels de références bibliographiques
• S’abonner par fil RSS ou par courriel à tout changement dans une requête ou dans une page
• Partager (delicious..)Journées ABES - 17 mai 2011
![Page 42: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/42.jpg)
1. L’authentification sur theses.fr
• Disposer d’un compte sur theses.fr permettra de bénéficier de certains services précités.
• Deux modalités techniques :– création ex nihilo d’un compte– utilisation d’un compte existant (Gmail, twitter,
facebook…) reconnu via janrain
• Si une personne est reconnue comme étant l’auteur d’une thèse, elle disposera de droits supplémentaires sur la page de sa thèse :– Accès aux statistiques de consultation de la page
de sa thèse– autorisation d’être contacté par d’autres
utilisateurs de theses.fr– … Journées ABES - 17 mai 2011
![Page 43: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/43.jpg)
Page d’accueil : www.theses.fr
![Page 44: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/44.jpg)
Page de résultats obtenue après utilisation de l’encart de recherche
![Page 45: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/45.jpg)
Page de résultats obtenue après raffinement par la facette Etablissement
![Page 46: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/46.jpg)
Page de la thèse obtenue en cliquant sur le titre
![Page 47: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/47.jpg)
Page d’une personne obtenue en cliquant sur le nom de la personne
![Page 48: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/48.jpg)
Page d’un organisme obtenue en cliquant sur le nom de l’organisme
![Page 49: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/49.jpg)
2.1. L’application• Application web développée en Java :– Réécriture d’URL : Apache– Conteneur de servlet : Tomcat– Langage Java : JSP / Servlet– Librairies utilisées : Saxon / JDOM / SolrJ / JSON …
• Application web, donc : – HTML – CSS (charte graphique réalisée par Oxynel)– Javascript : JQuery
• Pour les widgets : autocompleter / slider / checkers …
Journées ABES - 17 mai 2011
![Page 50: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/50.jpg)
2.1. D’autres moyens d’accès aux données
• Pas seulement une interface HTML• Les servlets peuvent aussi délivrer le contenu
sous d’autres formats : – Fils RSS– Alertes mail– API REST XML qui peut être utilisée par d’autres
sites : pour la recherche/résultat et le détail– TEF, RDF, Marc XML, Dublin Core, etc.
Journées ABES – 17 mai 2011
![Page 51: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/51.jpg)
2.2. Les données
• Base de données Oracle : – La base de données de la nouvelle plateforme de
production de l’ABES (IdRef, Star, SelfSudoc, …)– Une table contenant les métadonnées des sujets
(STEP et THESA) et des thèses (Sudoc et STAR)• Métadonnées sous format TEF étendu• Clé unique : n°de sujet ou n° national de thèse,
accessible à l’adresse : www.theses.fr/n°
– Des tables pour gérer les comptes utilisateurs, etc.
Journées ABES - 17 mai 2011
![Page 52: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/52.jpg)
2.3. L’indexation et la recherche• C’est le point le plus important / critique de l’application• A terme, on aura :
– les métadonnées des thèses en préparation – les métadonnées (et si possible le plein texte du document) de
toutes les thèses soutenues au moins depuis 1985• Soit :
– 70 000 thèses en préparation du FCT à migrer– 450 000 (?) notices de thèses soutenues dans le Sudoc à
« FRBriser » puis à migrer
– accroissement annuel :• 11 000 thèses soutenues • 8 000 thèses en préparation en lettres, sciences humaines et sociales
• Choix d’Apache Solr Journées ABES - 17 mai 2011
![Page 53: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/53.jpg)
Apache Solr• Apache Solr : plateforme de recherche
opensource, basée sur le projet Apache Lucene
• Fonctions principales :– Recherche plein texte– Highlighting (surlignage)– Facettes– Support de différent type de document (word, pdf…)– Recherche distribuée– Réplication d’index automatique
Journées ABES – 17 mai 2011
![Page 54: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/54.jpg)
Apache Solr• Se lance comme un serveur indépendant de recherche (dans un
conteneur de servlet, comme Apache Tomcat).
• Ecrit en Java, utilise Lucene comme moteur de recherche.• APIs (interfaces) de type REST XML et JSON, ce qui le rend facile à
utiliser avec n’importe quel langage de programmation.
• Est utilisé à l’ABES par les applications et projets :• IdRef, Star et API Sudoc (« Solr total », SudocAD), Step, Portail des
thèses.
• Dans le monde des bibliothèques, est de plus en plus utilisé par les catalogues de nouvelle génération : Blacklight, VuFind, etc.
Journées ABES – 17 mai 2011
![Page 55: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/55.jpg)
2.4. Les problèmes rencontrés :la recherche par personne
• Nous avons indexé des métadonnées de thèses• Ces métadonnées décrivent la thèse ainsi :
– Titre, sujets, auteur, directeurs de thèses, etc.• Nous avons 1 description de thèse = 1 document solr• Solr indexe des documents « à plat » (pas de liens possibles
entre différents documents)
• Problème : on veut effectuer des recherches, par personne (auteur, directeur, …), et non pas uniquement par thèse.C’est à dire, être capable de trouver une personne qui aurait participé à des thèses qui correspondent à un ou plusieurs critères de recherche
Journées ABES - 17 et 18 mai 2011
![Page 56: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/56.jpg)
Exemple de document indexé TEF Document Solr correspondant
Journées ABES - 17 et 18 mai 2011
![Page 57: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/57.jpg)
Comment faire ?
• Créer un solr « personne » dédié, donnant une vue par personne, et non plus, par thèse
• A chaque ajout / modification / suppression de métadonnées d’une thèse, pour chaque personne concernée, on recalcule intégralement sa fiche à partir des métadonnées de toutes les thèses
Journées ABES – 17 mai 2011
![Page 58: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/58.jpg)
Exemple
TEF
Document solr personneDocument solr personne
![Page 59: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/59.jpg)
Une fiche personne
![Page 60: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/60.jpg)
2.4. Les problèmes rencontrés :le surlignage du plein texte
• Solr a des problèmes de performance sur le surlignage de mot quand le texte est important (plein texte d’une thèse) :
• C’est d’autant plus lent que le texte est long• Car solr effectue une recherche par expression
régulière sur la totalité du texte
Journées ABES - 17 mai 2011
![Page 61: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/61.jpg)
Idée / solution
• Découper ce plein texte en « page », lors de l’indexation :A chaque plein texte extrait d’un document de thèse, on découpe ce texte tous les x milliers de mots, afin d’obtenir des pages
• Ces pages sont placées dans un solr dédié• La recherche sur ce plein texte s’effectue sur
le solr principal, et le surlignage est fait, pour chaque document trouvé sur le solr dédié
Journées ABES - 17 mai 2011
![Page 62: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/62.jpg)
A l’indexation : découpage du texte
Extraction du texte (Apache Tika)
Découpage enpages
Document de thèse Plein texte extrait
Journées ABES - 17 mai 2011
![Page 63: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/63.jpg)
Ajout du surlignage aux résultats
1) Recherche sur les métadonnéeset le plein texte
3) Surlignage sur critères de recherche + identifiant
2) Liste de résultat (identifiants)
4) Extrait surligné
Solr des métadonnées
Solr dédié au surlignage
Journées ABES - 17 mai 2011
Pour chaque résultat :
![Page 64: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/64.jpg)
2.5. La plateforme de production
• Serveurs Red Hat Enterprise (linux) :– 2 boîtiers de répartition de charge– 2 serveurs frontaux (Apache + Tomcat)– 1 serveur de fichiers (NAS)– 2 serveurs de recherche (Tomcat + Solr)– 2 serveurs de base de données (Oracle en SAN)
Journées ABES - 17 mai 2011
![Page 65: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/65.jpg)
2.5. La plateforme de productionInternet
Boîtiers de répartition de charge
Serveurs frontaux
Serveur de fichiers
Serveurs de recherche
Serveurs de base de données
Front end Back end
![Page 66: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/66.jpg)
3. Les données disponibles à l’ouverture de theses.fr
• Toutes les thèses validées dans STAR (4 765 le 1er mai 2011)
• L’utilisateur lambda peut signaler un problème relatif aux données
Journées ABES - 17 mai 2011
![Page 67: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/67.jpg)
3. La complétude des données saisies dans STAR
• Saisir les écoles doctorales
![Page 68: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/68.jpg)
3. La qualité des données• Attention aux textes libres !
![Page 69: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/69.jpg)
3. L’exploitation des autorités
• Saisir le lien aux autorités dans STAR pour permettre son exploitation dans une page de personne ou une page d’organisme.
![Page 70: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/70.jpg)
Conclusion
Journées ABES - 17 mai 2011
![Page 71: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/71.jpg)
Suite du projet• 2010 :
• Hébergement du Fichier central des thèses• Refonte de STAR
• 2011 :• Une application professionnelle pour les thèses en
préparation• Un moteur de recherche pour les thèses de STAR• Le chargement des données de Thésa• Un moteur de recherche pour les thèses en préparation• « FRBrisation » et moteur de recherche pour les thèses du
Sudoc• 2012 :
• Amélioration du moteur de recherche• Lien vers les thèses en ligne externes : TEL et archives
institutionnelles• Lien vers les données des partenaires : Intelli’Agence, ANRT..
![Page 72: Les trois applications du projet portail des thèses](https://reader036.vdocuments.fr/reader036/viewer/2022062518/56813f73550346895daa591b/html5/thumbnails/72.jpg)
Contacts• L’équipe projet portail des thèses : [email protected]
• Avec le soutien actif du Département Etudes Projets : [email protected]
• Les sites :http://www.theses.fr http://step.theses.fr http://star.theses.fr • Crédits icônes :
– gakuseiSean , Jack Cai, Mayosoft, YellowIcon, Oxygen Team, silvestre herrera