2014 11-18-luxid-for-open text-pn

39
Capitalisez vos contenus Content Server Paris le 18 Novembre 2014 Philippe Deltenre Temis Pierre Nocera Red Tree Software Jean-Marc Touzard Camoai

Upload: jean-marc-touzard

Post on 07-Jul-2015

85 views

Category:

Data & Analytics


0 download

DESCRIPTION

Connecteur Temis Luxid pour enrichissement sémantique de OpenText Content Server. Facilite la création d'application Big Data, améliore l'utilisation et l'optimisation de contenus non structurés. Avec ses vocabulaires métier personnalisés la solution permet de créer des environnements d'analyse et de navigation enrichies.

TRANSCRIPT

Page 1: 2014 11-18-luxid-for-open text-pn

Capitalisez vos contenus Content Server

Paris le 18 Novembre 2014

Philippe Deltenre – Temis

Pierre Nocera – Red Tree Software

Jean-Marc Touzard – Camoai

Page 2: 2014 11-18-luxid-for-open text-pn

Agenda

• 15’ : Présentation des acteurs et genèse de la solution

• 30’ : Notions d'enrichissement sémantique

• 30’ : Présentation de la solution Luxid® for OpenText

• 30’ : Témoignage de l’OCDE

• 30’ : Questions ⁄ Réponses

Page 3: 2014 11-18-luxid-for-open text-pn

• Éditeur spécialisé dans les modules complémentaires à la suite Content Server :

• Expertise documentaire

• Forte valeur ajoutée

• Centré sur les besoins de l’utilisateur.

• Red Tree Software est distribué en France et à l’étranger par un réseau de partenaires.

Page 4: 2014 11-18-luxid-for-open text-pn

• Accélérateur de Transformation Numérique Camoai propose à ses clients conseil opérationnel et accompagnement :

• Projets Xnet, collaboratif, socialisation

• Projets ECM

• Projets BPM

• Projets de mobilité et entreprise étendue.

• Les solutions Content Server et SharePoint sont au cœur de ces offres, et Temis un partenaire naturel pour accompagner nos clients dans leurs projets ECM et Big Data.

Page 5: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 5

Pionnier de l’Enrichissement de Contenu depuis 2000

70

Page 6: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 6

Références clé

Page 7: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 7

Structurerles contenus non structuréspour mieux les géreret mieux les valoriser

Page 8: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 8

Notions d’enrichissement sémantique

Page 9: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 9

- Flux de traitement sémantique

We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml.

Analyse morpho-syntaxique1

We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml.Suj. Vrb. Patient Verbe VerbeSymptôme Médicament Dosage

Identification des entités2

Identification des relations

We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml.Suj. Vrb. Patient Verbe VerbeSymptôme Médicament Dosage

EFFET SECONDAIRE

Symptôme AlopécieCause CarbamazepineDosage 8.6 mg/mlPatient 52 year-old male

3

Page 10: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 10

Quelles informations métier ?

Personnes

• Clients, Collaborateurs, Rattachement à votre annuaire

Organisations

• Filiales, Services, Fournisseurs, Compétiteurs, Partenaires

Références internes

• Projet, contrat, client, zone géographique, marché, etc…

Noms de vos produits ou services

• Taxonomie produit, accessoires, options, etc…

Terminologie et Catégories métier

• Vocabulaires techniques

• Catégories documentaires

A vous de le décider…quelques exemples

Page 11: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 11

La plate-forme logicielle Luxid

Page 12: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 12

Content Enrichment Platform

ContentEnrichment

Studio

AnnotationFactory

Skill Cartridge®Library

• Robustesse, Scalabilité, APIs, Web Services• 20 langues• Entités / Relations / Catégories / Thèmes …• Thésaurii, taxonomies, règles sémantique, statistiques, apprentissage

(machine learning)

Page 13: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 13

Moteurs d’extraction spécialisés

• Focalisés sur vos “objets d’intérêt”

• Entités, Relations, Thèmes, Opinions, etc

Modulaires & Puissants

• Combinables dans un même plan de traitement

• Large gamme de techniques d’extraction

• 20 langues

• Faciles à personnaliser avec Content Enrichment Studio

Skill Cartridges®

• Anglais

• Français

• Allemand

• Flamand

• Italien

• Espagnol

• Portugais

• Tchèque

• Russe

• Hongrois

• Polonais

• Grec

• Suédois

• Danois

• Norvégien

• Finlandais

• Chinois

• Japonais

• Coréen

• Arabe

SkillCartridge

1

MorphoSyntaxique

SkillCartridge

2

Thesaurus

SkillCartridge

3

Statistique

SkillCartridge

n

MachineLearning

Page 14: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 14

Web Services SOAP-REST / Modèle de données unique Ressources d’annotationunifiées (Skill Cartridge®)

RES

T A

PI

SC1 SC2 SCn

Annotation Plan

XelDA Admin

DocumentAnnotéXML / JSON / RDF

Document200+ formatsXML, HTML, txt, doc, pdf, …

EnterpriseSearch

Extraction d’information robuste

Page 15: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 15

Montée en charge / Cloud

AnnotationServer

Multi-core

Luxid ®Annotation Server(1 node multi-core)

AS AS AS AS AS AS AS AS

AS AS AS AS AS AS AS AS

AS AS AS AS AS AS AS AS

AS AS AS AS AS AS AS AS

Luxid®Big Data(10-100 Machines)

HauteDisponibilité

TraitementBig Data

FluxTemps Réel

Luxid®Annotation Farm(2-10 Machines)

AnnotationServer

Multi-core

AnnotationServer

Multi-core

AnnotationServer

Multi-core

LoadBalancer

• Utilisation CPU élevée dans toutes configurations

• Déploiement en un clic dans le Cloud

• Conçu pour les Big Data (Hadoop)

Page 16: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 16

DémonstrationLuxid Web Service

Page 17: 2014 11-18-luxid-for-open text-pn

Luxid for OpenText CS10 (et Livelink 9.7…)

Pourquoi imaginer une telle solution ?

Page 18: 2014 11-18-luxid-for-open text-pn

Le contexte

• Les sites ECM OpenText présentent souvent :• Une utilisation avancée des fonctionnalités documentaires et gestion de contenus (différents

types d’espaces, métadonnées, formulaires, workflows, sécurité, types de contenus)• Une forte volumétrie• Un contexte international et donc des exigences en multilinguisme.

• Malgré une fonction de recherche plutôt performante, on constate que les utilisateurs sont en fait souvent mécontents de la recherche proposée, et critiquent :

• La pertinence des résultats• La présentation des résultats.

• Comme il arrive souvent dans les projets ECM, des fonctionnalités intéressantes sont peu ou pas utilisées :

• Par méconnaissance des utilisateurs et/ou du staff projet en charge de les déployer.• Par insuffisance dans la gestion du changement.

Page 19: 2014 11-18-luxid-for-open text-pn

Le contexte

• À cette situation déjà complexe viennent s’ajouter de nouvelles contraintes :

• On ne demande plus au moteur de recherche de trouver des documents où l’utilisateur ira puiser de l’information

• On demande au système d’extraire du sens dans un volume d’information croissant tellement vite que l’utilisateur ne peut plus passer son temps à analyser des documents sortis d’une liste de résultats

• On attend du système qu’il soit capable de gérer plusieurs cibles en même temps pour nous aider dans la réflexion et la prise de décision

• Et tout cela en quelques secondes sur des volumes en très forte croissance.

Page 20: 2014 11-18-luxid-for-open text-pn

La réponse

• La spécialisation sémantique du moteur Luxid de Temis va apporter des réponses à ces exigences.

• Souvent perçue comme complexe et réservée à des spécialistes, l’approche sémantique reste encore rare dans les entreprises du monde industrie-commerce et services.

• Grâce aux connecteurs qui relient le moteur d’enrichissement sémantique, il sera possible de venir compléter les solutions ECM en place, en capitalisant les efforts déjà réalisés.

Page 21: 2014 11-18-luxid-for-open text-pn

Le connecteur Luxid pour OpenText

Fonctionnalités et démonstration

Page 22: 2014 11-18-luxid-for-open text-pn

Copyright © 2013 TEMIS - All Rights Reserved - Slide 22

Diagramme de FluxLuxid® pour OpenText

AP

I du

Mo

teu

rD

ere

cher

che

IndexDe

Recherche

Indexde

recherche

Search-based Applications

RechercheAnalyse

VisualisationFacettes

Recommendations

Insertion

Indexationdes métadonnées

Extraction automatiquedes métadonnées

Enrichissement des méta-données

Enrichissementdes interfaces

Luxid® Annotation

Factory

Cartouches sémantiques

(Skill Cartridge® )

Page 23: 2014 11-18-luxid-for-open text-pn

Le Connecteur - Les fonctionnalités

• Le connecteur Luxid pour OpenText constitue la passerelle entre Content Server et Luxid, et permet d’enrichir le contenu sémantique des documents de manière automatique ou manuelle.

• Les documents classés dans OpenText Content Server voient leur contenu enrichi par des métadonnées sous forme de catégories / attributs ou de classifications.

• Le connecteur peut prendre en charge l’extraction du texte des documents avec ou sans OCR avant leur soumission au serveur Luxid.

Page 24: 2014 11-18-luxid-for-open text-pn

Le Connecteur - L’architecture

• Le connecteur Luxid pour OpenText est un middleware entre Content Server et le serveur Luxid et se présente sous la forme d’un service Windows.

• Le gestionnaire de messages MSMQ est utilisé pour prendre en charge la gestion des demandes de jobs, ce qui permet d’offrir une bonne qualité de service : les demandes d’enrichissement ne sont pas perdues si l’un des 2 serveurs est arrêté.

• Plusieurs connecteurs peuvent être répartis sur plusieurs serveurs, afin de répartir la charge dans le contexte de traitements importants.

Page 25: 2014 11-18-luxid-for-open text-pn

Le Connecteur - Flux de données

1 : Les documents sont stockés dans Content Server2 : Un message est envoyé au gestionnaire MSMQ pour mise en file d’attente de traitement3 : Le connecteur prend en charge le traitement, extrait éventuellement le texte des documents4 : Le document est envoyé au serveur Luxid pour enrichissement5 : Le serveur Luxid renvoie les métadonnées enrichies6 : Le connecteur met à jour les métadonnées dans Content Server sous forme de catégories / attributs ou de classifications7 : L’enrichissement sémantique est mis à disposition auprès utilisateurs grâce à l’interface standard de Content Server ( facettes, filtres de recherche, classifications, etc..)

Page 26: 2014 11-18-luxid-for-open text-pn

Le Connecteur - Paramétrages

Le paramétrage s’effectue dans le module pour Content Server, dans une page d’administration dédiée.

On paramètre ainsi un ou plusieurs serveurs Luxid, en indiquant notamment l’URL du webservice Luxid.

Ensuite on crée un ou plusieurs processeurs d’analyse, qui permettent de définir le mapping entre les entités Luxid et les catégories / classifications OpenText.

Enfin on crée des Jobs pour l’execution automatique, ou des menus fonctions pour appeler un processeur d’analyse via l’interface utilisateur.

Page 27: 2014 11-18-luxid-for-open text-pn

Le Connecteur – Interface utilisateur

L’appel à l’enrichissement sémantique peut s’effectuer manuellement via l’interface utilisateur grâce à un menu fonction disponible sur les documents, et via un bouton « Enrich » pour le traitement des sélections multiples.

Page 28: 2014 11-18-luxid-for-open text-pn

Le Connecteur – Interface utilisateur

L’appel à l’enrichissement sémantique peut s’effectuer automatiquement. Dans l’exemple ci-dessus chaque fois qu’un document sera ajouté dans ce dossier ou un sous-dossier, il sera traité et enrichi automatiquement en utilisant le processeur d’analyse « Entities ».

Page 29: 2014 11-18-luxid-for-open text-pn

Le témoignage de l’OCDE

Page 30: 2014 11-18-luxid-for-open text-pn

PROJET D’ENRICHISSEMENT

SÉMANTIQUE À L’OCDE

Intégration Open Text Content Server - Luxid

Page 31: 2014 11-18-luxid-for-open text-pn

• Système de Records Management de notre unité Bibliothèque et Archives depuis 2009

• Catalogue de publications OCDE et de ressources externes

• 2 500 000 documents électroniques

• Sur la période 2000-2014:

+ de 150 000 documents officiels

+ de 15 000 publications

+ de 3 000 000 de pages

Utilisation de Content Server à l’OCDE

Page 32: 2014 11-18-luxid-for-open text-pn

Amélioration de la recherche standard de Content Server par:

• Des métadonnées homogènes

• Un identifiant unique pour chaque concept permettant:

de chercher dans toutes les langues simultanément

de retrouver un concept malgré l’utilisation de synonymes et l’évolution du langage

Retrouver l’information dans Content Server avec

Luxid

Page 33: 2014 11-18-luxid-for-open text-pn

• Définition de lots de documents à enrichir grâce à des LiveReport (requêtes sql) avec un certain plan d’annotation

• Processus automatique et transparent

• Résultats stockés en XML pour une recherche par URI

• Amélioration de la recherche, résultats plus pertinents, plus complets

Le connecteur développé par Red Tree Software

Page 34: 2014 11-18-luxid-for-open text-pn

Phase I Phase II Phase III

Mise en œuvre – Phase I

Fin 2013 Fin 2014

Page 35: 2014 11-18-luxid-for-open text-pn

Phase I Phase II Phase III

Mise en œuvre – Phase II

Fin 2013 Fin 2014

Page 36: 2014 11-18-luxid-for-open text-pn

Phase I Phase II Phase III

Mise en œuvre – Phase III

Fin 2013 Fin 2014

Page 37: 2014 11-18-luxid-for-open text-pn

Développement des cartouches

(AWB)

Gestion des vocabulaires

LUXID

Content Server

Architecture

Enrichissement de Content ServerEnrichissement des vocabulaires

Page 38: 2014 11-18-luxid-for-open text-pn

Questions - Contacts

Par mail : [email protected] [email protected] [email protected]

Par téléphone : +33 686 841 233 Linkedin : fr.linkedin.com/in/jmtouzard/ Viadeo : http://www.viadeo.com/fr/profile/jean-marc.touzard

Page 39: 2014 11-18-luxid-for-open text-pn

MERCI