la sémantique au coeur de l'internet de demain - forums€¦ · nm netmarketing 2004 2/3...
TRANSCRIPT
NM Netmarketing 2004 2/3 décembre 2004 1
Nn Netmarketing 2004
La sémantique au coeur de l'internet de demain
outil de référencement, de KM et de pertinence pour les moteurs.
Philippe YONNET Webmaster-hub.com Directeur du Département internet
Moteur de recherche sur la formation
NM Netmarketing 2004 2/3 décembre 2004 2
webmaster-hub.com (Le HUB)
Une communauté de passionnés d'internet • Forum créé par Dan Hetzel en août 2003• 3600 membres, 56000 messages• Des outils, des publications, un annuaire
Le point de rencontre de nombreux experts :- en référencement et outils de recherche- en accessibilité et normes W3C- en programmation LAMP- en webmastering
NM Netmarketing 2004 2/3 décembre 2004 3
STUDYRAMA et CURSUS
Projet de moteur de recherche thématique
sur les formationsactuellement en version bêta
NM Netmarketing 2004 2/3 décembre 2004 4
La sémantique dans l'internet de demain
I : TOUR D'HORIZON
1. Quelques définitions et rappels (5)2. L'autre sémantique : le “web sémantique” (3)3. Pertinence des moteurs et apports de la sémantique (10)4. Utiliser la sémantique dans le référencement (3)5. Quelques exemples d'applications (10)
Vos questions
II : SEMANTIQUE ET LINGUISTIQUE DANS LA TECHNOLOGIE EXALEADpar François BOURDONCLE, PDG d'Exalead
Vos questions
NM Netmarketing 2004 2/3 décembre 2004 5
Définitions et rappels
SEMANTIQUELa sémantique est la science
qui étudie le "sens", la "signification"
LINGUISTIQUEAu sens large, la linguistique est l’étude du langage humain
SEMANTIQUE LINGUISTIQUELa sémantique linguistique est une "branche" de la
sémantique qui étudie en particulier le sens des mots d’une langue.
Il existe d’autres branches de la sémantique qui s’intéressent au sens des symboles par exemple.
Les faux amis : SEMIOTIQUE et SEMIOLOGIE
NM Netmarketing 2004 2/3 décembre 2004 6
Définitions et rappels
LEXIQUE et LEXEMESLes lexèmes correspondent à ce que nous appelons
"mots" dans le langage courant. L’ensemble des lexèmes forme le "lexique" d’une langue.
DICTIONNAIRESLes dictionnaires, en linguistique informatique, sont des
lexiques dans lesquels ont été ajoutés, pour chaque lexème, une "définition".
THESAURUSLe thesaurus est une forme particulière de dictionnaire, dans lequel chaque mot du lexique est associé avec ses
synonymes ou les mots ayant un sens proche. Des thesaurus plus évolués relient également les termes à
des catégories, des classifications, des thématiques.
NM Netmarketing 2004 2/3 décembre 2004 7
Définitions et rappels
TAXONOMIESLes taxonomies sont des "classifications" de termes et de concepts. Cette classification permet de regrouper des unités à classer (les "taxons") dans des catégories, de manière hiérarchique.
Il s’agit d’une forme très simplifiée d’ontologies, mais d’usage courant en linguistique pour ajouter de l’information à un lexique particulier (terminologies scientifiques ou jargons professionnel). La classification des espèces
est une taxonomie
NM Netmarketing 2004 2/3 décembre 2004 8
Définitions et rappels
ONTOLOGIESLes ontologies sont des bases de données particulières, dont la
structure permet de stocker à la fois des éléments (des termes, des entités, ou des concepts) et les relations entre ces éléments.
Ex : CIRCA utilise onze types de relations différentes entre les concepts
- synonymie (bateau/navire)/ antonymie (bien / mal)- similarité (analogie : syntagme différent, même champ sémantique, connotations différentes)- hyperonymie ("cheval" a une race "Arabe")- appartenance ("l’équipier" appartient à une "équipe")- métonymie (relation entre le tout et ses parties : la "maison" a un "toit")- substance (le "parquet" est en "bois")- production ("Microsoft Corporation" produit "Microsoft Access")- attribut ("passé" et "futur" sont des attributs de "temps")- causalité ("voyager" est la cause de "se déplacer")- succession (il faut "payer" après avoir "acheté")- liens connexes ("chien" et "collier" concepts proches mais non reliés par les autres relations)
NM Netmarketing 2004 2/3 décembre 2004 10
L'autre sémantique : le “Web Sémantique”
Un concept inventé par Tim Berners Lee
A la base des langages web de demain ?
Influence fortement le XHTML
Souvent décrit comme une utopie...
... mais une utopie vers lequel tout nous dirige
NM Netmarketing 2004 2/3 décembre 2004 11
L'autre sémantique : le “Web Sémantique”
Resource Description Framework (RDF)
{sujet,objet,prédicat}
La page index a pour titre BNFet pour auteur Jean Gagnon
Web Ontology Language (OWL)
Langage de description d'ontologies“dialecte” XML basé sur une syntaxe RDF
NM Netmarketing 2004 2/3 décembre 2004 12
L'autre sémantique : le “Web Sémantique”
Web Ontology Language (OWL)
Langage de description d'ontologies“dialecte” XML basé sur une syntaxe RDF
NM Netmarketing 2004 2/3 décembre 2004 13
Pertinence et apports de la sémantique
Rappel et précision
NM Netmarketing 2004 2/3 décembre 2004 14
Pertinence et apports de la sémantique
La recherche d'information bute sur des obstacles linguistiques et sémantiques
Graphie : fautes d'orthographe et de frappe
=> recherche phonétique et correcteur orthographique
Choix des stopwords : générateur d'erreurs
=> analyse syntaxique (grammaticale)
Variantes morphologiques : orthographes multiples déclinaisons (conjugaisons)
=> stemming, ou lemmatisation après analyse syntaxique
NM Netmarketing 2004 2/3 décembre 2004 15
Pertinence et apports de la sémantique
La recherche d'information bute sur des obstacles linguistiques et sémantiques
La polysémie : les mots ont plusieurs sens !
=> analyse syntaxique (grammaticale)
Les expressions composées
=> ontologies ou thesaurus travaillant sur des syntagmes. => Automate à états finis utilisant des n-grammes.
Les synonymies
=> expansion de requête, à l'aide de thésaurus et/ou d'ontologies
NM Netmarketing 2004 2/3 décembre 2004 16
Les algorithmes sémantiques et linguistiques
Trois grandes familles d'algorithmes
Modèle vectoriels
Modèles probabilistes
Plus expérimentaux Modèles logiques
Modèles basés sur l'IA et algorithmes génétiques
NM Netmarketing 2004 2/3 décembre 2004 17
Les algorithmes sémantiques et linguistiques
MODELES VECTORIELS
Repose sur les espaces vectoriels de Salton
tf : term frequencyidf : inverse document frequency
tf*idf : mesure de fréquence pondérée
Mesures de similarité utilisées :Dice, Jaccard, Cosinus, Coefficient de
recouvrement(nombreuses variantes)
NM Netmarketing 2004 2/3 décembre 2004 18
Les algorithmes sémantiques et linguistiques
MODELES PROBABILISTES
Déterminer la probabilité qu'un document soit pertinent sur une requête.
- nécessite des calculs complexes- demande de disposer d'infos importantes sur la “pertinence”- mais dans la pratique donne souvent de meilleurs résultats que le modèle vectoriel- repose sur des bases théoriques plus solides que le modèle vectoriel
Modèle utilisé par Applied Semantics (Google Adsense), combiné avec des calculs de similarité...
NM Netmarketing 2004 2/3 décembre 2004 19
Les algorithmes sémantiques et linguistiques
MODELES LOGIQUES
Un document est jugé pertinent sur une requête si son contenu sémantique “implique” logiquement celle ci.=> utilisation d'ontologies sophistiquées
MODELES UTILISANT L'INTELLIGENCE ARTIFICIELLE
programmes qu'il est possible d'”entrainer” et qui “apprenent” à résoudre les problèmes de désambiguation sémantique.
Réseaux de neurones Algorithmes bayésiens Algorithmes génétiques
NM Netmarketing 2004 2/3 décembre 2004 20
Utiliser la sémantique dans le référencement
SEMANTIQUE, LINGUISTIQUE
ET
REFERENCEMENT
NM Netmarketing 2004 2/3 décembre 2004 21
Utiliser la sémantique dans le référencement
Choisir ses mots clés avec des outils sémantiques
Les outils de suggestions de mots clés trouvent vite leurs limites-> outils “biaisés”-> outils limités (pas de résultats pour des requêtes rares)
SOLUTION
- Utiliser le moteur de recherche comme un corpus de texte- Tester les co-occurences de mots clés sur les pages de résultats pour trouver les termes voisins- Approche possible avec d'autres outils de mesures de similarité (Salton, Dice...)
NM Netmarketing 2004 2/3 décembre 2004 22
Utiliser la sémantique dans le référencement
Optimiser ses pages avec des outils sémantiques
Les outils de mesure de densité de mots clé ne servent à rien...
Le reverse engineering des moteurs* suppose plutôt des calculs de similarité, ou de co-occurrence.
SOLUTION
- aspirer les pages de ses concurrents sur les requêtes stratégiques- faire une analyse linguistique complète de leurs pages pour détecter leurs coefficients de similarité avec la requête, et comprendre pourquoi le moteur “préfère” certaines pages, toutes choses égales par ailleurs...
CETTE METHODE PERMET UN REFERENCEMENT ORGANIQUE PLUS FIN*(interdit)
NM Netmarketing 2004 2/3 décembre 2004 23
Utiliser la sémantique dans le référencement
Optimiser ses pages avec des outils sémantiques
Le “keyword stuffing” donne de mauvais résultats...
Comment “renforcer” le “poids” d'une page sur un thème donné, et augmenter ses chances de sortir sur un grand nombre de requêtes autour de la thématique ?
SOLUTION
- bâtir un corpus de textes sur la thématique en “aspirant” les pages web sur le ce thème- utiliser ce corpus pour bâtir un thésaurus de manière automatique (en s'aidant éventuellement d'une ontologie et d'outils linguistiques)- s'aider du thésaurus pour renforcer la “sémantique” de la page, ou créer un groupe de pages sur la thématique
LA GENERATION DE CONTENU AUTOMATIQUE EST POSSIBLE...
NM Netmarketing 2004 2/3 décembre 2004 24
La sémantique dans l'internet de demain
EXEMPLES
D'APPLICATION
NM Netmarketing 2004 2/3 décembre 2004 25
Exemples d'application : CLUSTERING
VIVISIMO
Le clustering est au coeur du programme Vivisimo.
Vivisimo est un métamoteur qui regroupe les résultats d'autres moteurs de recherche en “clusters”.
La version grand public de Vivisimo fonctionne grâce à une application de recherche client : “Clusty”.
http://www.vivisimo.com
NM Netmarketing 2004 2/3 décembre 2004 29
Exemples d'application : CLUSTERING
Mapstan (technologie SINEQUA)
NM Netmarketing 2004 2/3 décembre 2004 30
Exemples : Expansion de requête et clustering
Mooter
Requête : “jaguar”
Présentation des clusters pour affiner ou étendrela requête
NM Netmarketing 2004 2/3 décembre 2004 31
Exemples : Expansion de requête et clustering
Mooter
Requête : “jaguar”
Résultat après clic sur “car”
NM Netmarketing 2004 2/3 décembre 2004 32
Exemples : Expansion de requête et clustering
Mooter Requête : “jaguar”
Affichage des réponses
NM Netmarketing 2004 2/3 décembre 2004 33
Exemples : ontologies, taxonomies, thésaurus, clustering
TAP Ontologie et taxonomiesdéveloppées à l'Université de Stanford
NM Netmarketing 2004 2/3 décembre 2004 34
Exemples : ontologies, taxonomies, thésaurus, clustering
TAP TAP est une application exploitant le Web Sémantique
NM Netmarketing 2004 2/3 décembre 2004 35
Exemples : ontologies, taxonomies, thésaurus, clustering
TAP
TAP étendle champ d'applicationde la publicité contextuellesur des moteurs comme Google
NM Netmarketing 2004 2/3 décembre 2004 36
Exemples : ontologies et balisages sémantiques
SEMTAG Outil de balisage sémantique de Webfountain
(architecture d'OR d'IBM)
NM Netmarketing 2004 2/3 décembre 2004 37
Exemples : extractions des entités nommées
Webfountain (IBM)
Personne : Sam Palmisano-> PDG : Sam Palmisano
Noms propres
Endroits : Brussels-> Ville : Brussels (Bruxelles)Brussels (Bruxelles) est en Belgique=> Pays : BelgiqueLa belgique est en Europe=> Continent : Europe
=> Ce texte est pertinent comme réponse à la requête “PDG en Europe”
NM Netmarketing 2004 2/3 décembre 2004 38
Exemples : extractions des entités nommées
Webfountain (IBM)
NM Netmarketing 2004 2/3 décembre 2004 39
L'intervenant
Philippe YONNET
Directeur du Département Internet de STUDYRAMA
Chef de projet du moteur Cursus, le premier moteur de recherche sémantique
sur la formation.
Administrateur du forum Webmaster-Hub.com
contact : [email protected]
Retrouvez les articles de Philippe YONNET
sur la sémantique et les moteurs de recherche sur le Hub :http://www.webmaster-hub.com/publication/rubrique20.html