Webinaire
#oncrawlwebinar
Les 10 tricks d'un utilisateur
avancé OnCrawl pour gagner
du temps
Par Erlé Alberton,
Customer Success Manager
Webinar
#oncrawlwebinar
J’adore quand un utilisateur accélère avec OnCrawl…
ERLE
ALBERTONCUSTOMER
SUcCESS manager10 ans de dev / 5 ans de SEO dont 2
ans en tant que responsable SEO des
boutiques en ligne Orange et Sosh
spécialiste schema.orgseo monk
ONCRAWL
TRAinER
customer climax & GOOD IDEAS
Webinar
#oncrawlwebinar
1. Du bon traitement du near duplicate
2. Ngrams et contenus similaires
3. La segmentation qui va bien
4. Maintien du test des anciennes urls
5. Les Customs Fields pivot de données du Data Layer
6. Faire du relevé de prix, verification - scraping
7. Les Quick Filters plus vite à l’essentiel
8. Tester le code en préprod
9. Préconfiguration des appels API
10.Checker mon dépôt de log
Les 10 tricks que nous allons étudier
Webinar
#oncrawlwebinar
Comment réagir face au graphique du Near Duplicate
3 couleurs pour 3 types de canonical
2 filtres quantitatifs pour 2 approches
Webinar
#oncrawlwebinar
Ne conserver que les clusters en erreur
Ajouter une canonical aux pages « not
set »
Distinguer les types de « not matching »
en jouant avec les filtres
Cliquer sur la légende « matching »
pour la soustraire au graph
Webinar
#oncrawlwebinar
Distinguer deux types de « not matching »
Les clusters de pages les moins proches
utilisent des mots en communs :
Elles peuvent se linker les unes aux
autres à l’intérieur de chaque cluster
Webinar
#oncrawlwebinar
Distinguer deux types de « not matching »
Les clusters de pages les plus proches
représentent les pages les plus similaires
Ajouter les canonical quand c’est justifié
(petits clusters – 2 pages)
Cliquer sur chaque cluster pour identifier les Ngrams en commun et savoir si c’est le layout et/ou le contenu
pauvre qui implique le Near Duplicate
Webinar
#oncrawlwebinar
Ngrams et contenus en Near Duplicate
Pour vérifier le contenu qui a été pris en compte pour le calcul du Near Duplicate :
Ajouter la colonne Ngrams à la liste des urls en du cluster
Au clic sur [Object] la liste de tous les
Ngrams qui ont été pris en compte dans
le calcul est affichée.
Détecter le contenu « bruit » de la page
et valider la prédominance d’un blocs
header/nav/footer et/ou le manque du
contenu unique
Webinar
#oncrawlwebinar
La segmentation qui va bien
• no index + not visited
• indexable + not hited
• not complient + visite
• denied by robots + not visited
• complient + hited + visited
• orphan + hited + not visited
• orphan + hited + visited
• orphan + not hited
Ségmentaiton disponible ici : http://textup.fr/206734bU
Utiliser l’outil d’édition du JSON
Webinar
#oncrawlwebinar
La segmentation qui va bien
La segmentation permet de vérifier les fréquences de
crawl ou le taux de pages actives sur ces ensembles
particuliers
Vérifier l’attrait qu’a Google ou les visiteurs pour des pages
bloquées, orphelines, « not complient »
Déterminer, s’il y a lieu, les changements des directives
d’indexation ou le maillage interne pour aller dans le
sens de Google et des utilisateurs
Vous gagnerez en visites SEO et en budget de crawl !
Webinar
#oncrawlwebinar
Maintien du test d’anciennes urls
Lors des refontes successives il est possible que
certaines règles de redirection soient oubliées et/ou
effacées avec le nouveau code
Créer un crawl récurrent de vérification des Urls grâce à
l’ajout de centaines / milliers de « start Urls » et une
profondeur max à 1
Vous pourrez suivre, crawl après crawl, l’état des status
code dans le data explorer (ou dashboard API)
Extraire les urls en erreur de la Google Search Console et appliquer le même principe pour
tester rapidement les status codes
Webinar
#oncrawlwebinar
Custom Field et extraction d’un Data Layer
Vous utilisez une catégorisation de vos types de pages liée à un DataLayer
Ce code particulier est très intéressant pour votre segmentation ou pour croiser les données d’OnCrawl
avec vos data externes
L’option “Custom Fields” disponible dans la configuration du crawl (sur demande) permet de “scraper” (ou
récupérer) n’importe quel élément du code source des pages grâce à une expression régulière “regex” ou
un requête XPath
Webinar
#oncrawlwebinar
Custom Field et extraction d’un Data Layer
L’option “Custom Fields” disponible dans la configuration du crawl (sur demande) permet de “scraper”
(ou récupérer) n’importe quel élément du code source des pages grâce à une expression régulière
“regex” ou un requête XPath
Webinar
#oncrawlwebinar
Extraction du code du DataLayer
Utiliser une “regex” : s.prop2=”([^"]+)” / Extract : Mono-value / Field Format : Value
Ces colonnes pivots de vos
données externes vs OnCrawl sont
ensuite disponibles dans le Data
Explorer et dans tous les exports
CSV
Webinar
#oncrawlwebinar
Faire du relevé de prix
Utiliser un “xpath” : copier/coller le Xpath l’analyseur de code de Chrome /
Extract : Mono-value / Field Format : Value
Webinar
#oncrawlwebinar
Tester la présence d’un tag
Utiliser une “regex” : ’_setAccount’, ‘UA-364863-11’ / Extract : Check if exist
Webinar
#oncrawlwebinar
Tester le code en phase de recette
Pour créer un crawler pour la préprod il suffit d’indiquer les données Htpasswd dans l’onglet
« HTTP authentification » lors de la configuration
En lançant des crawls successifs il est
possible de détecter les problèmes de
maillage interne, tag manquants,
duplication de contenu ou tout autre
Custom Field
Ces tests automatisés garantissent un passage en PROD sans surprises ni problèmes SEO
Webinar
#oncrawlwebinar
Tester le code en phase de recette
En lançant des crawls successifs il est
possible de détecter les problèmes de
maillage interne, tag manquants ou tout autre
Custom Field
Ces tests automatisés garantissent un passage en PROD sans surprises, ni problèmes SEO
Webinar
#oncrawlwebinar
Les Quick Filter pour gagner en rapidité
• 404 errors
• 5xx errors
• Active pages
• Active pages not crawled by Google
• Active pages with status code
encountered by Google different than
200
• Canonical not matching
• Canonical not set
• Indexable pages
• No indexable pages
• Orphan active pages
• Orphan pages
• Pages crawled by Google
• Pages crawled by Google and OnCrawl
• Pages in the structure not crawled by
• Pages pointing to 3xx errors
• Pages pointing to 4xx errors
• Pages pointing to 5xx errors
• Pages with bad h1
• Pages with bad h2
• Pages with bad metadesc
• Pages with bad title
• Pages with HTML duplication issues
• Pages with less than 10 inlinks
• Redirect 3xx
• Too Heavy Pages
• Too Slow Pages
Les QuickFilters se trouvent
dans le “Data Explorer”
Ils ont été créé pour vous faciliter
l'accès à certaines mesures SEO
importantes
Webinar
#oncrawlwebinar
Préconfiguration des appels API
Lorsque vous utilisez l’API d’OnCrawl vous pouvez
exécuter des requêtes très variées/complexes
Certains appels nécessitent un très grand nombre de
paramètres et il parfois compliqué de bien écrire l’OQL
(OnCrawl Query Language)
• lancer un data explorer
• créer son filtre en WISIWIG
• copier le paramètre OQL présent dans la queryString
Webinar
#oncrawlwebinar
Checker mon dépôt de logs
Le dépôt de log est généralement
automatisé, il arrive parfois que vos logs
changent de format, que l’automatisation
n’ait pas fonctionné ou d’autres erreurs
Le « log Manager Tool » est là pour vous
aider à comprendre et valider que tout est
OK
Dans la home d’un projet Advanced :
• Cliquer sur setting en haut à droite
• Choisir Log Manager Tool
• Parcourir et analyser les anomalies
Webinar
#oncrawlwebinar
Webinar
#oncrawlwebinar
Des questions ?