petit déj search foresight - comprendre la page importance
Embed Size (px)
TRANSCRIPT

Lille 16/11/17

Lille 16/11/17
J’adore que Google vous donne de l’importance…
ERLE
ALBERTONCUSTOMER
SUcCESS manager10 ans de dev / 5 ans de SEO dont 2
ans en tant que responsable SEO des
boutiques en ligne Orange et Sosh
spécialiste schema.orgseo monk
ONCRAWL
TRAinER
customer climax & GOOD IDEAS

Lille 16/11/17

www.oncrawl.comwww.oncrawl.com
We help Ecommerce & Online media take
better SEO decisions and grow their revenues
By providing access to the Most Advanced SEO Software
Semantic
SEO Crawler
Comprehensive
Log Analyser
API & Platform
to combined all
website’s data

Lille 16/11/17
+500 Happy Customers

Lille 16/11/17
Plan de vol
1. Comment fonctionne Google
2. Crawl Budget & Page Importance
3. Comment suivre les variations du crawl
4. Best practices d’optimisation

Lille 16/11/17
Comment fonctionne Google ?
Google est un moteur de réponse, son objectif est d’être le plus
pertinent, complet et à jour possible
Google n’est qu’un ensemble d’algorithmes qui sont exécutés sur
des machines consommant de l’énergie… cette consommation
d’énergie à un coût qui doit être optimisé

Lille 16/11/17
Google consomme annuellement
autant d’énergie que la ville de
San Francisco

Lille 16/11/17
• Google possède un index colossal, il ne peut pas tout crawler tout le temps
• Pour avoir la meilleure réponse il faut connaitre toutes les pages - découverte
• Pour avoir la meilleure réponse il faut la dernière version de la page - indexation
GOOGLE KEY INSIGHTS
Google n’est pas philanthrope,
il doit optimiser ses coûts de traitement…

Lille 16/11/17
Plus une page est utile pour la découverte
de nouvelles URLs ou est mise à jour plus
Google la visite
Plus une page est crawlée plus elle est à
jour dans l’index
Plus une page est à jour dans l’index plus
la réponse à la requête est qualifiée
Fréquence de Crawl et
Ranking sont liés

Lille 16/11/17
Crawl Budget
C’est le crédit que Google alloue
à l’ensemble de ses robots pour
parcourir les URLs d’un site web

Lille 16/11/17
Répartition des hits par bot (1 journée / granularité 10min) :Mediapartners-Google
Adsbot-Google desktop
Googlebot 2.1 desktop
Googlebot 2.1 mobile
Adsbot-Google Mobile
Le crawl budget est réparti entre tous les bots Google

Lille 16/11/17
Quelles sont les pages les plus « importantes » ?

Lille 16/11/17
Comment fonctionne
le crawl de Google?

Lille 16/11/17
Les brevets d’optimisation de crawl
• US 8666964 B1 : Managing items in crawl schedule
• US 8707312 B1 : Document reuse in a search engine crawler
• US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from websites
• US 7305610 B1 : Distributed crawling of hyperlinked documents
• US 8407204 B2 : Minimizing visibility of stale content in web searching including
revisine web crawl intervals of documents
• US 8386459 B1 : Scheduling a recrawl
• US 8042112 B1 : Scheduler for search engine crawler
www.google.com/patents

Lille 16/11/17
Schedulers : Définir une liste des urls à crawler pour la session de crawl
Crawlers : Vérifier quelles URLs sont autorisées au crawl
Chaque session de crawl commence par un hit sur le robots.txt, puis sur les
sitemaps.xml, enfin les crawlers dépilent la liste des URLs à analyser
Cette liste d’url, conçue à l’avance, est établie grâce à un algorithme qui classe
les pages en fonction d’un score d’importance
Optimiser la liste des URLs à crawler en connaissant les métriques
utilises pour le calcul de page importance
Comment fonctionne le crawl de Google
www.google.com/search/howsearchworks/crawling-indexing/

Lille 16/11/17
Page importance
C’est un score qui est affecté à chaque
page pour évaluer sa place dans la liste
des URLs à analyser
fr.oncrawl.com/2017/page-importance-google/

Lille 16/11/17
Calcul de la « Page Importance »
La notion de « Page Importance » n’est pas le Page Rank
• Localisation de la page dans le site – a profondeur sur le taux de crawl
• Page Rank : TF/CF de la page - Majestic
• Le Page Rank interne – InRank OnCrawl
• Type de document : PDF, HTML, TXT
• L’inclusion dans le sitemap.xml
• Le nombre de liens internes
• La variation des ancres
• Contenu de qualité : nombre de mots, peu de duplication
• L’importance de la page mère : les pages les plus près de la HP seront
favorisées
Il faut appliquer aux pages les plus importantes
toutes ces règles pour favoriser
le crawl de Google

Lille 16/11/17
Comment suivre
les variations du crawl ?
L’analyse des logs serveur et le croisement des données de crawl
permettent de comprendre :
Quels sont les facteurs déclencheurs du crawl de Google?

Lille 16/11/17
Traquer Google lors de sa visite avec les fichiers de los
A chaque fois qu’un visiteur passe sur une page il laisse des traces dans des fichiers de logs
Google est un visiteur (presque) comme un autre il laisse ses traces et nous les analysons

Lille 16/11/17
Best practices
Une bonne optimisation est une modification qui va
maximiser les valeurs prisent en compte dans le calcul de
la Page Importance

Lille 16/11/17
Logs Monitoring
• Visualiser le comportement des robots de crawl
• Détecter les catégories les + ou – bien misent en valeur
• Suivre précisément les visites seo

Lille 16/11/17
Logs MonitoringCrawl behavior
• Suivre les variations de crawls de Google sur chaque
segment du site
• Vérifier que toutes les pages importantes sont crawlées
• S’assurer que les pages non importantes ne consomment
pas le budget de crawl

Lille 16/11/17
Logs MonitoringSEO impact
• Vérifier que les visites SEO arrivent sur les pages
importantes
• Vérifier que toutes les pages importantes sont visitées
• S’assurer que les optimisations profitent au trafic SEO

Lille 16/11/17
Classer les pages
par importanceCréer des groupes en fonction des :
• BotHits/jour
• Visites SEO (logs/GS)
• De la profondeur dans le site
• Qualité technique (Status code, temps de
chargement, …)
• Nombre de liens entrants (internes/externes)
• Nombre de variantes des ancres
• Nombre de mots dans les pages
• Par ratio de Near Duplicate Content

Lille 16/11/17
+450 metrics
Page Groups
Trouver les métriques qui
comptent pour votre site !

Lille 16/11/17
HTML Quality
• Vérifier les Status code
retournés par le serveur durant le crawl
• Suivre les Load time
donne une information sur le temps de réponse serveur
TTFB et/ou TTLB

Lille 16/11/17
Distribution du
la popularité
• Vérifier que les pages importantes reçoivent beaucoup de
popularité : Inrank
• S’assurer que les pages importantes reçoivent les liens
les plus puissants
• Eviter les liens de toutes les pages vers toutes les
pages : Optimiser les Mega-menu et les footer

Lille 16/11/17
La popularité interne à un impact sur les visites

Lille 16/11/17
Content• Déterminer combien de mots il faut dans une page pour
maximiser le crawl budget ?

Lille 16/11/17
Il y a des seuils qu’il faut dépasser

Lille 16/11/17
Duplicate content
• Comprendre les problèmes techniques qui génèrent le
Duplicate Content
• Réduire le Near Duplicate Content
• Vérifier les balises canonicals
• Créer des contenus uniques

Lille 16/11/17
Vérifier les sitemaps
• Toutes les pages importantes sont elles dans les listées ?
• Pas de 40x, 50x ou 40x dans les sitemaps
• Vérifier les pages orphelines dans les sitemaps
Def : URLs dans le sitemap mais non maillée dans le site

Lille 16/11/17
PayloadAnalyser du temps de chargement
pour déterminer le temps maximum
de réponse du serveur

Lille 16/11/17
A Vous de Jouer !
Vous avez les clés pour comprendre quels
sont les métriques qui augmentent votre
Crawl Budget

Lille 16/11/17
Des questions ?