5 choses que vous ne saviez pas sur Google Bot - ūüŹÜ Serveur g√©r√©
12 juillet 2022

5 choses que vous ne saviez pas sur Google Bot

Googlebot doit explorer votre site Web avant que les utilisateurs ne le voient dans les résultats de recherche. Bien qu'il s'agisse d'une étape essentielle, elle ne reçoit pas la même attention que de nombreux autres sujets. Je pense que c'est en partie parce que Google ne partage pas beaucoup d'informations sur la manière exacte dont Googlebot parcourt le Web.

Bannière GoogleBot

Voyant que beaucoup de nos clients ont du mal à explorer et à indexer correctement leurs sites Web, nous avons parcouru la documentation de Google sur l'exploration, le rendu et l'indexation afin de mieux comprendre l'ensemble du processus.

Certains de nos résultats étaient extrêmement surprenants, tandis que d'autres ont confirmé nos théories précédentes.

Voici 5 choses que j'ai apprises que vous ne savez peut-être pas sur le fonctionnement de Googlebot.

1. Googlebot ignore certaines URL

Googlebot ne visitera pas toutes les URL trouv√©es sur le Web. Plus un site Web est grand, plus il risque que certaines de ses URL ne soient pas explor√©es et index√©es.

Pourquoi Googlebot ne se contente-t-il pas de visiter toutes les URL qu'il peut trouver sur le Web ? Il y a deux raisons √† cela :

  1. Google a des ressources limitées. Il y a beaucoup de spam sur le Web, Google doit donc développer des mécanismes pour éviter de visiter des pages de mauvaise qualité. Google donne la priorité à l'exploration des pages les plus importantes.
  2. Googlebot est conçu pour être un bon citoyen du Web. Limitez l'analyse pour éviter le plantage du serveur.

Le mécanisme de choix des URL à visiter est décrit dans le brevet de Google "Méthode et appareil pour gérer un arriéré d'analyses d'URL en attente"

"L'analyse d'URL en attente est rejet√©e par le backlog si la priorit√© de l'analyse d'URL en attente ne d√©passe pas le seuil de priorit√© ¬Ľ

"Diff√©rents crit√®res sont appliqu√©s aux analyses d'URL demand√©es, afin que les analyses d'URL moins importantes soient rejet√©es √† l'avance par la structure de donn√©es du backlog.  ¬Ľ

Ces citations suggèrent que Google attribue une priorité de crawl à chaque URL et peut refuser d'explorer certaines URL qui ne répondent pas aux critères de priorité.

La priorit√© attribu√©e aux URL est d√©termin√©e par deux facteurs :

  1. La popularité d'une URL,
  2. Importance d'explorer une URL donnée pour garder l'index Google à jour.

"La priorit√© peut √™tre plus √©lev√©e en fonction de la popularit√© du contenu ou adresse IP / nom de domaine e l'importance de conserver la fra√ģcheur contenu changeant rapidement, comme les derni√®res nouvelles. √Čtant donn√© que la capacit√© d'analyse est une ressource rare, la capacit√© d'analyse est pr√©serv√©e avec des scores de priorit√©" .

Qu'est-ce qui rend une URL populaire ? Le brevet Google" Minimisez la visibilit√© du contenu obsol√®te dans la recherche sur le Web, notamment en examinant les intervalles d'analyse des documents Web ‚ÄĚD√©finit la popularit√© des URL comme une combinaison de deux facteurs : le taux de vue et le PageRank.

PageRank est √©galement mentionn√© dans ce contexte dans d'autres brevets, tels que Planificateur pour le robot d'exploration des moteurs de recherche .

Mais il y a encore une chose que vous devez savoir. Lorsque votre serveur répond lentement, le seuil de priorité que vos URL doivent respecter augmente.

"Le seuil de priorit√© est ajust√©, sur la base d'une estimation de probabilit√© mise √† jour de satisfaire les analyses d'URL demand√©es. Cette estimation de probabilit√© est bas√©e sur la fraction estim√©e des analyses d'URL demand√©es qui peuvent √™tre satisfaites. La fraction d'analyses d'URL demand√©es qui peuvent √™tre satisfaites a pour num√©rateur l'intervalle moyen des demandes ou la diff√©rence d'heure d'arriv√©e entre les demandes d'exploration d'URL. ¬Ľ

Pour résumer, Googlebot peut ignorer l'exploration de certaines de vos URL si elles n'atteignent pas un seuil de priorité basé sur le PageRank de l'URL et le nombre de vues qu'elle obtient.

Cela a de fortes implications pour tout grand site Web.

Si une page n'est pas explor√©e, elle ne sera pas index√©e et n'appara√ģtra pas dans les r√©sultats de recherche.

À faire:

  1. Assurez-vous que votre serveur et votre site Web sont rapides.
  2. Vérifiez les journaux de votre serveur. Ils vous fournissent des informations précieuses sur les pages de votre site Web qui sont explorées par Google.

 

2. Google divise les pages en niveaux pour les réexplorer

Google veut que les résultats de recherche soient aussi frais et à jour que possible. Cela n'est possible que lorsqu'un mécanisme est en place pour réanalyser le contenu déjà indexé.

Dans le brevet " Minimiser la visibilit√© du contenu obsol√®te dans la recherche Web ¬ę J'ai trouv√© des informations sur la fa√ßon dont ce m√©canisme est structur√©.

Google est en divisant les pages en niveaux dans en fonction de la fr√©quence √† laquelle l'algorithme d√©cide qu'ils doivent √™tre r√©p√©t√©s.

"Dans un mode de r√©alisation, les documents sont partitionn√©s √† plusieurs niveaux, chaque niveau comprenant une pluralit√© de documents partageant des plages de balayage Web similaires. ¬Ľ

Par conséquent, si vos pages ne sont pas numérisées aussi souvent que vous le souhaitez, elles se trouvent probablement dans une couche de document avec un intervalle de numérisation plus long.

Cependant, ne désespérez pas ! Vos pages n'ont pas besoin de rester indéfiniment dans ce calque - elles peuvent être déplacées.

Chaque fois qu'une page est explorée, c'est l'occasion pour vous de prouver qu'elle vaut la peine d'être explorée à nouveau plus fréquemment à l'avenir.

"Après chaque numérisation, le moteur de recherche réévalue la plage de numérisation Web d'un document et détermine si le document doit être déplacé du calque actuel vers un autre calque." .

Il est clair que si Google constate qu'une page change fréquemment, elle peut être déplacée vers un autre niveau. Mais il ne suffit pas de changer quelques éléments esthétiques mineurs : Google analyse à la fois la qualité et la quantité des modifications apportées à vos pages.

À faire:

  1. Utilisez les journaux de votre serveur et Google Search Console pour savoir si vos pages sont explorées assez souvent.
  2. Si vous souhaitez réduire l'intervalle de crawl de vos pages, améliorez régulièrement la qualité de votre contenu.

 

3. Google ne réindexe pas une page à chaque crawl

Selon le brevet Minimisez la visibilit√© du contenu obsol√®te dans la recherche sur le Web, notamment en examinant les intervalles d'analyse des documents Web , Google ne r√©indexe pas une page apr√®s chaque crawl.

"Si le document a consid√©rablement chang√© depuis la derni√®re analyse, le planificateur envoie un avertissement √† un indexeur de contenu (non illustr√©), qui remplace les entr√©es d'index pour la version pr√©c√©dente du document avec des entr√©es d'index pour la version actuelle du document. Ensuite, le planificateur calcule un nouvel intervalle d'analyse Web pour le document en fonction de son ancien intervalle et d'informations suppl√©mentaires, telles que l'importance du document (mesur√©e par un score, tel que le PageRank), le taux de rafra√ģchissement et/ou le pourcentage de clics. . Si le contenu du document n'a pas chang√© ou si les modifications apport√©es au contenu ne sont pas critiques, il n'est pas n√©cessaire de r√©indexer le document. "

Je l'ai vu plusieurs fois dans la nature.

De plus, j'ai fait quelques expériences sur des pages existantes sur Onely.com. J'ai remarqué que si je ne modifiais qu'une partie intelligente du contenu, Google ne le réindexait pas.

 

À faire:

Si vous avez un site Web d'actualit√©s et que vous mettez fr√©quemment √† jour vos publications, v√©rifiez si Google le r√©indexe assez rapidement. Si ce n'est pas le cas, vous pouvez √™tre assur√© que Google Actualit√©s rec√®le un potentiel inexploit√© pour vous.

 

4. Taux de clics et lien interne

Dans la citation pr√©c√©dente, avez-vous remarqu√© comment le taux de clics √©tait mentionn√© ?

"Ensuite, le planificateur calcule un nouvel intervalle d'analyse Web pour le document en fonction de son ancien intervalle et d'informations suppl√©mentaires, telles que l'importance du document (mesur√©e par un score, tel que le PageRank), le taux de rafra√ģchissement et/ou le taux de clics. ¬Ľ

Cette citation suggère que le taux de clics affecte le taux d'exploration d'une URL.

Imaginons que nous ayons deux URL. L'un est visité par les utilisateurs de Google 100 fois par mois, un autre est visité 10000 10000 fois par mois. Toutes choses étant égales par ailleurs, Google devrait revoir plus fréquemment celle qui compte XNUMX XNUMX visites par mois.

Selon le brevet, le PageRank en est √©galement un √©l√©ment important. C'est une raison de plus pour vous assurer que vous utilisez correctement les liens internes pour connecter les diff√©rentes parties de votre domaine.

 

À faire:

  • Google et les utilisateurs peuvent-ils acc√©der facilement aux sections les plus importantes de votre site ?
  • Est-il possible d'atteindre toutes les URL importantes ? Avoir toutes vos URL disponibles dans le sitemap peut ne pas suffire.

 

5. Tous les liens ne sont pas créés égaux

Nous venons d'expliquer comment, selon les brevets de Google, le PageRank affecte fortement le crawl.

La première implémentation de l'algorithme PageRank n'était pas sophistiquée, du moins à en juger par les normes actuelles. C'était relativement simple : si vous receviez un lien d'une page * importante *, vous seriez mieux classé que les autres pages.

Cependant, la première implémentation de PageRank a été publiée il y a plus de 20 ans. Google a beaucoup changé depuis.

J'ai trouv√© des brevets int√©ressants, comme je Classement des documents en fonction du comportement des utilisateurs et/ou des donn√©es de fonctionnalit√©s , qui montrent que Google est bien conscient que certains liens sur une page donn√©e sont plus importants que d'autres. De plus, Google pourrait traiter ces liens diff√©remment.

¬ę Ce mod√®le de navigation raisonnable refl√®te le fait que tous les liens associ√©s √† un document n'ont pas la m√™me probabilit√© d'√™tre suivis. Des exemples de liens improbables peuvent inclure des liens vers les "Conditions d'utilisation", des banni√®res publicitaires et des liens sans rapport avec le document. "

Google analyse donc les liens en fonction de leurs différentes caractéristiques. Par exemple, ils peuvent examiner la taille de la police et la position du lien.

¬Ľ Par exemple, l'unit√© de construction de mod√®le peut g√©n√©rer une r√®gle indiquant que des liens avec un texte d'ancrage sup√©rieur √† une taille de police donn√©e sont plus susceptibles d'√™tre s√©lectionn√©s que des liens avec un texte d'ancrage inf√©rieur √† la taille de police particuli√®re. Aussi, ou alternativement, la g√©n√©ration du mod√®le d'unit√© peut g√©n√©rer une r√®gle indiquant que les liens positionn√©s plus pr√®s du haut d'un document sont plus susceptibles d'√™tre s√©lectionn√©s que les liens positionn√©s vers le bas du document. "

Il semble même que Google puisse créer des règles pour évaluer les liens au niveau du site Web. Par exemple, Google peut voir que les liens dans "More Top News" sont cliqués plus fréquemment afin de leur donner plus de poids.

¬ę (‚Ķ) L'unit√© de construction du mod√®le peut g√©n√©rer une r√®gle indiquant qu'un lien plac√© sous la rubrique 'More Top Stories' sur le site cnn.com a une forte probabilit√© d'√™tre s√©lectionn√©. De plus, ou en variante, l'unit√© de construction de mod√®le peut g√©n√©rer une r√®gle indiquant qu'un lien associ√© √† une URL de destination qui contient le mot ¬ę domainpark ¬Ľ a une faible probabilit√© d'√™tre s√©lectionn√©. Aussi, ou alternativement, l'unit√© de g√©n√©ration de mod√®le peut g√©n√©rer une r√®gle indiquant qu'un lien associ√© √† un document source contenant une popup a une faible probabilit√© d'√™tre s√©lectionn√©.

En remarque, en conversation avec Barry Schwartz et Danny Sullivan en 2016 , Gary IIIoui a confirm√© que Google qualifie les liens de  pied de page ou pingouin.

"Fondamentalement, nous avons des tonnes d'√©tiquettes de liens ; par exemple, c'est un lien de pied de page, en pratique, qui a une valeur bien inf√©rieure √† un lien dans le contenu. Donc, une autre √©tiquette serait une √©tiquette Penguin en temps r√©el" .

R√©sumant les points cl√©s :

  • Google donne la priorit√© √† chaque page explor√©e
  • Plus le site Web est rapide, plus Google explore rapidement.
  • Google n'explorera pas et n'indexera pas toutes les URL. Seules les URL dont la priorit√© est sup√©rieure au seuil seront explor√©es.
  • Les liens sont trait√©s diff√©remment selon leurs caract√©ristiques et leur positionnement
  • Google ne r√©indexe pas une page apr√®s chaque exploration. Cela d√©pend de la gravit√© des modifications apport√©es.

En conclusion

Comme vous pouvez le constater, l'exploration est tout sauf un simple processus consistant à suivre tous les liens que Googlebot peut trouver. C'est vraiment compliqué et a un impact direct sur la visibilité de recherche de n'importe quel site Web. J'espère que cet article vous a aidé à comprendre un peu mieux l'exploration et que vous pourrez utiliser ces connaissances pour améliorer la façon dont Googlebot explore votre site Web et se classe mieux en conséquence et en quoi cela compte au-delà d'avoir un site avec une arborescence correcte et structure et un bon processus de création de liens internes et externes, il est plus que jamais indispensable de disposer d'hébergements et de serveurs rapides et performants afin de gérer au mieux le processus de crawling des Google Bots et donc de maximiser la rentabilité du budget de crawling.

Vous avez des doutes ? Vous ne savez pas par o√Ļ commencer ? Contactez-nous


Nous avons toutes les réponses à vos questions pour vous aider à faire le bon choix.

Discute avec nous

Discutez directement avec notre support avant-vente.

0256569681

Contactez-nous par téléphone pendant les heures de bureau 9h30 - 19h30

Contactez-nous en ligne

Ouvrez une demande directement dans l'espace contact.

INFORMATIONS

ManagedServer.it est le premier fournisseur italien de solutions d'hébergement hautes performances. Notre modèle d'abonnement est abordable et prévisible, afin que les clients puissent accéder à nos technologies d'hébergement fiables, à nos serveurs dédiés et au cloud. ManagedServer.it offre également d'excellents services d'assistance et de conseil sur l'hébergement des principaux CMS Open Source tels que WordPress, WooCommerce, Drupal, Prestashop, Magento.

JUSTE UN MOMENT !

Souhaitez-vous voir comment votre WooCommerce fonctionne sur nos syst√®mes sans avoir √† migrer quoi que ce soit ? 

Entrez l'adresse de votre site WooCommerce et vous obtiendrez une démonstration navigable, sans avoir à faire absolument quoi que ce soit et entièrement gratuite.

Non merci, mes clients préfèrent le site lent.
Retour en haut de page