Mais pourquoi diable Google réduit sa fréquence d’exploration des pages Web, ou autrement dit, pourquoi Google réduit le Crawl ?

Le saviez-vous ? 

Il y a quelques années, des chercheurs ont qualifié Google de premier pollueur numérique.

Il serait nécessaire de planter 23 arbres toutes les secondes pour compenser la pollution des 3 millions de visiteurs que Google enregistre chaque minute.

Problème d'indexation Google et CO2

Et si Google décidait d’indexer moins de pages Web ?

Les spécialistes affirment que Google indexe à peine 2% du Web, car il évite un maximum de référencer du spam et d’autres contenus « peu utiles ». Les 98% restant, cela s’appelle le “Deep Web”.

Depuis peu, John Mueller (porte-parole Google Search) clame haut et fort que “La barre est plus haute aujourd’hui”, en termes de qualité, pour être référencé sur Google.

De plus, dans un webinaire récent (20 janvier 2022), les équipes de Google Search ont déclaré vouloir réduire leurs taux d’exploration, afin d’aider l’entreprise de Mountain View à atteindre son objectif Zéro Carbone d’ici 2030.

Neutre en carbone depuis 2007.Objectif zéro carbone d'ici 2030 (notamment en réduisant le crawl).

Les délais d’indexation Google ne viennent pas d’un bug…

Ils viennent d’une feature 🙂 Le nouveau Predictive Crawling.

Ce n'est pas un bug, c'est une feature

Et si Google avait décidé de ne plus indexer que 1% du Web et non 2% ?

Imaginez que cela soit avéré. En tant que référenceurs (SEO), il faudrait s’arranger pour mieux mettre en avant nos URLs, mieux soigner nos sites Web et créer des contenus encore plus exceptionnels.

Pour faire partie de ce petit nombre d’élus, la question qui vient naturellement est…

Comment (ré)optimiser son indexation Google ?

La réponse est longue et se trouve dans Le Nouveau Guide de l’Indexation Google publié sur le blog EasyHoster.

Cet article proposé sous forme de FAQ en 25 Questions, totalise 30.000 mots ! 😮

Mais rassurez-vous, nous vous en proposons ici un résumé plus court et plus rapide.

7 + 11 points à vérifier pour résoudre les problèmes d’indexation de façon naturelle et pérenne

Même si vous utilisez un de ces nouveaux outils* pour « forcer l’indexation » (on l’espère, pas sur votre site principal 😉), il convient d’abord d’optimiser ces 7 premiers points pour améliorer votre ratio d’indexation.

* En effet, de nombreux développeurs ont profité de ces nouveaux délais d’indexation pour lancer des outils & services en ligne permettant, par tous les moyens, de forcer l’indexation Google. Nous pouvons par exemple citer le plugin WordPress de Rank Math SEO, mais nous y reviendrons dans un prochain point ci-dessous.

1. Le maillage interne

Autrement dit, il s’agit des liens internes entre les pages et articles d’un même site.

Le guide EasyHoster nous enseigne qu’il est important de construire son maillage “comme un humain”. C’est-à-dire, en évitant les plugins de maillage automatique.

De plus, ces liens internes correctement construits devraient être utilisés pour Faire découvrir les nouvelles pages, en lieu et en place d’autres méthodes utilisées auparavant, comme La demande d’indexation via la Google Search Console.

2. Les Sitemaps, les Flux RSS et les pings

Maîtriser ses Plans de site XML, ainsi que ses Feeds, en y intégrant tous ses contenus (les Custom Post Types), c’est tout un art.

Sur son blog, EasyHoster va même jusqu’à partager un petit plugin permettant de libérer tous ses contenus dans les /feed/ WordPress, normalement destinés, uniquement aux articles. Le plugin WP Custom Post Type Feed d’EasyHoster permet d’y ajouter toutes ses pages de vente et tous ses autres autres contenus. Vous pourriez par exemple y faire apparaitre les œuvres de votre portfolio ou les fiches de vos biens immobiliers, si vous avez créé le site de votre agence immobilière avec WordPress.

Tout cela, avant, ne pouvait être intégré au /feed/ WordPress, mais c’est maintenant le cas, grâce au plugin EasyHoster.

Dans son guide de l’indexation Google, EasyHoster nous enseigne ensuite comment pinguer ces URLs et ces Sitemaps, pour bénéficier d’une indexation rapide sur Google.

3. La compatibilité mobile

Effectivement, aujourd’hui, le Web est majoritairement mobile.

Inutile donc d’essayer de résoudre vos problèmes d’indexation si vous n’utilisez pas les bons outils pour vérifier la compatibilité mobile de votre site.

4. Le Crawl Budget

En français, le “Budget de Crawl”, c’est la quantité officieuse de pages que Googlebot veut bien explorer chaque jour, sur votre site, en fonction de son importance aux yeux de Google.

Comme vous pouvez l’imaginer, si vous avez une fuite de budget (parce que vous laissez Googlebot explorer tout et n’importe quoi), ce précieux budget ne pourra être utilisé pour indexer vos meilleurs contenus.

5. Les critères de confiance (EAT)

Derrière cet acronyme (E.A.T.) se cachent 3 critères de référencement majeurs.

  • L’Expertise
  • L’Autorité
  • Le Trust (la confiance)

Google l’a admis officiellement en 2019, ces 3 leviers sont déterminants pour le positionnement des sites Internet dans son index. Ils leur permettent notamment de combattre la désinformation réalisée au travers des Fake News.

6. Les backlinks

C’est ce qu’on traduira en français par Liens externes (et non, Liens retour).

Depuis toujours, les liens et le PageRank (le Linkjuice) font partie des critères principaux permettant à Google de positionner correctement les contenus dans les résultats affichés sur son moteur de recherche.

Aujourd’hui, cela va plus loin qu’une histoire de PageRank ou de pertinence sémantique. On parle de plus en plus de Trust.

En 2022, pour positionner un site Web (et par voie de conséquence, pour faire indexer un site), il est de plus en plus indispensable d’obtenir (et conserver) un ou plusieurs liens Trustés, c’est-à-dire, issus de sources jugées comme étant De confiance, par Google.

Oubliez donc L’achat de liens bon marché pour bénéficier de ce Trust.

Les plateformes de “netlinking pas cher” servent plutôt à pousser artificiellement des sites de second ou de troisième niveau, comme ceux d’un réseau de sites satellite (PBN). Sauf que dans le contexte des Problèmes d’indexation Google actuels, ces techniques un peu spammy sont vouées à être qualifiées comme étant de moins en moins efficaces.

Lisez la conclusion ci-dessous pour le comprendre 😉

7. L’hébergement Web

John Mueller (ingénieur Google) l’a évoqué dans une vidéo postée sur la chaîne officielle Google Webmasters, l’hébergement Web et d’autres critères tels que l’ajout d’un CDN peuvent être déterminants pour l’indexation Google et plus particulièrement, pour la fréquence d’exploration.

De même, il est important de veiller à ne jamais bloquer Googlebot, au travers du Firewall de son Hébergeur Web. Sans oublier l’importance d’optimiser son site en vue d’obtenir un bon score sur PageSpeed Insights. N’oublions pas que les Core Web Vitals font maintenant partie intégrante de l’algorithme de positionnement des sites sur Google.

Et ce n'est pas fini, ne partez pas et découvrez la suite des conseils permettant de résoudre les problèmes d'indexation Google.

Ces quelques points d’optimisation n’étaient qu’une mise en bouche 😁

Vous allez comprendre…

Comment résoudre définitivement les problèmes d’indexation Google de façon naturelle ?

Pour cela, en plus des 7 leviers d’optimisation vus précédemment, il faut aussi comprendre 11 notions très importantes que nous allons résumer ci-dessous.

1. Le Crawl Prédictif (et sélectif)

Le Predictive Crawling est, en quelques sortes, un nouvel algorithme prédictif chargé d’effectuer un tri sélectif.

Concrètement aujourd’hui, pour économiser ses ressources serveur, lorsque Google découvre une nouvelle URL, il tente de deviner s’il est important (ou pas) d’Explorer et d’Indexer ce contenu.

2. Les causes qui ralentissent l’indexation

Elles peuvent être nombreuses et sont toutes détaillées dans le guide d’indexation Google publié sur le blog EasyHoster.

Par exemple, les contenus commerciaux et les noms de domaine incluant des mots clés (EMD) sont notamment plus à risque, entre autres critères.

3. La bonne fréquence de publication

Trouver un bon compromis entre proactivité et qualité, c’est l’assurance d’être exploré plus souvent par Googlebot, ainsi que plaire aux algorithmes de positionnement de Google.

4. La valeur minimale à intégrer dans chaque page

Bien sûr, ici, on ne parle pas d’un nombre de mots idéal par article.

Certaines pages sont pertinentes et se positionnent avec seulement quelques phrases, d’autres peuvent se positionner avec plusieurs dizaines de milliers de mots, comme le prouve le guide de 30.000 mots publié sur EasyHoster.

Détectée, actuellement non indexée

Actuellement, le Guide Indexation EasyHoster fait 30.000 mots et sur Google, il se positionne en toute première position sur sa requête « Détectée, actuellement non indexée ». Cela démontre que les articles de très longue taille peuvent également très bien se positionner sur Google.

Le principal, est donc de répondre à une intention, une question ou à un besoin donné, que cela soit de façon longue ou courte.

5. Le vrai rôle de la Search Console

La Console Google Search est avant tout un outil de communication, depuis Google, vers les Webmasters. Elle permet à Google de signaler et mettre en avant certains points et critères jugés problématiques sur un site Internet.

Au travers de cet outil, Google a la générosité de signaler aux Webmasters, les pages qu’il a découvertes, mais qu’il a décidé d’ignorer actuellement.

Grâce à ces rapports, les Webmasters ont donc toutes les cartes en main pour décider d’optimiser leur site, et leurs contenus, encore et encore, jusqu’à obtenir un bon taux d’indexation rapide.

6. Le Fresh vs Deep Crawl Bot

Cette notion semble peu connue de la sphère SEO francophone, pourtant, elle est déterminante pour comprendre les problèmes d’indexation Google.

Pour faire court, Googlebot fonctionne avec deux types de Crawl au niveau de la fréquence d’exploration.

Un robot est configuré pour explorer et indexer les contenus urgents (plusieurs fois par jour) ; l’autre s’occupe de faire un grand rafraîchissement de l’index de Google (une fois par mois environ).

Si votre site et vos contenus ne sont pas optimisés pour plaire au nouvel algorithme de Crawl Prédictif & Sélectif, vous risquez de devoir attendre plusieurs semaines avant de pouvoir (peut-être) admirer vos contenus depuis la SERP de Google.

7. Le fine-tuning de robots.txt

C’est un concept qui a été popularisé grâce au guide d’indexation d’EasyHoster.

Il a notamment été rappelé qu’utiliser l’opérateur « * » (astérisque) permet de créer des fichiers robots.txt très bien optimisés pour réduire sa consommation de Crawl Budget.

C’est une étape indispensable, notamment pour n’importe quel site WordPress, afin de maximiser son taux d’exploration, et donc, focaliser le Crawl sur ses meilleurs contenus.

8. Le tracking de Googlebot

La tâche n’est pas aisée via WordPress uniquement, par contre, comme l’explique EasyHoster dans son guide, cette tâche peut être réalisée facilement depuis votre Hébergement cPanel.

Tracking de Googlebot via cPanel sur Hébergement cPanel EasyHoster

Source : Guide Indexation Google EasyHoster

Vous découvrirez ainsi que, parfois, votre console Google Search indique qu’une page n’a jamais été visitée, et pourtant, vos logs serveur (présentés proprement dans cPanel), eux, indiquent le contraire… Googlebot a bien visité la page, mais n’a pas encore décidé de la référencer.

9. Le filtre des 4 pages

Comment faire indexer de tout nouveaux sites, ou un réseau de blogs privés (PBN) ?

Pour cela, il faut savoir envoyer quelques signaux positifs depuis l’intérieur et l’extérieur du site concerné, vers Google.

Il sera notamment nécessaire de travailler sur les critères de confiance (EAT).

Le détail est dans le guide 😉

10. Les résultats aléatoires sur Google

Pourquoi certains résultats disparaissent momentanément des SERPs ?

Pas d’inquiétude, il ne s’agit probablement pas d’un problème de qualité sur votre site, mais d’une question de cache et de synchronisation des datacenters de Google.

Vérifiez l’indexation de votre contenu via la Google Search Console et patientez 24 à 72 heures avant de vous inquiéter, ou entreprendre de nouveaux travaux sur votre site.

11. L’Indexing API de Google

Google propose une interface en ligne de commande permettant de lui signaler la publication d’Offres d’emploi, ou L’annonce d’un futur Streaming Live, mais cette API n’est pas faite pour tout le monde.

Détourner cette Indexing API pourrait représenter un risque et être qualifié de spam, tout comme le fait de donner le contrôle de son référencement à n’importe qui ou n’importe quel service en ligne, sans savoir les actions qui sont posées dans les coulisses.

Par exemple, on entend parler de services d’indexation qui créent momentanément des liens vers vos contenus, depuis des sites Trustés, afin d’obtenir rapidement une indexation Google, et immédiatement après, ils retirent le lien pour intégrer celui du client suivant.

Cette technique d’indexation pose plusieurs problèmes…

  1. Les liens réalisés temporairement sont faits depuis des sites dont la thématique n’a rien à voir avec le contenu ciblé (parfois même dans une autre langue).
  2. Se faire retirer un lien est un mauvais signal pour Google (pourquoi a-t-il perdu un backlink ?), surtout qu’il s’agit du lien ayant fait découvrir la page à Google.

Indexation Google, résumé des 7 + 11 conseils

Résumons rapidement les conseils donnés ici.

Tout d’abord, pour résoudre les problèmes d’indexation, il est important de veiller à optimiser ces 7 points.

  1. Le maillage interne
  2. Les Sitemaps, les Flux RSS et les pings
  3. La compatibilité mobile
  4. Le Crawl Budget
  5. Les critères de confiance (EAT)
  6. Les backlinks
  7. L’hébergement Web

Ensuite, pour bien appréhender son indexation Google, il convient de comprendre ces 11 notions importantes.

  1. Le Crawl Prédictif (et sélectif)
  2. Les causes qui ralentissent l’indexation
  3. La bonne fréquence de publication
  4. La valeur minimale à intégrer dans chaque page
  5. Le vrai rôle de la Search Console
  6. Le Fresh vs Deep Crawl Bot
  7. Le fine-tuning de robots.txt
  8. Le tracking de Googlebot
  9. Le filtre des 4 pages
  10. Les résultats aléatoires sur Google
  11. L’Indexing API de Google

Alors, finalement, ces délais d’indexation Google, est-ce un bug ?

Laissons répondre John Mueller une dernière fois, avec ce tweet que j’ai pris le temps de vous traduire.

Apparemment, Google est au courant et assume son nouveau mode de fonctionnement 🙂

Bien sûr, libre à vous de croire, ou pas, le porte-parole de Google, ou d’attendre la résolution d’un bug dont la rumeur a été imaginée et diffusée par certains référenceurs ici et là, et ce, depuis déjà fin-2020 ! (ça commence à faire long, pour un bug 😉)

Conclusion sur l’indexation Google

Finalement, le plus important est de comprendre et d’accepter que…

« Google a rebattu les cartes ! »

Les règles du SEO viennent de changer comme jamais auparavant et cela représente une merveilleuse opportunité, pour ceux qui voudront bien s’adapter !

Il est faux de dire que ce sont les petits sites et les jeunes webmasters qui seront lésés au profit des anciens éditeurs de sites (seniors), qui eux bénéficient d’un réseau avec de l’indexation instantanée.

Non.

Les éditeurs seniors qui trainent un réseau de plus de 500 sites satellites doivent être bien embêtés par ces récentes mises à jour, car il est quasiment impossible de mettre à niveau autant d’anciens sites et d’anciens contenus, pour se conformer aux stricts nouveaux standards de Google. De plus, les vieilles habitudes ont la vie dure et il est difficile de changer de techniques, lorsqu’on les a pratiquées pendant des années avec succès.

À l’inverse, un jeune éditeur qui soigne son contenu et qui travaille dur pour fournir La meilleure réponse aux questions posées sur un sujet donné, lui, pourrait bien tirer son épingle hors du jeu et se faire une place au soleil sur Google.

Comment tirer profit de ces problèmes d’indexation Google ?

Non pas en créant un service en ligne destiné à spammer Google encore un peu plus fort avec de multiples backlinks de faible qualité, ou des techniques borderline pour faire indexer de mauvais contenus au forcing.

Le mieux que vous puissiez faire est d’adapter rapidement vos stratégies, autant au niveau du Content Marketing, que du Netlinking (focalisé sur le Trust), que du Mindset !

Autrement dit, il va être nécessaire de monter d’un cran sur l’échelle de la qualité, et réduire légèrement la taille du réseau de sites que vous ambitionniez de créer.

Tout est là :

Ces points 7 + 11 points sont abordés en détail dans le nouveau Guide de l’Indexation Google d’EasyHoster.

Il s’agit d’une belle checklist, sous forme de FAQ en 25 Questions Réponses et c’est à découvrir ici :

https://www.easyhoster.com/probleme-indexation/

Indexation Google : “Détectée, actuellement non indexée”, comment éviter le problème ?

Voilà ! Je voulais revenir une dernière fois sur cette question de l’Indexation Google, car je vois tous les jours des articles relayer des bêtises du genre : « C’est un bug d’indexation que Google doit corriger » ou « Le moteur Bing arrive mieux à gérer la taille du Web »

Et je pense que se braquer en s’obstinant à véhiculer de telles affirmations, sans accepter les nouveaux standards de Google, cela n’aide pas à avancer sur la question de l’indexation Google.

Donc, si vous aussi, vous en avez marre d’entendre n’importe quoi sur un soi-disant « bug d’indexation Google » 😓 et si vous pensez que cet article va vous aider (vous ou vos proches) à avancer concrètement sur du pérenne pour (ré)optimiser votre SEO, n’hésitez pas à le partager ou à retweeter ce thread sur Twitter. Cela serait très apprécié, merci !

Vous pouvez également déposer un commentaire ci-dessous pour donner votre avis, même si vous n’êtes pas d’accord avec cette approche de SEO White Hat.