Dans le précédent numéro, nous avons abordé la recherche spécifique d’images sur Internet.
Dans cet épisode 4, toujours consacré aux moteurs de recherche web, nous vous dévoilons les dessous de vos résultats de recherche.
Vous êtes-vous déjà demandé… comment sont sélectionnés les résultats de vos recherches ?
Questionner un moteur de recherche, voilà une pratique quotidienne élémentaire. Quelques mots rédigés dans une barre de recherche simple, une seconde d’attente, et vous voici face… à une page de résultats.
Mais qu’avez-vous vraiment sous les yeux ? Commençons par une petite définition :
« La page de résultats […] est une page web qu’un moteur de recherche génère automatiquement en fonction de mots-clés saisis par un internaute, et qui consiste en un ensemble de liens pointant vers les ressources qu’il considère, parmi toutes celles qu’il indexe, comme pertinentes pour cette requête au regard de son système de classement intrinsèque. » (source : Wikipédia. (2021). Page de résultat d’un moteur de recherche.)
Pour bien comprendre comment nous parviennent les résultats d’une recherche, nous vous proposons une petite plongée dans les rouages internes des moteurs de recherche :
1. L’exploration du web
Des « crawlers » (robots d’indexation) balayent régulièrement les sites Internet et ressources numériques. Pour ce faire, ils sautent de liens en liens pour parcourir et enregistrer l’ensemble des pages web qu’ils trouvent. Cette exploration est un perpétuel recommencement, afin d’identifier et de récupérer les milliers de nouvelles pages et contenus ajoutés quotidiennement sur Internet.
ASTUCE : Erreur 404.
Cette récupération systématique du web permet parfois d’utiliser une astuce, lorsqu’un code « Erreur 404 » apparaît sur une page (indiquant qu’aucune une page web n’a été trouvée à l’adresse demandée).
Testez de revenir en arrière, sur la page de résultat, cliquez sur le petit triangle en bout de la ligne, puis sur « en cache ».
Ceci vous permettra parfois de ré-afficher la page telle qu’elle avait été indexée, à un instant T, par le moteur de recherche.
2. L’indexation du web
Chaque mot, de chaque page parcourue, est systématiquement analysé et indexé dans de gigantesques bases de données (assimilables à des index terminologiques), qui identifient des mots « vides » et des mots « significatifs ».
Les mots « vides » sont les mots tellement nombreux dans nos textes qu’ils perdent leur sens comme les articles (le, la, les) par exemple. Ces quantités phénoménales de données sont stockées dans des datacenters, qui constituent le socle du fonctionnement des moteurs de recherche.
3. Derrière les résultats : l’algorithme
Ce sont des algorithmes qui vont sélectionner les pages qui vous seront présentées en résultat d’une requête. Il s’agit de la formule secrète de chaque moteur de recherche, qui va déterminer les réponses affichées.
De nombreux facteurs sont pris en compte (plus de 200 chez Google), comme le nombre de liens qui pointent vers la page (sa « réputation ») ; le nombre d’occurrence du terme que vous recherchez dans la page ; la proximité des différents termes recherchés dans une même page ; la présence de ces termes dans le titre de la page ou dans l’adresse du site…
Référencer son site : les nouveaux métiers autour des algorithmes.
L’optimisation pour les moteurs de recherche, ou SEO (pour Search Engine Optimization), décrit l’ensemble des techniques qui visent à améliorer le positionnement d’une page web dans les résultats d’un moteur de recherche. Analyser certains algorithmes afin d’aider au référencement naturel des sites est devenu un vrai enjeu ! (exemple : site de WebRankInfo)
Ce que vous n'y trouverez pas
A l’inverse, un site ou certaines pages peuvent être paramétrées pour ne pas être indexées par les robots, et donc pas référencées (ces pages non indexées peuvent être visibles en ajoutant /robots.txt à la racine de son site) : seule une personne disposant du lien, ou utilisant un moteur de recherche spécialisé, pourra y accéder.
Nous avions également déjà abordé dans un précédent numéro (« [Allo la doc ? #6] Introduction aux moteurs de recherche web ») que les moteurs de recherche n’indexent qu’une infime partie du web, le web visible (pour autant déjà très conséquente !).
Pour résumer !
Si recherchez l’adresse du réparateur vélo le plus proche de chez vous, une recherche dans le premier moteur venu fera l’affaire ; en revanche, pour effectuer une recherche plus complexe, rappelez-vous :
- de varier les moteurs de recherche que vous utilisez (les différents algorithmes vous donneront souvent des résultats complémentaires !)
- de ne pas vous contenter de lire la première page de résultats (vous pourriez trouver un petit blog en page 7, moins bien référencé mais tout aussi pertinent !)