- 19 décembre : Clarification supplémentaire sur la façon dont Google gère les sites avec une forte proportion d’images explicites non consensuelles dans nos politiques de spam et notre guide des systèmes de classement.
Un guide des systèmes de classement de Google
Google utilise des systèmes de classement automatisés qui prennent en compte de nombreux facteurs et signaux concernant des centaines de milliards de pages web et d’autres contenus dans notre index de recherche pour présenter les résultats les plus pertinents et utiles, le tout en une fraction de seconde.
Nous améliorons régulièrement ces systèmes grâce à des tests et évaluations rigoureux et nous informons des mises à jour de nos systèmes de classement lorsque cela peut être utile pour les créateurs de contenu et d’autres.
Cette page est un guide pour comprendre certains de nos systèmes de classement les plus notables. Elle couvre certains systèmes qui font partie de nos systèmes de classement fondamentaux, qui sont les technologies sous-jacentes qui produisent les résultats de recherche en réponse aux requêtes. Elle couvre également certains systèmes impliqués dans des besoins de classement spécifiques.
Vous pouvez également visiter notre site Comment fonctionne la recherche pour comprendre comment nos systèmes de classement, combinés à d’autres processus, fonctionnent ensemble pour que Google Search réalise sa mission d’organiser l’information mondiale et de la rendre universellement accessible et utile.
BERT
Les représentations d’encodeurs bidirectionnels à partir de transformateurs (BERT) est un système d’IA que Google utilise pour nous permettre de comprendre comment les combinaisons de mots expriment des significations et des intentions différentes.
Systèmes d’information de crise
Google a développé des systèmes pour fournir des informations utiles et opportunes lors de situations de crise, qu’il s’agisse de crises personnelles, de catastrophes naturelles ou d’autres situations de crise à grande échelle :
Crise personnelle : Nos systèmes s’efforcent de comprendre quand les gens recherchent des informations sur des situations de crise personnelle afin d’afficher des lignes d’assistance et des contenus provenant d’organisations de confiance pour certaines requêtes liées au suicide, aux agressions sexuelles, à l’ingestion de poison, à la violence basée sur le genre ou à la dépendance aux drogues. En savoir plus sur la façon dont les informations sur les crises personnelles sont affichées dans Google Search. Alertes SOS : En période de catastrophes naturelles ou de crises à grande échelle, notre système d’Alertes SOS s’efforce de montrer des mises à jour provenant des autorités locales, nationales ou internationales. Ces mises à jour peuvent inclure des numéros de téléphone et des sites web d’urgence, des cartes, des traductions de phrases utiles, des opportunités de dons, et plus encore. En savoir plus sur le fonctionnement des Alertes SOS et comment elles font partie des alertes de crise de Google qui aident en cas d’inondations, d’incendies de forêt, de tremblements de terre, d’ouragans et d’autres catastrophes. Systèmes de dé-duplication
Les recherches sur Google peuvent trouver des milliers, voire des millions, de pages web correspondantes. Certaines d’entre elles peuvent être très similaires les unes aux autres. Dans de tels cas, nos systèmes affichent uniquement les résultats les plus pertinents pour éviter une duplication inutile. En savoir plus sur le fonctionnement de la dé-duplication et comment voir les résultats omis si désiré, lorsque la dé-duplication se produit.
La dé-duplication se produit également avec les extraits enrichis. Si une liste de page web est élevée au statut d’extrait enrichi, nous ne répétons pas la liste plus tard sur la première page des résultats. Cela permet de désencombrer les résultats et aide les utilisateurs à localiser plus facilement des informations pertinentes.
Système de nom de domaine exact
Nos systèmes de classement prennent en compte les mots dans les noms de domaine comme l’un des nombreux facteurs pour déterminer si le contenu est pertinent pour une recherche. Cependant, notre système de nom de domaine exact veille à ce que nous ne donnions pas trop de crédit au contenu hébergé sous des domaines conçus pour correspondre exactement à des requêtes particulières. Par exemple, quelqu’un pourrait créer un nom de domaine contenant les mots « meilleurs-endroits-pour-manger-le-déjeuner » dans l’espoir que tous ces mots dans le nom de domaine propulsent le contenu en haut des classements. Notre système ajuste cela.
Systèmes de fraîcheur
Nous avons divers systèmes de « la requête mérite de la fraîcheur » conçus pour montrer un contenu plus récent pour les requêtes où cela est attendu. Par exemple, si quelqu’un recherche un film qui vient d’être sorti, il voudra probablement des critiques récentes plutôt que d’anciens articles datant du début de la production. Pour un autre exemple, une recherche ordinaire sur « tremblement de terre » pourrait renvoyer des documents sur la préparation et les ressources. Cependant, si un tremblement de terre s’est produit récemment, des articles de nouvelles et du contenu plus frais pourraient apparaître.
Système de contenu utile
Notre système de contenu utile est conçu pour garantir que les gens voient du contenu original et utile écrit par des personnes, pour des personnes, dans les résultats de recherche, plutôt que du contenu créé principalement pour obtenir du trafic via les moteurs de recherche.
Systèmes d’analyse de liens et PageRank
Nous avons divers systèmes qui comprennent comment les pages se lient les unes aux autres comme moyen de déterminer de quoi parlent les pages et lesquelles pourraient être les plus utiles en réponse à une requête. Parmi ceux-ci se trouve PageRank, l’un de nos systèmes de classement fondamentaux utilisés lors du lancement initial de Google. Les curieux peuvent en savoir plus en lisant le document de recherche original sur PageRank et le brevet. La manière dont PageRank fonctionne a beaucoup évolué depuis, et il continue de faire partie de nos systèmes de classement fondamentaux.
Systèmes de nouvelles locales
Nous avons des systèmes qui s’efforcent d’identifier et de faire ressortir des sources locales d’informations, chaque fois que cela est pertinent, comme à travers nos fonctionnalités « Meilleures histoires » et « Actualités locales ».
MUM
Le modèle unifié multitâche (MUM) est un système d’IA capable de comprendre et de générer du langage. Il n’est pas actuellement utilisé pour le classement général dans la recherche, mais plutôt pour certaines applications spécifiques, comme améliorer les recherches d’informations sur le vaccin COVID-19 et améliorer les extraits enrichis que nous affichons.
Correspondance neuronale
La correspondance neuronale est un système d’IA que Google utilise pour comprendre les représentations des concepts dans les requêtes et les pages et les associer.
Systèmes de contenu original
Nous avons des systèmes pour aider à garantir que nous montrons du contenu original de manière proéminente dans les résultats de recherche, y compris des reportages originaux, en avance sur ceux qui ne font que le citer. Cela inclut le soutien d’un balisage canonique spécial que les créateurs peuvent utiliser pour nous aider à mieux comprendre quelle est la page principale si une page a été dupliquée à plusieurs endroits.
Systèmes de dépréciation basés sur les suppressions
Google a des politiques qui permettent la suppression de certains types de contenu. Si nous traitons un volume élevé de telles suppressions impliquant un site particulier, nous utilisons cela comme un signal pour améliorer nos résultats. En particulier :
Suppressions légales : Lorsque nous recevons un volume élevé de demandes de suppression valides de droits d’auteur impliquant un site donné, nous pouvons utiliser cela pour déprécier d’autres contenus du site dans nos résultats. De cette façon, s’il y a d’autres contenus contrefaisants, les gens sont moins susceptibles de les rencontrer par rapport au contenu original. Nous appliquons des signaux de dépréciation similaires aux plaintes impliquant la diffamation, les contrefaçons et les suppressions ordonnées par les tribunaux. Dans le cas de matériel d’abus sexuel sur enfant (CSAM), nous supprimons toujours ce contenu lorsqu’il est identifié et nous déprécions tout contenu provenant de sites avec une forte proportion de contenu CSAM. Suppressions d’informations personnelles : Si nous traitons un volume élevé de suppressions d’informations personnelles impliquant un site avec des pratiques de suppression exploitantes, nous déprécions d’autres contenus du site dans nos résultats. Nous examinons également si le même schéma de comportement se produit avec d’autres sites et, si c’est le cas, appliquons des dépréciations au contenu de ces sites. Nous pouvons appliquer des pratiques de dépréciation similaires aux sites qui reçoivent un volume élevé de suppressions de contenu de doxxing ou de suppressions d’images explicites non consensuelles. Système de classement des passages
Le classement des passages est un système d’IA que nous utilisons pour identifier des sections individuelles ou « passages » d’une page web afin de mieux comprendre la pertinence d’une page par rapport à une recherche.
RankBrain
RankBrain est un système d’IA qui nous aide à comprendre comment les mots sont liés aux concepts. Cela signifie que nous pouvons mieux retourner du contenu pertinent même s’il ne contient pas tous les mots exacts utilisés dans une recherche, en comprenant que le contenu est lié à d’autres mots et concepts.
Systèmes d’informations fiables
Plusieurs systèmes travaillent de différentes manières pour montrer les informations les plus fiables possibles, comme aider à faire ressortir des pages plus autoritaires et à déprécier le contenu de faible qualité, et à élever le journalisme de qualité. Dans les cas où des informations fiables pourraient faire défaut, nos systèmes affichent automatiquement des avis de contenu concernant des sujets en évolution rapide ou lorsque nos systèmes n’ont pas une grande confiance dans la qualité globale des résultats disponibles pour la recherche. Ceux-ci fournissent des conseils sur la façon de rechercher de manière à obtenir des résultats plus utiles. En savoir plus sur notre approche pour fournir des informations de haute qualité dans la recherche.
Système d’avis
Le système d’avis vise à mieux récompenser les critiques de haute qualité, le contenu qui fournit une analyse perspicace et une recherche originale, et est rédigé par des experts ou des passionnés qui connaissent bien le sujet.
Système de diversité des sites
Notre système de diversité des sites fonctionne de manière à ce que nous ne montrions généralement pas plus de deux listes de pages web provenant du même site dans nos meilleurs résultats, afin qu’aucun site unique ne tende à dominer tous les résultats de premier plan. Cependant, nous pouvons toujours montrer plus de deux listes dans les cas où nos systèmes déterminent qu’il est particulièrement pertinent de le faire pour une recherche donnée. La diversité des sites traite généralement les sous-domaines comme faisant partie d’un domaine principal. Par exemple : les listes d’un sous-domaine (subdomain.example.com) et du domaine principal (example.com) seront toutes considérées comme provenant du même site unique. Cependant, parfois les sous-domaines sont traités comme des sites séparés pour des raisons de diversité lorsque cela est jugé pertinent.
Systèmes de détection de spam
Personne ne veut que sa boîte de réception soit remplie de spam, c’est pourquoi les filtres anti-spam sont si utiles. La recherche fait face à un défi similaire, car Internet contient d’énormes quantités de spam qui, si elles ne sont pas traitées, empêcheraient de montrer les résultats les plus utiles et pertinents. Nous employons une gamme de systèmes de détection de spam, y compris SpamBrain, pour traiter le contenu et les comportements qui enfreignent nos politiques de spam. Ces systèmes sont constamment mis à jour pour suivre les dernières façons dont la menace du spam évolue.
Systèmes retirés
Les systèmes ci-dessous sont notés à des fins historiques. Ils ont soit été intégrés dans des systèmes successeurs, soit devenus partie de nos systèmes de classement fondamentaux.
Hummingbird
C’était une amélioration majeure de nos systèmes de classement globaux réalisée en août 2013. Nos systèmes de classement ont continué à évoluer depuis, tout comme ils évoluaient avant cela.
Système Panda
C’était un système conçu pour garantir que du contenu de haute qualité et original apparaissait dans nos résultats de recherche. Annoncé en 2011 et surnommé le « Panda », il a évolué et est devenu partie de nos systèmes de classement fondamentaux en 2015.
Système Penguin
C’était un système conçu pour lutter contre le spam par lien. Annoncé en 2012 et surnommé la « Mise à jour Penguin », il a été intégré à nos systèmes de classement fondamentaux en 2016.
Recent Comments