Une fuite massive de code Yandex révèle les facteurs de classement du moteur de recherche russe

Agrandir / Le logo russe de Yandex, le plus grand moteur de recherche du pays et une entreprise technologique avec de nombreuses divisions, à l’intérieur du siège social de l’entreprise.

SOPA Images / Getty Images

Près de 45 Go de fichiers de code source, prétendument volés par un ancien employé, ont révélé les fondements des nombreuses applications et services du géant technologique russe Yandex. Il a également révélé des facteurs de classement clés pour le moteur de recherche de Yandex, du genre presque jamais révélés au public.

Les “sources git de Yandex” ont été publiées sous forme de fichier torrent le 25 janvier et montrent des fichiers apparemment pris en juillet 2022 et remontant à février 2022. L’ingénieur logiciel Arseniy Shestakov affirme qu’il a vérifié auprès des employés actuels et anciens de Yandex que certaines archives “à coup sûr contiennent du code source moderne pour les services de l’entreprise.” Yandex a déclaré au blog de sécurité BleepingComputer que “Yandex n’a pas été piraté” et que la fuite provenait d’un ancien employé. Yandex a déclaré qu’il ne “voyait aucune menace pour les données des utilisateurs ou les performances de la plate-forme”.

Les dossiers datent notamment de février 2022, lorsque la Russie a lancé une invasion à grande échelle de l’Ukraine. Un ancien cadre de Yandex a déclaré à BleepingComputer que la fuite était “politique” et a noté que l’ancien employé n’avait pas essayé de vendre le code aux concurrents de Yandex. Le code anti-spam n’a pas non plus été divulgué.

Bien qu’il ne soit pas clair s’il y a des implications sécuritaires ou structurelles de la révélation du code source de Yandex, la fuite de 1 922 facteurs de classement dans l’algorithme de recherche de Yandex fait certainement des vagues. Le consultant en référencement Martin MacDonald a décrit le piratage sur Twitter comme “probablement la chose la plus intéressante qui se soit produite dans le référencement depuis des années” (comme l’a noté Search Engine Land). Dans un fil de discussion détaillant certains des facteurs les plus notables, le chercheur Alex Buraks suggère qu'”il existe également de nombreuses informations utiles pour le référencement Google”.

Publicité

Yandex, le quatrième moteur de recherche en volume, emploie prétendument plusieurs anciens employés de Google. Yandex suit de nombreux facteurs de classement de Google, identifiables dans son code, et concurrence fortement Google. La division russe de Google a récemment déposé son bilan après avoir perdu ses comptes bancaires et ses services de paiement. Buraks note que le premier facteur de la liste des facteurs de classement de Yandex est “PAGE_RANK”, qui est apparemment lié à l’algorithme fondamental créé par les co-fondateurs de Google.

Comme détaillé par Buraks (dans deux fils), le moteur de Yandex favorise les pages qui :

  • Ne sont pas trop vieux
  • Avoir beaucoup de trafic organique (visiteurs uniques) et moins de trafic lié à la recherche
  • Avoir moins de chiffres et de barres obliques dans leur URL
  • Avoir un code optimisé plutôt qu’une “pessimisation dure”, avec un “PR=0”
  • Sont hébergés sur des serveurs fiables
  • Il s’agit de pages Wikipédia ou de liens provenant de Wikipédia
  • Sont hébergés ou liés à partir de pages de niveau supérieur sur un domaine
  • Avoir des mots-clés dans leur URL (jusqu’à trois)

Vous pouvez rechercher et cliquer sur tous les facteurs sur l’outil de recherche compilé de Rob Ousbey. Vous remarquerez peut-être que près de 1 000 des facteurs de classement ont la balise “TG_DEPRECATED” et plus de 200 sont répertoriés comme “TG_UNUSED”. Parce que le code date de février 2022 et a été saisi en juillet 2022, la recherche de Yandex a certainement changé depuis. Mais la fuite fournit un aperçu rare de la façon dont les classements de recherche sont assemblés sur un site qui dessert l’un des plus grands pays du monde.

Yandex a déjà vu son code de moteur de recherche disparaître en 2015, lorsqu’un ancien employé a tenté de le vendre au marché noir pour 28 000 $ afin de financer sa propre startup. Le chiffre étonnamment bas du code principal du produit principal de Yandex suggérait qu’il n’était pas conscient de sa valeur réelle. Cet employé a été condamné à deux ans de prison avec sursis, et le code n’a jamais été vu publiquement.

commentaires

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Le plus populaire