44,71 Go. C’est la taille des fichiers du code source prétendument volé à Yandex, moteur de recherche le plus utilisé en Russie. L’archive contenant les données a été diffusée sur un forum prisé des cybercriminels le 25 janvier dernier. Borderline2023, l’utilisateur à l’origine du post, affirme que les documents ont été téléchargés par ses soins en juillet 2022.
Du code « récent«
L’ensemble du code source développé par l’entreprise serait présent dans ces fichiers. L’archive contiendrait « à coup sûr du code source récent« , destiné aux « services de l’entreprise », selon une analyse de l’ingénieur logiciel Arseni Chestakov. Carte interactive, messagerie, stockage en ligne, service de taxi (de type Uber)… Le code source d’au moins 13 services appartenant à Yandex aurait fuité, selon l’analyste, qui a pu confirmer l’information auprès de salariés de l’entreprise.
Plus intéressant encore, les fichiers révéleraient en grande partie l’algorithme de recherche de Yandex et les critères de classement des sites web. Une véritable mine d’or pour les spécialistes du référencement, qui essayent depuis de nombreuses années de décrypter les micro-signaux pour optimiser au mieux le classement des sites au sein des pages de recherche.
Des critères parfois originaux
Alex Buraks, spécialiste du SEO (search engine optimization, ou optimisation pour les moteurs de recherche en français), a commencé à analyser une partie du code source de l’algorithme de Yandex. Il a publié ses premières conclusions dans un thread détaillé sur Twitter. Bien que l’approche du moteur de recherche russe soit différente de celle employée par ses principaux concurrents, le classement des sites pourrait s’avérer proche de celui pratiqué par les algorithmes de Google, selon les experts du domaine.
Précisément, Yandex favoriserait les pages récentes (URL fraîche) dans ses résultats, et celles comportant beaucoup de trafic organique (visiteurs uniques). Parallèlement, les URL avec des nombres ou de nombreux slash « https://www.lesnumeriques.com/ » (barre oblique) seraient défavorisées. Les sites reposant sur des pages fiables, avec peu d’erreurs (comme une page supprimée ou perdue, en code 404) seraient également privilégiés. L’âge de la page web et sa dernière mise à jour pourraient également influer sur le classement, tout comme, dans une moindre mesure, la vitesse de clic des utilisateurs sur un lien ou le temps passé sur un site. Plus surprenant, les pages Wikipédia seraient mieux référencées par l’algorithme.
Pour les plus curieux, la liste complète des 1922 critères de pertinence du moteur de recherche a été publiée en intégralité sur le site de la Webmarketing School. Une fuite d’informations hautement préjudiciable pour Yandex, qui confirme les principaux facteurs pressentis ces dernières années par les experts du SEO.