MAJOR SITES ARE SAYING NO TO APPLE’S AI SCRAPING
DANS UNE ANALYSE RÉCENTE menée cette semaine, le journaliste de données Ben Welsh a constaté qu’un peu plus d’un quart des sites d’actualités qu’il a examinés bloquaient Applebot-Extended, tandis que 53 % bloquaient le bot d’OpenAI. Google a introduit son propre bot spécifique à l’IA, Google-Extended, en septembre dernier; il est bloqué par près de 43 % de ces sites, ce qui indique que Applebot-Extended pourrait encore passer inaperçu. Selon Welsh, cependant, le nombre de sites bloquant ce bot a "graduellement augmenté" depuis qu’il a commencé à examiner la question.
PROJET DE SURVEILLANCE CONSTANT
Welsh mène un projet de surveillance des approches des organes de presse vis-à-vis des principaux agents d’IA. "Un certain clivage est apparu parmi les éditeurs de presse quant à savoir s’ils veulent bloquer ces bots ou non", explique-t-il. "Je n’ai pas la réponse quant à la raison pour laquelle chaque organisation de presse a pris sa décision. De toute évidence, nous pouvons lire que beaucoup d’entre elles ont conclu des accords de licence, où elles sont rémunérées en échange de l’entrée des bots – peut-être que c’est un facteur."
ÉVOLUTION DES ACCORDS D’IA
L’année dernière, le New York Times a rapporté les tentatives d’Apple de conclure des accords d’IA avec les éditeurs. Depuis lors, des concurrents comme OpenAI et Perplexity ont annoncé des partenariats avec divers organes de presse, plateformes sociales et autres sites populaires. "Beaucoup des plus grands éditeurs du monde adoptent clairement une approche stratégique", déclare Jon Gillham, fondateur d’Originality AI. "Je pense que, dans certains cas, il y a une stratégie commerciale en jeu – comme, retenir les données jusqu’à ce qu’un accord de partenariat soit conclu."
MISE EN PLACE DE PARTENARIATS
Il existe des preuves corroborant la théorie de Gillham. Par exemple, les sites web de Condé Nast bloquaient auparavant les robots d’OpenAI. Après l’annonce d’un partenariat avec OpenAI la semaine dernière, l’entreprise a débloqué les bots de la société. Pendant ce temps, la porte-parole de Buzzfeed, Juliana Clifton, a déclaré que l’entreprise, qui bloque actuellement Applebot-Extended, ajoute à sa liste noire tous les bots de web-crawling d’IA qu’elle peut identifier, sauf si leur propriétaire a conclu un partenariat – généralement rémunéré – avec l’entreprise, qui détient également le Huffington Post.
DIFFICULTÉS DE MISE À JOUR
Étant donné que le fichier robots.txt doit être édité manuellement, et qu’il y a tellement de nouveaux agents d’IA qui font leur apparition, il peut être difficile de tenir à jour une liste de blocage. "Les gens ne savent tout simplement pas quoi bloquer", explique Gavin King, fondateur de Dark Visitors. Dark Visitors propose un service freemium qui met à jour automatiquement le fichier robots.txt d’un site client, et King déclare que les éditeurs représentent une grande partie de sa clientèle en raison de préoccupations liées au droit d’auteur.
NOUVEAU RÔLE DES EXÉCUTIFS MÉDIATIQUES
Le fichier robots.txt peut sembler être un territoire obscur réservé aux webmasters – mais compte tenu de son importance considérable pour les éditeurs numériques à l’ère de l’IA, il est désormais le domaine des cadres dirigeants des médias. WIRED a appris que deux PDG de grandes entreprises de médias décident directement quels bots bloquer.
PROTÉGER LA VALEUR DU CONTENU PUBLIÉ
Certains médias ont explicitement indiqué qu’ils bloquent les outils de scraping d’IA parce qu’ils n’ont pas actuellement de partenariats avec leurs propriétaires. "Nous bloquons Applebot-Extended sur l’ensemble des propriétés de Vox Media, comme nous l’avons fait avec de nombreux autres outils de scraping d’IA lorsque nous n’avons pas d’accord commercial avec l’autre partie", déclare Lauren Starke, vice-présidente des communications de Vox Media. "Nous croyons en la protection de la valeur de notre travail publié."
Pour en savoir plus sur ce sujet, consultez les articles suivants: