Les modèles d’intelligence artificielle violent-ils des contenus protégés pendant leur entraînement ? Aux États-Unis, la question pourrait bien se régler devant un tribunal. Plusieurs médias américains allèguent qu’OpenAI, l’entreprise derrière ChatGPT a utilisé des articles de presse pendant sa phase d’apprentissage.
Pour former des modèles d’IA performants, les algorithmes doivent s’entraîner sur des quantités astronomiques d’informations. Cette étape, appelée machine (ou deep) learning est vitale pour la création d’une intelligence artificielle viable et compétente. Pour autant, l’IA peut-elle aspirer tous les contenus du web, même ceux protégés par le droit ? Pendant son apprentissage, ChatGPT a arpenté une partie non négligeable des pages web présentes sur Internet, jusqu’en 2021 officiellement.
Francesco Marconi, journaliste spécialisé dans l’actualité des nouvelles technologies, a demandé à ChatGPT quelles étaient ses sources d’entraînement et s’il avait utilisé des articles produits par des médias. Non sans surprise, le chatbot a alors dévoilé une liste de 20 sites d’information utilisés pour apprendre de nouvelles connaissances. Reuters, le New York Times, The Guardian, BBC News, CNN et bien d’autres journaux en ligne auraient été consultés. Or, comme le souligne Francesco Marconi, l’extraction de données sans autorisation des éditeurs pourrait constituer une violation des conditions d’utilisation.
CNN et le Wall Street Journal pourraient réagir
Cité dans la liste précédente, le journal financier Wall Street Journal n’aurait conclu aucun accord avec OpenAI, selon Jason Conti, avocat général de l’unité Dow Jones de News Corporation, la maison mère du quotidien, relayé par Bloomberg. “Quiconque souhaite utiliser le travail des journalistes du Wall Street Journal pour entraîner l’intelligence artificielle devrait obtenir les droits nécessaires auprès de Dow Jones. Nous prenons au sérieux l’utilisation abusive du travail de nos journalistes, et nous examinons cette situation”, assure-t-il.
De son côté, CNN prévoit de contacter OpenAI pour demander le paiement d’une licence. À l’heure actuelle, l’utilisation des articles du site par ChatGPT violerait ses conditions d’utilisation, selon une source proche du dossier.
En France, lorsqu’on interroge ChatGPT au sujet de ses sources, l’IA dit avoir été entraînée sur “une large variété de sources d’information, notamment des articles de presse, des livres, des sites web, des forums, des publications scientifiques, des bases de données et bien d’autres types de textes”. Comme aux États-Unis, l’agent dresse une liste de médias francophones, assez longue : Le Monde, Le Figaro, Libération, Les Échos, L’Express, Le Parisien, France 24, BFM TV, RFI, Europe 1, Le Huffington Post, Slate.fr, Mediapart, Agence France-Presse (AFP).