in

Les modèles d’art génératif « mémorisent » certaines images, faisant peser un risque sur la vie privée

Les modèles d'art génératif "mémorisent" certaines images, faisant peser un risque sur la vie privée


Un biais jadis identifié par les chercheurs avec GPT-2.

Un biais jadis identifié par les chercheurs avec GPT-2.

© Getty Images / Yuichiro Chino

Les intelligences artificielles génératrices d’images représentent-elles un risque pour la vie privée ? Les résultats publiés dans un article scientifique et relayés par Gizmodo posent la question.

Un biais commun à l’ensemble des modèles

Un groupe de scientifiques de DeepMind, UC Berkeley, Princeton et ETH Zurich a réussi à générer des images synthétiques factuellement très ressemblantes à celles étudiées par le modèle dans sa phase d’apprentissage. Pour rappel, les intelligences artificielles génératives comme DALL-E ou Stable Diffusion sont entraînées sur des bases de données de plusieurs milliers d’images, une phase nommée apprentissage profond (deep learning). Dans le cadre de leurs démonstrations, les chercheurs sont notamment parvenus à retrouver une image originale d’Anne Graham Lotz, une évangéliste protestante américaine, initialement incorporée dans les données d’apprentissage.

À droite, l'image originale

À droite, l’image originale « apprise » par l’IA, à gauche celle finalement générée.

© Capture d’écran

Pour obtenir les photos quasi-originales initialement emmagasinées par l’IA, les spécialistes ont demandé plusieurs fois au logiciel de créer une image avec la même phrase. Ils ont ensuite vérifié si cette dernière faisait partie de la base de données d’apprentissage de l’IA. Sur environ 350 000 images générées, 94 correspondances directes et 109 quasi-correspondances ont été identifiées. Soit un taux de mémorisation d’environ 0,03 %, très faible par rapport à l’ensemble des images emmagasinées. Tous les modèles de diffusion ont le même problème, à un degré plus ou moins important.

Le risque des données médicales

Même si le taux de reproduction de l’IA est relativement faible, les scientifiques craignent qu’avec la montée en puissance des modèles, une plus grande partie des informations apprises soient régénérées de manière brute. « Peut-être que l’année prochaine, le nouveau modèle qui sortira sera beaucoup plus grand et beaucoup plus puissant, et que ces risques de mémorisation seront beaucoup plus élevés qu’aujourd’hui« , assure Vikash Sehwag, candidat en doctorat à l’université de Princeton qui a participé à l’étude, cité par Gizmodo.

Une reproduction quasi-identique des données emmagasinées par l'IA.

Une reproduction quasi-identique des données emmagasinées par l’IA.

© Capture d’écran

Eric Wallace, étudiant en doctorat à l’université de Berkeley, questionne de son côté les conséquences délétères de ce biais avec une utilisation potentielle de l’IA sur une série de données médicales synthétiques de radiographies. Pourrait-on parvenir à retrouver les scans originaux des patients ? « C’est assez rare, donc vous pourriez ne pas remarquer que cela se produit au début, et ensuite vous pourriez effectivement déployer cet ensemble de données sur le Web », met en garde le scientifique, qui rappelle que l’objectif de ces recherches est « d’anticiper ces types d’erreurs. »

Publicité, votre contenu continue ci-dessous

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

France Culture: le départ de Sandrine Treiner bouscule Radio France

France Culture: le départ de Sandrine Treiner bouscule Radio France

L'opérateur historique britannique BT va tester une couverture 5G et 4G depuis la stratosphère

L’opérateur historique britannique BT va tester une couverture 5G et 4G depuis la stratosphère