Les intelligences artificielles génératrices d’images représentent-elles un risque pour la vie privée ? Les résultats publiés dans un article scientifique et relayés par Gizmodo posent la question.
Un biais commun à l’ensemble des modèles
Un groupe de scientifiques de DeepMind, UC Berkeley, Princeton et ETH Zurich a réussi à générer des images synthétiques factuellement très ressemblantes à celles étudiées par le modèle dans sa phase d’apprentissage. Pour rappel, les intelligences artificielles génératives comme DALL-E ou Stable Diffusion sont entraînées sur des bases de données de plusieurs milliers d’images, une phase nommée apprentissage profond (deep learning). Dans le cadre de leurs démonstrations, les chercheurs sont notamment parvenus à retrouver une image originale d’Anne Graham Lotz, une évangéliste protestante américaine, initialement incorporée dans les données d’apprentissage.
Pour obtenir les photos quasi-originales initialement emmagasinées par l’IA, les spécialistes ont demandé plusieurs fois au logiciel de créer une image avec la même phrase. Ils ont ensuite vérifié si cette dernière faisait partie de la base de données d’apprentissage de l’IA. Sur environ 350 000 images générées, 94 correspondances directes et 109 quasi-correspondances ont été identifiées. Soit un taux de mémorisation d’environ 0,03 %, très faible par rapport à l’ensemble des images emmagasinées. Tous les modèles de diffusion ont le même problème, à un degré plus ou moins important.
Le risque des données médicales
Même si le taux de reproduction de l’IA est relativement faible, les scientifiques craignent qu’avec la montée en puissance des modèles, une plus grande partie des informations apprises soient régénérées de manière brute. « Peut-être que l’année prochaine, le nouveau modèle qui sortira sera beaucoup plus grand et beaucoup plus puissant, et que ces risques de mémorisation seront beaucoup plus élevés qu’aujourd’hui« , assure Vikash Sehwag, candidat en doctorat à l’université de Princeton qui a participé à l’étude, cité par Gizmodo.
Eric Wallace, étudiant en doctorat à l’université de Berkeley, questionne de son côté les conséquences délétères de ce biais avec une utilisation potentielle de l’IA sur une série de données médicales synthétiques de radiographies. Pourrait-on parvenir à retrouver les scans originaux des patients ? « C’est assez rare, donc vous pourriez ne pas remarquer que cela se produit au début, et ensuite vous pourriez effectivement déployer cet ensemble de données sur le Web », met en garde le scientifique, qui rappelle que l’objectif de ces recherches est « d’anticiper ces types d’erreurs. »