in

Le Red Teaming avec GPT-4 était utile. Le Violet Teaming le rendra encore meilleur.

ideas chatgpt ai red team



L’année dernière, j’ai été chargé de tester les limites de GPT-4 pour obtenir des résultats désastreux. Avec d’autres chercheurs pluridisciplinaires, j’ai bénéficié d’un accès anticipé pour inciter GPT-4 à dévoiler ses biais, à générer de la propagande haineuse et même à prendre des mesures trompeuses, afin d’aider OpenAI à comprendre les risques qu’il posait. Cette pratique est appelée « red teaming » en intelligence artificielle : elle consiste à pousser un système d’IA à agir de manière nuisible ou non intentionnelle.

Le red teaming est une étape importante pour construire des modèles d’IA qui ne nuisent pas à la société. Pour renforcer les systèmes d’IA, il est nécessaire de comprendre comment ils peuvent échouer, idéalement avant qu’ils ne créent des problèmes significatifs dans le monde réel. Imaginez ce qui aurait pu se passer si Facebook avait essayé de mettre à l’épreuve l’impact de ses principaux changements de recommandation d’IA avec des experts externes, et réglé les problèmes qu’ils auraient découverts avant d’impacter les élections et les conflits dans le monde entier. Bien que OpenAI fasse face à de nombreuses critiques légitimes, sa volonté d’impliquer des chercheurs externes et de fournir une description publique détaillée de tous les dangers potentiels de ses systèmes fixe une norme de transparence que les concurrents potentiels devraient également suivre.

La normalisation du red teaming avec des experts externes et des rapports publics est une première étape importante pour l’industrie. Mais comme les systèmes d’IA génératifs auront probablement un impact sur la plupart des institutions et des biens publics les plus critiques de la société, les équipes de red teaming ont besoin de personnes ayant une compréhension approfondie de toutes ces questions (et de leurs impacts mutuels) afin de comprendre et de mitiger les dangers potentiels. Par exemple, des enseignants, des thérapeutes et des responsables civiques pourraient être associés à des experts en red teaming expérimentés pour relever ces problématiques systémiques. L’investissement de l’industrie de l’IA dans une communauté inter-entreprises de « pairs » red-teamers pourrait réduire considérablement la probabilité de lacunes critiques.

Après la sortie d’un nouveau système, il est important de permettre à des personnes qui n’ont pas participé au red teaming de tester le système sans risque de banissement, afin d’identifier de nouveaux problèmes et des solutions potentielles. Les exercices de scénarios, qui explorent la manière dont différents acteurs réagiraient aux sorties de modèles, peuvent également aider les organisations à comprendre les impacts plus systémiques.

Cependant, si le red teaming de GPT-4 m’a appris quelque chose, c’est que le red teaming seul ne suffit pas. Par exemple, je viens de tester Google Bard et OpenAI ChatGPT et j’ai réussi à créer des emails frauduleux et de la propagande conspirationniste du premier coup « à des fins pédagogiques ». Le red teaming seul n’a pas résolu ce problème. Pour surmonter efficacement les dangers dévoilés par le red teaming, des entreprises comme OpenAI peuvent aller encore plus loin en offrant un accès précoce et des ressources pour utiliser leurs modèles dans une optique de défense et de résilience.

Je nomme cela le « violet teaming » : identifier comment un système (par exemple, GPT-4) peut nuire à une institution ou à un bien public, puis soutenir le développement d’outils utilisant ce même système pour défendre l’institution ou le bien public. On peut voir cela comme une sorte de judo. Les systèmes d’IA à usage général sont une nouvelle forme de pouvoir considérable qui est déployée dans le monde, et ce pouvoir peut nuire à nos biens publics. De la même manière que le judo redirige le pouvoir d’un attaquant pour le neutraliser, le violet teaming vise à rediriger le pouvoir déployé par les systèmes d’IA pour défendre ces biens publics.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

230318224705 01 imran khan court arrival 031723

Les poids lourds politiques du Pakistan poursuivent leurs batailles de rue devant les tribunaux.

Les éclaireurs autochtones d’Alaska ont été fêtés 67 ans après le sauvetage de l’équipage de la marine.