in

Un outil capable d’identifier les productions de ChatGPT a été développé par l’université de Stanford

Un outil capable d’identifier les productions de ChatGPT a été développé par l'université de Stanford



7bc92329 stanford a developpe un outil capable d identifier les productions de chatgpt 800 800 overflow

Les productions de ChatGPT bientôt détectables en toutes circonstances ? Des chercheurs de l’université de Stanford (Californie) ont développé un modèle capable d’identifier les contenus textuels générés par l’agent conversationnel d’OpenAI. Les scientifiques ont partagé leurs premiers résultats dans un article publié le 26 janvier 2023.

Un modèle fiable à 95 % ?

Alors que la popularité de ChatGPT grandit, le monde de l’enseignement prend des mesures pour restreindre son utilisation. Avec quelques phrases, il est en effet possible de demander à l’IA de générer n’importe quel contenu textuel sur un sujet donné. Produire un exposé, répondre à un QCM, rédiger une dissertation, c’est possible… Un coup dur pour les enseignants qui ne peuvent pas identifier formellement ces productions. Et pour cause, pour une même question, ChatGPT peut donner une multitude de réponses uniques. Impossible dès lors de détecter un texte écrit par un humain ou par l’IA, ou presque.

Des chercheurs de Stanford ont pourtant analysé les productions du chatbot et établi des facteurs communs. Pour identifier les productions de ChatGPT, ils se sont basés sur une fonction de probabilité (logarithmique) calculée à partir des “perturbations aléatoires” d’un texte. Baptisé DetectGPT, le modèle serait capable d’identifier 95 % des productions de l’IA, soit un taux de détection largement supérieur à la plupart des autres outils d’analyse.

Une imitation imparfaite de l’écriture humaine

“En d’autres termes, les MLL [Les grands modèles de langage, NDLR] qui n’imitent pas parfaitement l’écriture humaine se filtrent essentiellement de manière implicite”, écrivent les chercheurs dans leur article. Les productions générées par l’IA seraient dotées naturellement d’un filigrane imperceptible pour un humain, une sorte de trace numérique. Même si les résultats de DetectGPT sont très bons, la conception du modèle (par notation de l’ensemble des perturbations de chaque passage) générerait une grande consommation de ressources sur le système où le programme est exécuté. Une problématique que les auteurs de l’étude s’efforcent de résoudre.

Dans le futur, les chercheurs de Stanford pourraient tenter de combiner leur outil avec d’autres algorithmes de détection afin d’obtenir des résultats encore plus poussés et suivre la progression des modèles d’IA (GPT-4 notamment). Les scientifiques s’interrogent également sur l’usage futur de leurs recherches pour détecter les productions d’intelligence artificielle dans les domaines de l’audio, l’image ou la vidéo. Les propriétés identifiées sur les modèles générateurs de texte pourraient, possiblement, être reproduits par ces IA.

“Nous espérons que le présent travail servira d’inspiration à des travaux futurs visant à développer des méthodes efficaces et polyvalentes pour atténuer les inconvénients potentiels des médias générés par des machines”, concluent les spécialistes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Une fuite du code de Yandex, le Google russe, dévoile les sacro-saints algorithmes de recherche

Une fuite du code de Yandex, le Google russe, dévoile les sacro-saints algorithmes de recherche

Informatique : les jeunes critiquent les enseignements numériques

Informatique : les jeunes critiquent les enseignements numériques