La reconnaissance d’images par l’ordinateur fait un pas de géant

1 week ago 183
Cet algorithme de Facebook (MDETR) reconnaît l’animal qualifié « d’éléphant rose » alors qu’il n’en a jamais vu lors de son entraînement. Cet algorithme de Facebook (MDETR) reconnaît l’animal qualifié « d’éléphant rose » alors qu’il n’en a jamais vu lors de son entraînement. Cet algorithme de Facebook (MDETR) reconnaît l’animal qualifié « d’éléphant rose » alors qu’il n’en a jamais vu lors de son entraînement.

En 2012, une équipe de l’université de Toronto (Canada) surprenait le monde lors d’une compétition de reconnaissance d’images par ordinateur : 15 % d’erreurs seulement pour son logiciel contre 26 % pour le deuxième. C’était le début de la nouvelle vague de l’intelligence artificielle, dite « apprentissage profond » ou deep learning, car le programme, apparenté à un réseau de neurones artificiels connectés, trouve les bonnes « connexions » en s’entraînant sur des millions d’exemples.

Puis la vague s’est étendue aux jeux (go, échecs, poker), à l’automobile (conduite autonome), la voix (dans les assistants vocaux), la science (forme des protéines)… Mais, vedettes des premiers jours, les images ont vu passer les trains suivants des progrès, avec des performances qui plafonnaient. Jusqu’à ces derniers mois.

« Je dois dire que je n’ai pas été autant excité dans ce domaine depuis dix ou vingt ans ! », a expliqué Yann LeCun, responsable scientifique chez Facebook et pionnier du deep learning depuis trente ans, lors d’une présentation à la presse le 30 juin des dernières avancées de la recherche du géant californien. « Ça va très vite. Il y a deux ans, il n’y avait rien de neuf », confirme Matthieu Cord, professeur à Sorbonne Université et chercheur chez Valeo.

Lire aussi Comment le « deep learning » révolutionne l'intelligence artificielle

Le changement est lié à plusieurs innovations permettant de corriger les défauts des premières méthodes. « La clé du succès des premières techniques est ce que l’on appelle l’apprentissage supervisé. C’est-à-dire que le programme apprend ses paramètres, grâce à des données annotées par des humains », précise Jean Ponce, professeur d’informatique à l’Ecole normale supérieure. Pour « reconnaître » un chat, un chien ou une voiture, des milliers d’images légendées « chat » ou « chien » ou « voiture » sont montrées au programme qui adapte ses paramètres afin de trouver la bonne réponse. Ensuite, même sur des images inconnues, il donne la bonne réponse.

L’apprentissage autosupervisé

Le principal problème est que la technique nécessite énormément d’images légendées. En outre, la diversité des situations réelles est telle qu’il est impossible de la représenter avec des bases de données d’images validées par des petites mains. « Les performances des systèmes de vision des voitures autonomes s’effondrent si on montre des images de nuit ou bien de chiens mouillés », constate Matthieu Cord.

Il vous reste 66.3% de cet article à lire. La suite est réservée aux abonnés.

Read Entire Article