META DÉVOILE SON MODÈLE D’IA SEGMENT ANYTHING ET LE REND OPEN SOURCE
Meta a de grandes ambitions en matière d’IA, même s’il semble toujours jouer les seconds rôles face à OpenAI, Microsoft et même Google. Pour faire un peu de bruit, la société a présenté mercredi son nouveau modèle Segment Anything basé sur l’IA, capable de reconnaître et de séparer des objets spécifiques dans des images et des vidéos. Le plus surprenant, Meta le rend accessible à tous en publiant son nouveau logiciel en open source.
GÉNÉRER UNE VIDÉO PAR TEXTE ? | TECHNOLOGIE FUTURE
Il existe plusieurs bonnes applications pour effacer les objets indésirables des images, et toutes elles utilisent déjà des modèles d’IA pour trouver et remplacer les objets sur les photos. Dans mes propres tests de la démo Segment Anything, Meta a poussé plus loin son offre. Le système de démonstration offre une sorte d’outil « baguette magique » Photoshop surpuissant. J’ai essayé avec quelques images encombrées, comme une photo de l’énorme ensemble de Rivendell de Lego. Non seulement il a collectivement deviné que j’essayais de sélectionner des figurines spécifiques sur l’arrière-plan, mais lorsqu’il a capté quelques pixels égarés, j’ai rapidement pu lui dire de supprimer tout ce qui n’était pas un personnage du Seigneur des anneaux en un seul clic.
Après avoir calculé une nouvelle image, le système fait un excellent travail en mettant en évidence les différents objets dans une photo. Dans une image de moi-même assis dans un fauteuil de massage extrêmement contraignant, il a été capable d’identifier à la fois moi, le fauteuil, et même ma barbe individuellement. Bien sûr, Meta n’est pas seul à créer des algorithmes d’apprentissage automatique pour identifier des aspects des images. Apple a parlé de sa technologie de segmentation d’image IA depuis 2021.
Mais ce qui pourrait distinguer Meta, c’est à la fois la fonction et l’utilisabilité. Dans mes propres tests, j’ai trouvé que SAM est encore meilleur pour sélectionner de petits objets dans les photos encombrées que le Magic Eraser de Google ou l’outil en ligne gratuit Inpaint, bien qu’il n’y ait pas de fonction pour supprimer des aspects d’une photo et remplacer son arrière-plan.
Meta a déclaré que SAM est capable de générer plusieurs masques même lorsqu’il y a « ambiguïté » quant à l’objet. Néanmoins, la société a décrit cela comme un « modèle fondamental » utile pour la segmentation d’image, à la fois interactive et automatique. Le système est décrit comme « promptable », ce qui signifie qu’il peut recevoir des entrées telles que le regard des utilisateurs dans un casque VR ou via des clics et même du texte.
Ce qui est peut-être le plus surprenant chez Meta, c’est qu’il rend SAM open source, et fournit en outre des détails complets sur son jeu de données de 1 milliard de masques, que la société a qualifié de « plus grand jeu de données de segmentation jamais créé ». Le SA-1B est un jeu de données de segmentation sémantique qui classe chaque pixel dans une image, ce qui facilite la stylisation ou la suppression d’objets de photos. Selon Meta, le système lui-même est entraîné sur 11 millions d’images avec une moyenne de 100 masques par image. Selon l’article de recherche de Meta sur SAM, le jeu de données utilisait des images « d’un fournisseur qui travaille directement avec des photographes », bien qu’il n’ait pas précisé lequel. Certaines des images sur lesquelles le système a été entraîné comprenaient des visages et des plaques d’immatriculation, mais l’article indique que Meta les a floutés lorsqu’il a publié le jeu de données.
Il est encourageant de voir Meta prêt à ouvrir la source de l’un de ses modèles et de ses données, même s’il ne faut pas s’attendre à beaucoup plus de choses gratuites. Meta s’est récemment orienté vers l’IA, au point que le responsable de sa division metaverse, Andrew Bosworth, et d’autres cadres parlent de la façon dont la société prévoit d’utiliser l’IA générative pour créer des publicités aux côtés d’autres produits commerciaux. La société continue de travailler à une version publique de son concurrent ChatGPT appelé LLaMA, même si elle avait déjà fuité en ligne.
Bien sûr, SAM pourrait être utilisé dans une capacité AR ou VR pour identifier des objets par le regard de l’utilisateur, ce qui est assez important pour les ambitions de Meta pour ses casques et ses lunettes AR. Il reste néanmoins beaucoup de place pour les abus. Le système de détection d’IA DeepMind de Google s’est avéré efficace pour identifier des cellules cancéreuses, mais des systèmes similaires ont été utilisés pour la reconnaissance faciale. L’ACLU a récemment révélé que le FBI avait testé un logiciel de reconnaissance faciale sur des citoyens américains pendant des années. À mesure que cette technologie devient plus sophistiquée, les États-Unis ont désespérément besoin d’une interdiction fédérale du facial et du biométrique, ou tout au moins d’une réglementation accrue.
Vous voulez en savoir plus sur l’IA, les chatbots et l’avenir de l’apprentissage automatique ? Consultez notre couverture complète de l’intelligence artificielle, ou parcourez nos guides sur les meilleurs générateurs d’art IA gratuits, les meilleures alternatives à ChatGPT et tout ce que nous savons sur ChatGPT d’OpenAI.