LA NOUVELLE VAGUE DE VIDÉOS GÉNÉRÉES PAR L’IA OFFRE UN AVANT-GOÛT DU FUTUR DU CINÉMA
Les courtes vidéos donnent l’impression d’un flipbook, sautant de manière instable d’un cadre surréaliste à l’autre. Elles sont le résultat des créateurs de mèmes internet jouant avec les premiers générateurs d’IA à texte-vidéo largement disponibles, et montrent des scénarios impossibles comme Dwayne « The Rock » Johnson mangeant des roches et Emmanuel Macron triant et mâchant des déchets, ou encore des versions déformées de l’ordinaire comme Paris Hilton prenant un selfie.
UN ECHO DE DALL-E
Cette nouvelle vague de vidéos générées par l’IA a des échos évidents de Dall-E, qui a fait sensation sur internet l’été dernier lorsqu’il a utilisé cette technique avec des images fixes. Moins d’un an plus tard, ces images de Dall-E sont presque indiscernables de la réalité, ce qui soulève deux questions : l’IA générée par vidéo avancera-t-elle aussi rapidement, et trouvera-t-elle sa place à Hollywood ?
PLUSIEURS SOCIÉTÉS S’Y METTENT
ModelScope, un générateur de vidéos hébergé par l’IA Hugging Face, permet aux gens de taper quelques mots et de recevoir une vidéo étonnante et instable en retour. Runway, la société d’IA qui a co-créé le générateur d’images Stable Diffusion, a annoncé un générateur de texte-vidéo fin mars, mais ne l’a pas rendu largement disponible au public. Google et Meta ont tous deux annoncé travailler sur la technologie de texte-vidéo à l’automne 2022.
DE GRANDES AMBITIONS POUR L’IA DANS L’INDUSTRIE DU CINÉMA
Actuellement, nous sommes en présence de vidéos de célébrités étranges ou d’un ours en peluche faisant son autoportrait. Mais à l’avenir, le rôle de l’IA dans le cinéma pourrait évoluer au-delà du mème viral, permettant à la technologie d’aider à la distribution des rôles, de modéliser les scènes avant qu’elles ne soient tournées, et même de remplacer les acteurs dans les scènes. La technologie évolue rapidement, et il faudra vraisemblablement des années avant que de tels générateurs puissent, par exemple, produire un court métrage entier basé sur des prompts, s’ils y parviennent un jour. Néanmoins, le potentiel de l’IA dans le domaine du divertissement est immense.
ENCORE BEAUCOUP DE TRAVAIL À FAIRE
Mais cela ne signifie pas que l’IA remplacera entièrement les scénaristes, les réalisateurs et les acteurs de sitôt. Et certaines difficultés techniques considérables restent à surmonter. Les vidéos ont l’air saccadées parce que les modèles d’IA ne peuvent pas maintenir une cohérence complète d’une frame à l’autre, ce qui est nécessaire pour lisser les images. Pour produire du contenu qui dure plus que quelques secondes fascinantes et grotesques tout en conservant sa cohérence, il faudra plus de puissance informatique et de données, ce qui signifie des investissements considérables dans le développement de la technologie. « Vous ne pouvez pas facilement mettre à l’échelle ces modèles d’image », explique Bharath Hariharan, professeur de sciences informatiques à l’Université Cornell.
UNE AVANCÉE RAPIDE
Cependant, même s’ils ont l’air rudimentaires, la progression de ces générateurs avance « vraiment, vraiment vite », déclare Jiasen Lu, chercheur scientifique à l’Institut Allen d’Intelligence Artificielle, une organisation de recherche fondée par le cofondateur de Microsoft, Paul Allen. La rapidité de cette progression est le résultat de nouveaux développements qui ont renforcé les générateurs. ModelScope est formé à partir de données textuelles et d’images, tout comme les générateurs d’images, et est ensuite nourri de vidéos qui montrent au modèle comment le mouvement devrait être, explique Apolinário Passos, ingénieur en art d’apprentissage automatique chez Hugging Face. C’est la tactique également utilisée par Meta. Cela élimine la charge d’annotation des vidéos, ou de leur étiquetage avec des descripteurs textuels, ce qui simplifie le processus et a amené un rapide développement de la technologie.