Après DALL-E, voici VALL-E. Microsoft a dévoilé son modèle de synthèse vocale basé sur l’intelligence artificielle. Ce dernier est capable de reproduire la voix d’une personne avec seulement trois secondes d’enregistrement audio. Une nouvelle révolution dans le domaine de l’IA, relayé notamment par nos confrères d’Ars Technica.
Un corpus de 60 000 h de discours
VALL-E permet ainsi de reproduire à la quasi-perfection le timbre de voix d’une personne lambda, en préservant le ton et l’émotion de son locuteur. Il est ensuite possible de faire réciter n’importe quel texte à l’IA. Une sorte de deepfake dans le domaine audio, en somme. L’outil développé par les chercheurs de Microsoft peut aussi être combiné au modèle textuel GPT3 pour générer des discours en toute autonomie.
Pour développer ce “modèle de langage de codecs neuronaux”, les développeurs se sont appuyés sur la technologie EnCodec, un codec audio créé par Meta et révélé en octobre 2022, basé lui aussi sur l’IA. Afin de reproduire les tonalités d’une voix, VALL-E a été entraîné sur la bibliothèque audio LibriLight. 60 000 h de discours en langue anglaise de plus de 7000 locuteurs différents ont ainsi alimenté la base de connaissances du modèle de Microsoft.
Les accents atypiques, faiblesse de VALL-E
Seule limitation, VALL-E peut parfois mal prononcer, oublier ou doublonner certains mots. Un bogue expliqué par la nature même du modèle utilisé (autorégressif), qui ne devrait pas manquer d’être corrigé dans les prochaines versions. Par ailleurs, l’IA aurait beaucoup de mal à apprendre des accents prononcés. Bien que la bibliothèque audio LibriLight soit diversifiée, elle ne suffit pas à digérer l’ensemble des accents présents autour du globe. Pour corriger ce biais, VALL-E devra simplement diversifier sa base de connaissances avec de nombreux corpus audio. Dans le futur, les chercheurs de Microsoft s’attendent donc à “améliorer les performances du modèle en matière de prosodie et de style d’expression”.
Pour les plus curieux, Microsoft a mis en ligne un site de démonstration pour tester les capacités de VALL-E.
Dans une note sur l’éthique de leur outil, les ingénieurs alertent de détournements possibles : “Puisque VALL-E peut synthétiser la parole en conservant l’identité du locuteur, il peut comporter des risques potentiels de mauvaise utilisation du modèle, comme l’usurpation de l’identification vocale ou celle de l’identité d’un locuteur spécifique”, anticipent-ils. Dans le cas où le modèle viendrait à être utilisé publiquement, “il devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix”, préviennent les développeurs.