Quelles sont les dernières prouesses réalisées grâce à des réseaux de neurones ? Cette fois, il s'agit de synchroniser automatiquement les mouvements des lèvres d'une personne avec un discours lambda. Magiquement, presque. Et on peut facilement reproduire l'expérience… Donc voyons comment mettre cela en œuvre !
En août 2020 sort un nouvel article de recherche sur le lip sync (synchronisation labiale en français), c'est-à-dire le fait de synchroniser les mouvements des lèvres d'une personne présente dans une vidéo à la parole issue d'un fichier audio. L'article, de Prajwal et al. de l'International Institute of Information Technology d'Hyderabad (Inde) [article], accepté dans une conférence de premier rang, va bien plus loin que ses prédécesseurs. Si les travaux précédents rendaient possible une telle synchronisation, il fallait au mieux disposer d'un modèle pré-entraîné sur la personne ciblée, ce qui demande à la fois de disposer d'un jeu de données de vidéos de ladite personne, et de passer plusieurs jours de calcul à entraîner le modèle. Grâce à quelques optimisations sur les réseaux de neurones utilisés dans les articles précédents, les auteurs parviennent à un résultat plus intéressant : il est désormais possible de faire du lip sync sur n'importe...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première