Deepfake audio : comment est-ce que ça marche ?

Spécialité(s)


Résumé

L’état de l’art en matière de synthèse vocale permet de faire dire tout à n’importe qui. En cinq minutes, vous pouvez avoir une application qui permet de générer tout type de discours, avec la voix de la personne de votre choix.


Coder, c'est interagir avec une machine. En effet, un programme informatique décrit un ensemble de comportements que la machine doit adopter. Pour décider du comportement à suivre, la machine prend également le contexte dans lequel elle se trouve. Ce langage d'échange est toutefois limité à ceux qui ont la capacité de coder, ce qui exclut une partie significative de la population. En revanche, la parole est le vecteur d'échanges premier et commun dans l'espèce humaine. De plus, le langage parlé recèle de nombreuses nuances, comme l'intonation ou l'accentuation, qui permettent de véhiculer énormément d'informations, subtilités que la programmation informatique ne permet pas. Aussi, la synthèse vocale a été, et ce, dès le début de l'informatique, un sujet de recherche majeur. Dès la fin des années soixante, on développe des outils de conversion de textes écrits en discours audios, notamment au profit des personnes malvoyantes. C'est d'ailleurs dans le...

Cet article est réservé aux abonnés. Il vous reste 96% à découvrir.
S'abonner à Connect
  • Accédez à tous les contenus de Connect en illimité
  • Découvrez des listes de lecture et des contenus Premium
  • Consultez les nouveaux articles en avant-première
Je m'abonne


Article rédigé par

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous