Publicité
innover

Le clonage de voix se fait entendre

Synthesia a contribué à une campagne vidéo interactive pour le compte de la marque Lay's, dans laquelle un Lionel Messi virtuel est capable de parler huit langues différentes. ©Synthesia

Le clonage de voix offre des perspectives immenses dans la communication, le cinéma, la santé… et les arnaques en tous genres.

Une dizaine de minutes d'enregistrement suffisent aujourd'hui à un algorithme pour s'approprier la voix d'un humain, et la manipuler dans toutes les langues. Un procédé par lequel, le nouvel "hôte" peut non seulement "lire" un texte préparé à l'avance, mais aussi le traduire dans plusieurs dizaines de langues étrangères.

La société britannique Synthesia revendique 40 langages à son actif. Ses expérimentations et partenariats avec des institutions, des personnalités ou des entreprises se sont déjà avérées payantes. Le principe est toujours le même: répliquer un message dans un maximum de langages pour optimiser la communication vis-à-vis des cibles, des clients ou des employés.

Le principe est toujours le même: répliquer un message dans un maximum de langages pour optimiser la communication.

Avec une autre start-up, Zapier, Synthesia propose notamment de générer des emails avec vidéo intégrée dans lesquelles il est possible, à partir d'un simple texte et d'un enregistrement vidéo de base, de multiplier à l'envi les personnalisations, contenus et langages à l'adresse des employés ou des clients. Le futur des multinationales est déjà prévisible: chaque maillon humain pourra être appelé par son prénom par le big boss, qui pourra lui détailler certaines mesures… sans avoir eu besoin de les prononcer.

Optimiser certains processus répétitifs

En attendant, les différentes technologies de doublage et de clonage permettent surtout d'optimiser certains processus répétitifs. La société allemande d'électroménager Corporation assure avoir amélioré de 70% l'efficacité de ses formations. Le fabricant de produits médicaux Cphhano a augmenté sa SEO (visibilité sur les moteurs de recherche) de 50%. La chaîne de bricolage polonaise Purios, présente sur YouTube, a transposé ses contenus en français et en roumain, en modifiant les mouvements labiaux du présentateur pour les faire correspondre à la diction du traducteur. Même facilité pour le "polyglotte" David Beckham, dont les mouvements labiaux ont été adaptés à neuf traducteurs différents dans le cadre d'un programme humanitaire contre la malaria.

Reuters, a créé avec Synthesia le premier commentateur virtuel de football, dont le compte-rendu vocal, face caméra, était adapté au scénario du match.

Plus troublant encore: l'une des plus grandes agences d'information du monde, Reuters, a créé avec Synthesia le premier commentateur virtuel de football, dont le compte-rendu vocal, face caméra, était adapté au scénario du match. D'autres utilisations plus constructives ont déjà été faites, à Vocalid notamment, pour donner une voix à des personnes souffrant de handicap.

Le doublage de films et de documentaires va aussi vivre un tournant sans précédent. Dans le cadre d'un documentaire, la société Respeecher a par exemple produit une voix synthétique de l'ancien président américain Richard Nixon, en lui faisant prononcer les mots qui auraient, peut-être, été les siens si la mission Apollo 11 s'étaient mal terminée. L'utilisation d'une voix synthétique du chef cuisinier Anthony Bourdain, décédé en 2018, dans le cadre d'un documentaire qui lui était consacré, a créé la polémique pour des raisons évidentes.

Vers une utilisation éthique?

Les sociétés spécialisées jouent les équilibristes, en promettant d'un côté que cette technologie peut offrir des opportunités sans précédent… et en assurant qu'elles en feront une utilisation éthique. Synthesia assure par exemple que l'humain sera toujours prioritaire. "Nous sommes conscients de notre responsabilité", assure la start-up basée à Shoreditch, au nord de la City de Londres. "Il est évident que l'intelligence artificielle et d'autres technologies ayant une puissance similaire ne peuvent pas être conçues sans avoir des arrières-pensées éthiques."

"L'intelligence artificielle et d'autres technologies ayant une puissance similaire ne peuvent pas être conçues sans avoir des arrières-pensées éthiques."
Synthesia

Synthesia a indiqué que cette technologie ne sera pas laissée en open source. Prenant le contre-pied d'autres entreprises similaires, elle a également assuré qu'elle ne manipulerait pas la voix d'un politicien ou d'une célébrité sans son consentement, et qu'elle veillerait à ce qu'aucun de ses outils ne puisse être détourné à cette fin. Le danger de tels détournements est déjà perceptible en Californie, où les contre-publicités de campagnes électorales, pour dénigrer un opposant, existent depuis des décennies. L'utilisation de cette technologie y a été interdite dès 2019.

Les banques déjà sur le qui-vive

Il y a cinq ans, HSBC était la première banque à lancer une technologie de reconnaissance vocale permettant d'identifier chaque client. La banque britannique assure aujourd'hui que le système Voice ID, qui a été utilisé par 2,8 millions de clients, a réduit de moitié le nombre de fraudes.

En identifiant une centaine de caractéristiques vocales sur chaque appel, elle a permis de reconnaître 43 000 appels frauduleux, et de protéger quelque 249 millions de livres sur les comptes de ses clients.

Comme les autres outils anti-fraude de reconnaissance vocale, Voice ID est-elle déjà dépassée? Une autre technologie, celle du clonage de voix, fait en tout cas "siffler les oreilles" des experts. Elle a déjà fait une victime, celle d'un cadre britannique piégé par la fausse voix de son patron allemand, et qui a transféré sur un faux compte 220.000 euros. Comme c'est le cas pour toutes les deep fakes – ces contenus numériques manipulés par intelligence artificielle –, le jeu du chat et de la souris a déjà commencé.

Lire également

Publicité
Publicité
Publicité
Publicité

Messages sponsorisés

Messages sponsorisés