Après les fake news, la détection des deep fakes est un nouveau challenge

©doc

Facebook lance un concours afin de couronner le meilleur algorithme de détection d'une deep fake. Mais existe-t-il seulement une méthode de détection infaillible?

Plutôt que de mobiliser ses équipes de recherche à détecter les deep fakes, ces vidéos truquées avec l’appui de l’intelligence artificielle (IA), voilà que Facebook lance un appel en vue d’en produire les meilleurs possibles… Dans quel but? Organiser un concours (qui débutera en décembre *) qui viendra couronner le meilleur algorithme de détection. Car Facebook ne veut plus être pris au piège, comme en 2016, quand son réseau avait été infesté de fake news. Existe-t-il pour autant une méthode de détection infaillible en la matière?

Les effets spéciaux, avec des acteurs qui se glissent dans la peau de cascadeurs ou qui évoluent dans des environnements virtuels, existent depuis longtemps. Ces techniques de trucage ont longtemps été inaccessibles pour le commun des mortels. Mais l’IA et tous les outils qui en dérivent, aujourd’hui en libre accès sur Internet, ont changé la donne. Auparavant, les méthodes pour détecter les vidéos truquées reposaient sur des analyses minutieuses d’experts. Ils ne font aujourd’hui plus le poids face à l’automatisation de l’IA. Facebook l’a bien compris et finance, à concurrence de 10 millions de dollars, l’organisation et l’accompagnement de ce concours avec le MIT, Berkeley et Oxford.

You Won’t Believe What Obama Says In This Video!

En pratique, fabriquer un deep fake requiert deux vidéos: une vidéo cible et une autre destinée à "apprendre" le sourire, le hochement de la tête, le clignement des yeux, le mouvement des lèvres du visage cible pour le coller à la première vidéo. Il existe trois types de deep fakes. Le premier consiste à remplacer un visage par un autre dans une vidéo. Dans le deuxième type, il s’agit de remplacer le discours d’un personnage par un autre en adaptant le mouvement de ses lèvres. C’est une sorte de doublage fabriqué par l’IA. Dans le dernier type, image et son sont inventés; un acteur joue le rôle de la personne cible pour la mettre en scène et lui fait dire ce qu’on veut.

C’est la forme la plus dangereuse des deep fakes puisqu’on ne peut même pas comparer la vidéo truquée à l’originale. De fait, il n’existe pas d’original…

Les algorithmes s’adaptent

Dès qu’une technique de détection d’un deep fake est connue, les algorithmes de l’IA s’adaptent. Le clignement des yeux un peu artificiel a été l’un des premiers indices, vite intégré dans la conception de meilleurs deep fake. Une méthode encore efficace aujourd’hui pour détecter un deep fake consiste à analyser la perspective en trois dimensions du visage usurpé dans son nouvel environnement à partir des objets qui l’entourent. On parvient ainsi à détecter des aberrations. Mais cette technique ne fonctionne que pour le premier type de deep fake, un visage remplacé par un autre dans un environnement qui n’est pas le sien. Les autres techniques se basent sur les pixels d’images, au niveau des raccords par exemple. On les contourne facilement par une réduction de la qualité de l’image ou par ajout de bruit numérique en redimensionnant la vidéo pour que ces défauts soient moyennés et disparaissent.

Une recherche récente et prometteuse ("Protecting World Leaders Against Deep Fakes", S. Agarwal et al., 2019, CVPR) mêle les deux approches en construisant a priori une signature biométrique des personnages cibles des deep fakes (politiciens, CEO,…). Quand nous parlons, nous avons tous une manière propre de bouger la tête, le visage, le haut du corps et même les lèvres. Dès qu’un autre visage se substitue au nôtre sur une vidéo, dès que les lèvres sont manipulées pour y coller un autre discours ou même dès qu’un acteur nous simule, cette signature biométrique disparaît. Cette disparition prouve alors que l’on a à faire à un deep fake dans plus de 9 cas sur 10 d’après les auteurs. Elle est aussi résistante aux techniques d’ajout de bruit, de recompression ou de redimensionnement d’images. Par contre, elle n’est efficace que dans un contexte donné: notre signature biométrique ne sera pas la même selon qu’on prononce un discours ou que l’on commande une pizza. Si cette technique se développe, on sera sans doute tranquille quelque temps, car les algorithmes de deep fakes devront apprendre à reproduire la signature biométrique de leurs victimes.

Pour autant, il faudra encore veiller à mettre à disposition le profil biométrique des leaders politiques et espérer que les sites de fact checking les intègrent. Le problème de ces méthodes de détection, c’est qu’elles ne sont pas à la portée du premier venu. Quand nous visionnons une vidéo, nous n’aurons généralement ni le temps ni l’envie de chaque fois la vérifier, même avec des sites qui implémenteront les meilleures techniques de détection. À nouveau, les réseaux sociaux et les médias auront la responsabilité de les détecter pour nous. Las, comme pour les fake news parfois tellement grosses, il y a fort à parier que ceux qui ne veulent pas entendre la vérité préféreront les sites qui ne font rien. Les deep fakes sont, du reste, nés dans un contexte où "les faux" sont banalisés et acceptés par les politiciens. La prolifération des deep fakes pourrait donc les arranger. Il leur sera en effet facile de nier après coup une déclaration enregistrée ou discours en prétendant qu’il s’agit d’un deep fake.

A supposer que l’on parvienne à détecter de la sorte les deep fakes des politiciens et leaders, on verra probablement apparaître des deep fakes de notre patron qui nous téléphone, dans une version revisitée de l’arnaque au président, de son dentiste, etc. Et là, il n’y aura pas parade. Car on ne va pas créer un profil biométrique pour tous les internautes du monde…

Lire également

Publicité
Publicité

Echo Connect

Messages sponsorisés

n