Pour communiquer avec nous au travers des assistants virtuels qui ont envahi nos vies, les Google, Amazon ou Apple sont à la recherche de la voix parfaite.

Vous vous réveillez le matin, débutez votre journée bon an, mal an. Entre une tartine et le départ des enfants à l’école, vous voulez savoir de quoi sera faite votre journée, alors vous tentez un : "OK Google, qu’est-ce que j’ai dans mon agenda aujourd’hui ?" Et là, miraculeusement, une voix familière vous répond: "Bonjour Maxime, vous avez "Réunion d’équipe" à 10h, "Lunch avec Laurent" à 12h30, et un rappel "Ne pas oublier votre enfant" à 16h. Bonne journée !" Pratique.

Cette voix qui semble familière est en réalité le résultat d’années de recherches dans les laboratoires des géants de la tech. Les voix du Google Assistant, d’Alexa ou de Sirri ont tout d’une voix humaine, mais il n’y a rien de plus artificiel. Lors des débuts des assistants vocaux, leurs voix métalliques, froides et impersonnelles en ont rebuté plus d’un. Aujourd’hui, on a parfois du mal à faire la distinction entre le vrai et le faux, mais la recherche de la voix parfaite n’est pas terminée.

Le défi de ces géants technologiques est de créer une voix parfaite qui conviendra à tout le monde tout en apparaissant familière.

Pour créer les voix avec lesquelles nous conversons, Google et d’autres utilisent une intelligence artificielle appelée BERT qui traite les informations entrantes et sortantes et garantit l’apprentissage constant du cerveau virtuel. Pour faire en sorte qu’un assistant virtuel ait les interactions les plus naturelles possibles, il faut en permanence améliorer son NLU. Un acronyme pour Natural Language Understanding qui reprend les capacités d’une machine à comprendre le langage humain et surtout à l’interpréter correctement en fonction du contexte.

Une voix plus inclusive

Le défi de ces géants technologiques est de créer une voix parfaite qui conviendra à tout le monde. Plusieurs technologies sont utilisées et mélangées pour obtenir le son voulu. Chez Google par exemple, on utilise la technologie Tacotron, qui est capable d'imiter les voix humaines quasi à la perfection en y incluant les accents toniques, certaines nuances et de la ponctuation. La voix entendue par l’utilisateur est basée sur deux cerveaux virtuels distincts, qui parviennent à transformer un texte en bande audio et à le prononcer. Mais ce n’est pas tout.

"Pour créer ces voix naturelles pour le Google Assistant, nous utilisons aussi la technologie de pointe WaveNet, qui amène des tonalités et un rythme exceptionnels", nous explique depuis Mountain View en Californie Beth Tsai, Policy Lead pour le Google Assistant. Elle travaille avec ses équipes à la création d’une expérience plus positive et inclusive pour les utilisateurs. Plus inclusive, car initialement les voix des assistants vocaux de Google ou Amazon étaient féminines. Accusés de renforcer le stéréotype de la femme assistante et responsable de rappeler à l’homme ce qu’il doit faire, les géants technologiques ont rapidement proposé un panel de voix plus diversifié. Chez Google, on a poussé le bouchon un peu plus loin, nous explique-t-on, en décidant il y a déjà quelques années de "ne plus associer les voix à un genre, car on pouvait penser que nous définissions le standard de ce à quoi devait ressembler une voix féminine type". Ce sont donc des couleurs qui ont remplacé les mentions de genre. La neutralité de l'assistant est devenue la norme.

"La voix est le contact de l’utilisateur avec l’assistant, elle est très importante. Elle doit avoir un ton neutre, car elle ne doit pas influencer l’utilisateur." Beth Tsai Policy Lead pour le Google Assistant

Un manque d’émotion

Pourtant, ce qui fait le succès de ces assistants, c’est la personnalisation. Il connaît vos habitudes, décrypte votre façon de parler et modifie son comportement en fonction de votre routine tout en gardant une distance émotionnelle. Car au-delà de la voix, il y a aussi le ton qui est employé par l’assistant qui joue un rôle primordial. Comme pour la voix, il faut être très prudent, nous explique Beth Tsai : "La voix est le contact de l’utilisateur avec l’assistant, elle est très importante. Elle doit avoir un ton neutre, car elle ne doit pas influencer l’utilisateur. Imaginez par exemple qu’un utilisateur demande à l’assistant ce qu’il pense d’Hitler et qu’il réponde par erreur avec un ton enjoué." Pour éviter de prendre parti, l’assistant est donc neutre, mais en coulisse on aimerait lui donner plus de personnalité. "Nous commençons à explorer ce domaine car l’émotion rendra l’expérience encore plus immersive pour l’utilisateur", nous explique-t-on du côté de Google.

À l’heure où les assistants virtuels prennent de plus en plus de place en prenant des rendez-vous, en répondant au téléphone ou à la porte d’entrée ou en gérant notre liste de courses et nos achats à notre place, la quête de cette voix et cette personnalité parfaites pour les assistants est devenue un enjeu business de premier plan pour les géants de la tech. Qui réussira à avoir l'oreille de ses utilisateurs?

1 milliard d'appareils équipés Il y a plus d'un milliard d'appareils numériques équipés de l'Assistant Google dans le monde.