Google veut mettre l'IA au service des malentendants

©Marc Müller/dpa

Le géant américain est un acteur avancé dans le domaine de l'IA. L'entreprise cherche aussi comment rendre cette innovation utile pour tous. Les premiers projets pour les malentendants sont plutôt encourageants.

Dimitri Kanevsky est un chercheur inspirant. Originaire de Russie, il vit à Mountain View, près de San Francisco, où il travaille pour le géant Google. Son quotidien? Améliorer les technologies d’intelligence artificielle (IA) du groupe dans un but précis: venir en aide aux personnes souffrant d’un handicap. Un job classique de chercheur, si ce n’est que son travail lui sert aujourd’hui au quotidien. Dimitri Kanevsky souffre de surdité totale depuis qu’il a un an.

N’ayant quasiment jamais entendu le moindre son, sa prononciation est difficilement compréhensible et son accent russe, lorsqu’il s’exprime en anglais, n’arrange pas les choses. Au final, l’homme est difficilement audible. Aucune difficulté toutefois à s’entretenir avec lui. Pour obtenir un tel résultat, Dimitri Kanevsky a combiné astucieusement deux technologies made in Google.

La première se nomme "Live Transcribe" et est aujourd’hui déjà bien répandue. En activant le micro de son smartphone, cette innovation se charge de retranscrire avec une assez bonne précision l’expression orale. En le présentant devant son interlocuteur, le professeur peut donc se passer de la lecture labiale pour se contenter de lire les propos sur son smartphone.

Lorsqu’il prend la parole, il utilise également la technologie. Celle-ci n’est toutefois pas adaptée à sa diction atypique, Live Transcribe ne parvenant pas à coucher correctement ses mots sur écran. Il a donc développé Euphonia, son propre logiciel d’intelligence artificielle. "Durant 25 heures, je me suis enregistré dessus afin d’entraîner la machine à me comprendre", explique le chercheur.

Double apprentissage

Le résultat est impressionnant. Alors que l’oreille humaine peine à comprendre tous ses mots, la machine les retranscrit sans le moindre problème. Le résultat n’est toutefois pas encore parfait et quelques erreurs se glissent parfois dans les retranscriptions. "Je travaille depuis six ans chez Google", retrace durant la rencontre le chercheur. Prononcé en anglais, son "six years" est compris comme "sixty years" par son smartphone. Le chercheur s’agace de l’erreur et répète à plusieurs reprises jusqu’à ce que la retranscription soit bonne. L’intérêt est double. En rectifiant la machine, il lui apprend à faire une nouvelle distinction. "L’autre avantage est que cela me permet aussi d’améliorer ma propre diction. J’essaie jusqu’à savoir comment prononcer le mot correctement", explique le professeur.

Aujourd’hui, Euphonia est encore au stade de prototype. Mais son son potentiel semble énorme. Pour continuer à grandir, toutefois, il faut désormais accroître la connaissance de la machine pour l’adapter à tous les troubles de l’expression. Depuis quelques mois, Dimitri Kanevsky enchaîne donc les conférences pour faire connaître Euphonia et inviter toutes les personnes souffrant d’un problème d’élocution à envoyer des enregistrements. En exerçant autant que possible la machine, il espère ainsi la rendre accessible à tout le monde.

Caméra pour les malvoyants

L’initiative du chercheur n’est qu’un exemple du potentiel dont l’IA dispose pour améliorer le quotidien des personnes souffrant d’un handicap. Google développe aussi par exemple une application destinée aux malvoyants. Celle-ci fonctionne avec la caméra du téléphone. En la pointant vers un objet, la technologie est capable d’analyser ce qu’elle voit pour en faire ensuite une description audio. Le projet est également toujours en phase de test, mais les résultats sont déjà prometteurs. "La technologie est par exemple capable de distinguer la valeur d’un billet", explique Google.

D’autres recherches sont également menées pour apporter une solution aux personnes touchées encore plus gravement par le handicap. Google s’intéresse par exemple à la communication non-verbale de personnes totalement privées de parole. Une caméra pourrait ainsi analyser l’expression du visage pour donner une réponse entre plusieurs propositions. Là aussi, les débuts sont pour le moins encourageants.

Lire également

Publicité
Publicité

Echo Connect