12 mai 2023
Un nouveau pas a été franchi par Alexa, le moteur conversationnel d'Amazon.
Il faut bien se rendre compte que l'interface vocale va bien au-delà des enceintes qui sont le point d'entrée de la voix dans nos foyers. La voix est une interface appelée à devenir aussi importante que le texte, l'image et la vidéo et donc à en remplacer une partie des usages.
Plus rapide* et plus pratique ("handfree") sur le papier (sic), la voix a coché la case de la reconnaissance vocale quasi parfaite et travaille désormais la compréhension.
Pour cela, la prise en compte du contexte est un facteur déterminant du succès de la voix, pourquoi ?
Parce que la voix est exigeante. On supporte facilement la lecture d'un texte approximatif, on s'irrite bien plus vite d'entendre quelque chose qui n'est pas pertinent.
En l'absence d'autres média, la réponse vocale doit être parfaite dans ce qu'elle restitue. Elle ne peut pas s'appuyer sur un texte, sur une image pour compléter son propos.
Nous disposons de peu de signaux extérieurs lorsque nous faisons du design vocal. Amazon a commencé à étendre Alexa à potentiellement tout appareil (voiture, aspirateur, …) pour que les oreilles d'Alexa soient ses yeux. Mais pour l'instant, nous avons du développer une méthode de design propriétaire pour prendre en compte l'environnement de l'utilisateur.
En parallèle, Amazon travaille activement à rechercher des données ayant du sens dans les éléments de langage entendus (c'est le rôle du NLU : la compréhension du langage naturel).
Dans un post début décembre, Ruhi Sarikaya, Directeur scientifique d'Alexa a présenté la nouvelle version du moteur (toujours disponible en avance aux USA -en langue anglaise- pendant quelques mois)**.
Jusqu'à maintenant, on utilisait des données contextuelles pour désambiguïser une information de l'utilisateur (avec son historique, ses préférences, les infos précédentes dans une conversation, les usages d'autres applications vocales, les informations de session ou de localisation géographique -voire dans la maison***-).
Amazon a déployé des algorithmes de Machine Learning qui ont permis pendant plusieurs mois de corriger les requêtes musicales d'un utilisateur à l'autre. Le fonctionnement est assez simple : quand un utilisateur se trompe et "se" corrige, l'algorithme détecte ensuite les mêmes erreurs pour les corriger de lui-même.
Ce qui devient intéressant pour l'utilisateur devient délicat pour les marques. Désormais Alexa étend ce système à la découverte de skills. Ainsi, quand vous commandez "a car" (taxi, VTC, véhicule en partage) aux USA, Alexa trouve le meilleur choix de transport à vous proposer et pas forcément en voiture.
On est à quelques mois d'un système où ayant demandé la météo d'un lieu ou l'horaire d'un train pour une destination, Alexa proposera de vous rendre à la gare avec le moyen de transport le plus rapide, le moins cher ou celui pour lequel vous avez un compte ou des réductions voire celui qui a payé le plus cher pour être mis en avant.
Qu'est-ce que cela signifie pour les marques ? Il est impératif de savoir mettre à disposition le maximum de données de contexte pour un utilisateur : CRM, transactions, informations produits, … ! A défaut, ce sont les utilisateurs eux-mêmes qui donneront les meilleures réponses.
La nouvelle initiative d'Alexa (Alexa Answers) propose aux utilisateurs d'indiquer eux-mêmes les meilleures réponses aux questions non comprises.
Pour reprendre l'exemple précédent, cela revient à demander au concierge de l'hôtel quel est le meilleur moyen de transport pour se rendre à tel endroit et non pas à se fier aux dires de l'entreprise.
Heureusement, il restera toujours la préférence de marque, élément immatériel conduisant à des choix moins rationnels et plus émotionnels de la part des clients.
La dimension émotionnelle de la marque doit aussi disposer d'un point d'appui dans l'univers vocal. En plus s'interfacer avec les données de contexte utilisateur, il est déterminant de commencer à travailler la forme de vos skills.
Quelle(s) voix pour donner de l'émotion à votre marque sur le vocal ?
* Il ressort de nos tests une rapidité de 3 à 5 fois supérieure au mobile et au web.
** https://developer.amazon.com/fr/blogs/alexa/post/3ac41587-f262-4fec-be60-2df2f64b9af9/the-role-of-context-in-redefining-human-computer-interaction
Ces algorithmes ont pour l'heure été déployés au Canada, en Angleterre, Australie, Nouvelle Zélande, Inde et Allemagne pour les skills musicales.
*** C'est pour cela qu'Alexa et Google demandent où se situe l'appareil : cuisine, chambre, salle de bains, salon, …
Share
Auteur