IA vocales pour conquérir les entreprises

De plus en plus performantes dans le traitement de la voix, grâce à des modèles entraînés sur de larges bases de données, les IA vocales ouvrent de nombreux cas d’usage pour les entreprises. Ces dernières testent des usages en interne avant de lancer ces solutions face aux clients.

Le brouhaha est intense dans les allées du salon VivaTech. Stéphane Hersen, CEO de Skyted, chuchote dans un micro fixé sur sa tête. À l’autre bout, dans le casque, le son est propre. Le vacarme des visiteurs du salon a disparu. Les mots arrivent dans un bruit de fond moyen, comme s’ils n’avaient été prononcés à voix basse. “L’IA permet de faire disparaître les bruits extérieurs”, explique Stéphane Hersen. La jeune start-up vise les professionnels souvent itinérants, obligés de réaliser des réunions dans les transports ou des lieux publics. “Grâce à ce micro, on peut faire un appel sécurisé, silencieux et partout”, ajoute-t-il, précisant qu’il est possible d’introduire, grâce à l’IA, le bruit de fond que l’on souhaite pour remplacer les nuisances extérieures.

Ces dernières années, avec la montée en puissance de l’intelligence artificielle, les technologies d’IA adaptées au traitement de la voix deviennent de plus en plus performantes. “L’arrivée des grands modèles de langage (LLM) a accéléré les cas d’usages”, indique Katya Lainé, CEO de la start-up Talkr.ai, qui conçoit des assistants virtuels téléphoniques. Selon elle, ces nouveaux cas d’usages sont principalement destinés aux entreprises car ces technologies permettent de concevoir des solutions plus complexes et plus engageantes en temps réel. Avec l’entraînement de ces LLM sur un volume de données plus important, les solutions peuvent désormais transcrire la parole sous forme textuelle ou vocale, proche de la parole humaine. Mais il existe un autre changement majeur.

Les entreprises testent en interne

“Une fois la parole retranscrite, il faut la comprendre et y répondre dans une application”, souligne Emmanuel Vincent, directeur de recherche à l’Inria et co-fondateur de la start-up Njita, spécialisée dans l’anonymisation vocale. “Avec les grands modèles de langage, la réponse y est parfois intégrée. On ne va plus obligatoirement chercher sur le web les informations. La Big Tech est en train d’imposer ce concept”. Selon le chercheur, ces nouvelles solutions ne gomment pas encore tous les biais, notamment certaines hallucinations ou réponses fausses. “Il existe aussi la question des mises à jour des modèles”, ajoute-t-il. Sans ces mises à jour, les solutions peuvent se baser sur des faits antérieurs et donner des réponses basées sur des informations qui ont changées.

La démocratisation des IA génératives, notamment avec la percée de ChatGPT fin 2022, révèle aujourd’hui les capacités de ces solutions. Mais Katya Lainé souhaite montrer la distinction entre ces technologies et les assistants virtuels destinés aux entreprises. “Ces derniers sont beaucoup plus carrés”, assure-t-elle, avant de préciser qu’il ne suffit pas de brancher une IA à une voix pour concevoir un assistant. “C’est comme une voiture”, compare Katya Lainé. “Il y a le moteur mais également le freinage ou les rétroviseurs. Pour l’assistant, il faut plusieurs éléments et particulièrement dans le cadre professionnel. C’est beaucoup plus touchy”. Mais ces solutions tombées dans les mains du plus grand nombre poussent les entreprises à augmenter leurs standards, notamment dans le cadre de la relation client. “Les utilisateurs sont plus exigeants et doivent être satisfaits rapidement”, estime la co-fondatrice de Talkr.ai.

Cette très forte attente de la part des clients pousse les entreprises à se cantonner encore à des usages internes. “Ils ne prennent pas le risque d’utiliser ces technologies envers les clients”, confie Katya Lainé. Ce sont les métiers qui contiennent des tâches à faible valeur ajoutée qui sont aujourd’hui transformés. Selon la co-fondatrice de Talkr.ai, ces usages au sein des entreprises représentent un test avant d’exporter les solutions. “Un assistant destiné au public est conçu de manière beaucoup plus stricte car les scénarios sont bien plus complexes”, juge-t-elle, évoquant notamment les solutions de reconnaissance vocale de clients au téléphone.

Même les plus grands sont encore confrontés à des difficultés pour développer ce type de solutions face aux clients. C’est le cas du géant McDonald’s qui testait depuis deux ans une solution d’IA, en partenariat avec IBM, permettant la prise de commande automatisée dans les “drive-in” (ndlr : depuis les voitures des clients) d’une centaine de ses restaurants aux États-Unis. « Nous pensons qu’il y a une opportunité d’explorer plus largement les solutions de commande vocale », a déclaré Mason Smoot, directeur des restaurants McDonald’s aux États-Unis. Mais le géant des fast-foods ne compte pas en rester là puisque Mason Smoot promet : « Une solution de commande vocale pour le drive-in fera partie de l’avenir de nos restaurants. »

Des données plus disponibles

Les solutions d’IA autour de la voix ont longtemps souffert du manque de données disponibles pour se développer. “Selon la langue, la quantité de données n’est pas les mêmes”, indique le directeur de recherche à l’Inria, Emmanuel Vincent. “Dans certains pays d’Europe comme la Roumanie ou la Grèce, il y en a encore peu même aujourd’hui”. Il estime que l’accessibilité globale des données reste un sujet primordial pour permettre également aux petits acteurs de se maintenir face aux géants de la Tech. “Des consortiums se créent pour concurrencer la Big Tech”, explique-t-il. C’est le cas du VoiceLab, lancé à travers un appel à projet en 2018. L’association regroupe des acteurs des technologies de la voix et du langage, des start-ups et des laboratoires de recherche. “On a réuni des solutions très performantes et rassemblé des données, afin de créer une alternative aux grands américains”, précise Katya Lainé, également vice-présidente du VoiceLab. “On n’est jamais trop souverainiste”, lance-t-elle.

Cette base de données conçue par l’association a pour objectif de permettre à ses membres d’entraîner leurs modèles. Mais la vice-présidente confie la difficulté qu’ont les technologies de transcription ou de perception du langage à augmenter leurs performances. Elle rejoint le chercheur Emmanuel Vincent, également membre du VoiceLab : “Il existe moins de données en français”. Mais ce dernier se veut rassurant au vu des progrès faits dans leur accessibilité. “Les grands modèles de reconnaissance vocale actuels ont appris sur des quantités de données jamais vues auparavant”, assure-t-il. “Des modèles ont utilisé jusqu’à 80 ans de paroles”. Des progrès qui permettent aux technologies d’accroître leurs performances. Chez Talkr.ai, l’automatisation des tâches d’un centre d’appel peut notamment aller jusqu’à 85% des demandes en temps réel.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

Les IA vocales, en voie de conquérir les entreprises

Les entreprises testent en interne

Des données plus disponibles

Suggestion de contenus