IAG : sécuriser les données en entreprise

Malgré les promesses de l’IA générative (IAG), les entreprises craignent pour la sécurité de leurs données. Des stratégies se développent pour minimiser les risques de faille. Avec plus ou moins d’efficacité.

La statistique laisse rêveur. « Plus de 80% des entreprises du Fortune 500 ont adopté ChatGPT », se félicite OpenAI. La plongée au cœur du quotidien des entreprises montre une réalité plus contrastée. « Certains collaborateurs s’amusent avec les chatbots. Mais l’implantation en entreprise reste difficile », souligne Charles Letaillieur, senior manager spécialisé dans l’IA générative chez Converteo, un cabinet de conseil en data et IA. « On ne peut rien lui donner de stratégique ou de confidentiel », précise-t-il, en référence à la fuite de données de Samsung en avril dernier, liée à l’utilisation de ChatGPT par des employés.
Les informations fournies par les utilisateurs dans le cadre de leurs interactions avec des grands modèles de langage (LLM) peuvent être réutilisées comme données d’apprentissage par l’outil. Résultat, les IA génératives (IAG) sont susceptibles de divulguer des données confidentielles, personnelles ou stratégiques. Un nouveau défi de taille pour les DSI. « Auparavant, il fallait protéger les données des individus malveillants. Aujourd’hui, des utilisateurs lambda posent des questions à ChatGPT et se retrouvent avec des informations stratégiques. »

Interdire l’IAG : une fausse bonne idée

Pour éviter les risques de fuites, certaines entreprises comme Apple ou Amazon interdisent purement et simplement l’usage de ChatGPT en interne. Une fausse bonne idée pour Mathieu Crucq. « Refuser d’utiliser l’IA générative, ce serait comme refuser d’utiliser Internet lors de sa création et passer à côté d’une révolution majeure », illustre le directeur général de Brainsonic, également chargé de l’e-innovation au sein de l’agence de communication. D’autres groupes se tournent vers ChatGPT entreprise. La version professionnelle du LLM promet « un niveau renforcé de sécurité » et « un meilleur respect des données ». La plupart des data officers restent pourtant sceptiques. « Il s’agit d’une simple promesse », relève Guillaume Champion, chief data officer chez Whoz, une entreprise spécialisée dans la digitalisation des processus de staffing. « L’entreprise ne contrôle ni l’utilisation des données, ni les serveurs. Il y a donc un risque de faille de sécurité. »

D’autres, comme le Club Med, testent Copilot de Microsoft, l’IAG intégrée dans toutes les applications d’Office 365. Une solution sécurisée particulièrement onéreuse. Comptez 30 dollars par mois et par utilisateur. Autre frein : les capacités de Copilot sont limitées. « L’outil se contente d’améliorer la bureautique. Il n’est pas connecté à nos systèmes d’information et ne répond pas à nos usages ciblés », observe Siddhartha Chatterjee, chief data officer au Club Med. Le géant du resort préfère axer sa stratégie sur le développement de ses propres outils.

Développer des LLM spécifique à son entreprise

Le principe est simple. Les équipes data s’appuient sur une technologie existante : des modèles open source, comme LAMA, ou des API de Google ou OpenAI, c’est-à-dire des interfaces de programmation d’application pour installer l’outil en interne. Il est ainsi possible de greffer la technologie ChatGPT ou Bard dans l’interface de la société ou, en allant plus loin, de créer son propre chatbot en interne en combinant plusieurs modèles de LLM. Quel que soit le degré de développement, l’outil est sécurisé. « Les modèles sont copiés et téléchargés comme des logiciels. Les données sont donc stockées et protégées dans l’environnement protégé de l’entreprise », insiste Mathieu Crucq.

Le Club Med est loin d’être un cas isolé. La majorité des entreprises déploient leur propre LLM, à l’instar de One Point. L’an dernier, le cabinet de conseil a mis en place une IA pour ses 3.500 collaborateurs, baptisée Néo. « Tous nos modèles sont déployés à l’intérieur d’un cloud privé », spécifie Nicolas Gaudemet, chief AI officer chez OnePoint. « L’ensemble des accès à l’outil sont protégés par une double authentification via l’intranet de l’entreprise. » Autre avantage de taille : Néo est personnalisable et répond à des problématiques métiers propres à l’entreprise.

De son côté, Orange préfère progresser étape par étape. En attendant le déploiement prévu en 2024 des infrastructures pour utiliser les LLM existants a grande échelle, l’opérateur « teste ces technologies dans de nombreux domaines d’application et a mis à disposition une interface contenant différents modèles disponible depuis l’intranet du groupe », détaille Raphaël Mombellet, directeur Data science et analyses chez Orange, également directeur du programme IA générative pour Orange France. Là encore, le programme est hébergé dans l’environnement cloud Azure dédié à Orange, dont les serveurs sont situés en Europe. « Cela nous permet de mettre à disposition de l’ensemble de nos salariés la puissance de l’IAG dans un environnement sécurisé. Ils peuvent ainsi s’habituer au fonctionnement des LLM et tester leurs idées pour améliorer la productivité avant l’arrivée de notre outil. »

« Le risque zéro n’existe pas »

Quelle que soit la solution envisagée, toutes les entreprises sont unanimes : le risque zéro n’existe pas. « Même si l’environnement est sécurisé, il vaut mieux rester prudent et clarifier les données présentant des risques en fonction des algorithmes utilisés», conseille Anne Claire Baschet, chief data officer chez Aramis Group. En juillet dernier, le spécialiste européen de la vente de véhicules d’occasion reconditionnés a développé un portail connecté à la version API de ChatGPT. L’outil est programmé pour exclure certaines données sensibles, telles que les informations stratégiques ou les données personnelles.

En parallèle, le groupe mise sur le volet formation et sensibilisation aux risques. « Un meet-up collaboratif et pratique est organisé tous les mois à travers les six marques d’Aramis Group afin d’encourager les usages chez les collaborateurs », ajoute Anne Claire Baschet. Des dispositifs similaires sont mis en place chez Orange ou le Club Med.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

IA générative : Comment sécuriser les données en entreprise ?

Interdire l’IAG : une fausse bonne idée

Développer des LLM spécifique à son entreprise

« Le risque zéro n’existe pas »

Suggestion de contenus