IA : échapper à la gravité des données

Un article proposé par Dell Technologies, dans le cadre de « What’s Next, CIO ? », l’observatoire DSI d’Alliancy. Tout au long de l’année, les partenaires de l’observatoire s’engagent à faire progresser l’écosystème du numérique par le partage de pratiques et la confrontation d’avis. Ils se mettent au service de la communauté des CIO pour leur permettre d’anticiper et d’incarner le changement dans leurs organisations.

Les DSI souhaitent majoritairement utiliser l’intelligence artificielle sur site. Mais les données, elles, sont de plus en plus en périphérie. Faudra-t-il rapatrier d’immenses datasets vers les datacenters ? Ou céder à la force centrifuge en déportant la puissance de calcul de l’IA au plus près des données ? La réalité est probablement hybride !

Imaginez le système solaire et le subtil équilibre gravitationnel qui maintient les planètes en orbite. Dans les systèmes d’information d’entreprise, la donnée exerce une influence similaire. Plus on stocke de la donnée au même endroit, plus cette accumulation va attirer de nouveaux jeux de données et plus ces jeux de données vont ensuite être difficiles à déplacer.

Dit plus simplement : la donnée attire la donnée.

Déplacer les données ou rapprocher les traitements ?

Ce phénomène, c’est la gravité des données, ou « data gravity ». Le risque ? Les énormes volumes qui en résultent vont créer de probables problèmes d’accès et la migration de tels data sets deviendra rapidement trop complexe et coûteuse. La conséquence ? L’organisation sera dans l’incapacité d’extraire de cet amas numérique des informations pourtant susceptibles de générer un bénéfice significatif pour son activité.

La gravité des données a un impact direct sur les architectures et infrastructures. Car pour gagner en efficacité, plutôt que de déplacer les données, les organisations vont avoir de plus en plus tendance à adopter la posture inverse, et à rapprocher les traitements et les applications de ces centres de gravité.

Mais ce pas si simple. Car une nouvelle et puissante onde gravitationnelle se propage dans les SI : l’intelligence artificielle.

Où entraîner les modèles d’IA et où les utiliser ?

Alors que la majeure partie des données étaient stockées dans des datacenters, l’emplacement des données a largement évolué ces dernières années, avec l’utilisation croissante de l’internet des objets (IoT) et des traitements en périphérie. La gravité avait donc commencé à prendre de l’ampleur.

Et c’était avant l’arrivée d’un véritable « game changer » : l’Intelligence Artificielle. D’après l’étude Generative AI Pulse Survey 2023 menée par Dell Technologies auprès de 500 décideurs informatiques, 76 % d’entre eux augmentent leurs investissements dans l’IA et un pourcentage similaire estime que l’impact de l’IA générative sera significatif, voire transformateur, pour leur organisation.

Désormais, avec l’adoption massive de l’IA et le déferlement de l’IA générative, les défis liés à la gravité des données sont amplifiés. Les DSI vont devoir déterminer où les données seront traitées et stockées. Où vont-ils entraîner les modèles et où vont-ils utiliser les algorithmes qui en résultent ? Notre étude montre que 82 % des décideurs IT préfèrent adopter une approche sur site ou hybride pour la gestion des données.

Mais cette croissance de l’IoT, et plus particulièrement de l’internet industriel des objets (IIoT), et l’utilisation croissante de l’Edge AI, impliquent de plus en plus de stockage et de traitement en périphérie. Cela signifie donc que les entreprises vont devoir procéder à des arbitrages sur les volumes de données à traiter en edge et ceux qui seront transférés dans le cloud hybride.

Sécurité, performances, conformité, coûts : les arbitres du placement

Alors, comment arbitrer et déterminer les futures infrastructures qui porteront les workloads d’IA ? Les contraintes de sécurité et de conformité seront souvent déterminantes, de même que les exigences en termes de performances ou encore de coûts. Le modèle d’exploitation de l’application qui va consommer les données (cloud ou sur site) peut également dicter la marche à suivre.

L’organisation a-t-elle besoin de jeux de données spécifiques dans des emplacements spécifiques, que ce soit en périphérie pour un traitement en temps réel ou dans un pays particulier en raison des réglementations en vigueur sur la souveraineté des données ?

Les coûts liés à la gestion des données dans le cloud, sur site ou dans un modèle hybride, sont également une conséquence majeure de la gravité des données et auront un impact sur les stratégies de gestion. Les coûts inhérents aux transferts de données sont élevés et les entreprises cherchent des solutions pour les éviter au maximum.

Virtualisation de données et stockage adjacent pour éviter les déplacements

Les réponses à cette longue liste de questions sur la localisation des différents jeux de données, la typologie des applications et les contraintes spécifiques à chaque traitement (car il n’existe bien évidemment pas de réponse universelle) vont dessiner l’infrastructure IT.

Mais il existe également une autre question importante à laquelle répondre pour défier la gravité. Quelles données doivent réellement être déplacées pour en tirer un bénéfice business ? Les organisations auront tout intérêt à effectuer un travail d’inventaire pour y répondre, car il existe aujourd’hui des méthodes grâce auxquelles elles peuvent obtenir les résultats qu’elles souhaitent, sans avoir à transférer de grands ensembles de données ni à créer de nouveaux centres de gravité.

On peut par exemple penser aux mécanismes de virtualisation des données, ou encore au déploiement d’un stockage dit « adjacent au cloud », c’est-à-dire des infrastructures privées physiquement installées au plus près des infrastructures des fournisseurs cloud.

Quels volumes pouvez-vous porter ?

Si l’on doit tirer une leçon très générale, plus les entreprises sont capables de manipuler de gros volumes de données, moins elles seront sensibles aux impacts négatifs de la gravité.

Dans le cas contraire, elles gagneront à construire une architecture dans laquelle ces déplacements sont réduits le plus possible, soit en misant sur des plateformes avec une très forte (et idéalement très économique) évolutivité, soit en trouvant des parades techniques aux déplacements.

La donnée est un asset absolument critique pour toute entreprise. Et compte tenu de l’engouement autour de l’IA, disposer d’une stratégie solide tenant compte de la gravité des données sera essentiel pour l’exploiter à son plein potentiel.

Sébastien Verger est CTO France de Dell Technologies. Technologue dans l’âme et porte-parole Dell Technologies, il intervient quotidiennement auprès de nos clients, d’événements marché et de conférences de presse pour mettre en perspective les évolutions technologiques majeures et leurs impacts sur les systèmes d’information des entreprises.

Sébastien a rejoint EMC en 1999 en tant qu’avant-vente grand compte. Il a exercé des responsabilités de management, contribué au développement du pôle d’expertise et fut un acteur clé de la mise en place d’une organisation avant-vente résolument tournée vers les Partenaires et le segment Commercial.

Précédemment, il a exercé des fonctions commerciales chez Sequent.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

IA : quelle infrastructure pour échapper à la gravité des données ?

Déplacer les données ou rapprocher les traitements ?

Où entraîner les modèles d’IA et où les utiliser ?

Sécurité, performances, conformité, coûts : les arbitres du placement

Virtualisation de données et stockage adjacent pour éviter les déplacements

Quels volumes pouvez-vous porter ?

Suggestion de contenus