IA : quelle infrastructure pour échapper à la gravité des données ?

Un article proposé par Dell Technologies, dans le cadre de « What’s Next, CIO ? », l’observatoire DSI d’Alliancy. Tout au long de l’année, les partenaires de l’observatoire s’engagent à faire progresser l’écosystème du numérique par le partage de pratiques et la confrontation d’avis. Ils se mettent au service de la communauté des CIO pour leur permettre d’anticiper et d’incarner le changement dans leurs organisations.

Les DSI souhaitent majoritairement utiliser l’intelligence artificielle sur site. Mais les données, elles, sont de plus en plus en périphérie. Faudra-t-il rapatrier d’immenses datasets vers les datacenters ? Ou céder à la force centrifuge en déportant la puissance de calcul de l’IA au plus près des données ? La réalité est probablement hybride !

Imaginez le système solaire et le subtil équilibre gravitationnel qui maintient les planètes en orbite. Dans les systèmes d’information d’entreprise, la donnée exerce une influence similaire. Plus on stocke de la donnée au même endroit, plus cette accumulation va attirer de nouveaux jeux de données et plus ces jeux de données vont ensuite être difficiles à déplacer.

Dit plus simplement : la donnée attire la donnée.

Déplacer les données ou rapprocher les traitements ?

WNCIO2Ce phénomène, c’est la gravité des données, ou « data gravity ». Le risque ? Les énormes volumes qui en résultent vont créer de probables problèmes d’accès et la migration de tels data sets deviendra rapidement trop complexe et coûteuse. La conséquence ? L’organisation sera dans l’incapacité d’extraire de cet amas numérique des informations pourtant susceptibles de générer un bénéfice significatif pour son activité.

La gravité des données a un impact direct sur les architectures et infrastructures. Car pour gagner en efficacité, plutôt que de déplacer les données, les organisations vont avoir de plus en plus tendance à adopter la posture inverse, et à rapprocher les traitements et les applications de ces centres de gravité.

Mais ce pas si simple. Car une nouvelle et puissante onde gravitationnelle se propage dans les SI : l’intelligence artificielle.

Où entraîner les modèles d’IA et où les utiliser ?

Alors que la majeure partie des données étaient stockées dans des datacenters, l’emplacement des données a largement évolué ces dernières années, avec l’utilisation croissante de l’internet des objets (IoT) et des traitements en périphérie. La gravité avait donc commencé à prendre de l’ampleur.

Et c’était avant l’arrivée d’un véritable « game changer » : l’Intelligence Artificielle. D’après l’étude Generative AI Pulse Survey 2023 menée par Dell Technologies auprès de 500 décideurs informatiques, 76 % d’entre eux augmentent leurs investissements dans l’IA et un pourcentage similaire estime que l’impact de l’IA générative sera significatif, voire transformateur, pour leur organisation.

Désormais, avec l’adoption massive de l’IA et le déferlement de l’IA générative, les défis liés à la gravité des données sont amplifiés. Les DSI vont devoir déterminer où les données seront traitées et stockées. Où vont-ils entraîner les modèles et où vont-ils utiliser les algorithmes qui en résultent ? Notre étude montre que 82 % des décideurs IT préfèrent adopter une approche sur site ou hybride pour la gestion des données.

Mais cette croissance de l’IoT, et plus particulièrement de l’internet industriel des objets (IIoT), et l’utilisation croissante de l’Edge AI, impliquent de plus en plus de stockage et de traitement en périphérie. Cela signifie donc que les entreprises vont devoir procéder à des arbitrages sur les volumes de données à traiter en edge et ceux qui seront transférés dans le cloud hybride.

Sécurité, performances, conformité, coûts : les arbitres du placement

Alors, comment arbitrer et déterminer les futures infrastructures qui porteront les workloads d’IA ? Les contraintes de sécurité et de conformité seront souvent déterminantes, de même que les exigences en termes de performances ou encore de coûts. Le modèle d’exploitation de l’application qui va consommer les données (cloud ou sur site) peut également dicter la marche à suivre.

L’organisation a-t-elle besoin de jeux de données spécifiques dans des emplacements spécifiques, que ce soit en périphérie pour un traitement en temps réel ou dans un pays particulier en raison des réglementations en vigueur sur la souveraineté des données ?

Les coûts liés à la gestion des données dans le cloud, sur site ou dans un modèle hybride, sont également une conséquence majeure de la gravité des données et auront un impact sur les stratégies de gestion. Les coûts inhérents aux transferts de données sont élevés et les entreprises cherchent des solutions pour les éviter au maximum.

Virtualisation de données et stockage adjacent pour éviter les déplacements

Les réponses à cette longue liste de questions sur la localisation des différents jeux de données, la typologie des applications et les contraintes spécifiques à chaque traitement (car il n’existe bien évidemment pas de réponse universelle) vont dessiner l’infrastructure IT.

Mais il existe également une autre question importante à laquelle répondre pour défier la gravité. Quelles données doivent réellement être déplacées pour en tirer un bénéfice business ? Les organisations auront tout intérêt à effectuer un travail d’inventaire pour y répondre, car il existe aujourd’hui des méthodes grâce auxquelles elles peuvent obtenir les résultats qu’elles souhaitent, sans avoir à transférer de grands ensembles de données ni à créer de nouveaux centres de gravité.

On peut par exemple penser aux mécanismes de virtualisation des données, ou encore au déploiement d’un stockage dit « adjacent au cloud », c’est-à-dire des infrastructures privées physiquement installées au plus près des infrastructures des fournisseurs cloud.

Quels volumes pouvez-vous porter ?

Si l’on doit tirer une leçon très générale, plus les entreprises sont capables de manipuler de gros volumes de données, moins elles seront sensibles aux impacts négatifs de la gravité.

Dans le cas contraire, elles gagneront à construire une architecture dans laquelle ces déplacements sont réduits le plus possible, soit en misant sur des plateformes avec une très forte (et idéalement très économique) évolutivité, soit en trouvant des parades techniques aux déplacements.

La donnée est un asset absolument critique pour toute entreprise. Et compte tenu de l’engouement autour de l’IA, disposer d’une stratégie solide tenant compte de la gravité des données sera essentiel pour l’exploiter à son plein potentiel.

Sébastien Verger CTO France de Dell TechnologiesSébastien Verger est CTO France de Dell Technologies. Technologue dans l’âme et porte-parole Dell Technologies, il intervient quotidiennement auprès de nos clients, d’événements marché et de conférences de presse pour mettre en perspective les évolutions technologiques majeures et leurs impacts sur les systèmes d’information des entreprises.

Sébastien a rejoint EMC en 1999 en tant qu’avant-vente grand compte. Il a exercé des responsabilités de management, contribué au développement du pôle d’expertise et fut un acteur clé de la mise en place d’une organisation avant-vente résolument tournée vers les Partenaires et le segment Commercial.

Précédemment, il a exercé des fonctions commerciales chez Sequent.