Pourquoi le Calcul Haute Performance et les « Données Massives » reviennent en force à l’ère de l’IA

Notre chroniqueur Imed Boughzala fait sa rentrée en reprenant sa série consacrée à l’intelligence digitale. Selon lui, après avoir fait les gros titres des années 2010, la synergie HPC/Big Data prend une nouvelle dimension avec le focus actuel sur l’intelligence artificielle.

Le monde contemporain est marqué par une explosion exponentielle de la quantité de données générées. Que ce soit dans les sciences, l’industrie, ou même dans notre vie quotidienne, les données massives, ou Big Data, sont omniprésentes. Le calcul haute performance (ou High Performance Computing, HPC) est une réponse technologique à cette prolifération de données, permettant de traiter, analyser et extraire des informations précieuses de volumes colossaux de données en un temps réduit ou en temps réel dans plusieurs domaines d’application. Un sujet important dans le cadre de l’intelligence digitale et des technologies digitales (de la famille S.M.A.C[1]).

Aujourd’hui, les données massives et le calcul haute performance reviennent en force à travers cet engouement grandissant autour de l’intelligence artificielle générative (IA Gen). Les données massives sont utilisées pour entraîner les grands modèles de langage (Large Language Models ou LLM)[2] open source comme Google Bert, Meta LLaMA 2, Hugging Face BLOOM et Mistral 7B. Ces datasets, associés à la transparence du processus de création et à la publication du code source, constituent une avancée significative en termes de qualité et de volume de données et aussi en qualité de modèles. Ils promettent d’améliorer considérablement les performances des LLM open source et représentent un pas important vers une véritable démocratisation de l’IA éthique et inclusive. Le HCP selon Mistral AI est l’enjeu majeur pour rivaliser avec les concurrents américains comme OpenAI et pour l’IA générative en général dans son développement.

C’est quoi le HPC et à quoi sert-il ?

Le calcul haute performance se réfère à l’utilisation de superordinateurs et de clusters de calcul pour résoudre des problèmes complexes nécessitant des capacités de calcul intensif. Ces systèmes se caractérisent par leur capacité à effectuer des trillions de calculs par seconde, grâce à une architecture sophistiquée combinant des milliers de processeurs travaillant en parallèle.

Les domaines d’application du HPC sont variés :

  1. Recherche scientifique : Les simulations climatiques, la modélisation moléculaire pour la découverte de médicaments, et les études astrophysiques dépendent toutes du HPC pour traiter des volumes de données inaccessibles autrement.
  2. Industrie : Les simulations de crash-tests dans l’automobile, l’optimisation des processus industriels, et l’analyse prédictive dans la finance utilisent intensivement les capacités de calcul haute performance.
  3. Médecine : Le séquençage du génome, la modélisation des protéines, et l’analyse des images médicales bénéficient également du HPC pour accélérer les découvertes et les diagnostics.

 Données Massives (ou Big Data)

Les données massives se caractérisent par les cinq V : Volume, Vélocité (ou Vitesse), Variété, Véracité (ou Validité) et Valeur. Ces cinq aspects soulignent les défis uniques posés par le Big Data, notamment la nécessité de gérer des quantités gigantesques de données générées à des vitesses élevées, provenant de sources diverses, et nécessitant une vérification constante pour assurer leur qualité. Parfois, on parle des sept V en rajoutant la Variabilité[3] et la Visualisation[4].

Les technologies de Big Data incluent :

  1. Stockage distribué : Hadoop et les systèmes de fichiers distribués permettent de stocker de grandes quantités de données sur des clusters de serveurs.
  2. Traitement en temps réel : Apache Spark et Flink sont des frameworks permettant de traiter et d’analyser des flux de données en temps réel.
  3. Bases de données NoSQL : MongoDB, Cassandra, et autres bases de données non relationnelles sont optimisées pour gérer des données non structurées et semi-structurées.

Synergie entre HPC et Big Data

La convergence entre HPC et Big Data ouvre des possibilités sans précédent. Le HPC fournit la puissance nécessaire pour traiter des ensembles de données massifs, tandis que les technologies Big Data offrent les outils pour gérer et analyser ces données de manière efficace. Voici quelques exemples de cette synergie :

  1. Analyse prédictive :
  • Santé : Dans le secteur de la santé, le HPC est utilisé pour analyser de grandes bases de données médicales afin de prédire les épidémies ou personnaliser les traitements. Par exemple, les chercheurs peuvent analyser les données génomiques pour identifier les prédispositions génétiques à certaines maladies.
  • Agriculture : En agriculture, les modèles prédictifs peuvent aider à prévoir les rendements des cultures, en prenant en compte des données climatiques, du sol, et des pratiques agricoles.
  1. Optimisation des ressources :
  • Énergie : Les compagnies énergétiques utilisent le HPC pour traiter des données sismiques et optimiser l’exploration de nouvelles sources d’énergie. Par exemple, les simulations de réservoirs pétroliers permettent de maximiser la récupération de pétrole et de gaz.
  • Transport : Les modèles de trafic urbain basés sur le HPC peuvent améliorer la gestion des réseaux de transport, réduire les embouteillages et optimiser les itinéraires des véhicules autonomes.
  1. Sécurité :
  • Cyberdéfense : Les systèmes de détection d’intrusion et de surveillance utilisent le HPC pour analyser en temps réel des volumes massifs de données provenant de réseaux complexes, afin de détecter et prévenir les cyberattaques. Les algorithmes de machine learning peuvent identifier des comportements anormaux indiquant une menace potentielle.
  • Sécurité publique : Les Smart cities utilisent le Big Data et le HPC pour analyser les flux de personnes et de véhicules, améliorer la gestion des crises, et renforcer la sécurité publique en temps réel.
  1. Science des données et recherche académique :
  • Astronomie : Les télescopes modernes génèrent des pétaoctets de données qui doivent être analysés pour découvrir de nouveaux objets célestes. Le HPC permet de traiter ces données à une vitesse sans précédent, facilitant ainsi les découvertes astronomiques.
  • Biologie : Les simulations de systèmes biologiques, comme les réseaux de protéines ou les écosystèmes, bénéficient du HPC pour comprendre les interactions complexes et les dynamiques évolutives.
  1. Industrie du divertissement :
  • Effets spéciaux : Les films et les jeux vidéo utilisent le HPC pour créer des effets spéciaux et des animations complexes. Par exemple, le rendu d’images de haute qualité et la simulation de phénomènes naturels comme l’eau, le feu, et les explosions nécessitent une énorme puissance de calcul.
  • Analyse des médias sociaux : Les entreprises analysent les données des médias sociaux pour comprendre les tendances, le sentiment des utilisateurs, et cibler les campagnes marketing. Le Big Data et le HPC permettent de traiter ces données en temps réel pour des insights immédiats.

En somme, le calcul haute performance et les données massives représentent ensemble une avancée technologique majeure, permettant de répondre aux défis de notre ère digitale. En combinant la puissance de calcul sans précédent du HPC avec les outils sophistiqués de gestion et d’analyse des données massives, nous ouvrons la voie à des innovations dans de nombreux domaines, depuis la recherche scientifique jusqu’à l’industrie, en passant par la médecine et la sécurité. Pour tirer pleinement parti de ces technologies, il est essentiel de continuer à investir dans les infrastructures HPC et de développer des compétences en analyse de Big Data et en IA, assurant ainsi un avenir où l’information peut être transformée en connaissances et en solutions pratiques. L’ENSIIE développe depuis plus de 10 ans des recherches sur le sujet, en plus d’un parcours de formation pour ses élèves ingénieurs en collaboration avec le CEA/DAM.

[1] Social, Mobility, Analytics, and Cloud

[2] Un programme informatique avancé conçu pour comprendre et générer du langage humain de manière naturelle.

[3] liée plutôt à la complexité en plus de la variété liée au format des données : ces données sont de nature variable c’est-à-dire elles peuvent être changeables et interchangeables au fil de l’eau.

[4] Elle peut se faire de plusieurs manières : des graphes 2D ou 3D, des réseaux, des cartes, etc. L’objectif reste de rendre l’information visuellement explorable et lisible pour permettre la prise de décision.