Le stockage de données sur ADN Synthétique : une révolution nécessaire ?

Face au contexte de croissance exponentielle des données, notre chroniqueur Stéphane Gervais analyse le potentiel d’une innovation majeure à la frontière de la biologie, de la chimie et de l’informatique : le stockage sur ADN Synthétique. Il relate son échange avec Marc Antonini, médaille de l’Innovation du CNRS 2023 et spécialiste du sujet.

Le cloud, l’IA, les IoT ainsi que les technologies de communication comme la 5G et la fibre génèrent une quantité croissante exponentielle de données numériques. En effet, le taux de croissance annuel composé (CAGR) deest autour de 16% [1] [2] , et, en 2022, 1,7 Mo étaient générés chaque seconde par personne pour un total de 94 zettaoctets [3] (1012 Go). Quant à l’impact de l’IA générative, il n’est pas encore pleinement pris en compte.

Le défi est donc de taille pour les technologies de stockage actuelles en termes de cout, de consommation énergétique, d’impact environnemental, d’encombrement et de durabilité. Face à cette croissance incessante, l’ADN synthétique se profile comme une solution révolutionnaire. Cette technologie, inspirée par les mécanismes naturels de stockage d’informations, offre des perspectives inédites pour la conservation et la gestion des données. Nous avons eu l’opportunité d’échanger avec Marc Antonini, expert en stockage ADN et directeur de recherche au CNRS, pour découvrir les potentialités et les défis de cette technologie émergente. Est-ce que cette technologie va supplanter toutes les autres ? Quel peut être le nouveau métier de « Biochimaticien » ?

Une révolution née d’une convergence biologique, chimique et informatique

Le stockage sur ADN consiste à encoder des informations numériques dans des molécules d’ADN synthétiques. C’est un processus chimique de fragments d’ADN synthétisés et assemblés pour former des molécules plus longues. Même si cette technologie utilise des molécules d’ADN, c’est une reconstitution chimique et synthétique qui n’est pas de l’ADN pour le vivant comme l’ARN. Contrairement aux disques durs magnétiques ou aux mémoires flashes utilisant les semiconducteurs, cette méthode utilise les bases de l’ADN (adénine, thymine, cytosine et guanine) pour représenter des données. « C’est une transcription du code binaire (0,1) à un code quaternaire (A, T, C, G) « , nous explique Marc Antonini, mettant en lumière la complexité et l’ingéniosité de cette technologie [4].

L’ADN, en tant que support de l’information génétique, possède une densité de stockage incroyablement élevée. Un seul gramme d’ADN peut théoriquement contenir jusqu’à 215 pétaoctets de données, ce qui équivaut à plus de 20 000 disques durs actuels et même si la donnée utile est de l’ordre de 50%. De plus, l’ADN est extrêmement durable comme sur la capsule en photo qui peut préserver les données pendant 1000 ans. Cette longévité permet de conserver des données sur des échelles de temps inaccessibles aux supports conventionnels.

Ci-dessous, un tableau des différentes technologies de stockage résume la comparaison entre ces différents modes de stockage.

Capsule ADN développée par la société française Imagene pouvant contenir des pétaoctets de données avec une durée de vie de 1000 ans

Capsule d’ADN développée par la société française Imagene, pouvant contenir des pétaoctets de données avec une durée de vie de 1000 ans

 

Disque dur

Mémoire flash

Mémoire ADN

Densité de stockage
(Teraoctets/cm3)

10

103

106

Consommation énergétique

(W/Tera octet)

40

10

10-7

Rétention des données
(années)

10

10

500

Comparaison de différentes technologies de stockage de données

Les premiers pas d’une technologie prometteuse

L’idée de stocker des données sur ADN remonte aux années 1950 avec les travaux visionnaires de Richard Feynman. Mais ce n’est qu’au début des années 2010 que les premières applications concrètes ont vu le jour. Ainsi, en 2012, des chercheurs comme George Church ont réussi à stocker un fichier numérique sur de l’ADN synthétique, ouvrant ainsi une nouvelle ère pour le stockage de données. Depuis lors, de nombreux progrès ont été réalisés, tant au niveau de la capacité de stockage que de la fiabilité des techniques utilisées.

Les atouts de l’ADN Synthétique

  1. Une capacité de stockage inégalée

Un gramme d’ADN peut contenir jusqu’à 215 pétaoctets de données, surpassant de loin les capacités des technologies actuelles. A titre de comparaisons, c’est l’équivalent de stocker 43 millions de films en HD ou de quelques dizaines de « data center » actuels.

Cette densité de stockage exceptionnelle ouvre des perspectives inédites pour la gestion des volumes de données croissants générés chaque jour.

  1. Une durabilité exceptionnelle

L’ADN est une molécule extrêmement stable, capable de conserver des informations sur des milliers d’années. « Nous parlons de demi-vies de l’ADN de 500 à 1000 ans », souligne Marc Antonini. Cette durabilité exceptionnelle en fait un support idéal pour la conservation à très long terme des données…Si dans des centaines d’années la technologie pour décoder est conservée aussi.

  1. Un Impact Environnemental Réduit

Les avantages environnementaux sont significatifs. Après la phase initiale de synthèse, l’ADN stocké ne nécessite aucune énergie pour sa conservation, contrairement aux datacenters traditionnels. « Les datacenters polluent en permanence puisqu’ils doivent migrer les données pour les préserver sans compter le recyclage des supports, tandis que l’ADN, une fois synthétisé, n’émet plus de gaz à effet de serre », explique Marc Antonini. Cette caractéristique pourrait contribuer à réduire l’empreinte carbone des infrastructures de stockage de données même s’il faut de l’énergie pour la synthèse qui devra aussi passer de chimique à enzymatique pour un minimum de pollution.

A noter que retrouver l’information binaire sur ADN est compliquée pour une personne mal intentionnée : manipulation de biologie moléculaire pour récupérer les brins d’ADN, séquençage, débruiter de l’information puis la décoder. Il faudra donc toujours protéger l’information comme l’encrypter (au niveau du binaire ou du quaternaire).

Les défis à surmonter pour l’industrialisation

Les promesses de cette technologie ne vont pas sans difficultés, comme la lenteur de lecture et d’écriture, la réglementation et la capacité d’industrialisation.

Le principal défi réside dans la vitesse de synthèse et de lecture des données. Actuellement, la synthèse de données sur ADN est lente et coûteuse. « Aujourd’hui, nous sommes à 100 secondes pour écrire un bit. Nous souhaitons passer à une seconde pour écrire un bit d’ici trois à cinq ans et nous passerons donc à 1Mbit/s par seconde avec le parallélisme », précise le directeur de recherche du CNRS, révélant l’ambition de rendre cette technologie plus pratique et accessible.

Des avancées dans ce domaine sont nécessaires pour rendre le stockage ADN compétitif par rapport aux technologies de stockage actuelles : c’est le point critique pour la mise à l’échelle.

Par ailleurs, le stockage sur ADN doit également surmonter des obstacles réglementaires et de sécurité. Il est crucial de s’assurer que les technologies utilisées ne puissent être détournées pour créer des séquences d’ADN dangereuses. « Il y a des vérifications qui doivent aller au-delà de celles faites aujourd’hui pour s’assurer que des imprimantes ADN ne puissent pas être utilisées à des fins malveillantes », avertit par exemple Marc Antonini.

Les gouvernements et les organismes de réglementation devront donc élaborer des cadres appropriés pour encadrer l’utilisation de cette technologie, notamment la manipulation de la donnée quaternaire ADN, garantissant ainsi sa sécurité et son intégrité.

Vers une Industrialisation dans 10 à 15 ans avec différents usages

La mise à l’échelle et l’industrialisation de cette technologie sont des étapes critiques. Selon le spécialiste du CNRS, « nous ne sommes pas encore capables d’industrialiser cette technologie à grande échelle. Le TRL (Technology Readiness Level) est encore trop bas. Il faut améliorer les vitesses de lecture et d’écriture. » Néanmoins, il reste optimiste quant à la possibilité de solutions industrialisées dans les 10 à 15 ans à venir car le workflow est déjà opérationnel, même si pas encore automatisé. Néanmoins, une fois que le système sera « supervisé en écriture avec lectures automatisées alors les solutions seront disponibles d’ici 5 ans ».

A terme, un data center pourra utiliser le stockage de données sur ADN en technologie concurrente ou alternative pour une solution décarbonée et durable pour essentiellement des données froides.  En effet, l’usage le plus évident reste l’archivage et le stockage de données froides comme des emails, photos, documents juridiques. Cela sera transparent pour l’utilisateur final car l’encodage en quaternaire pourra se faire au niveau du data center.

Par exemple, la société Pearcode a la vision, dès 2030, de proposer une mémoire ADN qui peut se brancher sur un ordinateur comme mémoire d’archivage avec « toutes les connaissances de l’univers dans quelques grammes ».

Des investissements substantiels dans la recherche et le développement sont encore nécessaires pour surmonter ces défis. Les collaborations entre les secteurs public et privé seront en particulier essentielles pour accélérer l’innovation et rendre le stockage sur ADN une réalité industrielle.

Une compétition mondiale qui exige une coopération européenne

A ce jour, la moitié des investissements sur cette technologie sont réalisés par les États-Unis et 35% par l’Europe dont 13% en France avec des sociétés comme Pearcode, Imagene, Dnascript et Biomemory.

La création récente de l’alliance « DNA Data Storage Alliance », initiée par les Etats-Unis avec Western Digital, Microsoft Twist Bioscience et Illumina, qui souhaitent ainsi promouvoir leurs technologies et standardiser l’encodage des données, montre l’intérêt porté à la question. Cette mobilisation d’importants industriels et de forts financements n’est pas encore visible en Europe.

En revanche, la France se place dans le peloton de tête européen avec son programme PEPR (Projet Equipement Prioritaire Recherche) France 2030 « MoleculArXiv » [5] de €20 millions sur 7 ans et qui regroupe vingt laboratoires englobant les disciplines en informatique, chimie, biologie, nanotechnologie, micro-fluidique afin d’inventer de nouveaux dispositifs de stockage de données sur support moléculaire, à la fois ADN et polymères artificiels. Ce projet français a pour but de contribuer, dès 2029, à des projets européens de plus grandes envergures pour la mise à l’échelle de cette technologie et afin d’assurer une souveraineté européenne.

Les applications futures

Dû à ses limitations en termes de rapidité de lecture et d’écriture par exemple, et malgré ses autres avantages, cette technologie ne pourra pas devenir la technologie unique pour le stockage de données : son rôle sera surtout pour des données dites froides et avec des enjeux de compacité, capacité, durabilité et consommation d’énergie de stockage. De plus, le potentiel du stockage sur ADN va bien au-delà de la simple conservation de données. Les chercheurs explorent diverses applications de cette technologie, allant de l’archivage de documents historiques à la création de bases de données génétiques massives pour la recherche biomédicale.

L’ADN synthétique pourrait être utilisé pour stocker des archives historiques de manière extrêmement durable. Des documents, des images et des vidéos pourraient être conservés pendant des siècles, voire des millénaires, sans risque de dégradation.

La recherche biomédicale pourrait bénéficier grandement du stockage sur ADN. Des bases de données massives pourraient être stockées de manière compacte et sécurisée, facilitant l’accès à des informations cruciales pour la recherche sur les maladies.

À plus long terme, le stockage sur ADN pourrait jouer un rôle clé dans la conservation des connaissances humaines pour des centaines d’années.

Le plus prometteur semble la possibilité de calculs moléculaires à base de stockage ADN : c’est le calcul au plus près de la donnée avec un adressage rapide et donc des résultats rapides sur des quantités de données gigantesques.

Le nouveau métier de « Biochimaticien » ?

Avec l’évolution du stockage de données sur ADN, un nouveau métier émerge à l’intersection de la biologie moléculaire, de la chimie et de l’informatique pour le développement, la gestion, l’intégration et l’optimisation de cette technologies de stockage sur ADN et dans les systèmes informatiques de stockage de données pour s’assurer de l’adoption par les utilisateurs finaux.

La nécessité de ce nouveau métier, qui est très différent des bio-informaticiens, devra croiser les compétences d’informaticiens afin d’architecturer et d’intégrer les nouveaux systèmes d’informations pour utiliser au mieux les différentes technologies de stockages de données. L’utilisation et la gestion du stockage sur ADN demanderons aussi des compétences de gestion du processus de synthèse (biochimie, micro-fluidique…), de gestion de l’encodage et décodage des données à stocker. Sans oublier la sécurisation tout en assurant leurs intégrités sur des supports très différents. Ainsi, la sélection des supports de stockage en fonction du type de données et de leurs usages feront parties des décisions à prendre.

Avec un déploiement prévu du stockage ADN d’ici 10 à 15 ans et la forte demande des nouveaux usages, il serait opportun de réfléchir dès à présent à la nécessité d’un cursus interdisciplinaire.

Le chemin vers une solution souveraine

Le stockage sur ADN synthétique représente une avancée prometteuse pour la gestion des données. Malgré les défis techniques et réglementaires, ses avantages en termes de densité, de durabilité et d’impact environnemental en font une solution nécessaire pour un avenir où la donnée devient de plus en plus massive et importante. « Nous avons toutes les compétences en France et en Europe pour développer une solution souveraine », affirme Marc Antonini, soulignant l’importance de continuer à investir dans cette technologie pour ne pas dépendre de solutions américaines ou chinoises.

La révolution du stockage de données est en marche et pourrait bien transformer notre manière de conserver et de gérer l’information dans les décennies à venir. Le chemin est encore long, mais les promesses de l’ADN synthétique laissent entrevoir un futur où nos données les plus précieuses seront stockées de manière sûre et durable, redéfinissant ainsi les standards du stockage numérique.

Marc_AntoniniMarc Antonini a obtenu un doctorat en génie électrique en 1991 et l’Habilitation à Diriger des Recherches en 2003, tous deux à l’Université de Nice-Sophia Antipolis (France). Il a été postdoctorant au Centre National d’Études Spatiales (CNES, Toulouse, France), en 1991 et 1992. Il a rejoint le CNRS en 1993 au laboratoire I3S, rattaché à l’Université Côte d’Azur et au CNRS, où il est « Directeur de Recherche CNRS » depuis 2004. Il dirige l’équipe de recherche MediaCoding au laboratoire I3S.

Depuis octobre 2021, il est le Directeur de Programme du PEPR Exploratoire « MoleculArXiv » sur le stockage massif de données sur ADN et polymères artificiels. Depuis 2020, il est également président du groupe de travail international JPEG DNA pour la définition d’une norme de codage d’image spécifique au stockage sur ADN synthétique. Ses activités de recherche couvrent notamment le codage d’images et de vidéos ainsi que le traitement géométrique et la compression de maillages de surface et de nuages de points. Il s’intéresse également à l’analyse de l’information contenue dans le code neural du système visuel, avec des applications bio-inspirées dans la compression d’images et de vidéos. Depuis plusieurs années, il a commencé une activité sur le stockage de données numériques dans l’ADN synthétique.

Il est cofondateur et conseiller scientifique de Cintoo, une entreprise qu’il a créée en 2013. Cintoo développe des technologies et des solutions pour gérer et exploiter les données 3D provenant des dispositifs de capture de la réalité dans le cloud. Il est également cofondateur et Directeur Scientifique de PearCode, une entreprise qu’il a créée en 2022, spin-off de l’Université Côte d’Azur et du CNRS. PearCode a remporté le Grand Prix i-Lab de BPI France en 2023. L’entreprise s’adresse aux organisations privées et publiques souhaitant archiver des données numériques en offrant une solution de stockage moléculaire à faible empreinte carbone utilisant l’ADN synthétique, garantissant la durabilité du stockage, l’intégrité et la sécurité des données.

Il a obtenu la Médaille de l’Innovation du CNRS en 2023.

 

Références :

[1]

Fortune Business Insights, «Data Storage Market Size, Share & Growth Statistics 2032,» 03 juin 2024. [En ligne]. Available: https://www.fortunebusinessinsights.com/data-storage-market-102991.

[2]

Future Data Stats, «Data Storage Market Size & Industry Growth 2030,» juin 2024. [En ligne]. Available: https://www.futuredatastats.com/data-storage-market.

[3]

A. McCain, «26 STUNNING BIG DATA STATISTICS [2023]: MARKET SIZE, TRENDS, AND FACTS,» Zippia, 16 janvier 2023. [En ligne]. Available: https://www.zippia.com/advice/big-data-statistics/.

[4]

M. A. P. B. R. A. D. Melpomeni, «A biologically constrained encoding solution for long-term storage of images onto synthetic DNA,» chez EUSIPCO 2019 conference, 2019.

[5]

«PEPR exploratoire MoleculArXiv (stockage sur ADN),» CNRS, [En ligne]. Available: https://www.cnrs.fr/en/pepr/pepr-exploratoire-molecularxiv-stockage-sur-adn.

[6]

IDC, «Worldwide IDC Global DataSphere Forecast, 2023-2027: It’s a Distributed, Diverse, and Dynamic (3D) DataSphere,» IDC, Avril 2023. [En ligne]. Available: https://www.idc.com/getdoc.jsp?containerId=US50554523.