L’Express

L’ADN synthétique, une révolution pour le stockage des données ? « En 2035, les data centers ne suffiront plus »

L’ADN synthétique, une révolution pour le stockage des données ? « En 2035, les data centers ne suffiront plus »

Garantie de souveraineté, avantage stratégique, carburant qui alimente les algorithmes et permet l’innovation… Les métaphores utilisées pour souligner l’importance critique des données sont légion. En 2017 déjà, l’hebdomadaire britannique The Economist titrait : « La ressource la plus précieuse au monde n’est plus le pétrole, mais les données ». Problème, leur nombre augmente à un rythme exponentiel. En 2019, la multinationale américaine IBM estimait à 90 % la part des données mondiales créées au cours des deux dernières années, et anticipait un doublement de ce volume tous les trois ans.

Mais alors, que faire de cet océan de data ? Construire toujours plus de centres de données ? Pas si simple, car ces infrastructures sont coûteuses et gourmandes en énergie. Surtout, le rythme de construction des data centers risque de ne pas suivre l’explosion vertigineuse du volume de données produites.

C’est ce qu’on appelle un « data deluge » (en français, déluge de données). Soit une situation où plus de données sont générées qu’il n’est possible d’en gérer ou d’en exploiter efficacement. « En 2035, les data centers ne suffiront plus à stocker toutes les données produites », confirme Dominique Lavenier*. Pour le directeur de recherches au CNRS, il est urgent d’investir dans le développement d’alternatives qui n’auraient pas vocation à se substituer aux data centers, mais à les seconder. Parmi elles, une piste prometteuse, bien qu’encore méconnue du grand public, et qui pourrait devenir à terme une technologie stratégique : l’ADN synthétique. L’auteur de Stocker nos données sur ADN nous l’explique. Entretien.

L’Express : Qu’entend-on exactement par « ADN synthétique » ?

Dominique Lavenier : L’ADN synthétique, par définition, est une molécule d’ADN fabriquée par une machine. Contrairement à l’ADN que l’on trouve chez les êtres vivants – qu’il s’agisse de l’humain, des virus ou de tout autre organisme –, et qui est produit naturellement par la machinerie cellulaire, l’ADN synthétique est obtenu par un processus chimique. La seule différence réside donc dans la méthode de fabrication. Une fois la molécule produite, il n’existe aucune distinction entre l’ADN synthétique et celui d’origine biologique. Ils sont chimiquement identiques : on ne peut pas les différencier.

Vous présentez le stockage sur ADN comme une alternative aux data centers, dont la croissance semble inévitable face à l’explosion du volume de données. Comment encode-t-on de l’information numérique dans de l’ADN ?

Depuis sa découverte, on sait que l’ADN encode de l’information à partir de quatre nucléotides : A, C, G et T. Très tôt, dès les années 1950, certains ont essayé de déterminer s’il était possible d’utiliser ce support pour stocker autre chose que de l’information génétique. L’idée n’est donc pas nouvelle. En revanche, sur le plan technologique, on ne savait pas encore comment la mettre en œuvre. Ce n’est que depuis une quinzaine d’années – précisément depuis 2012 – que les technologies ont suffisamment progressé pour que cette idée devienne concrètement réalisable.

Le principe de base est assez simple : dans un fichier numérique classique, l’information est encodée sous forme binaire, à l’aide d’un alphabet de deux caractères, 0 et 1. Avec l’ADN, on utilise un alphabet de quatre lettres, A, C, G et T. Conceptuellement, il n’y a pas de différence fondamentale : il s’agit simplement de convertir une suite de 0 et de 1 en une suite de nucléotides. On passe d’un alphabet binaire à un alphabet quaternaire. Autrement dit, on peut très bien basculer d’une version numérique classique à une version « ADN », simplement en établissant une correspondance entre les deux langages.

Concrètement, une fois la donnée encodée dans de l’ADN synthétique, par quels moyens récupère-t-on l’information ?

Pour lire ou récupérer les données stockées sur de l’ADN synthétique, on utilise les mêmes appareils que ceux employés pour décoder l’ADN des êtres vivants. Ce sont ce qu’on appelle des « séquenceurs ». Pour simplifier, ce sont des machines dans lesquelles on introduit les molécules d’ADN en entrée et qui produisent, en sortie, le texte correspondant sous forme de lettres A, C, G et T. Derrière cela, il y a tout un processus, à la fois chimique et biotechnologique, qui permet de lire la suite de nucléotides présente sur chaque molécule d’ADN. Il s’agit d’un procédé que l’on maîtrise déjà, et ce, même à grande échelle.

Quels sont les principaux atouts de l’ADN comme support de stockage par rapport aux data centers par exemple ?

Je pense qu’il y a deux grands avantages à mettre en avant. Le premier, c’est la densité de stockage. Pour donner un ordre de grandeur : dans un seul gramme d’ADN, on pourrait stocker l’équivalent de 1 000 disques durs. Un gramme d’ADN, c’est à peine une goutte. C’est donc un support extrêmement compact, qui permettrait de réduire drastiquement l’espace nécessaire au stockage de l’information. Le second avantage majeur, c’est la longévité. L’ADN, s’il est conservé dans de bonnes conditions – c’est-à-dire à l’abri de la lumière et de l’humidité, dans une capsule étanche – peut rester lisible pendant des milliers d’années.

Le niveau de sécurité du stockage sur ADN est particulièrement élevé, notamment parce qu’il échappe aux logiques de connexion permanente qui rendent les systèmes classiques vulnérables

Cela contraste fortement avec les supports actuels, comme les disques durs ou les bandes magnétiques : un disque dur conserve les données au mieux une dizaine d’années, une bande magnétique, une vingtaine d’années. Cela signifie qu’il faut relire régulièrement les données et les recopier sur de nouveaux supports, ce qui est à la fois coûteux et contraignant. Cette opération de renouvellement a par ailleurs un impact environnemental non négligeable, car il faut reconstruire sans cesse de nouveaux équipements. Avec l’ADN, l’idée est toute autre : une fois que l’on a synthétisé la molécule et qu’on l’a correctement protégée, il n’est plus nécessaire de la manipuler. Le stockage devient alors passif, stable, et potentiellement permanent.

Le stockage sur ADN constitue-t-il une alternative plus écologique aux infrastructures numériques classiques ?

Pas vraiment, non. La production d’ADN synthétique reste un processus extrêmement lent, coûteux et polluant. C’est précisément pour cette raison que le développement de cette technologie doit s’appuyer avant tout sur des avancées dans ce domaine. La recherche doit se concentrer sur la mise au point de technologies de synthèse qui soient à la fois plus rapides, moins chères, et beaucoup moins polluantes. C’est d’ailleurs l’objectif poursuivi actuellement par de nombreuses équipes de recherche dans le monde, qui s’attaquent à ce problème de front.

La donnée constitue aujourd’hui une arme stratégique. On l’a vu récemment avec les cyberattaques visant des hôpitaux ou la fuite de documents classifiés sur la guerre en Ukraine sur Discord. Quels types de garanties offre le stockage sur ADN en matière de sécurité ou de résilience face aux cyberattaques ?

Le niveau de sécurité du stockage sur ADN est particulièrement élevé, notamment parce qu’il échappe aux logiques de connexion permanente qui rendent les systèmes classiques vulnérables. Une fois synthétisé, l’ADN est déshydraté, ce qui permet de le réduire en poudre, puis cette poudre est enfermée dans des capsules hermétiques. A partir de ce moment-là, l’information est totalement isolée : on ne peut plus y accéder à distance, ni par une attaque informatique, ni par une faille réseau.

Le seul moyen d’accéder à l’information, c’est de s’emparer physiquement de la capsule, de l’ouvrir et de relire l’ADN à l’aide d’un séquenceur. On peut comparer cela à une pièce dans laquelle on aurait stocké des disques durs sans qu’ils soient reliés à quoi que ce soit : tant que personne ne met la main dessus, l’information reste inaccessible.

Aujourd’hui, les IA traitent d’immenses volumes de données hébergées sur des serveurs classiques. Emmanuel Macron a d’ailleurs annoncé 109 milliards d’euros d’investissements privés dans la construction de grands data centers dédiés à l’IA en France. Peut-on imaginer à l’avenir que les IA puissent accéder ou même écrire directement dans des bases de données stockées sur ADN synthétique ? Ou bien restera-t-il toujours un intermédiaire humain ou matériel ?

Difficile à dire pour l’heure. Une chose est sûre : les data centers ne sont pas appelés à disparaître – nous continuerons d’en avoir besoin, en particulier pour tout ce qui concerne l’accès rapide à l’information. Le stockage sur ADN n’a pas vocation à les remplacer, mais plutôt à les compléter, en s’intégrant aux technologies existantes, notamment pour répondre aux besoins d’archivage de long terme. A ce jour, nous ne sommes pas capables de relire rapidement une information stockée sur ADN. Ce que l’on appelle les données « chaudes » – celles que les intelligences artificielles ou les utilisateurs doivent pouvoir consulter en temps réel – exigent une capacité de lecture en quelques millisecondes. Avec l’ADN, ce n’est pas envisageable pour le moment, car le décodage peut prendre plusieurs heures.

Prenez l’exemple d’une requête sur un moteur de recherche : vous tapez une question, et la réponse s’affiche presque instantanément. Un tel accès immédiat est aujourd’hui incompatible avec le support ADN. En revanche, cette technologie se prête particulièrement bien au stockage des données « froides » – à l’instar, par exemple, des actes médicaux, des actes notariés, ou encore les archives audiovisuelles de l’Institut national de l’audiovisuel (INA), comme de vieux films ou émissions. Ce sont des contenus qu’il est important de préserver, mais auxquels l’accès effectif reste rare.

Dans cette optique, on peut parfaitement imaginer que, dans un data center classique, une partie des données froides actuellement stockées sur des bandes magnétiques ou des disques durs soit progressivement transférée sur ADN. Cela permettrait à la fois d’alléger les infrastructures numériques et d’assurer une conservation extrêmement durable de l’information. Concrètement, dans un data center du futur, on retrouverait différentes couches de technologies, chacune adaptée au type de données concerné. Les données « chaudes » resteraient accessibles immédiatement, tandis que les données « froides » seraient stockées sur ADN, accessibles en lançant une requête dont le traitement pourrait prendre plusieurs heures. Mais du point de vue de l’utilisateur, cela resterait un seul et même data center : la complexité serait gérée en interne, via cette hiérarchisation des technologies selon la nature des données.

Quels sont, à ce stade, les principaux verrous scientifiques et techniques à surmonter pour envisager une adoption à grande échelle ?

Le principal verrou reste la synthèse de l’ADN. Comme je le disais plus tôt, le processus est encore très lent : pour synthétiser un seul brin, cela peut prendre plusieurs dizaines de minutes. C’est aussi coûteux – quelques centimes par séquence – ce qui, comparé au coût négligeable du stockage numérique classique, reste prohibitif. Et c’est surtout un procédé chimique, donc polluant. C’est là que se situe aujourd’hui le véritable frein technologique.

On peut comparer cette situation à celle du séquençage de l’ADN il y a une vingtaine d’années. Prenons l’exemple emblématique du projet de séquençage du génome humain : dans les années 1990, on estimait qu’il faudrait vingt ans, plusieurs milliards de dollars, et un très grand nombre de personnes pour parvenir à lire l’intégralité du génome. Et c’est effectivement ce qui a été mis en place à l’époque : plus de 400 équipes de recherche à travers le monde se sont réparti le travail, chacune séquençant une petite portion du génome avec les moyens alors disponibles. Puis, soudainement, il y a eu une rupture technologique. Une nouvelle méthode de séquençage a émergé, qui a révolutionné le domaine. Aujourd’hui, séquencer l’ensemble du génome humain prend quelques heures et coûte moins de 500 euros.

Si un tel bouleversement survenait dans le domaine de la synthèse de l’ADN, cela changerait tout. On pourrait alors produire rapidement, à faible coût, et avec une empreinte environnementale réduite, les brins nécessaires au stockage. C’est tout l’enjeu de la recherche actuelle : mettre au point de nouvelles techniques de synthèse, spécifiquement pensées pour le stockage d’informations, et non plus pour imiter l’ADN biologique humain, comme c’est le cas aujourd’hui dans les applications médicales ou biotechnologiques. Le verrou technologique se situe là : dans l’invention d’une synthèse d’ADN véritablement dédiée au stockage numérique, et non héritée des besoins de la biologie. La seule incertitude, aujourd’hui, c’est le calendrier : est-ce que ce sera dans trois ans ? Cinq, sept, dix ? On ne sait pas. Mais je suis convaincu que nous y parviendrons.

Quid des financements publics ? La France investit-elle suffisamment aujourd’hui dans le stockage sur ADN ?

Les financements publics sont cruciaux car en favorisant l’émergence de nouvelles solutions technologiques, ils créent les conditions nécessaires à une prise de relais par le secteur privé, qui pourra s’appuyer sur des bases solides déjà développées. Pour l’heure et à l’échelle mondiale, les Etats-Unis conservent une légère avance, comme souvent dans ce type de domaine technologique. La Chine est également très active, même si l’on dispose de moins d’informations directes sur l’état de ses recherches. Mais lorsqu’on observe le volume de publications scientifiques, on voit clairement que la Chine est très présente sur ce créneau.

En Europe, et en particulier en France, on constate un intérêt croissant pour cette technologie. Un certain nombre d’équipes de recherche commencent à se positionner sur le sujet. Et dans le cadre du programme France 2030, un projet d’envergure a été lancé, piloté par le CNRS, spécifiquement pour explorer la voie du stockage sur ADN. Ce projet constitue un signal fort, qui montre que la France commence à structurer sa réponse sur cette technologie émergente.

Compte tenu de la sensibilité croissante des données – qu’elles soient commerciales, scientifiques ou géopolitiques – et face à l’explosion attendue du volume de données générées par les nouvelles technologies, peut-on considérer que le stockage sur ADN pourrait devenir, à terme, une technologie critique ?

Tout à fait. D’ailleurs, les industriels sont de plus en plus conscients qu’on ne pourra pas continuer à stocker les données dans leur format actuel. Les data centers sont de véritables monstres énergétiques, et face à la croissance exponentielle des volumes de données, on arrive à une limite. Il devient tout simplement impossible de poursuivre dans cette voie. C’est pourquoi ils commencent à chercher d’autres solutions. Et cela constitue un élément clé : cette prise de conscience alimente l’exploration de nouvelles pistes, de supports alternatifs de stockage.

On voit déjà des entreprises comme Microsoft investir dans la recherche sur ces technologies émergentes. Car dans dix ans, à ce rythme, nous ne saurons plus comment stocker l’ensemble des informations produites. Il est donc urgent d’ouvrir de nouveaux fronts de recherche, et l’ADN synthétique fait partie de ces pistes prometteuses. Cela ne signifie pas pour autant que ce sera la solution qui s’imposera finalement – mais elle mérite d’être sérieusement explorée.

* Stocker nos données sur ADN, par Dominique Lavenier. Editions Apogée, 2025.



Source link : https://www.lexpress.fr/economie/high-tech/ladn-synthetique-une-revolution-pour-le-stockage-des-donnees-en-2035-les-data-centers-ne-suffiront-MHAEGTTUKBFGHCFVON5OREKVWU/

Author : Ambre Xerri

Publish date : 2025-03-29 15:00:00

Copyright for syndicated content belongs to the linked Source.

Tags : L’Express