Où il est question de l’onde de choc technologique, géopolitique et boursière, provoquée par l’apparition du modèle de raisonnement DeepSeek-R1 de la société chinoise Deepseek. Un modèle publié avec son code source sous licence MIT, aux performances comparables, sinon supérieures, à celles des leaders américains du marché, pour un budget annoncé de 5,57 millions de dollars ; alors même que le nouveau gouvernement formé par Donald Trump se félicitait de son plan Stargate, financé à hauteur de 500 milliards de dollars dans l’intention de sécuriser son leadership à l’échelle mondiale.
Analyste des technologies du dépassement de l’Homme au travers de romans d’anticipation rien moins que prophétiques, consultant auprès d’entreprises européennes de haute technologie en Chine, essayiste et auteur d’un projet de réforme des finances publiques, pionnier de l’intelligence artificielle en Europe aux manettes de la société Cognitech dès 1985 et philosophe de formation, Jean-Michel Truong nous gratifie d’une tribune exclusive sur les récents développements en matière d’IA générative, ce qu’ils révèlent de cette industrie, mais aussi sur leurs enjeux scientifiques et civilisationnels.
Nous reviendrons bientôt sur ces sujets essentiels avec Jean-Michel Truong, lors d’un nouvel entretien prévu à l’occasion de la sortie de son ouvrage L’IA, et après ?, sous-titré « Imiter la raison, former un cerveau, laisser germer la vie » et annoncé pour la fin du mois de février aux éditions de la Martinière.
Illustration © Mondocourau.com
Portrait de Jean-Michel Truong © Jean-Michel Truong

L’Été indien de l’IA
Ce 27 janvier 2025 au petit matin, une dépêche de l’agence Reuters créa la panique sur les marchés. Intitulée « La société chinoise DeepSeek déclenche la déroute du marché de l’IA », elle faisait état d’une chute brutale, à l’ouverture des bourses asiatiques, du cours des actions des entreprises impliquées dans la supply-chain de l’IA générative, depuis les fabricants de puces et leurs fournisseurs jusqu’aux centres de données en passant par les financiers. Ainsi l’investisseur spécialisé dans les startups de l’IA SoftBank Group accusait-il une chute de 8 % et Tokyo Electron, le géant des machines pour la fabrication de puces, de 5 %.
Au fur et à mesure que les autres places financières ouvrirent, le mal se propagea à toutes les entreprises du secteur. Le fabricant néerlandais d’équipements pour puces électroniques ASML, Taïwan Semiconductor Manufacturing, Intel, Samsung, ARM, Broadcom et autres Micron, toutes prirent leur part de la correction.
À la fin de la journée, les investisseurs avaient perdu mille milliards de dollars. À lui seul NVIDIA, leader mondial des processeurs spécialisés pour l’IA, première entreprise mondiale avec sa capitalisation boursière de 3400 milliards, perdait près de 600 milliards. Nul ne s’aventurait à prédire ce que serait la journée de mardi.
DeepSeek est une petite startup inconnue de Chine du sud dont, à la surprise générale, le modèle de langage R1 avait en quelques jours dépassé le leader ChatGPT pour devenir, ce lundi fatidique, l’application gratuite la mieux notée sur l’App Store d’Apple aux États-Unis. Lancée le 10 janvier, R1 a utilisé pour son entraînement les processeurs H800 de NVDIA. Les H800ne sont pas des puces de luxe. Développées à l’origine comme des produits à capacité réduite pour contourner les restrictions sur les ventes à la Chine, elles ont ensuite été interdites par les sanctions américaines.
Grâce au recours à ces processeurs bas-de-gamme – et à la créativité peu commune de ses ingénieurs pour en contourner les limitations – le développement de DeepSeek n’aurait coûté que… six millions de dollars.
Six millions. Là où le développeur de ChatGPT, OpenAI, prévoyait de dépenser entre 100 et 500 millions pour l’apprentissage de chacun de ses prochains modèles. Et alors qu’une semaine auparavant, le président Trump lançait un plan de 500 milliards pour développer la prochaine génération de modèles de langage destinée à asseoir la suprématie américaine dans le domaine.
Il y avait comme un malaise dans l’IA générative.
Passée la phase de choc initiale, durant laquelle chacun s’efforça de faire bonne figure – NVIDIA félicitant Deepseek pour sa créativité, Sam Altman se réjouissant sportivement de l’apparition d’un rival à sa mesure – la riposte du camp occidental s’organisa. Tous les moyens furent déployés pour discréditer le concurrent. On douta du fait que R1 n’avait requis que des cartes graphiques bas-de-gamme au lieu des ruineux processeurs dernier-cri alignés par OpenAI ; que son apprentissage n’avait consommé qu’une fraction – entre un dixième et un vingtième – du temps de calcul consommé par le leader GPT 4 ; on révéla à cette occasion un sale petit secret – l’existence d’une pratique, la distillation, courante parmi les faiseurs de grands modèles de langage, consistant pour un nouvel impétrant à cannibaliser les modèles existants pour s’épargner les coûts d’un apprentissage ex nihilo ; et on rappela, argument suprême, que Deepseek était chinois. Last but not least, une attaque en règle, prenant sa source aux États-Unis, fut lancée sur les serveurs de Deepseek. Il fallait gagner du temps.
Car chacun avait bien compris que ce qui était en jeu était le paradigme fondateur de l’IA générative, qu’OpenAI dans sa profession de foi exprime ainsi : « GPT fonctionne selon un principe simple : plus il y en a, mieux c’est… Plus de cœurs et de threads de processeurs signifie plus de puissance de traitement, plus de RAM signifie un calcul plus fluide et plus de paramètres signifie un modèle GPT plus puissant. La raison est simple. Plus un modèle GPT possède de paramètres, mieux il peut apprendre et déterminer ce qu’on lui demande de faire. »
Ce qui était en jeu, c’était les mille milliards déjà investis sur ce paradigme dans la mise au point des grands modèles de langage.
On décode.
On n’évoquera les Années 1950 que pour rappeler que les réseaux neuronaux à la base de ChatGPT ne sont pas des perdreaux de l’année. Dès cette époque en effet, le psychologue et neurobiologiste américain Frank Rosenblatt connut une gloire éphémère en concevant le premier réseau de neurones artificiels capable d’apprentissage, le Perceptron – célébré dans le New York Times du 8 juillet 1958 comme « l’embryon d’un ordinateur électronique qui sera capable de marcher, de parler, de voir, d’écrire, de se reproduire et d’être conscient de son existence » – avant de sombrer dans une hibernation de … 64 ans. L’histoire de l’intelligence artificielle est faite de brefs étés indiens suivis d’interminables hivers.
Quand le 30 novembre 2022 OpenAI met pour la première fois ChatGPT à la disposition de tout un chacun sur Internet, c’est donc une idée antique qui refait surface, suscitant presque instantanément l’engouement des utilisateurs, la surchauffe des médias et l’emballement des marchés. Ainsi la capitalisation boursière de NVIDIA – le fournisseur quasi exclusif de ces cartes graphiques haute-performance sans lesquelles il n’y avait pas, croyait-on alors, d’IA générative possible – passa-t-elle de 800 à 3500 milliards de dollars, détrônant Apple et Microsoft du top des entreprises mondiales.
Signe immanquable d’une bulle en formation – qui aurait dû alerter quiconque avait pâti de l’éclatement de celle d’Internet deux décennies auparavant – le montant total investit dans le revamping de la vénérable sexagénaire s’élevait déjà, fin 2023, à 740 milliards de dollars, et les grandes entreprises de la Tech annonçaient fièrement mourir d’envie d’en brûler 250 milliards de plus pour chacune des 5 années suivantes.
Le 8 février 2024, bien décidé à surfer cette déferlante, Sam Altman, l’opportuniste P-DG d’OpenAI, fit savoir qu’il se rendait dans le Golfe pour y lever 6000 milliards de dollars pour financer les centres de calculs géants – complets avec leurs centrales nucléaires pour l’électricité et leurs usines pour distiller les millions de mètres cubes d’eau destinés au refroidissement de centaines de milliers de cartes graphiques… – nécessaires à l’apprentissage et à l’exploitation de la prochaine génération de GPT : l’équivalent du PIB de l’Allemagne ou du Japon cette année-là, excusez du peu.
Puis tout se dégrada très vite. À la faveur d’incidents dont au début on prit le parti de s’amuser, le doute s’insinua, à la façon dont l’humidité s’infiltre à bas-bruit dans les fondations d’un édifice pour finir par le ruiner.
On se divertit des hallucinations – de ces mains à onze doigts, de ces recettes de pizza à la colle, de cette arithmétique hasardeuse où 2+2 ne faisait pas toujours 4, de ces biographies imaginaires truffées d’œuvres inexistantes… Après tout, ce n’étaient que défauts de jeunesse, qui disparaitraient sitôt que GPT atteindrait sa taille de croisière, un nombre de synapses – de « paramètres » dans le babil d’OpenAI – proche de celui du cerveau humain. Patience, plaidait Altman, voyez les prodiges que nous accomplissons déjà avec les 175 milliards de paramètres de GPT 4…
Une autre catégorie de problèmes amusa moins. L’effondrement ou collapse d’un modèle génératif survient quand l’apprentissage de ce dernier s’effectue avec les données produites par d’autres modèles. Se manifeste alors un processus dégénératif qui pollue les générations suivantes, dont les résultats, utilisés comme corpus d’apprentissage, contaminent à leur tour, etc. On pourrait assimiler cet effondrement à celui causé par la consanguinité en génétique des populations ou à celui survenant lors du jeu du téléphone arabe quand la phrase initiale, transmise plusieurs fois de bouche à oreille avec de légères altérations, finit par ne plus rien signifier. Or, de données originales, vierges de toute exploitation pour éduquer un modèle génératif, on n’en trouvait presque plus. Celles qui subsistaient coûtaient une fortune, leurs éditeurs, las de voir piller leurs fonds de commerce, se faisant de plus en plus gourmands. Les coûts d’acquisition des copyrights des données d’apprentissage obligeaient à revoir radicalement les comptes d’exploitation. Allez annoncer ça à un banquier qui attend déjà nerveusement son retour sur investissement…
Et puis, il y avait les utilisateurs, notamment ces programmeurs qu’on avait rêvé de pouvoir remplacer bientôt par des IA, et qui rapportaient qu’elles se trompaient dans plus de la moitié des problèmes simples de programmation qu’on leur soumettait…
Le 3 octobre 2024, l’agence Reuters annonçait qu’OpenAI était laborieusement parvenue à lever 6,6 milliards de financements en obligations convertibles auprès d’une brochette d’investisseurs, dont Microsoft et NVIDIA. À peine plus que les 4 milliards nécessaires pour maintenir en vie ChapGPT un an de plus.
Et mille fois moins que les 6000 milliards espérés.
Il y avait quelque chose de pourri au royaume d’Altman. Comment expliquer ce brutal changement de sentiment ?
Cinq mois auparavant, tandis qu’Altman, espérant dénicher la poule aux œufs d’or, faisait le coq dans les hautes et basses cours du venture-capital, la revue Science publiait une de ces communications qu’après coup les historiens qualifient de « révolutionnaires » en ce sens qu’elles marquent une rupture radicale avec le consensus courant. Intitulée « Un fragment cubique du cortex cérébral humain reconstitué à une résolution nanométrique », elle exposait pour la première fois, au millionième de millimètre, les détails de la structure histologique d’un fragment de cerveau. Dans ce seul millimètre cube de matière cérébrale, 57000 cellules neuronales individuelles et 150 millions de synapses furent dénombrés.
Mais si un seul millimètre cube de matière cérébrale contient 150 millions de synapses, alors un cerveau humain pleinement fonctionnel de 1,2 million de millimètres cubes en abrite 180 000 milliards. Mille fois le nombre de paramètres de ChatGPT 4.
Choc chez les investisseurs : mille fois plus de puissance de calcul ? De cartes graphiques ? D’électricité et d’eau consommées ? De coûts de fonctionnement ? De pollution ? D’achats de copyright pour l’apprentissage ? Mille fois plus de capital ?
Si au moins l’on était sûr qu’avec mille fois plus de paramètres, on serait débarrassé de ces embarrassants problèmes d’hallucinations, de faiblesses de raisonnement, d’affabulation… Mais ChatGPT 5, vanté par Altman comme « mille fois plus puissant que GPT 4 », semble ne pas être en mesure de répondre aux espoirs placés en lui. Annoncée pour fin 2024, sa sortie est à ce jour reportée sine die. Loin de résoudre les faiblesses de GPT 4, les tests de la nouvelle version semblent avoir démontré que la relation entre le nombre de synapses et la qualité des résultats n’est pas linéaire. Elle tend vers une asymptote.
Le paradigme sur lequel repose tout l’édifice de l’IA générative – plus il y en a, mieux c’est – et sur lequel Altman et ses suiveurs fondaient leur espérance, s’est révélé totalement erroné.
En fait, le cerveau n’apprend pas par addition de synapses, mais au contraire par élimination sélective, tout au long de son développement, des synapses inutiles ou, pour parler comme les neuroscientifiques, par apoptose. Ainsi du développement du cortex visuel chez l’enfant, qui procède en deux temps, une phase précoce où les neurones sont formés en nombre supérieur à celui qui constituera le stock adulte, suivi d’une seconde au cours de laquelle cette ébauche est apurée par des mécanismes d’élimination sélective des neurones n’étant pas parvenus à former des connexions avec leurs voisins. Commencée avant la naissance, cette élimination massive continue après, avec une perte de plus de 15% des neurones dans les premières semaines de la vie, atteignant 40% du stock initial à son apogée. En façonnant nos cerveaux, la nature ne procède pas à la manière d’un maçon empilant des briques ou d’un Altman multipliant les paramètres, mais tel un sculpteur arrachant du bloc de marbre brut les fragments inutiles.
Le cerveau dont Altman et ses semblables disent s’inspirer est au mieux un cerveau malade, un cerveau cancéreux, dont les neurones métastasent sans contrôle jusqu’à ne plus produire que des… hallucinations.
Paradoxalement, il ne reste aux partisans de l’IA générative qu’une seule voie de survie : que les solutions innovantes de R1 suscitent partout, parmi les ingénieurs à présent libérés de la tyrannie du grand capital, un élan de créativité, sous la bannière d’un nouveau cri de guerre : Small is beautiful ! Bref, que l’intelligence de DeepSeek prévale sur la force brute d’OpenAI. Peut-être l’un de ces geeks, féru de biologie, pourrait-il méditer cette analogie, que je soumets gracieusement à sa sagacité : la distillation est aux réseaux de neurones artificiels ce que l’apoptose est aux réseaux de neurones naturels – un moyen d’endiguer la prolifération cancéreuse qui est en train de tuer les réseaux de neurones artificiels à la Sam Altman.
Pour l’IA générative à la mode Altman, l’été indien n’aura duré que trente mois. Un nouvel hiver approche à grands pas. Combien de temps durera-t-il cette fois ? Lançons-nous : trente ans. Le temps qu’une nouvelle génération de chercheurs, pétrie d’idées neuves, s’empare du challenge, et qu’une nouvelle génération d’investisseurs, oublieuse des pertes passées et ne sachant où placer ses excédents, décide de les risquer sur ces idées.
Mais quelles idées ? Bien malin qui pourra le dire. Mais je serais prêt à parier que c’est du côté des neurosciences et de la biologie de l’évolution qu’elles émergeront. L’intelligence artificielle qui vient sera une branche des sciences de la vie. Avis aux collégiens.