La plupart des gens pensent que la course à l'IA se résume aux puces. Qui a le GPU le plus rapide ? Qui a le meilleur accélérateur d'IA ? Qui a le plus grand centre de données ? Qui a le modèle le plus intelligent ?
Tout cela compte. Mais il y a une autre partie de la course à l'IA, moins glamour mais tout aussi importante : la mémoire.
Pas la mémoire au sens « j'ai oublié où j'ai mis mes clés ». La mémoire en tant que matériel physique qui stocke, déplace et fournit les données dont les systèmes d'IA ont besoin pour penser. L'IA ne se contente pas de calculer. L'IA se souvient, récupère, compare, déplace et réutilise d'énormes quantités d'informations à une vitesse incroyable. Cela fait de la mémoire l'un des goulots d'étranglement les plus importants de toute l'économie de l'IA.
Pourquoi l'IA est si gourmande en mémoire
Imaginez que vous demandiez à un modèle d'IA de faire des recherches approfondies sur un sujet. Pour répondre, le modèle ne « pense » pas comme un humain. Il exécute un nombre colossal d'opérations mathématiques sur des milliards, voire des billions de valeurs stockées. Ces valeurs sont appelées poids.
Les poids sont la structure apprise du modèle. C'est ce que le modèle « sait » après l'entraînement. Lorsque vous posez une question, le système d'IA doit accéder à ces poids encore et encore pour générer une réponse. Plus le modèle est grand, plus il a de poids, et plus il a besoin de mémoire pour les stocker et y accéder.
Mais le problème de mémoire ne s'arrête pas là. Le modèle doit également garder une trace de votre requête. Il doit se souvenir des mots qu'il a déjà générés. Il peut avoir besoin de traiter un long document, d'analyser du code, de résumer un PDF, de comparer plusieurs fichiers ou de maintenir le contexte d'une longue conversation. Toutes ces informations de travail temporaires doivent vivre quelque part.
Le système d'IA a besoin d'endroits pour stocker les informations qu'il utilise actuellement pendant qu'il génère une réponse. Un modèle plus gros nécessite plus de mémoire. Une conversation plus longue nécessite plus de mémoire. Plus d'utilisateurs en même temps nécessitent plus de mémoire. Plus d'images, de vidéos, de documents et de données en temps réel nécessitent plus de mémoire.
C'est pourquoi l'IA n'a pas seulement faim de calcul. L'IA a faim de mémoire.

La supercar avec un tout petit conduit de carburant
Quand les entreprises de puces parlent des performances de l'IA, elles évoquent souvent la puissance de calcul. Cela signifie généralement le nombre d'opérations mathématiques que la puce peut effectuer par seconde. Mais il y a un hic : une puce ne peut calculer que sur les données auxquelles elle peut accéder.
Si les données ne peuvent pas atteindre les moteurs de calcul assez rapidement, la puce reste inactive. C'est la réalité douloureuse du matériel d'IA. La puissance de calcul théorique peut sembler impressionnante sur un slide de présentation, mais les performances réelles dépendent de la capacité du système à déplacer suffisamment de données assez rapidement.
C'est la bande passante mémoire. La bande passante correspond à la quantité de données qui peut se déplacer par seconde entre la mémoire et le processeur. Considérez-la comme la largeur d'une autoroute. Plus de voies signifient que plus de voitures peuvent circuler en même temps. Plus de bande passante mémoire signifie que plus de données peuvent atteindre la puce d'IA en même temps.
Une petite route crée des embouteillages. Un tuyau étroit limite le débit d'eau. Un petit conduit de carburant limite la supercar. Une faible bande passante mémoire limite l'IA. C'est pourquoi une puce d'IA peut être « rapide » en théorie mais décevante en pratique. Les moteurs mathématiques peuvent être prêts, mais les données peuvent être coincées dans les embouteillages.

De quelle quantité de mémoire l'IA a-t-elle réellement besoin ?
Un grand modèle d'IA typique aujourd'hui a environ 400 milliards de « poids » (ce qu'il a appris pendant l'entraînement). Stocké dans le format le plus courant, ce modèle seul prend environ 800 gigaoctets de mémoire, soit à peu près la taille de 200 films haute définition.
Mais le modèle n'est pas le seul à avoir besoin d'espace. Chaque fois que vous discutez avec lui, le système doit également conserver l'historique de votre conversation, les documents que vous avez téléchargés et une liste croissante de « notes » qu'il prend en réfléchissant (appelée le cache clé-valeur). Lors d'une journée chargée, une seule conversation peut facilement nécessiter 50 à 200 Go supplémentaires.
Multipliez maintenant cela par des milliers ou des millions d'utilisateurs en même temps. Soudain, un seul centre de données peut avoir besoin de dizaines de milliers de gigaoctets, soit des dizaines de téraoctets, juste pour que les conversations se déroulent sans heurts.
C'est pourquoi l'industrie s'obsède avec le HBM : une seule puce d'IA moderne peut être associée à 100 à 200 Go et plus de cette mémoire ultra-rapide. Les puces de nouvelle génération poussent déjà vers encore plus. Sans assez de mémoire, la puce reste là à attendre, comme une Ferrari avec un réservoir d'essence vide.

HBM : la mémoire vedette
La mémoire la plus importante dans l'IA haut de gamme aujourd'hui est le HBM, ou High Bandwidth Memory (mémoire à haute bande passante). Le HBM est une mémoire empilée verticalement, comme un mini-gratte-ciel. Au lieu d'étaler les puces mémoire à plat sur une carte de circuit imprimé, le HBM empile des couches de mémoire les unes sur les autres et les place très près du GPU ou de l'accélérateur d'IA.
C'est important car la distance est l'ennemi. Déplacer des données sur une carte prend du temps et de l'énergie. Déplacer des données depuis la mémoire située juste à côté de la puce est beaucoup plus rapide et efficace. Le HBM offre aux accélérateurs d'IA une connexion large et puissante à la mémoire. Au lieu d'une route étroite, c'est comme construire une autoroute à 32 voies directement dans l'usine.
C'est pourquoi NVIDIA, AMD, Google, Amazon, Meta, Microsoft, Broadcom et presque tous les projets sérieux de puces d'IA (y compris TERAFAB - plus de détails ci-dessous) se soucient profondément du HBM. Le GPU ou l'accélérateur peut faire la une, mais le HBM aide à déterminer la quantité de travail utile que la puce peut réellement effectuer.
Le HBM est également difficile à fabriquer. Il nécessite une fabrication de mémoire avancée, un empilement vertical, une extrême précision, un packaging avancé, une gestion thermique et une coordination étroite avec le processeur. C'est pourquoi Micron, SK hynix et Samsung sont devenus si importants. Ils ne vendent plus seulement de la mémoire standard pour PC. Ils fournissent l'un des ingrédients clés du déploiement de l'IA.
Dans l'ancien monde, les entreprises de mémoire étaient souvent traitées comme des entreprises cycliques de matières premières. Dans le monde de l'IA, les entreprises de mémoire haut de gamme ressemblent davantage à des fournisseurs d'infrastructures stratégiques.

DRAM : le cheval de bataille fiable
La DRAM (« Dynamic Random Access Memory ») est la mémoire principale utilisée dans les ordinateurs et les serveurs. C'est la mémoire de travail standard que la plupart des gens connaissent, même s'ils n'y pensent pas beaucoup. Quand vous achetez un ordinateur portable avec 16 Go, 32 Go ou 64 Go de RAM, c'est généralement de la DRAM.
La DRAM est importante car elle est dense, relativement abordable et largement utilisée. Elle se trouve dans les serveurs, les PC, les centres de données et de nombreux systèmes d'IA. Elle aide les CPU à gérer les données, à alimenter les charges de travail, à prendre en charge les applications et à faire fonctionner le système global autour des accélérateurs d'IA.
Mais la DRAM a des limites. Elle n'est pas aussi rapide que le cache sur puce. Elle n'a pas la bande passante extrême du HBM. Et comme elle se trouve généralement plus loin du processeur d'IA principal, elle ne peut pas toujours alimenter la puce assez rapidement pour les charges de travail les plus exigeantes.
Considérez la DRAM comme le grand entrepôt derrière l'usine. Elle stocke beaucoup de choses et est essentielle, mais elle n'est pas aussi rapide que d'avoir la pièce exacte à côté de la main de l'ouvrier. L'IA a besoin des deux. Elle a besoin de grands pools de mémoire et d'une mémoire incroyablement rapide proche du calcul.

SRAM et cache : la mémoire sur l'établi
La SRAM (« Static Random-Access Memory ») est beaucoup plus rapide que la DRAM. Elle est utilisée à l'intérieur des puces comme mémoire cache. Le cache est comme le petit tas d'outils et de pièces posé directement sur l'établi. Vous n'avez pas à traverser le bâtiment pour les chercher. Ils sont déjà à côté de vous.
Cela rend le cache extrêmement précieux. Lorsqu'une puce d'IA peut conserver des données importantes dans le cache sur puce, elle économise du temps et de l'énergie. La puce n'a pas besoin d'aller chercher dans le HBM ou la DRAM aussi souvent. Cela améliore les performances et l'efficacité.
Mais il y a un problème. La SRAM prend beaucoup de place sur la puce. Elle est coûteuse en termes de surface de silicium. On ne peut pas simplement mettre des centaines de gigaoctets de SRAM sur une puce. La puce deviendrait énorme et extrêmement chère.
Les concepteurs de puces sont donc confrontés à un compromis. Quelle surface doit aller au calcul ? Quelle surface doit aller au cache ? Quelle surface doit aller à l'interconnexion, à la logique de contrôle et aux autres fonctionnalités ? C'est l'un des aspects les plus intéressants de la conception des puces d'IA. L'architecture n'est pas seulement de l'ingénierie. C'est une allocation de capital à l'échelle microscopique.
Chaque millimètre carré de silicium a un travail.

GDDR : la mémoire des GPU de gaming et de l'IA locale
La GDDR (« Graphics Double Data Rate ») est la mémoire utilisée dans de nombreuses cartes graphiques. Si vous avez un GPU de gaming ou une station de travail GPU, il y a de fortes chances qu'il utilise de la GDDR. La GDDR est importante car elle offre une bande passante élevée à un coût inférieur à celui du HBM. Elle n'est pas aussi puissante ou efficace que le HBM pour les charges de travail d'IA les plus extrêmes, mais elle est incroyablement utile.
C'est la mémoire qui permet aux gens de faire tourner des modèles d'IA chez eux. Elle prend en charge les GPU de gaming, les stations de travail de créateurs, les petits serveurs d'IA, les configurations de passionnés et l'expérimentation de modèles locaux. Une personne qui exécute un modèle de génération d'images sur un GPU NVIDIA grand public utilise probablement de la GDDR. Un développeur qui teste un modèle de langage plus petit localement utilise peut-être de la GDDR. Une startup qui prototypage des applications d'IA avant de passer à une infrastructure cloud coûteuse utilise peut-être de la GDDR.
Cela compte car tous les modèles n'ont pas besoin de fonctionner dans un centre de données hyperscale géant. Certains modèles peuvent fonctionner localement sur des stations de travail, des machines de gaming et de petits serveurs.

LPDDR : la mémoire qui apporte l'IA dans votre poche
La LPDDR (« Low-Power Double Data Rate ») est une mémoire basse consommation utilisée dans les smartphones, tablettes, ordinateurs portables et de nombreux appareils mobiles. C'est la mémoire qui compte lorsque l'IA passe du cloud à votre main, votre voiture, vos lunettes, votre montre ou votre robot.
La LPDDR est conçue pour utiliser moins d'énergie. C'est essentiel car un téléphone ne peut pas se comporter comme un centre de données. Il ne peut pas consommer des mégawatts d'électricité. Il ne peut pas compter sur un refroidissement liquide. Il ne peut pas faire un bruit de réacteur d'avion. Si l'IA doit fonctionner localement sur les appareils, la mémoire doit être rapide, compacte, économe en énergie et abordable.
C'est pourquoi la LPDDR est si importante pour l'IA en périphérie. Un smartphone faisant tourner un modèle de langage local a besoin de suffisamment de mémoire pour stocker le modèle et traiter votre demande. Un ordinateur portable exécutant des outils d'IA localement a besoin d'une mémoire suffisamment rapide pour être utile, mais assez efficace pour ne pas ruiner la batterie. Une voiture exécutant un logiciel de conduite autonome a besoin d'une mémoire capable de gérer les données des capteurs en temps réel tout en fonctionnant en toute sécurité dans la chaleur, le froid, les vibrations et les conditions difficiles.
Un robot humanoïde a également besoin de mémoire locale. Il doit traiter la vision, le langage, le mouvement, l'équilibre, le toucher et le contexte environnemental. Une partie de cette intelligence peut se connecter au cloud, mais le robot ne peut pas attendre un serveur distant chaque fois qu'il doit faire un pas ou éviter de renverser une lampe.
La LPDDR n'attire peut-être pas l'attention du HBM, mais elle est cruciale si l'IA doit devenir locale, personnelle, mobile et incarnée.

NAND Flash : la bibliothèque de l'IA
La mémoire flash NAND (une combinaison de « NOT-AND ») est la mémoire utilisée pour le stockage à long terme. On la trouve dans les SSD, les téléphones, les ordinateurs portables, les centres de données, les appareils photo, les véhicules et de nombreux systèmes embarqués. La NAND conserve les données même lorsque l'alimentation est coupée.
La NAND est plus lente que la DRAM ou le HBM, mais elle est beaucoup moins chère et plus dense pour le stockage. C'est là que vivent les données lorsqu'elles ne sont pas activement traitées. Dans l'IA, la NAND stocke les données d'entraînement, les fichiers de modèles, les points de contrôle, les journaux, les vidéos, les images, les documents, les plongements, les cartes et les données utilisateur.
Considérez la NAND comme la bibliothèque ou l'entrepôt. Le HBM est la chaîne de montage rapide. Le cache SRAM est l'outil dans votre main. La DRAM est l'espace de travail actif.
Pour les véhicules autonomes, la NAND peut stocker des cartes, des journaux de conduite, des données de perception et des mises à jour logicielles. Pour les robots, elle peut stocker l'historique de fonctionnement, les modèles locaux, les journaux de maintenance et les données environnementales. Pour les centres de données, elle stocke d'énormes ensembles de données et des points de contrôle de modèles.
Si le stockage est trop lent, les accélérateurs d'IA coûteux peuvent finir par attendre.
C'est comme payer une équipe de chirurgiens des millions de dollars et les faire attendre parce que personne n'a apporté les instruments dans la salle.
Même la mémoire « lente » compte lorsque l'ensemble du système d'IA dépend de l'alimentation des données à travers un pipeline gigantesque.

Les centres de données d'IA sont des machines à mémoire géantes
Un centre de données d'IA moderne est généralement décrit comme une machine de calcul géante. C'est vrai, mais incomplet. C'est aussi une machine à mémoire géante.
Le centre de données doit déplacer les données du stockage vers les CPU, des CPU vers les GPU, des GPU vers le HBM, d'un GPU à un autre GPU, d'un serveur à un autre serveur, et souvent d'un cluster à un autre cluster. Chaque déplacement coûte du temps, de l'énergie et de l'argent.
Cela affecte tout : l'architecture du serveur, la conception du rack, la mise en réseau, le refroidissement, la consommation d'énergie et le coût total de possession. Si le système de mémoire est mal conçu, le centre de données gaspille des GPU coûteux. Si les GPU ne peuvent pas accéder à assez de mémoire assez rapidement, ils sous-performent. Si la mémoire consomme trop d'énergie, les coûts de refroidissement augmentent. Si la capacité mémoire est trop limitée, le système peut nécessiter plus d'accélérateurs pour exécuter la même charge de travail.
C'est pourquoi l'infrastructure d'IA est si intensive en capital. Vous n'achetez pas seulement des puces. Vous achetez un système industriel complet : GPU, HBM, CPU, DRAM, NAND, mise en réseau, commutateurs, alimentation, refroidissement, packaging, logiciels et bâtiments.

Packaging : la partie dont personne ne parle jusqu'à ce qu'elle casse
Le HBM n'est pas utile simplement parce qu'il existe. Il doit être physiquement connecté à l'accélérateur d'IA. C'est là qu'intervient le packaging avancé.
Les puces d'IA modernes ne sont pas de simples morceaux de silicium isolés. Ce sont des packages complexes qui rassemblent des puces logiques, des piles de mémoire, des interposeurs, des substrats et des connexions haute vitesse. Une approche de packaging importante est appelée packaging 2.5D. L'idée de base est que le GPU ou l'accélérateur et les piles HBM sont placés côte à côte sur une couche de base spéciale qui permet une communication extrêmement rapide entre eux.
C'est ainsi que la mémoire devient suffisamment proche et connectée pour alimenter la puce. La technologie de packaging CoWoS de TSMC est devenue particulièrement importante car elle aide à connecter les processeurs avancés au HBM. Cette capacité de packaging est devenue un goulot d'étranglement majeur dans la chaîne d'approvisionnement de l'IA.
C'est un point étrange mais important. Vous pouvez concevoir la meilleure puce d'IA au monde. Vous pouvez fabriquer la logique. Vous pouvez produire le HBM. Mais si vous ne pouvez pas les packager ensemble à grande échelle, vous ne pouvez pas expédier le produit fini.

L'économie de la mémoire est en train de changer
Pendant des décennies, la mémoire a souvent été considérée comme une activité cyclique de matières premières. Les prix montaient, les entreprises augmentaient l'offre, les prix baissaient, et le cycle se répétait. L'IA a changé cette histoire.
Le HBM n'est pas une mémoire standard. Il est spécialisé, rare, difficile à fabriquer et essentiel pour les systèmes d'IA les plus précieux au monde. Cela donne aux fabricants de mémoire une importance stratégique accrue et un pouvoir de fixation des prix bien plus fort.
Si NVIDIA, AMD ou une entreprise de puces d'IA sur mesure ne peut pas obtenir assez de HBM, ils ne peuvent pas expédier assez d'accélérateurs. Si les fournisseurs de cloud ne peuvent pas obtenir assez d'accélérateurs, ils ne peuvent pas déployer assez de capacité d'IA. Si la capacité d'IA est limitée, l'inférence reste plus chère et les applications se développent plus lentement.
La mémoire devient un frein à la croissance de l'IA. C'est pourquoi des entreprises comme SK hynix, Samsung et Micron comptent autant. Elles ne surfent pas seulement sur la vague de l'IA. Elles aident à définir la taille que la vague peut atteindre.

IA agentique : le multiplicateur de mémoire

L'IA agentique pourrait devenir l'un des plus grands moteurs de la demande future de mémoire, car les agents ne se comportent pas comme des sessions de chatbot normales. Un chatbot répond à une question et s'arrête. Un agent d'IA continue de travailler. Il se souvient de l'objectif, suit la conversation, appelle des outils, ouvre des fichiers, vérifie les résultats, se ramifie en sous-tâches, compare les options et exécute souvent plusieurs boucles de raisonnement avant de produire une réponse.
Cela change l'équation de la mémoire.

Une simple requête d'IA peut nécessiter de la mémoire pour le modèle, la requête utilisateur, la fenêtre de contexte et la sortie. Un flux de travail agentique nécessite beaucoup plus. Il peut avoir besoin de mémoire pour l'instruction originale, les étapes précédentes, les résultats intermédiaires, les sorties des outils, le contexte de longue durée, les sous-agents parallèles et l'état persistant. En termes simples : un chatbot a besoin de mémoire à court terme ; un agent a besoin de mémoire de travail, de mémoire de projet et d'un bureau couvert de fichiers ouverts.
C'est pourquoi l'IA agentique pourrait créer un changement d'étape dans la demande de DRAM. Le plan narratif de Micron estime que chaque agent actif pourrait nécessiter 5 à 10 fois plus de mémoire qu'une interaction de chatbot typique, car les agents maintiennent un contexte plus long, des historiques d'outils, des branches de sous-agents et une intégration de connaissances externes.

Le point important est que l'IA agentique n'augmente pas seulement le nombre de requêtes. Elle augmente l'intensité mémoire par utilisateur. Un humain utilisant un chatbot peut générer une seule requête et une seule réponse. Un humain utilisant un agent peut déclencher des dizaines ou des centaines d'opérations en coulisses : chercher ceci, résumer cela, vérifier le tableur, exécuter un scénario, comparer le résultat, réviser le plan, puis le surveiller dans le temps.
Cela signifie que la demande de mémoire se cumule sur plusieurs couches :
Plus d'utilisateurs × plus d'agents par utilisateur × plus de tâches par agent × plus de mémoire par tâche × persistance plus longue.
C'est une courbe de demande très différente de celle des logiciels traditionnels. Dans les logiciels anciens, un utilisateur ouvrait une application, faisait quelque chose et la fermait. Dans l'IA agentique, le logiciel peut continuer à travailler après le départ de l'utilisateur. Il peut surveiller les boîtes de réception, les calendriers, les bases de code, les modèles financiers, les documents juridiques, les tickets de service client ou les systèmes d'usine. Chaque agent persistant devient un petit consommateur continu de calcul et de mémoire.
C'est important pour Micron car la mémoire devient l'une des ressources limitantes de l'IA agentique. L'ère des agents d'IA nécessite non seulement des GPU, mais aussi une mémoire rapide autour de ces GPU, de la DRAM pour serveurs haut de gamme, des pools de mémoire plus grands, et finalement des technologies comme CXL pour étendre la capacité mémoire au-delà des limites traditionnelles. Le rapport Micron téléchargé identifie spécifiquement les agents d'IA comme un vecteur de demande de prochaine étape, car les agents maintiennent un contexte de longue durée et appellent des outils externes, multipliant la demande mémoire par utilisateur actif par rapport aux interactions de chatbot traditionnelles.
L'analogie la plus simple est la suivante : ChatGPT, c'est comme poser une question à un employé intelligent. L'IA agentique, c'est comme embaucher cet employé pour travailler sur un projet toute la journée. La première nécessite un bref élan d'attention. La seconde nécessite mémoire, fichiers, contexte, outils et continuité.

C'est pourquoi l'IA agentique pourrait être si importante pour Micron. Elle transforme la mémoire d'un composant d'arrière-plan en une contrainte d'échelle centrale. Si les agents d'IA deviennent la nouvelle interface pour les logiciels d'entreprise, le service client, le codage, la recherche, la finance, la santé, la logistique et la productivité personnelle, alors la demande de mémoire pourrait ne pas croître de façon linéaire. Elle pourrait croître de façon discontinue.
Dans ce monde, la question clé n'est plus simplement : « Combien de GPU seront construits ? »
La meilleure question devient :
Combien de travailleurs d'IA persistants le monde fera-t-il fonctionner - et de quelle mémoire chacun aura-t-il besoin pour penser, se souvenir, raisonner et agir ?

IA en périphérie et robotique : la mémoire quitte le centre de données
La prochaine étape de l'IA ne se résume pas à des modèles plus grands dans des centres de données plus grands. L'IA pénètre également dans le monde physique : téléphones, ordinateurs portables, voitures, robots, drones, dispositifs médicaux, machines industrielles, caméras de sécurité, lunettes intelligentes et appareils domestiques.
Tous ces systèmes ont besoin de mémoire, mais ils ont besoin d'un équilibre mémoire différent. Un centre de données peut utiliser d'énormes quantités d'électricité et un refroidissement avancé. Un robot ne le peut pas. Un téléphone ne le peut pas. Un drone ne le peut certainement pas.
L'IA en périphérie a besoin d'une mémoire rapide, économe en énergie, compacte, fiable et abordable. Considérez un robot humanoïde travaillant dans une usine. Il a des caméras, des capteurs, des moteurs, des systèmes d'équilibre, des interfaces linguistiques et des logiciels de planification de tâches. Il doit comprendre son environnement, se souvenir de ce qu'il fait, répondre aux humains, éviter les obstacles et contrôler son corps en temps réel.
Cela nécessite de la mémoire. Pas seulement du stockage. Pas seulement une base de données. Une véritable mémoire de travail.
Ou considérez un véhicule autonome. Il peut avoir huit caméras, un radar, des capteurs à ultrasons, des cartes, des logiciels de planification et des réseaux neuronaux fonctionnant en permanence. Il doit traiter le monde en temps réel. Il ne peut pas dire : « Attendez, le bus mémoire est congestionné. »
L'IA physique fait de la mémoire un problème de sécurité. Lorsque l'IA passe des chatbots aux voitures et aux robots, la latence compte. L'énergie compte. La chaleur compte. La fiabilité compte. La mémoire locale compte.
C'est pourquoi la mémoire est centrale pour Tesla, la robotique, la conduite autonome, les smartphones, les ordinateurs portables, les dispositifs médicaux et l'automatisation industrielle. L'intelligence du robot n'est utile que s'il peut accéder aux bonnes informations au bon moment.

Mémoire du futur : de nouvelles technologies prometteuses
Il existe plusieurs technologies de mémoire futures qui pourraient devenir importantes. La MRAM stocke les données en utilisant des états magnétiques. Elle est non volatile, durable et potentiellement utile dans les systèmes embarqués, les puces automobiles, les dispositifs industriels et l'IA en périphérie. La ReRAM stocke les données en utilisant des changements de résistance électrique. Elle pourrait être utile pour les appareils à faible consommation et éventuellement les systèmes de calcul en mémoire.
La mémoire à changement de phase stocke les données en modifiant les matériaux entre différents états physiques. Elle a été explorée comme un pont entre la DRAM et le stockage. La mémoire ferroélectrique utilise des matériaux qui conservent la polarisation électrique. Elle pourrait être importante dans les futurs systèmes embarqués à faible consommation. La mémoire optique est intéressante car la lumière peut déplacer les données très rapidement et efficacement dans certains contextes, mais elle reste difficile à commercialiser à grande échelle.
La DRAM 3D pourrait aider à étendre la densité mémoire en construisant vers le haut, tout comme la mémoire flash NAND est passée aux structures 3D il y a des années. Le calcul en mémoire et le traitement en mémoire sont particulièrement intéressants car ils attaquent directement le problème central. Au lieu de déplacer les données d'avant en arrière entre la mémoire et le calcul, ils essaient d'effectuer certaines opérations plus près de l'endroit où les données se trouvent déjà.
Cela semble évident. Pourquoi transporter toutes les courses à travers la ville si vous pouvez cuisiner le dîner là où les courses se trouvent déjà ?
Mais la mise en œuvre est difficile. La fabrication de la mémoire et la fabrication de la logique sont différentes.
Bien que les technologies de mémoire futures soient prometteuses, le problème de mémoire de l'IA sera probablement résolu par de nombreuses améliorations dans l'ensemble de la pile, et non par une seule technologie miracle.

L'IA dans l'espace : la prochaine frontière de la mémoire
L'IA spatiale semble futuriste, mais la logique est simple. L'IA a besoin d'énergie, de calcul, de refroidissement, de communications et de mémoire. L'espace peut éventuellement offrir des avantages dans plusieurs de ces domaines. L'énergie solaire est abondante et ininterrompue en orbite. La chaleur peut être rayonnée dans l'espace. Les satellites peuvent se connecter directement aux réseaux de communication mondiaux. Et SpaceX réduit rapidement le coût de mise en orbite des satellites.
La mémoire pourrait devenir encore plus importante. Un système d'IA spatial ne serait pas simplement un satellite stupide relayant des signaux. Il pourrait traiter les données localement, exécuter l'inférence, coordonner les communications, analyser les données d'observation de la Terre, prendre en charge la robotique autonome, gérer le trafic orbital et servir de partie d'une couche de calcul d'IA mondiale. Cela nécessite une mémoire haute performance proche du processeur.

Pour les fabricants de mémoire, cela pourrait créer une nouvelle couche de demande. Les systèmes d'IA orbitaux auraient besoin de mémoire durcie aux radiations, de mémoire à faible consommation, de mémoire à large bande passante, de stockage non volatile et peut-être d'architectures mémoire spécialisées conçues pour des environnements hostiles. Les contraintes diffèrent de celles des centres de données terrestres. Le poids, la consommation électrique, la conception thermique, la fiabilité et la résistance aux radiations sont tous importants.
Une dernière réflexion... TERAFAB
Elon a décrit le projet comme le regroupement sous un même toit de la logique, de la mémoire, de l'encapsulage, des tests et des procédés semi-conducteurs associés.
Terafab pourrait à terme devenir une menace concurrentielle à long terme pour les fournisseurs de mémoire externes, si Elon parvient à internaliser une partie de la production de HBM ou de mémoire avancée.
Elon ne construit pas Terafab parce que la mémoire est sans importance. Il construit Terafab parce que la mémoire pourrait être l'un des goulots d'étranglement limitant l'IA, la robotique, les véhicules autonomes et les centres de données orbitaux.






