你的 AI Agent 来电了，它需要更多内存

大多数人认为 AI 竞赛的核心是芯片。谁的 GPU 最快？谁拥有最好的 AI 加速器？谁的数据中心最大？谁的模型最聪明？

这些当然都很重要。但 AI 竞赛中还有另一个不那么光鲜、却同样关键的环节：内存。

这里说的“内存”，不是“我忘了钥匙放哪儿”那种记忆，而是指存储、搬运和输送 AI 系统所需数据的物理硬件。AI 不仅仅是计算，它还需要以极快的速度记忆、检索、比较、搬运和复用海量信息。这使得内存成为整个 AI 经济中最重要的瓶颈之一。

AI 为什么对内存如此饥渴

想象一下，你让一个 AI 模型对某个主题进行深度研究。为了给出答案，模型并不会像人类那样“思考”，而是会对数以亿计甚至万亿计的存储数值执行海量数学运算。这些数值被称为权重。

权重是模型在训练后习得的结构，也就是模型所“知道”的一切。当你提问时，AI 系统需要反复访问这些权重来生成答案。模型越大，权重越多，存储和访问这些权重所需的内存就越大。

但内存问题远不止于此。模型还需要记录你的提示词、记住它已经生成过的文字，可能需要处理长文档、分析代码、总结 PDF、比较多个文件，或者在长对话中保持上下文。所有这些临时的、正在处理的信息都必须有地方存放。

AI 系统需要一些地方来存储生成答案时正在使用的信息。模型越大，需要的内存越多；对话越长，需要的内存越多；同时使用的用户越多，需要的内存越多；更多的图像、视频、文档和实时数据，都需要更多的内存。

这就是为什么 AI 不仅对算力需求大，对内存的需求同样巨大。

超级跑车配了一根小油管

芯片公司在谈论 AI 性能时，常常提到算力。这通常意味着芯片每秒能执行多少次数学运算。但有一个问题：芯片只能计算它能访问到的数据。

如果数据不能足够快地送达计算引擎，芯片就会闲置。这是 AI 硬件的一个残酷现实。理论算力在演示文稿上看起来可能非常出色，但实际性能取决于系统能否足够快地搬运足够多的数据。

这就是内存带宽。带宽是指每秒能在内存和处理器之间移动多少数据。可以把它想象成高速公路的宽度。车道越多，同时通过的汽车就越多。内存带宽越大，同时到达 AI 芯片的数据就越多。

小路会造成拥堵，窄管会限制水流，小油管会限制超级跑车的性能。低内存带宽会限制 AI。这就是为什么一个 AI 芯片理论上可以很“快”，但实际表现却令人失望。计算引擎可能已经准备好了，但数据却堵在了路上。

AI 到底需要多少内存？

如今一个典型的大型 AI 模型大约有 4000 亿个权重（即训练过程中学到的东西）。以最常见的格式存储，这个模型本身就需要占用大约 800 GB 的内存——约等于 200 部高清电影的大小。

但模型并不是唯一需要空间的。每次你和它对话时，系统还必须保存你的对话历史、你上传的任何文档，以及它在思考过程中不断增加的一份“笔记”列表（称为键值缓存）。在繁忙的一天里，一次单独对话就很容易需要额外的 50–200 GB。

现在把这个数字乘以同时使用的成千上万甚至数百万用户。突然间，一个数据中心可能需要数万 GB——即数十 TB——才能让所有对话流畅进行。

这就是为什么整个行业对 HBM 如此痴迷：一块现代 AI 芯片可以搭配 100–200+ GB 的这种超高速内存。下一代芯片已经在向更高的容量迈进。如果没有足够的内存，芯片就只能闲置等待，就像一辆油箱空空的法拉利。

HBM：明星内存

当前高端 AI 中最重要的内存是 HBM，即高带宽内存（High Bandwidth Memory）。HBM 是垂直堆叠的内存，像一个微型的摩天大楼。它不是将内存芯片平铺在电路板上，而是将多层内存堆叠在一起，并放置得离 GPU 或 AI 加速器非常近。

这很重要，因为距离是敌人。在电路板上搬运数据需要时间和能量。从紧挨着芯片的内存中搬运数据要快得多、效率也高得多。HBM 为 AI 加速器提供了巨大而宽阔的内存连接。它不像一条狭窄的道路，而像一条直达工厂的 32 车道高速路。

这就是为什么 NVIDIA、AMD、Google、Amazon、Meta、Microsoft、Broadcom 以及几乎所有严肃的 AI 芯片项目（包括 TERAFAB——下文会提到）都高度重视 HBM。GPU 或加速器可能占据头条，但 HBM 决定了芯片实际能完成多少有用的工作。

HBM 也很难制造。它需要先进的内存制造工艺、垂直堆叠技术、极高的精度、先进的封装工艺、散热管理，以及与处理器紧密协调。这也是为什么美光（Micron）、SK 海力士（SK hynix）和三星（Samsung）变得如此重要。他们不再仅仅向 PC 销售普通内存，而是在供应 AI 基础设施建设中的关键材料。

在过去，内存公司常常被视为周期性的商品业务。而在 AI 时代，高端内存公司更像是战略性基础设施供应商。

DRAM：可靠的苦力

DRAM（动态随机存取内存）是计算机和服务器中使用的主要内存。它是大多数人都熟悉（即使不太在意）的常规工作内存。当你购买一台内存为 16 GB、32 GB 或 64 GB 的笔记本电脑时，那通常就是 DRAM。

DRAM 很重要，因为它密度高、相对便宜且应用广泛。它存在于服务器、PC、数据中心和许多 AI 系统中。它帮助 CPU 管理数据、喂给工作负载、支持应用程序，并运行 AI 加速器周围的整个系统。

但 DRAM 也有局限性。它不如片上缓存快，也不具备 HBM 那样的极致带宽。而且由于它通常离主 AI 处理器较远，它不能总是足够快地为最苛刻的工作负载提供数据。

可以把 DRAM 想象成工厂后面的一个大仓库。它存储量大，必不可少，但不如放在工人手边的零件快。AI 两者都需要：既需要大型内存池，也需要紧挨着计算单元的极速内存。

SRAM 与缓存：工作台上的内存

SRAM（静态随机存取内存）比 DRAM 快得多。它作为缓存内置于芯片内部。缓存就像工作台上的一小堆工具和零件。你不需要穿过整栋楼去取，它们就在你手边。

这使得缓存极其有价值。当 AI 芯片能将重要数据保留在片上缓存中时，它可以节省时间和能量。芯片不必频繁地访问 HBM 或 DRAM。这提高了性能和能效。

但有一个问题：SRAM 在芯片上占用很大面积。它在硅片面积上很昂贵。你不能简单地在芯片上放置几百 GB 的 SRAM，那样芯片会变得巨大且极其昂贵。

因此芯片设计者面临权衡：多少面积应该用于计算？多少应该用于缓存？多少应该用于互连、控制逻辑和其他功能？这是 AI 芯片设计中最有趣的部分之一。架构不仅仅是工程学，更是微观尺度上的资本配置。

每一平方毫米的硅片都有它的任务。

GDDR：游戏 GPU 和本地 AI 的内存

GDDR（图形双倍数据率内存）是许多显卡中使用的内存。如果你的 GPU 是游戏级或工作站级的，它很可能使用的是 GDDR。GDDR 很重要，因为它能以比 HBM 更低的成本提供高带宽。对于最极端的 AI 工作负载，它不如 HBM 强大或高效，但它非常实用。

正是这种内存让人们可以在家运行 AI 模型。它支持游戏 GPU、创作者工作站、小型 AI 服务器、爱好者设备和本地模型实验。有人在消费级 NVIDIA GPU 上运行图像生成模型，很可能依靠的就是 GDDR。开发者在本地测试较小的语言模型时也可能使用 GDDR。初创公司在转向昂贵的云基础设施之前，用 GDDR 来原型设计 AI 应用。

这很重要，因为并非每个模型都需要在大型超大规模数据中心内运行。有些模型可以在工作站、游戏机和小型服务器上本地运行。

LPDDR：将 AI 装入口袋的内存

LPDDR（低功耗双倍数据率内存）是用于智能手机、平板电脑、笔记本电脑和许多移动设备的低功耗内存。当 AI 从云端走向你的手中、你的汽车、你的眼镜、你的手表或你的机器人时，这种内存至关重要。

LPDDR 设计用于更低的功耗。这很关键，因为手机不能像数据中心那样运行。它不能消耗兆瓦级的电力，不能依赖液冷，不能听起来像喷气发动机。如果 AI 要在设备上本地运行，内存必须快速、紧凑、节能且价格合理。

这就是为什么 LPDDR 对边缘 AI 如此重要。运行本地语言模型的智能手机需要有足够的内存来存储模型并处理你的请求。本地运行 AI 工具的笔记本电脑需要内存足够快以提供实用性能，同时又要足够节能以免耗尽电池寿命。运行自动驾驶软件的汽车需要能够处理实时传感器数据的内存，同时在高温、寒冷、振动和恶劣条件下安全运行。

人形机器人也需要本地内存。它必须处理视觉、语言、运动、平衡、触觉和环境上下文。其中一些智能可能会连接到云端，但机器人不能每次迈步或避免碰倒台灯时都等待遥远的服务器。

LPDDR 可能不像 HBM 那样引人注目，但如果 AI 要变得本地化、个人化、移动化和具身化，它至关重要。

NAND 闪存：AI 图书馆

NAND（“与非”的缩写）闪存是用于长期存储的内存。它存在于 SSD、手机、笔记本电脑、数据中心、相机、车辆和许多嵌入式系统中。NAND 在断电时也能保留数据。

NAND 比 DRAM 或 HBM 慢，但作为存储来说，它便宜得多、密度也高得多。它是数据在未被处理时的存放之处。在 AI 中，NAND 存储训练数据、模型文件、检查点、日志、视频、图像、文档、嵌入向量、地图和用户数据。

可以把 NAND 想象成图书馆或仓库。HBM 是快速的装配线。SRAM 缓存是手中的工具。DRAM 是工作台。

对于自动驾驶车辆，NAND 可能存储地图、驾驶日志、感知数据和软件更新。对于机器人，它可能存储操作历史、本地模型、维护日志和环境数据。对于数据中心，它存储庞大的数据集和模型检查点。

如果存储太慢，昂贵的 AI 加速器最终可能会处于等待状态。

这就像支付给一个外科医生团队数百万美元，却因为没人把手术器械拿进房间而让他们干等。

即使是“慢”内存，当整个 AI 系统依赖于通过巨大的管道输送数据时，它也很重要。

AI 数据中心是巨大的内存机器

现代 AI 数据中心通常被描述为一台巨大的计算机器。这没错，但并不完整。它同时也是一台巨大的内存机器。

数据中心必须将数据从存储移动到 CPU，从 CPU 移动到 GPU，从 GPU 移动到 HBM，从一个 GPU 移动到另一个 GPU，从一台服务器移动到另一台服务器，而且常常从一个集群移动到另一个集群。每一次移动都消耗时间、能量和金钱。

这影响着一切：服务器架构、机架设计、网络、散热、功耗和总拥有成本。如果内存系统设计不佳，数据中心就会浪费昂贵的 GPU。如果 GPU 不能足够快地访问足够多的内存，它们的性能就会下降。如果内存消耗了太多能量，散热成本就会上升。如果内存容量太有限，系统可能需要更多加速器来运行同样的工作负载。

这就是为什么 AI 基础设施如此资本密集。你不仅仅是在购买芯片，而是在购买一个完整的工业系统：GPU、HBM、CPU、DRAM、NAND、网络、交换机、供电、散热、封装、软件和建筑。

封装：无人提及直到出问题的环节

HBM 有用不仅仅因为它存在。它必须与 AI 加速器物理连接。这就是先进封装发挥作用的地方。

现代 AI 芯片不仅仅是单独的一块硅片。它们是复杂的封装，将逻辑芯片、内存堆叠、中介层、基板和高速连接整合在一起。一种重要的封装方法是 2.5D 封装。其基本思想是 GPU 或加速器与 HBM 堆叠并排放置在一个特殊的基底层上，该基底层允许它们之间进行极快的通信。

这样，内存才能离芯片足够近、连接得足够紧密以喂饱芯片。台积电的 CoWoS 封装技术变得尤其重要，因为它有助于连接先进处理器与 HBM。这种封装能力已经成为 AI 供应链中的一个主要瓶颈。

这听起来有点奇怪，但确实很重要。你可以设计出世界上最好的 AI 芯片，可以制造逻辑芯片，可以生产 HBM，但如果不能大规模地将它们封装在一起，你就无法交付成品。

内存的经济学正在改变

几十年来，内存通常被视为一种周期性的商品业务。价格上涨，公司增加供应，价格下跌，然后周期重复。AI 改变了这个局面。

HBM 不是普通的商品内存。它是专门的、稀缺的、难以制造的，并且对于世界上最有价值的 AI 系统至关重要。这使得内存制造商具备了更强的战略重要性和定价权。

如果 NVIDIA、AMD 或一家定制 AI 芯片公司无法获得足够的 HBM，他们就无法交付足够的加速器。如果云提供商无法获得足够的加速器，他们就无法部署足够的 AI 容量。如果 AI 容量受到限制，推理成本就会保持高位，应用扩展的速度就会变慢。

内存成了 AI 增长的 Governor（调节器）。这就是为什么 SK 海力士、三星和美光如此重要。他们不只是搭乘 AI 的浪潮，他们还在帮助定义这波浪潮能有多大。

Agentic AI：内存倍乘器

Agentic AI（代理型 AI）可能成为未来内存需求的最大驱动力之一，因为代理的行为不像普通的聊天会话。聊天机器人回答一个问题就停止了。而 AI 代理会持续工作。它会记住目标、跟踪对话、调用工具、打开文件、检查结果、分支出子任务、比较选项，并且通常会在生成答案之前执行多次推理循环。

这改变了内存的等式。

一个简单的 AI 查询可能需要内存来容纳模型、用户提示、上下文窗口和输出。而代理工作流需要的远远不止这些。它可能需要内存来容纳原始指令、之前的步骤、中间结果、工具输出、长期运行的上下文、并行子代理以及持久状态。用简单的话说：聊天机器人需要短期记忆；而代理需要工作记忆、项目记忆，以及一张堆满了打开文件的桌子。

这就是为什么 Agentic AI 可能会带来 DRAM 需求的阶跃式增长。美光的叙事图估计，每个活跃的代理可能需要比典型聊天交互多 5–10 倍的内存，因为代理会维护更长的上下文、工具历史、子代理分支和外部知识整合。

重要的是，Agentic AI 不仅仅增加了查询数量。它增加了每个用户的内存强度。一个人使用聊天机器人可能只产生一条提示和一条回复。而一个人使用代理可能会触发数十甚至数百次幕后操作：搜索这个、总结那个、检查电子表格、运行一个场景、比较输出、修改计划，然后持续监控。

这意味着内存需求在多个层面上复合增长：

更多用户 × 每个用户更多代理 × 每个代理更多任务 × 每个任务更多内存 × 更长持久时间。

这与传统软件的需求曲线截然不同。在传统软件中，用户打开一个应用，做点事，然后关闭。在 Agentic AI 中，软件可能在用户离开后仍在工作。它可能监控收件箱、日历、代码库、财务模型、法律文档、客服工单或工厂系统。每一个持久的代理都成为一个小型的、持续的计算和内存消耗者。

这对美光意义重大，因为内存成为 Agentic AI 的限制资源之一。AI 代理时代不仅需要 GPU，还需要这些 GPU 周围的高速内存、高端服务器 DRAM、更大的内存池，以及最终像 CXL 这样的技术来扩展超出传统限制的内存容量。上传的美光报告特别将 AI 代理确定为下一阶段的需求驱动力，因为代理维护长期运行的上下文并调用外部工具，这使得每个活跃用户的内存需求相比传统聊天交互成倍增加。

最简单的类比是：ChatGPT 就像向一个聪明的员工提一个问题。Agentic AI 就像雇佣那个员工整天为项目工作。前者只需要短暂的注意力爆发。后者需要记忆、文件、上下文、工具和连续性。

这就是为什么 Agentic AI 对美光如此重要。它将内存从后台组件转变为核心扩展约束。如果 AI 代理成为企业软件、客服、编程、研究、金融、医疗、物流和个人生产力的新界面，那么内存需求可能不会线性增长，而是会不连续地跳跃。

在那个世界里，关键问题不再仅仅是：“会制造多少 GPU？”

更好的问题变成了：

全球将运行多少持久的 AI 工作者——每个工作者需要多少内存来思考、记忆、推理和行动？

边缘 AI 与机器人技术：内存离开数据中心

AI 的下一阶段不仅仅是更大数据中心中的更大模型。AI 也在进入物理世界：手机、笔记本电脑、汽车、机器人、无人机、医疗设备、工业机器、安防摄像头、智能眼镜和家庭设备。

所有这些系统都需要内存，但它们需要不同类型的内存平衡。数据中心可以使用大量电力和先进散热。机器人不能。手机不能。无人机绝对不能。

边缘 AI 需要的内存必须快速、节能、紧凑、可靠且价格合理。想象一个在工厂里工作的人形机器人。它有摄像头、传感器、马达、平衡系统、语言接口和任务规划软件。它需要理解环境、记住自己在做什么、与人互动、避开障碍物，并实时控制自己的身体。

这需要内存。不仅仅是存储，也不仅仅是数据库，而是真正的工作内存。

再考虑一辆自动驾驶汽车。它可能有八个摄像头、雷达、超声波传感器、地图、规划软件和不断运行的神经网络。它必须实时处理外部世界。它不能说：“等一下，内存总线拥堵了。”

物理 AI 使内存成为一个安全问题。当 AI 从聊天机器人走向汽车和机器人时，延迟至关重要。功耗至关重要。散热至关重要。可靠性至关重要。本地内存至关重要。

这就是为什么内存对于特斯拉、机器人技术、自动驾驶、智能手机、笔记本电脑、医疗设备和工业自动化如此核心。机器人的智能只有在它能及时访问正确信息时才有用。

未来内存：有前途的新技术

有几种未来内存技术可能变得重要。MRAM 利用磁状态存储数据。它是非易失性的、耐用的，在嵌入式系统、汽车芯片、工业设备和边缘 AI 中可能有潜力。ReRAM 利用电阻变化存储数据，可能用于低功耗设备，甚至可能是存内计算系统。

相变内存通过改变材料的不同物理状态来存储数据。它曾被探索作为 DRAM 和存储之间的桥梁。铁电内存利用能保持电极化的材料，在未来低功耗嵌入式系统中可能有用。光内存很有趣，因为光在某些场景下可以非常快速高效地移动数据，但它仍然难以广泛商业化。

3D DRAM 可以通过向上堆叠来扩展内存密度，就像多年前 NAND 闪存转向 3D 结构一样。处理中内存（Processing-in-memory）和存内计算（Compute-in-memory）尤其有趣，因为它们直接攻击核心问题。它们不是将数据在内存和计算之间来回搬运，而是尝试在数据已经存放的位置附近执行一些操作。

这听起来很合理。如果食物已经在家里，为什么还要把全部食材运到城另一端去烹饪呢？

但实施起来很难。内存制造和逻辑制造是不同的。

虽然未来内存技术很有希望，但 AI 内存问题很可能会通过整个堆栈上的许多改进来解决，而不是依靠某一种神奇的技术。

太空中的 AI：下一个内存前沿

基于太空的 AI 听起来很科幻，但逻辑很简单。AI 需要能量、计算、散热、通信和内存。太空最终可能在其中的几个方面提供优势。轨道上太阳能丰富且不间断。热量可以辐射到太空中。卫星可以直接连接到全球通信网络。而 SpaceX 正在迅速降低将卫星送入轨道的成本。

内存可能变得更加重要。基于太空的 AI 系统不会仅仅是一个转发信号的无脑卫星。它可以在本地处理数据、运行推理、协调通信、分析地球观测数据、支持自主机器人、管理轨道交通，并作为全球 AI 计算层的一部分。这就需要靠近处理器的、高性能的内存。

对于内存公司来说，这可能创造出一个新的需求层。轨道 AI 系统需要抗辐射内存、低功耗内存、高带宽内存、非易失性存储，或许还需要为恶劣环境设计的专用内存架构。其约束条件与地面数据中心不同：重量、功耗、热设计、可靠性和抗辐射能力都至关重要。

最后一点思考……TERAFAB

埃隆将该项目的描述为将逻辑、内存、封装、测试及相关半导体工艺整合在同一屋顶下。

如果埃隆能够将部分 HBM 或先进内存生产内部化，Terafab 最终可能会成为外部内存供应商的长期竞争威胁。

埃隆建造 Terafab 并非因为内存不重要。他建造 Terafab 是因为内存可能是 AI、机器人、自动驾驶汽车和太空数据中心的关键制约因素之一。

AI 为什么对内存如此饥渴

超级跑车配了一根小油管

AI 到底需要多少内存？

HBM：明星内存

DRAM：可靠的苦力

SRAM 与缓存：工作台上的内存

GDDR：游戏 GPU 和本地 AI 的内存

LPDDR：将 AI 装入口袋的内存

NAND 闪存：AI 图书馆

AI 数据中心是巨大的内存机器

封装：无人提及直到出问题的环节

内存的经济学正在改变

Agentic AI：内存倍乘器

边缘 AI 与机器人技术：内存离开数据中心

未来内存：有前途的新技术

太空中的 AI：下一个内存前沿

最后一点思考……TERAFAB

使用 YouMind 深度阅读爆款文章

近期爆款文章

哈佛研究：收入与时间分配之间的联系——5 个提升成果的问题

7 月 7 日前必须尝试的 5 个 Fable 5 使用场景

Kioxia $KXIAY：投资逻辑分析

最佳 AI 模型终极指南：Claude Fable 5 简明解析

Kaizer Chiefs 与 Tashreeq Morris 分道扬镳

私募股权行业低估了 AI 的潜力

你的 AI Agent 来电了，它需要更多内存

AI 为什么对内存如此饥渴

超级跑车配了一根小油管

AI 到底需要多少内存？

HBM：明星内存

DRAM：可靠的苦力

SRAM 与缓存：工作台上的内存

GDDR：游戏 GPU 和本地 AI 的内存

LPDDR：将 AI 装入口袋的内存

NAND 闪存：AI 图书馆

AI 数据中心是巨大的内存机器

封装：无人提及直到出问题的环节

内存的经济学正在改变

Agentic AI：内存倍乘器

边缘 AI 与机器人技术：内存离开数据中心

未来内存：有前途的新技术

太空中的 AI：下一个内存前沿

最后一点思考……TERAFAB

使用 YouMind 深度阅读爆款文章

把你的 Markdown 变成干净的 𝕏 文章

近期爆款文章

哈佛研究：收入与时间分配之间的联系——5 个提升成果的问题

7 月 7 日前必须尝试的 5 个 Fable 5 使用场景

Kioxia $KXIAY：投资逻辑分析

最佳 AI 模型终极指南：Claude Fable 5 简明解析

Kaizer Chiefs 与 Tashreeq Morris 分道扬镳

私募股权行业低估了 AI 的潜力