記憶:AI 競賽中最被低估的關鍵硬體
多數人認為 AI 競賽的核心在於晶片——誰擁有最快的 GPU?誰擁有最佳的 AI 加速器?誰擁有最大的資料中心?誰擁有最聰明的模型?
這些都至關重要。但 AI 競賽中還有另一個較不引人注目、卻可能同樣重要的環節:記憶體。
這裡說的記憶體,不是「我忘了鑰匙放在哪裡」的那種記憶,而是指實體硬體——用來儲存、移動和傳遞 AI 系統所需資料的硬體。AI 不僅僅是運算,它還需要以驚人的速度記憶、檢索、比對、移動和重複使用大量資訊。這使得記憶體成為整個 AI 經濟中最關鍵的瓶頸之一。
為什麼 AI 如此渴望記憶體
想像你要求一個 AI 模型針對某個主題進行深度研究。為了回答問題,模型並非像人類那樣「思考」,而是執行大量的數學運算,橫跨數十億甚至數兆個儲存數值。這些數值稱為權重。
權重是模型在訓練後所習得的結構,也就是模型「知道」的內容。當你提出問題時,AI 系統必須反覆存取這些權重來生成答案。模型越大,權重就越多,需要的記憶體也就越多。
但記憶體問題不僅止於此。模型還必須記住你的提示詞、它已經生成過的詞彙,可能還需要處理長篇文件、分析程式碼、總結 PDF、比較多個檔案,或是在長時間的對話中維持上下文。所有這些暫時性的工作資訊都需要有一個存放的地方。
AI 系統需要空間來儲存它在生成答案時正在使用的資訊。更大的模型需要更多記憶體;更長的對話需要更多記憶體;同時服務更多使用者需要更多記憶體;更多的圖片、影片、文件和即時資料,同樣需要更多記憶體。
這就是為什麼 AI 不僅僅是算力飢渴,它同時也是記憶體飢渴。

超級跑車配上小油管
當晶片公司在談論 AI 效能時,他們通常會提到運算能力,也就是晶片每秒能執行多少數學運算。但這裡有個陷阱:晶片只能運算它能存取的資料。
如果資料無法夠快地送達運算引擎,晶片就會處於閒置狀態。這就是 AI 硬體的殘酷現實。理論上的運算能力在投影片上看起來可能很驚人,但實際效能取決於系統能否夠快地移動足夠多的資料。
這就是記憶體頻寬。頻寬指的是每秒能在記憶體和處理器之間移動多少資料。你可以把它想像成高速公路的寬度。越多車道,就能同時有越多車輛通行。記憶體頻寬越高,就能同時有越多資料送達 AI 晶片。
小路會造成塞車;窄管會限制水流;小油管會限制超級跑車。低的記憶體頻寬會限制 AI。這就是為什麼一顆 AI 晶片在理論上看起來「很快」,但實際表現卻可能令人失望。運算引擎可能準備好了,但資料卻困在塞車中。

AI 到底需要多少記憶體?
現今一個典型的大型 AI 模型大約有 4,000 億個「權重」。以最常見的格式儲存,光這個模型就需要約 800 GB 的記憶體——大約相當於 200 部高畫質電影的大小。
但模型並非唯一需要空間的東西。每次你和它對話,系統還必須儲存你的對話歷史、你上傳的任何文件,以及它在思考過程中產生的一系列「筆記」(稱為鍵值快取)。在忙碌的一天,一次對話就可能輕易需要額外的 50 到 200 GB。
現在,將這個數字乘以同時使用的數千或數百萬使用者。突然間,一個資料中心可能需要數萬 GB——也就是數十 TB——的記憶體,才能讓所有對話順暢進行。
這就是為什麼業界如此執著於 HBM:一顆現代 AI 晶片可以搭配 100 到 200 GB 以上的這種超高速記憶體。下一代的晶片已經在往更大容量推進。如果沒有足夠的記憶體,晶片就只能空轉等待,就像一輛油箱空了的法拉利。

HBM:記憶體界的超級巨星
現今高端 AI 中最重要的記憶體是 HBM,即高頻寬記憶體。HBM 是垂直堆疊的記憶體,就像一座微型摩天大樓。它不是將記憶體晶片平鋪在電路板上,而是將記憶體層層堆疊,並放置在非常靠近 GPU 或 AI 加速器的位置。
這點之所以重要,是因為距離是敵人。在電路板上移動資料需要時間和能量。從緊鄰晶片的記憶體移動資料則要快得多、也有效率得多。HBM 為 AI 加速器提供了一個巨大且寬廣的記憶體連接通道。這不像是一條狹窄的道路,而是直接在工廠裡蓋了一條 32 車道的高速公路。
這就是為什麼 NVIDIA、AMD、Google、Amazon、Meta、Microsoft、Broadcom,以及幾乎每一個重要的 AI 晶片計畫(包括 TERAFAB——下面會詳細介紹)都密切關注 HBM。GPU 或加速器或許佔據了新聞頭條,但 HBM 決定了這顆晶片實際上能做多少有用的工作。
HBM 也很難製造。它需要先進的記憶體製造技術、垂直堆疊、極高的精度、先進封裝、熱管理,以及與處理器的緊密協調。這就是為什麼 Micron、SK hynix 和 Samsung 變得如此重要。他們不再只是將大宗記憶體賣給個人電腦。他們正在供應 AI 建設中的關鍵零組件之一。
在舊時代,記憶體公司常被視為週期性的大宗商品企業。在 AI 時代,高端記憶體公司更像是戰略性的基礎設施供應商。

DRAM:可靠的苦力
DRAM(動態隨機存取記憶體)是電腦和伺服器中使用的主要記憶體。這是大多數人熟悉的常規工作記憶體,即使他們不太會去多想它。當你購買一台配備 16 GB、32 GB 或 64 GB RAM 的筆記型電腦時,通常指的就是 DRAM。
DRAM 之所以重要,是因為它密度高、相對便宜且廣泛使用。它存在於伺服器、個人電腦、資料中心和許多 AI 系統中。它幫助 CPU 管理資料、提供工作負載、支援應用程式,並圍繞 AI 加速器運行更廣泛的系統。
但 DRAM 有其限制。它不像晶片內建快取那麼快。它沒有 HBM 那樣的極致頻寬。而且由於它通常距離主 AI 處理器較遠,因此在處理最高要求的運算任務時,無法總是夠快地為晶片提供資料。
可以把 DRAM 想像成工廠後面的大型倉庫。它可以儲存很多東西,也很重要,但它不像讓零件直接放在工人手邊那麼快。AI 兩者都需要:它需要大型的記憶體池,也需要極快的、靠近運算單元的記憶體。

SRAM 與快取記憶體:工作檯上的記憶體
SRAM(靜態隨機存取記憶體)比 DRAM 快得多。它在晶片內部被用作快取記憶體。快取記憶體就像一小堆直接放在工作檯上的工具和零件。你不需要走到建築物另一頭去拿,它們就在你身邊。
這使得快取記憶體極具價值。當一顆 AI 晶片能將重要資料保留在晶片內部的快取中時,就能節省時間和能源。晶片不需要那麼頻繁地去存取 HBM 或 DRAM,從而提升了效能和效率。
但這裡有個問題。SRAM 在晶片上佔據了大量空間,就矽晶圓面積而言成本很高。你不能簡單地在晶片上放幾百 GB 的 SRAM,那會讓晶片變得巨大且極其昂貴。
因此,晶片設計師面臨一個取捨:多少面積應該用於運算?多少用於快取?多少用於互連、控制邏輯和其他功能?這是 AI 晶片設計中最有趣的部分之一。架構不僅僅是工程,它是在微觀尺度上的資本配置。
每一平方毫米的矽晶圓都有它的任務。

GDDR:遊戲 GPU 與本地 AI 的記憶體
GDDR(繪圖雙倍資料率)是用於許多顯示卡中的記憶體。如果你的電腦有遊戲 GPU 或工作站 GPU,它很可能使用 GDDR。GDDR 之所以重要,是因為它以比 HBM 更低的成本提供了高頻寬。對於最極端的 AI 工作負載來說,它不如 HBM 強大或高效,但它非常有用。
這種記憶體讓人們可以在家運行 AI 模型。它支援遊戲 GPU、創作者工作站、小型 AI 伺服器、業餘愛好者設備,以及本地模型實驗。有人在消費級 NVIDIA GPU 上運行圖像生成模型,很可能依賴的就是 GDDR。開發者在本地測試較小的語言模型,可能也在使用 GDDR。新創公司在轉移到昂貴的雲端基礎設施之前,用來原型設計 AI 應用的,可能也是 GDDR。
這點很重要,因為並非每個模型都需要在巨大的超大規模資料中心內運行。有些模型可以在工作站、遊戲機和小型伺服器上本地運行。

LPDDR:將 AI 帶入口袋的記憶體
LPDDR(低功耗雙倍資料率)是用於智慧型手機、平板電腦、筆記型電腦和許多行動裝置的低功耗記憶體。當 AI 從雲端移動到你手中、你的車上、你的眼鏡、你的手錶或你的機器人時,這種記憶體就變得至關重要。
LPDDR 設計用於消耗較少電力。這點很關鍵,因為手機不能像資料中心那樣運作。它不能消耗數百萬瓦的電力,不能依賴液體冷卻,也不能發出像噴射引擎那樣的噪音。如果 AI 要在裝置上本地運行,記憶體就必須快速、小巧、節能且價格合理。
這就是為什麼 LPDDR 對邊緣 AI 如此重要。一台運行本地語言模型的智慧型手機,需要足夠的記憶體來儲存模型並處理你的請求。一台本地運行 AI 工具的筆記型電腦,需要夠快、同時又夠節能以免耗盡電池壽命的記憶體。一台運行自動駕駛軟體的汽車,需要能夠處理即時感測器資料,同時在酷熱、嚴寒、震動和惡劣條件下安全運作的記憶體。
一個類人機器人也需要本地記憶體。它必須處理視覺、語言、運動、平衡、觸覺和環境脈絡。其中部分智慧可能連接到雲端,但機器人無法在每一次需要邁出一步或避免撞倒燈具時,都等待遠端的伺服器回應。
LPDDR 可能不像 HBM 那樣受到關注,但如果 AI 要變得在地化、個人化、行動化和具身化,它就至關重要。

NAND 快閃記憶體:AI 的圖書館
NAND 快閃記憶體是用於長期儲存的記憶體。它存在於 SSD、手機、筆記型電腦、資料中心、相機、車輛和許多嵌入式系統中。NAND 在電源關閉時仍能保留資料。
NAND 比 DRAM 或 HBM 慢,但作為儲存用途,它便宜得多,密度也更高。它是資料在未被積極處理時的存放之處。在 AI 中,NAND 儲存訓練資料、模型檔案、檢查點、日誌、影片、圖片、文件、嵌入向量、地圖和使用者資料。
可以把 NAND 想像成圖書館或倉庫。HBM 是快速的組裝線。SRAM 快取是握在你手中的工具。DRAM 是活躍的工作區。
對於自動駕駛車輛,NAND 可能儲存地圖、行車日誌、感知資料和軟體更新。對於機器人,它可能儲存操作歷史、本地模型、維護日誌和環境資料。對於資料中心,它儲存龐大的資料集和模型檢查點。
如果儲存速度太慢,昂貴的 AI 加速器最終只能空等。
這就像聘請了一組數百萬美元的外科醫生團隊,卻因為沒有人把手術器械拿進手術室而讓他們乾等。
即使是「慢速」的記憶體,在整個 AI 系統依賴於透過一個巨大管線來餵養資料時,也至關重要。

AI 資料中心是巨大的記憶體機器
一個現代的 AI 資料中心常被描述為一台巨大的運算機器。這是對的,但並不完整。它同時也是一台巨大的記憶體機器。
資料中心必須將資料從儲存裝置移動到 CPU,從 CPU 移動到 GPU,從 GPU 移動到 HBM,從一個 GPU 移動到另一個 GPU,從一台伺服器移動到另一台伺服器,甚至經常從一個叢集移動到另一個叢集。每一次移動都耗費時間、能源和金錢。
這影響了所有方面:伺服器架構、機櫃設計、網路、冷卻、功耗和總體擁有成本。如果記憶體系統設計不良,資料中心就會浪費昂貴的 GPU。如果 GPU 無法夠快地存取足夠的記憶體,它們就無法發揮應有性能。如果記憶體消耗過多電力,冷卻成本就會上升。如果記憶體容量過於有限,系統可能需要更多加速器來運行相同的工作負載。
這就是為什麼 AI 基礎設施如此資本密集。你不只是在買晶片。你在購買一個完整的工業系統:GPU、HBM、CPU、DRAM、NAND、網路設備、交換器、電源供應、冷卻、封裝、軟體和建築物。

封裝:不出問題就沒人談論的部分
HBM 並非僅僅因為存在就有用。它必須實體連接到 AI 加速器。這就是先進封裝出場的地方。
現代的 AI 晶片並非單一、孤立的矽晶片。它們是複雜的封裝體,將邏輯晶片、記憶體堆疊、中介層、基板和高速連接整合在一起。一個重要的封裝方法是 2.5D 封裝。其基本概念是,GPU 或加速器與 HBM 堆疊並排座落在一個特殊的基礎層上,這個基礎層允許它們之間進行極快速的通訊。
這就是讓記憶體足夠接近、足夠連接,以餵養晶片的方式。台積電的 CoWoS 封裝技術變得特別重要,因為它有助於連接先進處理器與 HBM。這種封裝產能已成為 AI 供應鏈中的一個主要瓶頸。
這是一個奇怪但重要的觀點。你可以設計出世界上最好的 AI 晶片,你可以製造邏輯晶片,你也可以生產 HBM。但是,如果你無法大規模地將它們封裝在一起,你就無法出貨最終產品。

記憶體的經濟學正在改變
幾十年來,記憶體常被視為一種週期性的大宗商品業務。價格上漲,公司增加供應,價格下跌,然後週期重複。AI 改變了這個故事。
HBM 不是普通的大宗商品記憶體。它是專業化、稀缺、難以製造,且對於世界上最有價值的 AI 系統至關重要的產品。這賦予了記憶體製造商更多的戰略重要性和更強的定價能力。
如果 NVIDIA、AMD 或一家客製化 AI 晶片公司無法獲得足夠的 HBM,他們就無法出貨足夠的加速器。如果雲端供應商無法獲得足夠的加速器,他們就無法部署足夠的 AI 容量。如果 AI 容量受限,推論就會維持在較高價格,應用程式的擴展速度也會變慢。
記憶體成了 AI 成長的制約因素。這就是為什麼 SK hynix、Samsung 和 Micron 等公司如此重要。他們不僅僅是乘上 AI 浪潮,他們正在幫助定義這股浪潮能有多大。

代理人 AI:記憶體的倍增器

代理人 AI 可能成為未來記憶體需求的最大驅動力之一,因為代理人的行為模式與一般的聊天機器人會話不同。聊天機器人回答一個問題後就停止了。但 AI 代理人會持續工作。它會記住目標、追蹤對話、呼叫工具、開啟檔案、檢查結果、分支出子任務、比較選項,並在產出答案前通常執行多個推理循環。
這改變了記憶體的方程式。

一個簡單的 AI 查詢可能需要記憶體來存放模型、使用者提示、上下文視窗和輸出。一個代理人工作流程需要的則多得多。它可能需要記憶體來存放原始指令、先前的步驟、中間結果、工具輸出、長時間運行的上下文、並行的子代理人,以及持續的狀態。用白話說就是:聊天機器人只需要短期記憶;而代理人需要工作記憶、專案記憶,和一張堆滿打開檔案的辦公桌。
這就是為什麼代理人 AI 可能帶來 DRAM 需求的階梯式增長。根據 Micron 的敘事地圖估計,每個活躍的代理人可能需要比典型聊天機器人互動多 5 到 10 倍的記憶體,因為代理人的上下文更長、有工具使用歷史、子代理人分支,並需要整合外部知識。

重點在於,代理人 AI 不僅增加了查詢的數量,它還增加了每位使用者的記憶體強度。一個人使用聊天機器人,可能產生一個提示和一個回應。一個人使用代理人,可能觸發數十或數百個幕後操作:搜尋這個、總結那個、檢查試算表、運行一個情境、比較輸出、修改計畫,然後隨著時間監控它。
這意味著記憶體需求在多個層面上複合增長:
更多使用者 × 每位使用者更多代理人 × 每個代理人更多任務 × 每個任務更多記憶體 × 更長的持續時間。
這與傳統軟體的成長曲線截然不同。在舊軟體中,使用者打開一個應用程式,做些事情,然後關閉它。在代理人 AI 中,軟體可能在使用者離開後仍持續運作。它可能監控收件匣、行事曆、程式碼庫、財務模型、法律文件、客服單據或工廠系統。每個持續存在的代理人都變成一個小型、持續消耗運算和記憶體的實體。
這對 Micron 很重要,因為記憶體成為代理人 AI 的其中一個限制資源。AI 代理人時代不僅需要 GPU,還需要圍繞這些 GPU 的快速記憶體、高階伺服器 DRAM、更大的記憶體池,以及最終諸如 CXL(Compute Express Link)等能將記憶體容量擴展到傳統限制之外的技術。被上傳的 Micron 報告特別將 AI 代理人視為下一個階段的驅動向量,因為代理人的長時間上下文和外部工具呼叫,使得每位活躍使用者的記憶體需求相較於傳統聊天機器人互動成倍增長。
最簡單的類比是這樣的:ChatGPT 就像問一個聰明的員工一個問題。代理人 AI 則像是僱用那個員工整天處理一個專案。前者需要短暫的注意力爆發。後者需要記憶體、檔案、上下文、工具和連續性。

這就是為什麼代理人 AI 對 Micron 如此重要。它將記憶體從一個背景元件,轉變為一個核心的擴展限制因素。如果 AI 代理人成為企業軟體、客戶服務、程式設計、研究、金融、醫療保健、物流和個人生產力的新介面,那麼記憶體需求可能不會線性成長。它可能會非連續地成長。
在那樣的世界裡,關鍵問題不再僅僅是:「將會建造多少顆 GPU?」
更好的問題變成:
這個世界將會運行多少個持續存在的 AI 工人——而每一個工人需要多少記憶體來思考、記憶、推理和行動?

邊緣 AI 與機器人技術:記憶體離開資料中心
AI 的下一階段不僅僅是在更大的資料中心裡運行更大的模型。AI 也正在進入實體世界:手機、筆記型電腦、汽車、機器人、無人機、醫療設備、工業機器、安全攝影機、智慧眼鏡和家庭裝置。
所有這些系統都需要記憶體,但它們需要不同類型的記憶體平衡。一個資料中心可以使用巨量的電力和先進的冷卻系統。一個機器人不行。一台手機不行。一架無人機絕對不行。
邊緣 AI 需要快速、節能、小巧、可靠且價格合理的記憶體。想像一個在工廠工作的類人機器人。它配備了攝影機、感測器、馬達、平衡系統、語言介面和任務規劃軟體。它需要理解環境、記住當前的任務、回應人類、避開障礙物,並即時控制自己的身體。
這需要記憶體。不僅僅是儲存裝置。不僅僅是一個資料庫。而是真正的運作記憶體。
或者想像一輛自動駕駛車輛。它可能配備了八個攝影機、雷達、超音波感測器、地圖、規劃軟體和持續運行的神經網路。它必須即時處理整個世界。它不能說:「等一下,記憶體匯流排太擠了。」
實體 AI 使記憶體成為一個安全問題。當 AI 從聊天機器人轉移到汽車和機器人時,延遲至關重要。功耗至關重要。發熱至關重要。可靠性至關重要。本地記憶體至關重要。
這就是為什麼記憶體對 Tesla、機器人技術、自動駕駛、智慧型手機、筆記型電腦、醫療設備和工業自動化至關重要。機器人的智慧只有在它能於正確的時間存取正確的資訊時才有用。

未來的記憶體:前景可期的新技術
有幾種未來的記憶體技術可能變得重要。MRAM 使用磁狀態來儲存資料。它具有非揮發性、耐用性,並且可能應用於嵌入式系統、車用晶片、工業設備和邊緣 AI。ReRAM 使用電阻變化來儲存資料。它可能適用於低功耗裝置,以及可能的記憶體內運算系統。
相變記憶體透過改變材料的不同物理狀態來儲存資料。它被探索作為 DRAM 和儲存裝置之間的橋樑。鐵電記憶體使用保留電極化的材料。它可能在未來低功耗嵌入式系統中佔有一席之地。光學記憶體很有趣,因為在某些情境下,光可以非常快速且高效地移動資料,但要大規模商業化仍然困難。
3D DRAM 可以透過向上堆疊來幫助擴展記憶體密度,就像多年前 NAND 快閃記憶體轉向 3D 結構一樣。處理器內記憶體和記憶體內運算尤其有趣,因為它們直接攻擊核心問題。它們不是將資料在記憶體和運算單元之間來回移動,而是嘗試在資料已經存在的位置附近執行某些運算。
這聽起來很直觀。如果食材已經在那裡,為什麼不就地烹調晚餐,而要把它們全部運過城鎮呢?
但實作起來很困難。記憶體製造和邏輯製造是不同的。
雖然未來的記憶體技術前景可期,但 AI 的記憶體問題很可能需要透過整個堆疊的多項改進來解決,而不是靠單一的神奇技術。

太空中的 AI:記憶體的下一個邊疆
太空 AI 聽起來像科幻小說,但其邏輯很直接。AI 需要能源、運算、冷卻、通訊和記憶體。太空最終可能在其中幾個領域提供優勢。在軌道上,太陽能充足且不間斷。熱量可以輻射到太空中。衛星可以直接連接到全球通訊網路。而且 SpaceX 正在快速降低將衛星送入軌道的成本。
記憶體可能變得更加重要。一個基於太空的 AI 系統不會只是一個轉發訊號的笨拙衛星。它可以本地處理資料、運行推論、協調通訊、分析地球觀測資料、支援自主機器人技術、管理軌道交通,並作為全球 AI 運算層的一部分。這需要靠近處理器的高效能記憶體。

對於記憶體公司來說,這可能會創造一個新的需求層級。軌道 AI 系統需要抗輻射記憶體、低功耗記憶體、高頻寬記憶體、非揮發性儲存,或許還需要針對嚴苛環境設計的特殊記憶體架構。其限制條件與地面資料中心不同。重量、功耗、散熱設計、可靠性及抗輻射能力都至關重要。
最後一個想法... TERAFAB
Elon 將此專案描述為將邏輯、記憶體、封裝、測試及相關半導體製程整合在同一屋簷下。
如果 Elon 能將 HBM 或先進記憶體生產的部分環節內部化,Terafab 最終可能對外部記憶體供應商構成長期的競爭威脅。
Elon 建造 Terafab 並非因為記憶體不重要。他建造 Terafab 是因為記憶體可能成為 AI、機器人、自動駕駛車輛及太空資料中心的關鍵瓶頸之一。






