Hầu hết mọi người nghĩ rằng cuộc đua AI chỉ xoay quanh chip. Ai có GPU nhanh nhất? Ai có bộ tăng tốc AI tốt nhất? Ai có trung tâm dữ liệu lớn nhất? Ai có mô hình thông minh nhất?
Tất cả những điều đó đều quan trọng. Nhưng có một phần khác của cuộc đua AI ít hào nhoáng hơn và cũng có thể quan trọng không kém: bộ nhớ.
Không phải bộ nhớ kiểu "tôi quên chìa khóa ở đâu rồi." Mà là bộ nhớ phần cứng vật lý lưu trữ, di chuyển và cung cấp dữ liệu mà các hệ thống AI cần để suy nghĩ. AI không chỉ tính toán. AI ghi nhớ, truy xuất, so sánh, di chuyển và tái sử dụng lượng thông tin khổng lồ với tốc độ đáng kinh ngạc. Điều đó khiến bộ nhớ trở thành một trong những nút thắt cổ chai quan trọng nhất trong toàn bộ nền kinh tế AI.
Tại sao AI lại "khát" bộ nhớ đến vậy
Hãy tưởng tượng bạn yêu cầu một mô hình AI thực hiện nghiên cứu chuyên sâu về một chủ đề. Để trả lời, mô hình không "suy nghĩ" theo cách con người làm. Nó chạy một số lượng khổng lồ các phép tính toán học trên hàng tỷ hoặc thậm chí hàng nghìn tỷ giá trị đã được lưu trữ. Những giá trị đó được gọi là trọng số (weights).
Trọng số là cấu trúc đã học của mô hình. Chúng là những gì mô hình "biết" sau khi huấn luyện. Khi bạn đặt câu hỏi, hệ thống AI phải truy cập vào các trọng số đó nhiều lần để tạo ra câu trả lời. Mô hình càng lớn, càng có nhiều trọng số và càng cần nhiều bộ nhớ để lưu trữ và truy cập chúng.
Nhưng vấn đề bộ nhớ không dừng lại ở đó. Mô hình cũng phải theo dõi lời nhắc (prompt) của bạn. Nó phải nhớ những từ mà nó đã tạo ra. Nó có thể cần xử lý một tài liệu dài, phân tích mã, tóm tắt một tệp PDF, so sánh nhiều tệp hoặc duy trì ngữ cảnh trong một cuộc trò chuyện dài. Tất cả thông tin làm việc tạm thời đó phải được lưu trữ ở đâu đó.
Hệ thống AI cần những nơi để lưu trữ thông tin mà nó đang sử dụng trong khi tạo ra câu trả lời. Mô hình lớn hơn cần nhiều bộ nhớ hơn. Cuộc trò chuyện dài hơn cần nhiều bộ nhớ hơn. Nhiều người dùng cùng lúc cần nhiều bộ nhớ hơn. Nhiều hình ảnh, video, tài liệu và dữ liệu thời gian thực hơn cần nhiều bộ nhớ hơn.
Đây là lý do tại sao AI không chỉ "đói" sức mạnh tính toán. AI còn "đói" bộ nhớ.

Siêu xe với đường dẫn nhiên liệu tí hon
Khi các công ty chip nói về hiệu suất AI, họ thường nói về sức mạnh tính toán. Điều đó thường có nghĩa là chip có thể thực hiện bao nhiêu phép tính toán học mỗi giây. Nhưng có một vấn đề: một chip chỉ có thể tính toán trên dữ liệu mà nó có thể truy cập.
Nếu dữ liệu không thể đến được các cỗ máy tính toán đủ nhanh, chip sẽ ngồi không. Đây là thực tế đau đớn của phần cứng AI. Sức mạnh tính toán lý thuyết có thể trông rất ấn tượng trên một slide, nhưng hiệu suất thực tế phụ thuộc vào việc hệ thống có thể di chuyển đủ dữ liệu đủ nhanh hay không.
Đây là băng thông bộ nhớ. Băng thông là lượng dữ liệu có thể di chuyển mỗi giây giữa bộ nhớ và bộ xử lý. Hãy nghĩ về nó như chiều rộng của một đường cao tốc. Càng nhiều làn xe, càng nhiều xe có thể di chuyển cùng lúc. Băng thông bộ nhớ càng lớn, càng nhiều dữ liệu có thể đến được chip AI cùng lúc.
Một con đường nhỏ tạo ra ùn tắc giao thông. Một đường ống hẹp hạn chế dòng nước. Một đường dẫn nhiên liệu tí hon giới hạn siêu xe. Băng thông bộ nhớ thấp giới hạn AI. Đây là lý do tại sao một chip AI có thể "nhanh" về mặt lý thuyết nhưng lại gây thất vọng trong thực tế. Các cỗ máy tính toán có thể sẵn sàng, nhưng dữ liệu có thể bị kẹt trong "ùn tắc giao thông".

AI thực sự cần bao nhiêu bộ nhớ?
Một mô hình AI lớn điển hình hiện nay có khoảng 400 tỷ "trọng số" (những thứ nó đã học trong quá trình huấn luyện). Được lưu trữ ở định dạng phổ biến nhất, chỉ riêng mô hình đó đã chiếm khoảng 800 gigabyte bộ nhớ - gần bằng kích thước của 200 bộ phim độ nét cao.
Nhưng mô hình không phải là thứ duy nhất cần không gian. Mỗi lần bạn trò chuyện với nó, hệ thống cũng phải giữ lịch sử cuộc trò chuyện của bạn, bất kỳ tài liệu nào bạn đã tải lên và một danh sách ngày càng tăng các "ghi chú" mà nó tạo ra trong khi suy nghĩ (được gọi là bộ nhớ đệm khóa-giá trị - key-value cache). Vào một ngày bận rộn, một cuộc trò chuyện duy nhất có thể dễ dàng cần thêm 50–200 GB.
Bây giờ, nhân số đó lên với hàng nghìn hoặc hàng triệu người dùng cùng lúc. Đột nhiên, một trung tâm dữ liệu có thể cần hàng chục nghìn gigabyte - tức là hàng chục terabyte - chỉ để giữ cho các cuộc trò chuyện diễn ra suôn sẻ.
Đó là lý do tại sao ngành công nghiệp say mê HBM: một chip AI hiện đại duy nhất có thể được kết hợp với 100–200+ GB bộ nhớ siêu nhanh này. Các thế hệ chip tiếp theo đã đang hướng tới nhiều hơn nữa. Nếu không có đủ bộ nhớ, chip sẽ ngồi chờ, giống như một chiếc Ferrari với bình xăng rỗng.

HBM: Ngôi sao của bộ nhớ
Bộ nhớ quan trọng nhất trong AI cao cấp hiện nay là HBM, hay Bộ nhớ băng thông cao (High Bandwidth Memory). HBM là bộ nhớ được xếp chồng theo chiều dọc, giống như một tòa nhà chọc trời tí hon. Thay vì trải phẳng các chip nhớ trên một bảng mạch, HBM xếp chồng các lớp nhớ lên trên nhau và đặt chúng rất gần với GPU hoặc bộ tăng tốc AI.
Điều này quan trọng vì khoảng cách là kẻ thù. Di chuyển dữ liệu qua một bảng mạch tốn thời gian và năng lượng. Di chuyển dữ liệu từ bộ nhớ đặt ngay cạnh chip nhanh hơn và hiệu quả hơn nhiều. HBM cung cấp cho các bộ tăng tốc AI một kết nối rộng, khổng lồ tới bộ nhớ. Thay vì một con đường nhỏ hẹp, nó giống như xây dựng một đường cao tốc 32 làn xe trực tiếp vào nhà máy.
Đây là lý do tại sao NVIDIA, AMD, Google, Amazon, Meta, Microsoft, Broadcom và hầu hết mọi nỗ lực chip AI nghiêm túc (bao gồm cả TERAFAB - sẽ nói thêm về điều này sau) đều quan tâm sâu sắc đến HBM. GPU hoặc bộ tăng tốc có thể là tâm điểm của các tiêu đề, nhưng HBM giúp xác định lượng công việc hữu ích mà chip thực sự có thể làm.
HBM cũng khó sản xuất. Nó đòi hỏi sản xuất bộ nhớ tiên tiến, xếp chồng theo chiều dọc, độ chính xác cực cao, đóng gói tiên tiến, quản lý nhiệt và phối hợp chặt chẽ với bộ xử lý. Đây là lý do tại sao Micron, SK hynix và Samsung trở nên quan trọng đến vậy. Họ không chỉ bán bộ nhớ hàng hóa thông thường cho máy tính cá nhân nữa. Họ đang cung cấp một trong những thành phần chính của hệ thống xây dựng AI.
Trong thế giới cũ, các công ty bộ nhớ thường bị coi như những doanh nghiệp hàng hóa theo chu kỳ. Trong thế giới AI, các công ty bộ nhớ cao cấp trông giống như các nhà cung cấp cơ sở hạ tầng chiến lược hơn.

DRAM: Người lao động cần mẫn đáng tin cậy
DRAM (Bộ nhớ truy cập ngẫu nhiên động - Dynamic Random Access Memory) là bộ nhớ chính được sử dụng trong máy tính và máy chủ. Đó là bộ nhớ làm việc thông thường mà hầu hết mọi người đều quen thuộc, ngay cả khi họ không nghĩ nhiều về nó. Khi bạn mua một máy tính xách tay với 16 GB, 32 GB hoặc 64 GB RAM, đó thường là DRAM.
DRAM quan trọng vì nó đậm đặc, tương đối phải chăng và được sử dụng rộng rãi. Nó nằm trong máy chủ, máy tính cá nhân, trung tâm dữ liệu và nhiều hệ thống AI. Nó giúp CPU quản lý dữ liệu, cung cấp khối lượng công việc, hỗ trợ các ứng dụng và chạy hệ thống tổng thể xung quanh các bộ tăng tốc AI.
Nhưng DRAM có giới hạn. Nó không nhanh bằng bộ nhớ đệm trên chip. Nó không có băng thông cực cao như HBM. Và vì nó thường ở xa bộ xử lý AI chính hơn, nên nó không phải lúc nào cũng có thể cung cấp dữ liệu cho chip đủ nhanh đối với các khối lượng công việc đòi hỏi khắt khe nhất.
Hãy nghĩ về DRAM như một nhà kho lớn phía sau nhà máy. Nó lưu trữ nhiều và rất cần thiết, nhưng nó không nhanh bằng việc có chính xác bộ phận đó nằm ngay cạnh tay người công nhân. AI cần cả hai. Nó cần các bể nhớ lớn và nó cần bộ nhớ cực nhanh ở gần khối tính toán.

SRAM và Bộ nhớ đệm: Bộ nhớ nằm trên bàn làm việc
SRAM (Bộ nhớ truy cập ngẫu nhiên tĩnh - Static Random-Access Memory) nhanh hơn nhiều so với DRAM. Nó được sử dụng bên trong chip làm bộ nhớ đệm (cache). Bộ nhớ đệm giống như một đống nhỏ các công cụ và bộ phận nằm ngay trên bàn làm việc. Bạn không cần phải đi qua tòa nhà để lấy chúng. Chúng đã ở ngay cạnh bạn rồi.
Điều đó làm cho bộ nhớ đệm trở nên cực kỳ có giá trị. Khi một chip AI có thể giữ dữ liệu quan trọng trong bộ nhớ đệm trên chip, nó tiết kiệm thời gian và năng lượng. Chip không cần phải ra ngoài HBM hoặc DRAM thường xuyên. Điều đó cải thiện hiệu suất và hiệu quả.
Nhưng có một vấn đề. SRAM chiếm rất nhiều diện tích trên chip. Nó đắt đỏ về mặt diện tích silicon. Bạn không thể chỉ đơn giản đặt hàng trăm gigabyte SRAM trên một chip. Chip sẽ trở nên khổng lồ và cực kỳ đắt đỏ.
Vì vậy, các nhà thiết kế chip phải đối mặt với một sự đánh đổi. Bao nhiêu diện tích nên dành cho tính toán? Bao nhiêu nên dành cho bộ nhớ đệm? Bao nhiêu nên dành cho kết nối, logic điều khiển và các tính năng khác? Đây là một trong những phần thú vị nhất của thiết kế chip AI. Kiến trúc không chỉ là kỹ thuật. Nó là sự phân bổ vốn ở quy mô vi mô.
Mỗi milimét vuông silicon đều có một nhiệm vụ.

GDDR: Bộ nhớ của GPU chơi game và AI cục bộ
GDDR (Tốc độ dữ liệu đồ họa kép - Graphics Double Data Rate) là bộ nhớ được sử dụng trong nhiều card đồ họa. Nếu bạn có GPU chơi game hoặc GPU máy trạm, rất có thể nó sử dụng GDDR. GDDR quan trọng vì nó cung cấp băng thông cao với chi phí thấp hơn HBM. Nó không mạnh mẽ hoặc hiệu quả bằng HBM đối với các khối lượng công việc AI khắc nghiệt nhất, nhưng nó cực kỳ hữu ích.
Đây là bộ nhớ cho phép mọi người chạy các mô hình AI tại nhà. Nó hỗ trợ GPU chơi game, máy trạm sáng tạo, máy chủ AI nhỏ, thiết lập cho người đam mê và thử nghiệm mô hình cục bộ. Ai đó chạy mô hình tạo hình ảnh trên GPU NVIDIA tiêu dùng có lẽ đang dựa vào GDDR. Một nhà phát triển thử nghiệm một mô hình ngôn ngữ nhỏ hơn cục bộ có thể đang sử dụng GDDR. Một công ty khởi nghiệp tạo mẫu ứng dụng AI trước khi chuyển sang cơ sở hạ tầng đám mây đắt đỏ có thể đang sử dụng GDDR.
Điều đó quan trọng vì không phải mọi mô hình đều cần chạy bên trong một trung tâm dữ liệu siêu lớn. Một số mô hình có thể chạy cục bộ trên máy trạm, dàn máy chơi game và máy chủ nhỏ.

LPDDR: Bộ nhớ mang AI vào túi của bạn
LPDDR (Tốc độ dữ liệu kép công suất thấp - Low-Power Double Data Rate) là bộ nhớ công suất thấp được sử dụng trong điện thoại thông minh, máy tính bảng, máy tính xách tay và nhiều thiết bị di động. Đây là bộ nhớ quan trọng khi AI di chuyển từ đám mây vào tay bạn, xe hơi của bạn, kính của bạn, đồng hồ của bạn hoặc robot của bạn.
LPDDR được thiết kế để sử dụng ít năng lượng hơn. Điều đó rất quan trọng vì một chiếc điện thoại không thể hoạt động như một trung tâm dữ liệu. Nó không thể tiêu thụ megawatt điện. Nó không thể dựa vào làm mát bằng chất lỏng. Nó không thể phát ra tiếng ồn như động cơ phản lực. Nếu AI sẽ chạy cục bộ trên các thiết bị, bộ nhớ phải nhanh, nhỏ gọn, tiết kiệm năng lượng và giá cả phải chăng.
Đây là lý do tại sao LPDDR rất quan trọng đối với AI biên (edge AI). Một điện thoại thông minh chạy mô hình ngôn ngữ cục bộ cần đủ bộ nhớ để lưu trữ mô hình và xử lý yêu cầu của bạn. Một máy tính xách tay chạy các công cụ AI cục bộ cần bộ nhớ đủ nhanh để hữu ích nhưng đủ hiệu quả để không làm hỏng tuổi thọ pin. Một chiếc xe hơi chạy phần mềm lái xe tự động cần bộ nhớ có thể xử lý dữ liệu cảm biến thời gian thực trong khi vận hành an toàn trong điều kiện nắng nóng, lạnh giá, rung động và khắc nghiệt.
Một robot hình người cũng cần bộ nhớ cục bộ. Nó phải xử lý thị giác, ngôn ngữ, chuyển động, thăng bằng, xúc giác và bối cảnh môi trường. Một phần trí thông minh đó có thể kết nối với đám mây, nhưng robot không thể chờ đợi một máy chủ ở xa mỗi khi nó cần bước một bước hoặc tránh làm đổ đèn.
LPDDR có thể không nhận được sự chú ý như HBM, nhưng nó rất quan trọng nếu AI muốn trở nên cục bộ, cá nhân, di động và có thể nhập thể.

NAND Flash: Thư viện AI
Bộ nhớ flash NAND (sự kết hợp của "NOT-AND") là bộ nhớ được sử dụng để lưu trữ dài hạn. Nó có trong SSD, điện thoại, máy tính xách tay, trung tâm dữ liệu, máy ảnh, xe cộ và nhiều hệ thống nhúng. NAND giữ dữ liệu ngay cả khi tắt nguồn.
NAND chậm hơn DRAM hoặc HBM, nhưng nó rẻ hơn và đậm đặc hơn nhiều cho việc lưu trữ. Đó là nơi dữ liệu sống khi nó không được xử lý tích cực. Trong AI, NAND lưu trữ dữ liệu huấn luyện, tệp mô hình, điểm kiểm tra (checkpoints), nhật ký, video, hình ảnh, tài liệu, phần nhúng (embeddings), bản đồ và dữ liệu người dùng.
Hãy nghĩ về NAND như một thư viện hoặc nhà kho. HBM là dây chuyền lắp ráp nhanh. Bộ nhớ đệm SRAM là công cụ nằm trong tay bạn. DRAM là không gian làm việc tích cực.
Đối với xe tự hành, NAND có thể lưu trữ bản đồ, nhật ký lái xe, dữ liệu nhận thức và bản cập nhật phần mềm. Đối với robot, nó có thể lưu trữ lịch sử hoạt động, mô hình cục bộ, nhật ký bảo trì và dữ liệu môi trường. Đối với trung tâm dữ liệu, nó lưu trữ các bộ dữ liệu khổng lồ và các điểm kiểm tra mô hình.
Nếu bộ nhớ lưu trữ quá chậm, các bộ tăng tốc AI đắt tiền có thể phải chờ đợi.
Điều đó giống như việc trả cho một đội ngũ bác sĩ phẫu thuật hàng triệu đô la và sau đó bắt họ chờ đợi vì không ai mang dụng cụ vào phòng.
Ngay cả bộ nhớ "chậm" cũng quan trọng khi toàn bộ hệ thống AI phụ thuộc vào việc cung cấp dữ liệu qua một đường ống khổng lồ.

Các trung tâm dữ liệu AI là những cỗ máy bộ nhớ khổng lồ
Một trung tâm dữ liệu AI hiện đại thường được mô tả như một cỗ máy tính toán khổng lồ. Điều đó đúng, nhưng chưa đầy đủ. Nó cũng là một cỗ máy bộ nhớ khổng lồ.
Trung tâm dữ liệu phải di chuyển dữ liệu từ bộ nhớ lưu trữ đến CPU, từ CPU đến GPU, từ GPU đến HBM, từ GPU này sang GPU khác, từ máy chủ này sang máy chủ khác, và thường từ cụm này sang cụm khác. Mỗi lần di chuyển đều tốn thời gian, năng lượng và tiền bạc.
Điều này ảnh hưởng đến mọi thứ: kiến trúc máy chủ, thiết kế giá đỡ, kết nối mạng, làm mát, tiêu thụ điện năng và tổng chi phí sở hữu. Nếu hệ thống bộ nhớ được thiết kế kém, trung tâm dữ liệu sẽ lãng phí các GPU đắt tiền. Nếu GPU không thể truy cập đủ bộ nhớ đủ nhanh, chúng sẽ hoạt động kém hiệu quả. Nếu bộ nhớ tiêu thụ quá nhiều điện năng, chi phí làm mát tăng lên. Nếu dung lượng bộ nhớ quá hạn chế, hệ thống có thể cần nhiều bộ tăng tốc hơn để chạy cùng một khối lượng công việc.
Đây là lý do tại sao cơ sở hạ tầng AI lại thâm dụng vốn đến vậy. Bạn không chỉ mua chip. Bạn đang mua một hệ thống công nghiệp hoàn chỉnh: GPU, HBM, CPU, DRAM, NAND, kết nối mạng, switch, cung cấp điện, làm mát, đóng gói, phần mềm và các tòa nhà.

Đóng gói: Phần không ai nói đến cho đến khi nó hỏng
HBM không hữu ích chỉ vì nó tồn tại. Nó phải được kết nối vật lý với bộ tăng tốc AI. Đây là lúc đóng gói tiên tiến xuất hiện.
Các chip AI hiện đại không chỉ là những mảnh silicon đơn lẻ nằm một mình. Chúng là những gói phức tạp kết hợp chip logic, chồng bộ nhớ, bộ xen (interposer), chất nền (substrate) và các kết nối tốc độ cao. Một phương pháp đóng gói quan trọng được gọi là đóng gói 2.5D. Ý tưởng cơ bản là GPU hoặc bộ tăng tốc và các chồng HBM nằm cạnh nhau trên một lớp nền đặc biệt cho phép giao tiếp cực nhanh giữa chúng.
Đây là cách bộ nhớ đủ gần và đủ kết nối để cung cấp dữ liệu cho chip. Công nghệ đóng gói CoWoS của TSMC đã trở nên đặc biệt quan trọng vì nó giúp kết nối các bộ xử lý tiên tiến với HBM. Công suất đóng gói này đã trở thành một nút thắt cổ chai lớn trong chuỗi cung ứng AI.
Đó là một điểm kỳ lạ nhưng quan trọng. Bạn có thể thiết kế chip AI tốt nhất thế giới. Bạn có thể sản xuất logic. Bạn có thể sản xuất HBM. Nhưng nếu bạn không thể đóng gói chúng lại với nhau ở quy mô lớn, bạn không thể xuất xưởng sản phẩm hoàn chỉnh.

Kinh tế học của bộ nhớ đang thay đổi
Trong nhiều thập kỷ, bộ nhớ thường được xem như một ngành kinh doanh hàng hóa theo chu kỳ. Giá tăng, các công ty tăng nguồn cung, giá giảm và chu kỳ lặp lại. AI đã thay đổi câu chuyện đó.
HBM không phải là bộ nhớ hàng hóa thông thường. Nó là chuyên biệt, khan hiếm, khó sản xuất và cần thiết cho các hệ thống AI có giá trị nhất trên thế giới. Điều đó mang lại cho các nhà sản xuất bộ nhớ tầm quan trọng chiến lược hơn và nhiều sức mạnh định giá hơn.
Nếu NVIDIA, AMD hoặc một công ty chip AI tùy chỉnh không thể có đủ HBM, họ không thể xuất xưởng đủ bộ tăng tốc. Nếu các nhà cung cấp đám mây không thể có đủ bộ tăng tốc, họ không thể triển khai đủ năng lực AI. Nếu năng lực AI bị hạn chế, suy luận (inference) vẫn đắt hơn và các ứng dụng mở rộng quy mô chậm hơn.
Bộ nhớ trở thành một bộ điều tiết tốc độ tăng trưởng của AI. Đây là lý do tại sao các công ty như SK hynix, Samsung và Micron lại quan trọng đến vậy. Họ không chỉ cưỡi trên làn sóng AI. Họ đang giúp xác định làn sóng có thể lớn đến mức nào.

Tác nhân AI: Hệ số nhân bộ nhớ

Tác nhân AI (Agentic AI) có thể trở thành một trong những động lực lớn nhất của nhu cầu bộ nhớ trong tương lai bởi vì các tác nhân không hoạt động như các phiên chatbot thông thường. Một chatbot trả lời một câu hỏi và dừng lại. Một tác nhân AI tiếp tục làm việc. Nó ghi nhớ mục tiêu, theo dõi cuộc trò chuyện, gọi các công cụ, mở tệp, kiểm tra kết quả, phân nhánh vào các tác vụ phụ, so sánh các lựa chọn và thường chạy nhiều vòng lý luận trước khi đưa ra câu trả lời.
Điều đó thay đổi phương trình bộ nhớ.

Một truy vấn AI đơn giản có thể cần bộ nhớ cho mô hình, lời nhắc của người dùng, cửa sổ ngữ cảnh và đầu ra. Một quy trình làm việc của tác nhân cần nhiều hơn thế. Nó có thể cần bộ nhớ cho hướng dẫn ban đầu, các bước trước đó, kết quả trung gian, đầu ra của công cụ, ngữ cảnh chạy dài, các tác nhân phụ song song và trạng thái liên tục. Nói một cách đơn giản: một chatbot cần bộ nhớ ngắn hạn; một tác nhân cần bộ nhớ làm việc, bộ nhớ dự án và một bàn làm việc đầy các tệp đang mở.
Đây là lý do tại sao tác nhân AI có thể tạo ra một bước ngoặt trong nhu cầu về DRAM. Bản đồ câu chuyện của Micron ước tính rằng mỗi tác nhân đang hoạt động có thể yêu cầu bộ nhớ gấp 5–10 lần so với một tương tác chatbot điển hình vì các tác nhân duy trì ngữ cảnh dài hơn, lịch sử công cụ, các nhánh tác nhân phụ và tích hợp kiến thức bên ngoài.

Điểm quan trọng là tác nhân AI không chỉ làm tăng số lượng truy vấn. Nó làm tăng cường độ bộ nhớ trên mỗi người dùng. Một người sử dụng chatbot có thể tạo ra một lời nhắc và một phản hồi. Một người sử dụng tác nhân có thể kích hoạt hàng chục hoặc hàng trăm hoạt động hậu trường: tìm cái này, tóm tắt cái kia, kiểm tra bảng tính, chạy một kịch bản, so sánh đầu ra, sửa đổi kế hoạch và sau đó theo dõi nó theo thời gian.
Điều đó có nghĩa là nhu cầu bộ nhớ kết hợp qua nhiều lớp:
Nhiều người dùng hơn × nhiều tác nhân trên mỗi người dùng hơn × nhiều tác vụ trên mỗi tác nhân hơn × nhiều bộ nhớ trên mỗi tác vụ hơn × thời gian tồn tại lâu hơn.
Đây là một đường cong nhu cầu rất khác so với phần mềm truyền thống. Trong phần mềm cũ, người dùng mở một ứng dụng, làm điều gì đó và đóng nó lại. Trong tác nhân AI, phần mềm có thể tiếp tục hoạt động sau khi người dùng rời đi. Nó có thể theo dõi hộp thư đến, lịch, cơ sở mã, mô hình tài chính, tài liệu pháp lý, vé dịch vụ khách hàng hoặc hệ thống nhà máy. Mỗi tác nhân liên tục trở thành một người tiêu thụ nhỏ, liên tục về tính toán và bộ nhớ.
Điều này quan trọng đối với Micron vì bộ nhớ trở thành một trong những nguồn lực giới hạn của tác nhân AI. Kỷ nguyên tác nhân AI đòi hỏi không chỉ GPU, mà còn bộ nhớ nhanh xung quanh các GPU đó, DRAM máy chủ cao cấp, các bể nhớ lớn hơn và cuối cùng là các công nghệ như CXL để mở rộng dung lượng bộ nhớ vượt quá các giới hạn truyền thống. Báo cáo được tải lên của Micron xác định cụ thể các tác nhân AI như một vectơ nhu cầu giai đoạn tiếp theo vì các tác nhân duy trì ngữ cảnh chạy dài và gọi các công cụ bên ngoài, nhân nhu cầu bộ nhớ trên mỗi người dùng đang hoạt động so với các tương tác chatbot truyền thống.
Phép loại suy dễ hiểu nhất là thế này: ChatGPT giống như hỏi một nhân viên thông minh một câu hỏi. Tác nhân AI giống như thuê nhân viên đó làm việc trong một dự án cả ngày. Việc đầu tiên chỉ cần một sự tập trung ngắn. Việc thứ hai cần bộ nhớ, tệp tin, ngữ cảnh, công cụ và tính liên tục.

Đó là lý do tại sao tác nhân AI có thể rất quan trọng đối với Micron. Nó biến bộ nhớ từ một thành phần nền thành một ràng buộc mở rộng quy mô cốt lõi. Nếu các tác nhân AI trở thành giao diện mới cho phần mềm doanh nghiệp, dịch vụ khách hàng, viết mã, nghiên cứu, tài chính, chăm sóc sức khỏe, hậu cần và năng suất cá nhân, thì nhu cầu bộ nhớ có thể không tăng tuyến tính. Nó có thể tăng một cách gián đoạn.
Trong thế giới đó, câu hỏi chính không còn đơn giản là: "Bao nhiêu GPU sẽ được chế tạo?"
Câu hỏi hay hơn trở thành:
Thế giới sẽ chạy bao nhiêu tác nhân AI liên tục - và mỗi tác nhân sẽ cần bao nhiêu bộ nhớ để suy nghĩ, ghi nhớ, lý luận và hành động?

AI biên và Robot: Bộ nhớ rời khỏi trung tâm dữ liệu
Giai đoạn tiếp theo của AI không chỉ là các mô hình lớn hơn trong các trung tâm dữ liệu lớn hơn. AI cũng đang di chuyển vào thế giới vật lý: điện thoại, máy tính xách tay, xe hơi, robot, máy bay không người lái, thiết bị y tế, máy móc công nghiệp, camera an ninh, kính thông minh và thiết bị gia đình.
Tất cả các hệ thống này đều cần bộ nhớ, nhưng chúng cần một sự cân bằng bộ nhớ khác. Một trung tâm dữ liệu có thể sử dụng lượng điện khổng lồ và làm mát tiên tiến. Một robot thì không thể. Một chiếc điện thoại thì không thể. Một máy bay không người lái chắc chắn không thể.
AI biên cần bộ nhớ nhanh, tiết kiệm năng lượng, nhỏ gọn, đáng tin cậy và giá cả phải chăng. Hãy xem xét một robot hình người làm việc trong một nhà máy. Nó có camera, cảm biến, động cơ, hệ thống thăng bằng, giao diện ngôn ngữ và phần mềm lập kế hoạch nhiệm vụ. Nó cần hiểu môi trường của mình, nhớ nó đang làm gì, phản hồi con người, tránh chướng ngại vật và điều khiển cơ thể của nó trong thời gian thực.
Điều đó đòi hỏi bộ nhớ. Không chỉ là bộ nhớ lưu trữ. Không chỉ là một cơ sở dữ liệu. Mà là bộ nhớ làm việc thực sự.
Hoặc hãy xem xét một chiếc xe tự hành. Nó có thể có tám camera, radar, cảm biến siêu âm, bản đồ, phần mềm lập kế hoạch và mạng nơ-ron chạy liên tục. Nó phải xử lý thế giới trong thời gian thực. Nó không thể nói, "Chờ đã, bus bộ nhớ đang bị tắc nghẽn."
AI vật lý biến bộ nhớ thành một vấn đề an toàn. Khi AI di chuyển từ chatbot sang xe hơi và robot, độ trễ rất quan trọng. Năng lượng rất quan trọng. Nhiệt độ rất quan trọng. Độ tin cậy rất quan trọng. Bộ nhớ cục bộ rất quan trọng.
Đây là lý do tại sao bộ nhớ là trung tâm của Tesla, robot, lái xe tự động, điện thoại thông minh, máy tính xách tay, thiết bị y tế và tự động hóa công nghiệp. Trí thông minh của robot chỉ hữu ích nếu nó có thể truy cập thông tin phù hợp vào đúng thời điểm.

Bộ nhớ tương lai: Các công nghệ mới đầy hứa hẹn
Có một số công nghệ bộ nhớ tương lai có thể trở nên quan trọng. MRAM lưu trữ dữ liệu bằng cách sử dụng trạng thái từ tính. Nó không bay hơi, bền và có thể hữu ích trong các hệ thống nhúng, chip ô tô, thiết bị công nghiệp và AI biên. ReRAM lưu trữ dữ liệu bằng cách sử dụng những thay đổi trong điện trở. Nó có thể hữu ích cho các thiết bị công suất thấp và có thể là các hệ thống tính toán trong bộ nhớ.
Bộ nhớ thay đổi pha (Phase-change memory) lưu trữ dữ liệu bằng cách thay đổi vật liệu giữa các trạng thái vật lý khác nhau. Nó đã được khám phá như một cầu nối giữa DRAM và bộ nhớ lưu trữ. Bộ nhớ sắt điện (Ferroelectric memory) sử dụng vật liệu giữ lại sự phân cực điện. Nó có thể quan trọng trong các hệ thống nhúng công suất thấp trong tương lai. Bộ nhớ quang học (Optical memory) rất thú vị vì ánh sáng có thể di chuyển dữ liệu rất nhanh và hiệu quả trong một số bối cảnh, nhưng vẫn khó thương mại hóa rộng rãi.
DRAM 3D có thể giúp mở rộng mật độ bộ nhớ bằng cách xây dựng theo chiều dọc, giống như NAND flash đã chuyển sang cấu trúc 3D nhiều năm trước. Xử lý trong bộ nhớ (Processing-in-memory) và tính toán trong bộ nhớ (compute-in-memory) đặc biệt thú vị vì chúng tấn công trực tiếp vào vấn đề cốt lõi. Thay vì di chuyển dữ liệu qua lại giữa bộ nhớ và tính toán, chúng cố gắng thực hiện một số thao tác gần hơn với nơi dữ liệu đã tồn tại.
Điều này nghe có vẻ hiển nhiên. Tại sao phải mang tất cả hàng tạp hóa qua thị trấn nếu bạn có thể nấu bữa tối ngay tại nơi hàng tạp hóa đang ở?
Nhưng việc thực hiện rất khó. Sản xuất bộ nhớ và sản xuất logic là khác nhau.
Mặc dù các công nghệ bộ nhớ tương lai rất hứa hẹn, vấn đề bộ nhớ AI có thể sẽ được giải quyết thông qua nhiều cải tiến trên toàn bộ ngăn xếp, chứ không phải một công nghệ thần kỳ duy nhất.

AI trong không gian: Ranh giới bộ nhớ tiếp theo
AI dựa trên không gian nghe có vẻ viễn tưởng, nhưng logic rất đơn giản. AI cần năng lượng, tính toán, làm mát, truyền thông và bộ nhớ. Không gian cuối cùng có thể mang lại lợi thế ở một số lĩnh vực đó. Năng lượng mặt trời dồi dào và không bị gián đoạn trên quỹ đạo. Nhiệt có thể được bức xạ vào không gian. Vệ tinh có thể kết nối trực tiếp với các mạng truyền thông toàn cầu. Và SpaceX đang nhanh chóng giảm chi phí đưa vệ tinh lên quỹ đạo.
Bộ nhớ thậm chí có thể trở nên quan trọng hơn. Một hệ thống AI dựa trên không gian sẽ không chỉ đơn giản là một vệ tinh "ngu ngốc" chuyển tiếp tín hiệu. Nó có thể xử lý dữ liệu cục bộ, chạy suy luận, điều phối truyền thông, phân tích dữ liệu quan sát Trái đất, hỗ trợ robot tự động, quản lý giao thông quỹ đạo và phục vụ như một phần của lớp tính toán AI toàn cầu. Điều đó đòi hỏi bộ nhớ hiệu suất cao gần bộ xử lý.

Đối với các công ty bộ nhớ, điều này có thể tạo ra một lớp nhu cầu mới. Các hệ thống AI quỹ đạo sẽ cần bộ nhớ chống bức xạ, bộ nhớ năng lượng thấp, bộ nhớ băng thông cao, bộ nhớ không bay hơi và có thể là các kiến trúc bộ nhớ chuyên dụng được thiết kế cho môi trường khắc nghiệt. Các ràng buộc khác với trung tâm dữ liệu trên mặt đất. Trọng lượng, năng lượng, thiết kế nhiệt, độ tin cậy và khả năng chống bức xạ đều quan trọng.
Một suy nghĩ cuối cùng... TERAFAB
Elon mô tả dự án là đưa logic, bộ nhớ, đóng gói, kiểm thử và các quy trình bán dẫn liên quan dưới một mái nhà.
Terafab cuối cùng có thể trở thành mối đe dọa cạnh tranh dài hạn đối với các nhà cung cấp bộ nhớ bên ngoài nếu Elon có thể nội bộ hóa một phần sản xuất HBM hoặc bộ nhớ tiên tiến.
Elon không xây dựng Terafab vì bộ nhớ không quan trọng. Ông ấy xây dựng Terafab vì bộ nhớ có thể là một trong những ràng buộc cửa ngõ đối với AI, robot, xe tự hành và các trung tâm dữ liệu không gian.






