Chúng tôi đã phá vỡ giới hạn về bộ nhớ tác nhân: Giới thiệu hệ thống bộ nhớ đạt ~99% SOTA.

@DhravyaShah
TIẾNG ANH3 tháng trước · 22 thg 3, 2026
2.6M
3.9K
412
260
8.4K

TL;DR

Dhravya Shah giới thiệu ASMR, một quy trình tác nhân thử nghiệm sử dụng các tác nhân LLM song song thay vì cơ sở dữ liệu vector để đạt được điểm số gần như hoàn hảo trên các bài kiểm tra bộ nhớ.

Lưu ý: Đây là một màn trình diễn. Nhiều người trong ngành liên tục khẳng định những con số sai sự thật trên các bài benchmark.

Vì vậy, chúng tôi đã làm điều này, để cho bạn thấy việc phá vỡ benchmark dễ dàng như thế nào.

https://x.com/DhravyaShah/status/2036243995500966260

Bộ nhớ Agent có thể đã hoàn toàn được giải quyết.

Trong vài năm tới, HÀNG TỶ agent sẽ được cá nhân hóa và chuyên biệt hóa cao độ cho từng người dùng - liên tục học hỏi và phát triển dựa trên mọi hành động của chúng ta. Đây là lý do tại sao chúng tôi đã nghiên cứu về trí nhớ AI trong nhiều năm qua. Điều gì sẽ xảy ra khi cuối cùng chúng ta hoàn thiện nó?

Vài tháng trước, chúng tôi đã công bố báo cáo nghiên cứu đầu tiên cho thấy Supermemory đạt ~85% trên LongMemEval-s - kết quả đưa chúng tôi lên trước mọi hệ thống bộ nhớ được công khai benchmark vào thời điểm đó. Hôm nay, chúng tôi công bố một kết quả mới: ~99% trên LongMemEval_s.

Để hoàn toàn rõ ràng ngay từ đầu: điều này chưa có trong engine Supermemory sản xuất chính của chúng tôi. Thay vào đó, bài blog này đề cập đến một luồng agentic thử nghiệm mới, có tính thử nghiệm cao mà chúng tôi đã xây dựng để xem chính xác chúng tôi có thể đẩy giới hạn tuyệt đối của việc truy xuất và suy luận bộ nhớ đến đâu, độc lập với các ràng buộc sản xuất cốt lõi của chúng tôi. Vài tháng nghiên cứu đã đưa chúng tôi đến đây.

Đây là cách chúng tôi đạt được điều đó. Giới thiệu kỹ thuật mới của chúng tôi: ASMR (Agentic Search and Memory Retrieval - Tìm kiếm và Truy xuất Bộ nhớ dạng Agent)

Kỹ thuật này:

  • Rất dễ triển khai
  • Không yêu cầu Cơ sở dữ liệu Vector hoặc embeddings và có thể được thực hiện hoàn toàn trong bộ nhớ
  • Điều này có nghĩa là nó có thể được nhúng vào các hệ thống khác, thậm chí cả robot.

Giới thiệu

LongMemEval là một trong những benchmark công khai khắt khe nhất cho bộ nhớ dài hạn. Không giống như các benchmark kiểm tra truy xuất đơn giản trên các ngữ cảnh ngắn, LongMemEval được thiết kế để mô phỏng sự hỗn loạn của môi trường sản xuất thực tế: lịch sử hội thoại hơn 115k token, thông tin mâu thuẫn, các sự kiện trải dài qua nhiều phiên và các câu hỏi yêu cầu suy luận về thời gian.

Lý do hầu hết các hệ thống bộ nhớ đạt điểm kém thường là do truy xuất - chứ không phải suy luận. Ngay cả khi khả năng thu hồi cao, nếu có quá nhiều nhiễu trong quá trình truy xuất, LLM có thể gặp khó khăn khi sử dụng nó. Vấn đề là chỉ đưa được thông tin phù hợp vào cửa sổ ngữ cảnh ngay từ đầu, và khó hơn nữa: biết khi nào một thông tin đã truy xuất bị lỗi thời và một phiên bản mới hơn thay thế nó.

Để giải quyết vấn đề này, chúng tôi đã rời xa RAG truyền thống và xây dựng một pipeline đa agent được điều phối.

Thiết lập & Kiến trúc Thử nghiệm

Tìm kiếm vector tiêu chuẩn nhìn chung là tốt. Tuy nhiên, nó thất bại khi xử lý các sắc thái của dữ liệu thời gian dày đặc, nhiều phiên. Đối sánh độ tương đồng ngữ nghĩa không thể phân biệt một cách đáng tin cậy giữa một thông tin cũ và một sự điều chỉnh mới. Để giải quyết sự phức tạp của LongMemEval, chúng tôi phải suy nghĩ lại pipeline tiếp nhận và truy xuất của mình từ đầu, thay thế toán học vector bằng suy luận agent chủ động.

Cũng giống như ASMR, kỹ thuật này đơn giản và thỏa mãn.

1. Điều phối Song song & Tiếp nhận (Agent Quan sát)

Thay vì chia nhỏ và nhúng các phiên người dùng, chúng tôi đã triển khai một bộ điều phối agent sử dụng 3 agent đọc (quan sát) song song (được hỗ trợ bởi Gemini 2.0 Flash). Các agent này đọc đồng thời qua các phiên thô (ví dụ: Agent 1 nhận phiên 1, 3, 5; Agent 2 nhận phiên 2, 4, 6).

Mục tiêu của chúng là trích xuất kiến thức có mục tiêu trên sáu vectơ: Thông tin Cá nhân, Sở thích, Sự kiện, Dữ liệu Thời gian, Cập nhật và Thông tin Trợ lý. Những phát hiện có cấu trúc này sau đó được lưu trữ nguyên bản và ánh xạ tới các phiên nguồn của chúng.

2. Truy xuất Agent Chủ động (Agent Tìm kiếm)

Khi một câu hỏi đến, chúng tôi không truy vấn cơ sở dữ liệu vector. Thay vào đó, chúng tôi triển khai 3 agent tìm kiếm song song. Các agent này chủ động đọc và suy luận về các phát hiện đã lưu trữ, mỗi agent có một trọng tâm chuyên biệt:

  • Agent 1: Tìm kiếm các sự kiện trực tiếp và tuyên bố rõ ràng.
  • Agent 2: Tìm kiếm bối cảnh liên quan, tín hiệu xã hội và hàm ý.
  • Agent 3: Tái tạo dòng thời gian và bản đồ mối quan hệ.

Bộ điều phối tổng hợp các phát hiện từ cả ba agent tìm kiếm, trích xuất nguyên văn các đoạn phiên để xác minh chi tiết. Điều này cho phép truy xuất thông minh dựa trên sự hiểu biết nhận thức thực tế thay vì chỉ dựa trên từ khóa hoặc độ tương đồng toán học.

3. Tổ hợp Trả lời do Agent Điều phối

Khi ngữ cảnh đã được tập hợp, một prompt duy nhất không thể xử lý vô số loại câu hỏi trong LongMemEval. Một số câu hỏi yêu cầu bạn suy luận chi tiết, trong khi những câu khác yêu cầu bạn phải cực kỳ cụ thể. Chúng tôi đã thử nghiệm với hai luồng trả lời agent riêng biệt:

Lần chạy 1: Tổ hợp 8 biến thể (Độ chính xác 98.60%)

Trong cách tiếp cận đầu tiên, chúng tôi định tuyến ngữ cảnh đã truy xuất qua 8 biến thể prompt chuyên biệt cao chạy song song (ví dụ: Bộ đếm Chính xác, Chuyên gia Thời gian, Đi sâu Ngữ cảnh). Mỗi biến thể độc lập đánh giá ngữ cảnh và tạo ra câu trả lời. Nếu bất kỳ con đường suy luận nào trong số 8 con đường suy luận riêng biệt thành công trong việc đưa ra chân lý cơ bản, câu hỏi được đánh dấu là đúng. Cách tiếp cận đa phán quyết song song này cho phép chúng tôi đạt được độ chính xác tổng thể đáng kinh ngạc 98.60%, bao phủ hoàn hảo các điểm mù của chúng tôi.

Lần chạy 2: Rừng Quyết định 12 biến thể (Độ chính xác 97.20%)

Để kiểm tra một hệ thống tạo ra một câu trả lời duy nhất, có thẩm quyền thay vì dựa vào nhiều nỗ lực độc lập, chúng tôi đã mở rộng kiến trúc của mình thành Rừng Quyết định 12 biến thể.

Tại đây, 12 agent chuyên biệt cao (được hỗ trợ bởi GPT-4o-mini) độc lập trả lời prompt. Sau đó, chúng tôi giới thiệu một LLM Tổng hợp để đóng vai trò là thẩm phán cuối cùng. Bộ tổng hợp tổng hợp 12 câu trả lời bằng cách sử dụng biểu quyết đa số, độ tin cậy miền và giải quyết xung đột. Mô hình đồng thuận duy nhất này cũng đạt được độ chính xác cực kỳ cao 97.20%.

Dhravya Shah - inline image

Kết quả

Hiệu suất của kiến trúc thử nghiệm này về cơ bản thay đổi những gì có thể làm được trong bộ nhớ AI dài hạn. Để hiểu quy mô của thành tựu này, đây là cách các luồng agent thử nghiệm của chúng tôi so sánh với cả engine sản xuất ban đầu và toàn bộ ngành công nghiệp:

Dhravya Shah - inline image

Hệ thống này cũng không ảnh hưởng đến độ trễ của agent nhiều như bạn nghĩ - tuy nhiên đây là điểm mà chúng tôi liên tục cải thiện.

Dhravya Shah - inline image

Những gì chúng tôi đã học được & Bước tiếp theo

Xây dựng một hệ thống đạt độ chính xác ~99% trên một benchmark cấp sản xuất đã mang lại một vài hiểu biết kỹ thuật quan trọng:

  1. Truy xuất Agent vượt trội hơn Tìm kiếm Vector: Loại bỏ vector embeddings để chuyển sang các agent tìm kiếm chủ động là bước đột phá lớn nhất. Các agent chủ động tìm kiếm ngữ cảnh đã loại bỏ cái bẫy tương đồng ngữ nghĩa khiến RAG truyền thống thất bại trước các thay đổi và cập nhật theo thời gian.
  2. Xử lý Song song là rất quan trọng: Chia khối lượng công việc tiếp nhận và truy xuất trên nhiều agent chuyên dụng (3 đọc, 3 tìm kiếm) đã cải thiện đáng kể cả tốc độ và độ chi tiết của việc trích xuất sự kiện. Nó cũng giúp ngăn ngừa xung đột vì mỗi agent được phép có một trọng tâm chuyên biệt trong khi trích xuất.
  3. Chuyên môn hóa vượt trội hơn Tổng quát hóa: Định tuyến ngữ cảnh thông qua các agent chuyên gia chuyên dụng (như Bộ đếm hoặc Trình trích xuất Chi tiết) vượt trội hơn hẳn bất kỳ prompt tổng thể duy nhất nào.

Bởi vì đây là một môi trường thử nghiệm chứ không phải engine Supermemory cốt lõi của chúng tôi, chúng tôi muốn cộng đồng AI có thể học hỏi và xây dựng dựa trên kiến trúc này.

Chúng tôi sẽ sớm mã nguồn mở toàn bộ mã cho luồng agent thử nghiệm này. Bộ nhớ là một thách thức không ngừng phát triển, và trong khi nghiên cứu này đẩy giới hạn của những gì có thể, chúng tôi đã và đang xem xét cách chuyển các kỹ thuật truy xuất agent thuần túy này vào môi trường sản xuất cốt lõi của mình.

Trong chính xác 11 ngày nữa (đầu tháng 4), chúng tôi sẽ công bố và mã nguồn mở mọi thứ về hệ thống bộ nhớ agent mới này. Nó sẽ được xây dựng công khai, một cảnh tượng dành cho tất cả các bạn. Chúng tôi đang có niềm vui.

Hãy xem github của chúng tôi https://github.com/supermemoryai và theo dõi ở đó để biết bản phát hành 👀

Bộ nhớ Agent bây giờ (có lẽ) đã là một vấn đề đã được giải quyết?

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

Thêm pattern để giải mã

Bài viết viral gần đây

Khám phá thêm bài viết viral