에이전트 메모리의 한계를 돌파하다: 99% 수준의 SOTA 메모리 시스템을 소개합니다.

@DhravyaShah
영어3개월 전 · 2026년 3월 22일
2.6M
3.9K
412
260
8.4K

TL;DR

Dhravya Shah가 소개하는 ASMR은 벡터 데이터베이스 대신 병렬 LLM 에이전트를 사용하여 메모리 벤치마크에서 거의 완벽한 점수를 달성하는 실험적인 에이전트 흐름입니다.

참고: 이는 일종의 시범 퍼포먼스였습니다. 업계의 많은 사람들이 벤치마크에서 전혀 사실이 아닌 수치를 계속 주장하고 있습니다. 그래서 우리가 그렇게 한 것입니다. 벤치마크를 깨는 것이 얼마나 쉬운지 보여드리기 위해서요.

https://x.com/DhravyaShah/status/2036243995500966260

에이전트 메모리는 이제 완전히 해결되었을지도 모릅니다.

몇 년 안에, 수십억 개의 에이전트가 사용자별로 고도로 개인화되고 전문화되어 우리가 하는 모든 일에 대해 끊임없이 학습하고 진화할 것입니다. 이것이 우리가 수년간 AI 메모리에 대해 연구해 온 이유입니다. 우리가 마침내 이를 완벽하게 만든다면 어떤 일이 일어날까요?

몇 달 전, 우리는 Supermemory 가 LongMemEval-s 에서 약 85% 를 달성했다는 첫 번째 연구 보고서를 발표했습니다. 이 결과는 당시 공개적으로 벤치마킹된 모든 메모리 시스템보다 앞서는 결과였습니다. 오늘, 우리는 새로운 결과를 발표합니다: LongMemEval_s 에서 약 99% 입니다.

처음에 분명히 말씀드리자면: 이것은 아직 저희의 주요 프로덕션 Supermemory 엔진에 적용된 것이 아닙니다. 대신, 이 블로그는 핵심 프로덕션 제약 조건과는 별개로, 메모리 검색 및 추론의 절대적인 한계를 얼마나 밀어붙일 수 있는지 정확히 알아보기 위해 구축한 새롭고 실험적인 에이전틱 플로우에 대해 다룹니다. 몇 달 간의 연구 끝에 여기까지 도달했습니다.

이것이 우리가 그 결과에 도달한 방법입니다. 새로운 기술을 소개합니다: ASMR (Agentic Search and Memory Retrieval)

이 기술은:

  • 구현하기 매우 쉽습니다
  • 벡터 데이터베이스나 임베딩이 필요하지 않으며 완전히 인메모리로 수행할 수 있습니다
  • 즉, 로봇과 같은 다른 시스템에도 내장될 수 있습니다

소개

LongMemEval 은 장기 메모리를 위한 가장 엄격한 공개 벤치마크 중 하나입니다. 짧은 컨텍스트에 대한 단순 검색을 테스트하는 벤치마크와 달리, LongMemEval 은 실제 프로덕션 환경의 혼란을 시뮬레이션하도록 설계되었습니다: 115k+ 토큰의 대화 기록, 모순된 정보, 여러 세션에 걸쳐 분산된 이벤트, 시간에 대한 추론이 필요한 질문 등이 포함됩니다.

대부분의 메모리 시스템이 낮은 점수를 받는 이유는 일반적으로 검색(Retrieval) 때문이지 추론(Reasoning) 때문이 아닙니다. 재현율(Recall)이 높더라도 검색에 노이즈가 많으면 LLM이 이를 사용하는 데 어려움을 겪을 수 있습니다. 문제는 처음에 컨텍스트 윈도우에 올바른 정보만을 넣는 것이며, 더 어려운 것은 검색된 사실이 오래된 것이고 최신 버전이 이를 대체한다는 것을 아는 것입니다.

이를 해결하기 위해, 우리는 전통적인 RAG 에서 벗어나 멀티 에이전트 오케스트레이션 파이프라인을 구축했습니다.

설정 및 실험 아키텍처

표준 벡터 검색은 일반적으로 좋습니다. 그러나 밀집되고 다중 세션에 걸친 시간적 데이터의 미묘한 차이를 다룰 때는 한계를 드러냅니다. 의미적 유사성 매칭은 오래된 사실과 새로운 수정 사항을 안정적으로 구분할 수 없습니다. LongMemEval 의 복잡성을 해결하기 위해, 우리는 수집 및 검색 파이프라인을 완전히 재설계하여 벡터 수학을 능동적인 에이전틱 추론으로 대체해야 했습니다.

ASMR 과 마찬가지로, 이 기술은 간단하고 만족스럽습니다.

1. 병렬 오케스트레이션 및 수집 (관찰자 에이전트)

사용자 세션을 청킹하고 임베딩하는 대신, 3개의 병렬 리더(관찰자) 에이전트(Gemini 2.0 Flash 기반)를 활용하는 에이전트 오케스트레이터를 배포했습니다. 이 에이전트들은 원시 세션을 동시에 읽습니다 (예: 에이전트 1은 세션 1, 3, 5를 처리; 에이전트 2는 세션 2, 4, 6을 처리).

이들의 목표는 6가지 벡터(개인 정보, 선호도, 이벤트, 시간 데이터, 업데이트, 어시스턴트 정보)에 걸친 타겟 지식 추출입니다. 이러한 구조화된 결과는 기본적으로 저장되고 해당 소스 세션에 매핑됩니다.

2. 능동적 에이전틱 검색 (검색 에이전트)

질문이 들어오면, 우리는 벡터 데이터베이스를 쿼리하지 않습니다. 대신, 3개의 병렬 검색 에이전트를 배포합니다. 이 에이전트들은 저장된 결과를 능동적으로 읽고 추론하며, 각각 특화된 초점을 가지고 있습니다:

  • 에이전트 1: 직접적인 사실과 명시적인 진술을 검색합니다.
  • 에이전트 2: 관련 컨텍스트, 사회적 신호, 함의를 찾습니다.
  • 에이전트 3: 시간적 타임라인과 관계 맵을 재구성합니다.

오케스트레이터는 세 검색 에이전트의 결과를 종합하고, 세부 검증을 위해 원문 그대로의 세션 발췌문을 가져옵니다. 이를 통해 키워드나 수학적 유사성이 아닌 실제 인지적 이해에 기반한 지능적인 검색이 가능합니다.

3. 에이전트 오케스트레이션 답변 앙상블

컨텍스트가 조립되면, 단일 프롬프트로는 LongMemEval 의 다양한 질문 유형을 처리할 수 없습니다. 어떤 질문은 세부 사항을 추론해야 하는 반면, 다른 질문은 매우 구체적이어야 합니다. 우리는 두 가지 뚜렷한 에이전틱 답변 플로우를 실험했습니다.

실행 1: 8-변형 앙상블 (98.60% 정확도)

첫 번째 접근 방식에서는 검색된 컨텍스트를 병렬로 실행되는 8개의 고도로 전문화된 프롬프트 변형(예: 정확한 카운터, 시간 전문가, 컨텍스트 심층 분석)으로 라우팅했습니다. 각 변형은 컨텍스트를 독립적으로 평가하고 답변을 생성했습니다. 8개의 뚜렷한 추론 경로 중 하나라도 정답에 성공적으로 도달하면 해당 질문은 정답으로 처리되었습니다. 이 병렬 다중 판단 접근 방식을 통해 놀라운 98.60% 전체 정확도를 달성하여 사각지대를 완벽하게 커버할 수 있었습니다.

실행 2: 12-변형 결정 포레스트 (97.20% 정확도)

여러 번의 독립적인 시도에 의존하지 않고 단일 권위 있는 답변을 생성하는 시스템을 테스트하기 위해, 우리는 아키텍처를 12-변형 결정 포레스트로 확장했습니다.

여기서는 12개의 고도로 전문화된 에이전트(GPT-4o-mini 기반)가 독립적으로 프롬프트에 답변했습니다. 그런 다음, 최종 판사 역할을 하는 집계 LLM을 도입했습니다. 집계기는 다수결 투표, 도메인 신뢰도, 충돌 해결을 사용하여 12개의 답변을 종합했습니다. 이 단일 합의 모델 또한 매우 높은 97.20% 정확도를 달성했습니다.

Dhravya Shah - inline image

결과

이 실험적 아키텍처의 성능은 장기 AI 메모리에서 가능한 것의 지평을 근본적으로 확장합니다. 이 성과의 규모를 이해하기 위해, 우리의 실험적 에이전틱 플로우가 기존 프로덕션 엔진 및 업계 전체와 어떻게 비교되는지 살펴보겠습니다:

Dhravya Shah - inline image

이 시스템은 또한 예상보다 에이전트의 지연 시간에 큰 영향을 미치지 않습니다. 하지만 이것은 우리가 지속적으로 개선하고 있는 부분입니다.

Dhravya Shah - inline image

배운 점과 향후 계획

프로덕션 수준의 벤치마크에서 약 99% 정확도를 달성하는 시스템을 구축하면서 몇 가지 중요한 엔지니어링 인사이트를 얻었습니다:

  1. 에이전틱 검색이 벡터 검색을 능가함: 벡터 임베딩을 버리고 능동적인 검색 에이전트를 사용한 것이 가장 큰 전환점이었습니다. 컨텍스트를 능동적으로 검색하는 에이전트는 전통적인 RAG 가 시간적 변화와 업데이트에서 실패하게 만드는 의미적 유사성 함정을 제거했습니다.
  2. 병렬 처리는 필수적: 여러 전담 에이전트(3개 읽기, 3개 검색)에 수집 및 검색 워크로드를 분할함으로써 사실 추출의 속도와 세분화가 극적으로 향상되었습니다. 또한 각 에이전트가 추출 시 특화된 초점을 가질 수 있게 되어 충돌을 방지하는 데 도움이 되었습니다.
  3. 전문화가 일반화를 능가함: 전담 전문 에이전트(예: 카운터 또는 세부 정보 추출기)를 통해 컨텍스트를 라우팅하는 것이 단일 마스터 프롬프트보다 훨씬 뛰어난 성능을 보였습니다.

이것이 핵심 Supermemory 엔진이 아닌 실험적인 샌드박스였기 때문에, 우리는 AI 커뮤니티가 이 아키텍처를 통해 배우고 이를 기반으로 구축할 수 있기를 바랍니다.

우리는 곧 이 실험적 에이전틱 플로우의 전체 코드를 오픈소스로 공개할 예정입니다. 메모리는 끊임없이 진화하는 과제이며, 이 연구가 가능성의 한계를 높였지만, 우리는 이미 이러한 순수 에이전트 검색 기술을 핵심 프로덕션 환경에 어떻게 적용할지 고민하고 있습니다.

정확히 11일 후(4월 초), 우리는 이 새로운 에이전트 메모리 시스템에 대한 모든 것을 공개하고 오픈소스화할 것입니다. 공개적으로 구축될 것이며, 여러분 모두가 지켜볼 수 있는 광경이 될 것입니다. 우리는 즐겁게 만들고 있습니다.

저희 GitHub https://github.com/supermemoryai 를 확인하시고, 릴리스를 기대해 주세요 👀

에이전트 메모리는 이제 (아마도) 해결된 문제일까요?

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

분석할 패턴 더 보기

최근 바이럴 아티클

더 많은 바이럴 아티클 보기