Supermemory ASMR: Alcanzando el 99% SOTA en memoria de agentes de IA

Nota: Esto fue una jugada. Muchos en la industria siguen afirmando cifras en los benchmarks que son completamente falsas. Así que eso hicimos, para demostrar lo fácil que es romper el benchmark.

https://x.com/DhravyaShah/status/2036243995500966260

La memoria de los agentes podría estar completamente resuelta ahora.

En unos años, MILES DE MILLONES de agentes estarán altamente personalizados y especializados por usuario, aprendiendo y evolucionando constantemente a partir de todo lo que hacemos. Por eso hemos estado investigando la memoria de IA durante años. ¿Qué sucede cuando finalmente la perfeccionamos?

Hace unos meses, publicamos nuestro primer informe de investigación que mostraba a Supermemory alcanzando ~85 % en LongMemEval, un resultado que nos colocó por delante de todos los sistemas de memoria evaluados públicamente en ese momento. Hoy publicamos un nuevo resultado: ~99 % en LongMemEval_s.

Para ser absolutamente claros desde el principio: esto no está (todavía) en nuestro motor principal de producción Supermemory. Más bien, este blog cubre un nuevo flujo agentivo altamente experimental que construimos para ver hasta dónde podíamos llevar los límites absolutos de recuperación y razonamiento de memoria, independientemente de nuestras restricciones de producción principales. Unos meses de investigación nos llevaron hasta aquí.

Así es como llegamos. Presentamos nuestra nueva técnica: ASMR (Agentic Search and Memory Retrieval, búsqueda agentiva y recuperación de memoria).

Esta técnica es:

Muy fácil de implementar
No requiere una base de datos vectorial ni embeddings, y se puede hacer completamente en memoria
Esto significa que se puede integrar en otros sistemas, incluso en cosas como robots.

Introducción

LongMemEval es uno de los benchmarks públicos más rigurosos para la memoria a largo plazo. A diferencia de los benchmarks que prueban la recuperación simple en contextos cortos, LongMemEval está diseñado para simular el caos de los entornos de producción reales: historiales de conversación de más de 115.000 tokens, información contradictoria, eventos repartidos en múltiples sesiones y preguntas que requieren razonamiento sobre el tiempo.

La razón por la que la mayoría de los sistemas de memoria obtienen malos resultados suele ser la recuperación, no el razonamiento. Incluso cuando la recuperación es alta, si hay mucho ruido, el LLM puede tener dificultades para usarla. El problema consiste en introducir solo la información correcta en la ventana de contexto en primer lugar, y aún más difícil: saber cuándo un hecho recuperado está desactualizado y una versión más nueva lo reemplaza.

Para resolver esto, nos alejamos del RAG tradicional y construimos un pipeline orquestado multiagente.

Configuración y arquitectura experimental

La búsqueda vectorial estándar es buena en general. Sin embargo, se desmorona cuando se enfrenta a los matices de los datos temporales densos de múltiples sesiones. La coincidencia de similitud semántica no puede distinguir de forma fiable entre un hecho antiguo y una corrección nueva. Para abordar las complejidades de LongMemEval, tuvimos que repensar nuestro pipeline de ingesta y recuperación desde cero, reemplazando las matemáticas vectoriales con razonamiento agentivo activo.

Al igual que ASMR, esta técnica es simple y satisfactoria.

1. Orquestación e ingesta en paralelo (agentes observadores)

En lugar de dividir en fragmentos e incrustar sesiones de usuario, desplegamos un orquestador de agentes que utilizó 3 agentes lectores (observadores) en paralelo (impulsados por Gemini 2.0 Flash). Estos agentes leyeron las sesiones sin procesar de forma concurrente (p. ej., Agente 1 toma las sesiones 1, 3, 5; Agente 2 toma las 2, 4, 6).

Su objetivo es la extracción selectiva de conocimiento en seis vectores: Información personal, Preferencias, Eventos, Datos temporales, Actualizaciones e Información del asistente. Estos hallazgos estructurados se almacenan de forma nativa y se asignan a sus sesiones de origen.

2. Recuperación agentiva activa (agentes de búsqueda)

Cuando llega una pregunta, no consultamos una base de datos vectorial. En su lugar, desplegamos 3 agentes de búsqueda en paralelo. Estos agentes leen y razonan activamente sobre los hallazgos almacenados, cada uno con un enfoque especializado:

Agente 1: Busca hechos directos y declaraciones explícitas.
Agente 2: Busca contexto relacionado, señales sociales e implicaciones.
Agente 3: Reconstruye líneas de tiempo temporales y mapas de relaciones.

El orquestador compila los hallazgos de los tres agentes de búsqueda, extrayendo extractos de sesiones textuales para la verificación detallada. Esto permite una recuperación inteligente basada en la comprensión cognitiva real, no solo en similitud de palabras clave o matemática.

3. Los conjuntos de respuesta orquestados por agentes

Una vez que se ensambla el contexto, un solo prompt no puede manejar la gran variedad de tipos de preguntas en LongMemEval. Algunas preguntas requieren inferir detalles, mientras que otras requieren ser muy específico. Experimentamos con dos flujos de respuesta agentivos distintos:

Ejecución 1: El conjunto de 8 variantes (98.60 % de precisión)

En nuestro primer enfoque, enrutamos el contexto recuperado a través de 8 variantes de prompt altamente especializadas que se ejecutaban en paralelo (por ejemplo, un Contador preciso, un Especialista en tiempo, una Inmersión profunda en contexto). Cada variante evaluó el contexto de forma independiente y generó una respuesta. Si cualquiera de las 8 vías de razonamiento distintas lograba llegar a la verdad del terreno, la pregunta se marcaba como correcta. Este enfoque de múltiples jueces en paralelo nos permitió alcanzar una asombrosa precisión general del 98.60 %, cubriendo perfectamente nuestros puntos ciegos.

Ejecución 2: El bosque de decisión de 12 variantes (97.20 % de precisión)

Para probar un sistema que produce una única respuesta autorizada en lugar de depender de múltiples intentos independientes, expandimos nuestra arquitectura a un bosque de decisión de 12 variantes.

Aquí, 12 agentes altamente especializados (impulsados por GPT-4o-mini) respondieron el prompt de forma independiente. Luego, introdujimos un LLM agregador para que actuara como juez final. El agregador sintetizó las 12 respuestas utilizando votación mayoritaria, confianza en el dominio y resolución de conflictos. Este modelo de consenso único también logró una precisión increíblemente alta del 97.20 %.

Resultados

El rendimiento de esta arquitectura experimental cambia fundamentalmente lo que es posible en la memoria de IA a largo plazo. Para comprender la magnitud de este logro, aquí se muestra cómo nuestros flujos agentivos experimentales se comparan tanto con nuestro motor de producción original como con la industria en general:

Este sistema tampoco afecta la latencia del agente tanto como cabría esperar; sin embargo, este es un punto en el que trabajamos constantemente.

Lo que aprendimos y lo que sigue

Construir un sistema que alcanza ~99 % de precisión en un benchmark de grado de producción nos dejó algunas ideas críticas de ingeniería:

La recuperación agentiva supera a la búsqueda vectorial: Deshacerse de los embeddings vectoriales por agentes de búsqueda activos fue el mayor avance. Que los agentes buscaran contexto activamente eliminó la trampa de similitud semántica que hace que el RAG tradicional falle en cambios temporales y actualizaciones.
El procesamiento en paralelo es fundamental: Dividir las cargas de trabajo de ingesta y recuperación entre múltiples agentes dedicados (3 de lectura, 3 de búsqueda) mejoró drásticamente tanto la velocidad como la granularidad de la extracción de hechos. También ayudó a prevenir conflictos, ya que cada agente podía tener un enfoque especializado mientras extraía.
La especialización supera a la generalización: Enrutar el contexto a través de agentes especialistas dedicados (como un Contador o un Extractor de detalles) supera con creces cualquier prompt maestro único.

Debido a que esto fue un entorno de pruebas experimental y no nuestro motor central Supermemory, queremos que la comunidad de IA pueda aprender de esta arquitectura y construir sobre ella.

Pronto publicaremos el código completo de este flujo agentivo experimental como código abierto. La memoria es un desafío en constante evolución, y aunque esta investigación eleva el techo de lo posible, ya estamos viendo cómo trasladar estas técnicas de recuperación puramente agentivas a nuestros entornos de producción principales.

En exactamente 11 días (principios de abril), publicaremos y abriremos todo sobre este nuevo sistema de memoria de agentes. Se construirá en público, un espectáculo para que todos lo vean. Nos estamos divirtiendo.

Visita nuestro GitHub https://github.com/supermemoryai y mantén un ojo ahí para un lanzamiento 👀

¿La memoria de los agentes es ahora (probablemente) un problema resuelto?

Superamos la frontera en la memoria de agentes: Presentamos un sistema de memoria SOTA del ~99%.

Introducción

Configuración y arquitectura experimental

Resultados

Lo que aprendimos y lo que sigue

Turn one viral article into a full content workflow

Artículos virales recientes

Cómo los ingenieros de Anthropic diseñan realmente los prompts para Fable 5

Binance supera los $1 mil millones en activos bajo gestión para el trading de acciones en 30 días

Cómo dominar Fable (Guía de fundamentos)

El estado actual de las Indiana Fever

Análisis del partido: Japón 1-2 Brasil "Yin y Yang" por M. Sinan Pala

Los genios no abren Fable 5: Cómo terminar tu trabajo usando solo Claude Sonnet 5