Supermemory ASMR: Alcanzando el 99% SOTA en memoria para agentes de IA

Nota: Esto fue una broma. Muchos en la industria siguen afirmando cifras en los benchmarks que son completamente falsas. Así que eso hicimos, para mostrarte lo fácil que es romper el benchmark.

https://x.com/DhravyaShah/status/2036243995500966260

La memoria de los agentes podría estar completamente resuelta ahora.

En unos pocos años, MILES DE MILLONES de agentes estarán altamente personalizados y especializados por usuario, aprendiendo y evolucionando constantemente con todo lo que hacemos. Es por esto que hemos estado investigando sobre la memoria de IA durante años. ¿Qué sucede cuando finalmente la perfeccionamos?

Hace unos meses, publicamos nuestro primer informe de investigación que mostraba a Supermemory alcanzando ~85% en LongMemEval-s, un resultado que nos puso por delante de todos los sistemas de memoria con benchmark público en ese momento. Hoy, publicamos un nuevo resultado: ~99% en LongMemEval_s.

Para ser absolutamente claro desde el principio: esto no está en nuestro motor principal de producción Supermemory (todavía). Más bien, este blog cubre un nuevo flujo agentivo altamente experimental que construimos para ver exactamente hasta dónde podíamos llevar los límites absolutos de la recuperación y el razonamiento de memoria, independientemente de nuestras restricciones de producción principales. Unos pocos meses de investigación nos llevaron hasta aquí.

Así es como llegamos allí. Presentamos nuestra nueva técnica: ASMR (Agentic Search and Memory Retrieval)

Esta técnica es:

Muy fácil de implementar
No requiere una base de datos vectorial ni embeddings y se puede hacer completamente en memoria
Esto significa que se puede integrar en otros sistemas, incluso en cosas como robots.

Introducción

LongMemEval es uno de los benchmarks públicos más rigurosos para la memoria a largo plazo. A diferencia de los benchmarks que prueban la recuperación simple en contextos cortos, LongMemEval está diseñado para simular el caos de los entornos de producción reales: historiales de conversación de más de 115k tokens, información contradictoria, eventos repartidos en múltiples sesiones y preguntas que requieren razonamiento sobre el tiempo.

La razón por la que la mayoría de los sistemas de memoria obtienen puntuaciones bajas suele ser la recuperación, no el razonamiento. Incluso cuando la recuperación es alta, si hay mucho ruido en la recuperación, el LLM podría tener dificultades para usarla. El problema es conseguir que solo la información correcta entre en la ventana de contexto en primer lugar, y aún más difícil: saber cuándo un hecho recuperado está desactualizado y una versión más nueva lo reemplaza.

Para resolver esto, nos alejamos del RAG tradicional y construimos un pipeline orquestado multiagente.

Configuración y Arquitectura Experimental

La búsqueda vectorial estándar es buena en general. Sin embargo, falla cuando se trata del matiz de los datos temporales densos y de múltiples sesiones. La coincidencia de similitud semántica no puede distinguir de manera confiable entre un hecho antiguo y una corrección nueva. Para abordar las complejidades de LongMemEval, tuvimos que repensar nuestro pipeline de ingesta y recuperación desde cero, reemplazando las matemáticas vectoriales con razonamiento agentivo activo.

Al igual que ASMR, esta técnica es simple y satisfactoria.

1. Orquestación e Ingesta Paralela (Agentes Observadores)

En lugar de fragmentar y crear embeddings de las sesiones de usuario, desplegamos un orquestador de agentes que utiliza 3 agentes lectores (observadores) en paralelo (impulsados por Gemini 2.0 Flash). Estos agentes leen las sesiones sin procesar de forma concurrente (por ejemplo, el Agente 1 toma las sesiones 1, 3, 5; el Agente 2 toma las 2, 4, 6).

Su objetivo es la extracción dirigida de conocimiento a través de seis vectores: Información Personal, Preferencias, Eventos, Datos Temporales, Actualizaciones e Información del Asistente. Estos hallazgos estructurados se almacenan de forma nativa y se asignan a sus sesiones de origen.

2. Recuperación Agentiva Activa (Agentes de Búsqueda)

Cuando llega una pregunta, no consultamos una base de datos vectorial. En su lugar, desplegamos 3 agentes de búsqueda en paralelo. Estos agentes leen y razonan activamente sobre los hallazgos almacenados, cada uno con un enfoque especializado:

Agente 1: Busca hechos directos y declaraciones explícitas.
Agente 2: Busca contexto relacionado, señales sociales e implicaciones.
Agente 3: Reconstruye líneas de tiempo temporales y mapas de relaciones.

El orquestador recopila los hallazgos de los tres agentes de búsqueda, extrayendo extractos textuales de las sesiones para verificación de detalles. Esto permite una recuperación inteligente basada en la comprensión cognitiva real, no solo en la similitud de palabras clave o matemática.

3. Los Conjuntos de Respuesta Orquestados por Agentes

Una vez que se ensambla el contexto, un solo prompt no puede manejar la gran variedad de tipos de preguntas en LongMemEval. Algunas preguntas requieren que infieras detalles, mientras que otras requieren que seas extremadamente específico. Experimentamos con dos flujos de respuesta agentiva distintos:

Ejecución 1: El Conjunto de 8 Variantes (98.60% de Precisión)

En nuestro primer enfoque, enrutamos el contexto recuperado a través de 8 variantes de prompt altamente especializadas que se ejecutan en paralelo (por ejemplo, un Contador Preciso, un Especialista en Tiempo, una Inmersión Profunda en Contexto). Cada variante evaluó el contexto de forma independiente y generó una respuesta. Si *cualquier* de las 8 rutas de razonamiento distintas llegaba con éxito a la verdad fundamental, la pregunta se marcaba como correcta. Este enfoque de evaluación múltiple paralela nos permitió alcanzar una asombrosa 98.60% de precisión general, cubriendo perfectamente nuestros puntos ciegos.

Ejecución 2: El Bosque de Decisión de 12 Variantes (97.20% de Precisión)

**Para probar un sistema que produce una única respuesta autorizada en lugar de depender de múltiples intentos independientes, expandimos nuestra arquitectura a un Bosque de Decisión de 12 variantes.

Aquí, 12 agentes altamente especializados (impulsados por GPT-4o-mini) respondieron el prompt de forma independiente. Luego, introdujimos un LLM Agregador para actuar como juez final. El Agregador sintetizó las 12 respuestas utilizando votación mayoritaria, confianza en el dominio y resolución de conflictos. Este modelo de consenso singular también logró una increíblemente alta 97.20% de precisión.**

Resultados

El rendimiento de esta arquitectura experimental cambia fundamentalmente lo que es posible en la memoria de IA a largo plazo. Para entender la magnitud de este logro, aquí se muestra cómo nuestros flujos agentivos experimentales se comparan tanto con nuestro motor de producción original como con la industria en general:

Este sistema tampoco afecta la latencia del agente tanto como cabría esperar; sin embargo, este es un punto en el que trabajamos constantemente.

Lo que aprendimos y lo que sigue

Construir un sistema que alcanza ~99% de precisión en un benchmark de grado de producción produjo algunas ideas críticas de ingeniería:

La Recuperación Agentiva Supera a la Búsqueda Vectorial: Abandonar los embeddings vectoriales por agentes de búsqueda activa fue el mayor avance. Los agentes que buscan activamente contexto eliminaron la trampa de similitud semántica que hace que el RAG tradicional falle en cambios temporales y actualizaciones.
El Procesamiento Paralelo es Crítico: Dividir las cargas de trabajo de ingesta y recuperación entre múltiples agentes dedicados (3 leyendo, 3 buscando) mejoró drásticamente tanto la velocidad como la granularidad de la extracción de hechos. También ayudó a prevenir conflictos, ya que se permitió que cada agente tuviera un enfoque especializado mientras extraía.
La Especialización Supera a la Generalización: Enrutar el contexto a través de agentes especialistas dedicados (como un Contador o un Extractor de Detalles) supera ampliamente a cualquier único prompt maestro.

Debido a que esto fue un sandbox experimental en lugar de nuestro motor central Supermemory, queremos que la comunidad de IA pueda aprender de esta arquitectura y construir sobre ella.

Pronto abriremos el código completo de este flujo agentivo experimental. La memoria es un desafío en constante evolución, y aunque esta investigación empuja el techo de lo posible, ya estamos viendo cómo traducir estas técnicas de recuperación puramente agentivas a nuestros entornos de producción principales.

En exactamente 11 días (principios de abril), publicaremos y abriremos todo sobre este nuevo sistema de memoria de agentes. Se construirá en público, un espectáculo para que todos ustedes vean. Nos estamos divirtiendo.

Visita nuestro github https://github.com/supermemoryai y mantén los ojos ahí para un lanzamiento 👀

¿La memoria de los agentes ahora es (probablemente) un problema resuelto?

Superamos la frontera en la memoria de agentes: Presentamos un sistema de memoria con ~99% de precisión SOTA.

Introducción

Configuración y Arquitectura Experimental

Resultados

Lo que aprendimos y lo que sigue

Turn one viral article into a full content workflow

Artículos virales recientes

Presentamos OpenWiki, un agente de código abierto para la documentación de repositorios

Binance supera los 1000 millones de dólares en activos bajo gestión para el trading de acciones en 30 días

¿Es Sweetwater el campus de la «Trinidad» de IREN, NVIDIA y Palantir?

Cómo dominar Fable (Guía de fundamentos)

AAOI: La apuesta por la integración vertical en transceptores ópticos para IA

Lo que debes hacer con Fable 5 antes del 7 de julio