Ajan belleğinde sınırları aştık: ~%99 SOTA bellek sistemiyle tanışın.

@DhravyaShah
İNGILIZCE3 ay önce · 22 Mar 2026
2.6M
3.9K
412
260
8.4K

TL;DR

Dhravya Shah, bellek kıyaslamalarında mükemmele yakın sonuçlar elde etmek için vektör veritabanları yerine paralel LLM ajanlarını kullanan deneysel bir ajansal akış olan ASMR'yi tanıtıyor.

Not: Bu bir gösteriydi. Sektördeki birçok kişi, kıyaslamalarda tamamen gerçek dışı olan rakamlar vermeye devam ediyor.

Bu yüzden, bir kıyaslamayı kırmanın ne kadar kolay olduğunu göstermek için bunu yaptık.

https://x.com/DhravyaShah/status/2036243995500966260

Ajan hafızası artık tamamen çözülmüş olabilir.

Birkaç yıl içinde, MİLYARLARCA ajan, her kullanıcı için son derece kişiselleştirilmiş ve uzmanlaşmış olacak - yaptığımız her şeyden sürekli öğrenip gelişecek. Bu yüzden yıllardır AI hafızası üzerine araştırma yapıyoruz. Sonunda mükemmelleştirdiğimizde ne olacak?

Birkaç ay önce, Supermemory'nin LongMemEval-s'te ~%85'e ulaştığını gösteren ilk araştırma raporumuzu yayınladık. Bu sonuç, bizi o dönemde halka açık olarak kıyaslanan tüm hafıza sistemlerinin önüne koydu. Bugün, yeni bir sonuç yayınlıyoruz: LongMemEval_s'te ~%99.

Baştan açık olmak gerekirse: bu, ana üretim Supermemory motorumuzda (henüz) değil. Bunun yerine, bu blog yazısı, temel üretim kısıtlamalarımızdan bağımsız olarak, hafıza erişimi ve muhakemenin mutlak sınırlarını ne kadar zorlayabileceğimizi görmek için oluşturduğumuz, son derece deneysel, yeni bir ajan akışını kapsıyor. Birkaç aylık araştırma bizi buraya getirdi.

İşte buraya nasıl geldik. Yeni tekniğimizi tanıtıyoruz: ASMR (Ajan Tabanlı Arama ve Hafıza Erişimi)

Bu teknik:

  • Uygulaması gerçekten kolay
  • Bir Vektör Veritabanı VEYA gömme (embedding) gerektirmez ve tamamen bellek içinde yapılabilir
  • Bu, robotlar gibi diğer sistemlere bile gömülebileceği anlamına gelir

Giriş

LongMemEval, uzun süreli hafıza için en titiz, halka açık kıyaslamalardan biridir. Kısa bağlamlar üzerinde basit erişimi test eden kıyaslamaların aksine, LongMemEval, gerçek üretim ortamlarının kaosunu simüle etmek için tasarlanmıştır: 115k+ tokenlik konuşma geçmişleri, çelişkili bilgiler, birden çok oturuma yayılmış olaylar ve zaman hakkında akıl yürütme gerektiren sorular.

Çoğu hafıza sisteminin düşük puan almasının nedeni genellikle erişimdir - muhakeme değil. Geri çağırma yüksek olsa bile, erişimde çok fazla gürültü varsa, LLM bunu kullanmakta zorlanabilir. Sorun, başlangıçta bağlam penceresine yalnızca doğru bilgiyi almaktır ve daha da zoru: alınan bir gerçeğin ne zaman güncelliğini yitirdiğini ve daha yeni bir sürümün onun yerini aldığını bilmektir.

Bunu çözmek için geleneksel RAG'dan uzaklaştık ve çok ajanlı, orkestre edilmiş bir boru hattı oluşturduk.

Kurulum ve Deneysel Mimari

Standart vektör arama genel olarak iyidir. Ancak, yoğun, çok oturumlu zamansal verilerin inceliğiyle uğraşırken işe yaramaz. Anlamsal benzerlik eşleştirmesi, eski bir gerçek ile yeni bir düzeltme arasında güvenilir bir şekilde ayrım yapamaz. LongMemEval'in karmaşıklıklarının üstesinden gelmek için, alım ve erişim boru hattımızı sıfırdan yeniden düşünmek, vektör matematiğini aktif ajan muhakemesiyle değiştirmek zorunda kaldık.

Tıpkı ASMR gibi, bu teknik basit ve tatmin edicidir.

1. Paralel Orkestrasyon ve Alım (Gözlemci Ajanlar)

Kullanıcı oturumlarını parçalara ayırıp gömmek yerine, 3 paralel okuyucu (gözlemci) ajandan (Gemini 2.0 Flash tarafından desteklenen) yararlanan bir ajan orkestratörü konuşlandırdık. Bu ajanlar, ham oturumları eşzamanlı olarak okur (örneğin, Ajan 1, 1, 3, 5. oturumları alır; Ajan 2, 2, 4, 6. oturumları alır).

Hedefleri, altı vektör boyunca hedeflenmiş bilgi çıkarımıdır: Kişisel Bilgiler, Tercihler, Olaylar, Zamansal Veriler, Güncellemeler ve Asistan Bilgileri. Bu yapılandırılmış bulgular daha sonra yerel olarak depolanır ve kaynak oturumlarıyla eşleştirilir.

2. Aktif Ajan Tabanlı Erişim (Arama Ajanları)

Bir soru geldiğinde, bir vektör veritabanını sorgulamayız. Bunun yerine, 3 paralel arama ajanı konuşlandırırız. Bu ajanlar, depolanan bulguları aktif olarak okur ve üzerinde akıl yürütür ve her birinin uzmanlaşmış bir odağı vardır:

  • Ajan 1: Doğrudan gerçekleri ve açık ifadeleri arar.
  • Ajan 2: İlgili bağlamı, sosyal ipuçlarını ve çıkarımları arar.
  • Ajan 3: Zamansal zaman çizelgelerini ve ilişki haritalarını yeniden oluşturur.

Orkestratör, ayrıntı doğrulaması için aynen alınmış oturum alıntılarını çekerek, üç arama ajanının da bulgularını derler. Bu, yalnızca anahtar kelime veya matematiksel benzerlikten ziyade, gerçek bilişsel anlayışa dayalı akıllı erişime olanak tanır.

3. Ajan-Orkestre Edilmiş Yanıtlama Toplulukları

Bağlam bir araya getirildikten sonra, tek bir komut istemi, LongMemEval'deki çok çeşitli soru türlerini kaldıramaz. Bazı sorular ayrıntıları çıkarmanızı gerektirirken, diğerleri lazer odaklı olmanızı gerektirir. İki farklı ajan yanıtlama akışı denedik:

Çalıştırma 1: 8 Varyantlı Topluluk (%98,60 Doğruluk)

İlk yaklaşımımızda, alınan bağlamı paralel olarak çalışan 8 son derece uzmanlaşmış komut istemi varyantına (örneğin, Kesin Bir Sayaç, Bir Zaman Uzmanı, Bir Bağlam Derinlemesine İncelemesi) yönlendirdik. Her varyant, bağlamı bağımsız olarak değerlendirdi ve bir yanıt oluşturdu. 8 farklı muhakeme yolundan herhangi biri temel gerçeğe başarıyla ulaştıysa, soru doğru olarak işaretlendi. Bu paralel çoklu yargılama yaklaşımı, %98,60 genel doğruluk gibi şaşırtıcı bir orana ulaşmamızı ve kör noktalarımızı mükemmel bir şekilde kapatmamızı sağladı.

Çalıştırma 2: 12 Varyantlı Karar Ormanı (%97,20 Doğruluk)

Birden çok bağımsız denemeye güvenmek yerine, tek bir yetkili yanıt üreten bir sistemi test etmek için mimarimizi 12 varyantlı bir Karar Ormanına genişlettik.

Burada, 12 son derece uzmanlaşmış ajan (GPT-4o-mini tarafından desteklenen) komut istemine bağımsız olarak yanıt verdi. Ardından, nihai yargıç olarak hareket etmesi için bir Toplayıcı LLM ekledik. Toplayıcı, çoğunluk oylaması, alan güveni ve çatışma çözümünü kullanarak 12 yanıtı sentezledi. Bu tekil fikir birliği modeli de inanılmaz derecede yüksek bir %97,20 doğruluk elde etti.

Dhravya Shah - inline image

Sonuçlar

Bu deneysel mimarinin performansı, uzun vadeli AI hafızasında mümkün olanı temelden değiştiriyor. Bu başarının boyutunu anlamak için, deneysel ajan akışlarımızın hem orijinal üretim motorumuza hem de genel sektöre göre nasıl sıralandığı aşağıda açıklanmıştır:

Dhravya Shah - inline image

Bu sistem ayrıca ajanın gecikme süresini beklediğiniz kadar etkilemez - ancak bu sürekli üzerinde çalıştığımız bir noktadır.

Dhravya Shah - inline image

Öğrendiklerimiz ve Sırada Ne Var

Bir üretim sınıfı kıyaslamasında ~%99 doğruluğa ulaşan bir sistem oluşturmak, birkaç kritik mühendislik anlayışı sağladı:

  1. Ajan Tabanlı Erişim, Vektör Aramasını Yener: Vektör gömmelerini aktif arama ajanlarıyla değiştirmek, en büyük sıçramaydı. Bağlamı aktif olarak arayan ajanlar, geleneksel RAG'ın zamansal değişikliklerde ve güncellemelerde başarısız olmasına neden olan anlamsal benzerlik tuzağını ortadan kaldırdı.
  2. Paralel İşleme Kritiktir: Alım ve erişim iş yüklerini birden çok özel ajana (3 okuma, 3 arama) bölmek, gerçek çıkarma hızını ve ayrıntı düzeyini önemli ölçüde artırdı. Ayrıca, her ajanın çıkarım yaparken uzmanlaşmış bir odağa sahip olmasına izin verildiğinden çatışmaların önlenmesine yardımcı oldu.
  3. Uzmanlaşma, Genellemeyi Yener: Bağlamı özel uzman ajanlar (bir Sayaç veya Ayrıntı Çıkarıcı gibi) aracılığıyla yönlendirmek, herhangi bir tek ana komut isteminden çok daha iyi performans gösterir.

Bu, çekirdek Supermemory motorumuzdan ziyade deneysel bir kum havuzu olduğu için, AI topluluğunun bu mimariden öğrenebilmesini ve üzerine inşa edebilmesini istiyoruz.

Bu deneysel ajan akışının tam kodunu yakında açık kaynak olarak yayınlayacağız. Hafıza sürekli gelişen bir zorluktur ve bu araştırma mümkün olanın tavanını zorlarken, bu saf ajan erişim tekniklerini çekirdek üretim ortamlarımıza nasıl aktaracağımıza şimdiden bakıyoruz.

Tam olarak 11 gün içinde (Nisan başı), bu yeni ajan hafıza sistemiyle ilgili her şeyi yayınlayacak ve açık kaynak olarak sunacağız. Herkesin görmesi için bir gösteri olarak, herkese açık bir şekilde inşa edilecek. Eğleniyoruz.

GitHub'ımıza göz atın https://github.com/supermemoryai ve bir sürüm için orayı takip edin 👀

Ajan hafızası artık (muhtemelen) çözülmüş bir problem mi?

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

Çözülecek daha fazla kalıp

Son viral makaleler

Daha fazla viral makale keşfet