หมายเหตุ: นี่เป็นการทดลอง หลายคนในวงการมักอ้างตัวเลขบนเกณฑ์มาตรฐานต่างๆ
ที่ไม่เป็นความจริงเลย ดังนั้นนี่คือสิ่งที่เราทำ เพื่อแสดงให้เห็นว่าการทำลายเกณฑ์มาตรฐานนั้นง่ายแค่ไหน
https://x.com/DhravyaShah/status/2036243995500966260
หน่วยความจำของ Agent อาจถูกแก้ไขได้อย่างสมบูรณ์แล้ว
ในอีกไม่กี่ปี Agent หลายพันล้านตัวจะถูกปรับแต่งให้เป็นส่วนตัวและเฉพาะทางสำหรับผู้ใช้แต่ละคน - เรียนรู้และพัฒนาอย่างต่อเนื่องจากทุกสิ่งที่เราทำ นี่คือเหตุผลที่เราค้นคว้าเกี่ยวกับหน่วยความจำ AI มาหลายปี จะเกิดอะไรขึ้นเมื่อเราทำให้มันสมบูรณ์แบบในที่สุด?
เมื่อไม่กี่เดือนก่อน เราได้เผยแพร่รายงานการวิจัยชิ้นแรกที่แสดงให้เห็นว่า Supermemory ทำคะแนนได้ ~85% บน LongMemEval-s ซึ่งเป็นผลลัพธ์ที่ทำให้เรานำหน้าระบบหน่วยความจำที่ได้รับการวัดประสิทธิภาพต่อสาธารณะทุกระบบในขณะนั้น วันนี้ เรากำลังเผยแพร่ผลลัพธ์ใหม่: ~99% บน LongMemEval_s
เพื่อให้ชัดเจนตั้งแต่ต้น: นี่ยังไม่ได้อยู่ในระบบ Supermemory หลักของเรา (ในตอนนี้) แต่บล็อกนี้ครอบคลุมถึงโฟลว์แบบ Agentic ใหม่ที่ทดลองอย่างมาก ซึ่งเราสร้างขึ้นเพื่อดูว่าเราสามารถผลักดันขีดจำกัดสูงสุดของการดึงข้อมูลและการใช้เหตุผลของหน่วยความจำได้ไกลแค่ไหน โดยไม่ขึ้นกับข้อจำกัดในการผลิตหลักของเรา การวิจัยไม่กี่เดือนทำให้เรามาถึงจุดนี้
นี่คือวิธีที่เราไปถึงจุดนั้น ขอแนะนำเทคนิคใหม่ของเรา: ASMR (Agentic Search and Memory Retrieval)
เทคนิคนี้:
- ใช้งานง่ายมาก
- ไม่จำเป็นต้องใช้ Vector Database หรือ embeddings และสามารถทำได้ทั้งหมดในหน่วยความจำ
- ซึ่งหมายความว่าสามารถฝังลงในระบบอื่นๆ ได้ แม้กระทั่งในหุ่นยนต์
บทนำ
LongMemEval เป็นหนึ่งในเกณฑ์มาตรฐานสาธารณะที่เข้มงวดที่สุดสำหรับหน่วยความจำระยะยาว ซึ่งแตกต่างจากเกณฑ์มาตรฐานที่ทดสอบการดึงข้อมูลอย่างง่ายในบริบทสั้นๆ LongMemEval ถูกออกแบบมาเพื่อจำลองความโกลาหลของสภาพแวดล้อมการผลิตจริง: ประวัติการสนทนาที่มีโทเค็นมากกว่า 115k+ ข้อมูลที่ขัดแย้งกัน เหตุการณ์ที่กระจายอยู่ในหลายเซสชัน และคำถามที่ต้องใช้เหตุผลเกี่ยวกับเวลา
สาเหตุที่ระบบหน่วยความจำส่วนใหญ่ได้คะแนนต่ำ มักจะเป็นการดึงข้อมูล ไม่ใช่การใช้เหตุผล แม้ว่าการเรียกคืนจะสูง แต่ถ้ามีสัญญาณรบกวนมากในการดึงข้อมูล LLM อาจมีปัญหาในการใช้งาน ปัญหาคือการนำเฉพาะข้อมูลที่ถูกต้องเข้าสู่หน้าต่างบริบทตั้งแต่แรก และที่ยากยิ่งกว่าคือ: การรู้ว่าเมื่อใดที่ข้อเท็จจริงที่ดึงมานั้นล้าสมัยและมีเวอร์ชันใหม่กว่ามาแทนที่
เพื่อแก้ปัญหานี้ เราก้าวออกจาก RAG แบบดั้งเดิมและสร้างไปป์ไลน์แบบหลาย Agent ที่ถูกจัดเตรียมไว้
การตั้งค่าและสถาปัตยกรรมการทดลอง
การค้นหาเวกเตอร์มาตรฐานโดยทั่วไปนั้นดี อย่างไรก็ตาม มันใช้ไม่ได้ผลเมื่อต้องจัดการกับความละเอียดอ่อนของข้อมูลชั่วคราวแบบหลายเซสชันที่หนาแน่น การจับคู่ความคล้ายคลึงทางความหมายไม่สามารถแยกแยะระหว่างข้อเท็จจริงเก่ากับการแก้ไขใหม่ได้อย่างน่าเชื่อถือ เพื่อรับมือกับความซับซ้อนของ LongMemEval เราต้องคิดทบทวนไปป์ไลน์การนำเข้าและดึงข้อมูลของเราตั้งแต่ต้น โดยแทนที่คณิตศาสตร์เวกเตอร์ด้วยการใช้เหตุผลแบบ Agentic ที่กระตือรือร้น
เช่นเดียวกับ ASMR เทคนิคนี้ง่ายและน่าพึงพอใจ
1. การจัดเตรียมและการนำเข้าแบบขนาน (Observer Agents)
แทนที่จะแบ่งเป็นชิ้นส่วนและฝังเซสชันผู้ใช้ เราได้ปรับใช้ตัวจัดเตรียม Agent ที่ใช้ Agent อ่าน (observer) แบบขนาน 3 ตัว (ขับเคลื่อนโดย Gemini 2.0 Flash) Agent เหล่านี้จะอ่านเซสชันดิบพร้อมกัน (เช่น Agent 1 รับเซสชัน 1, 3, 5; Agent 2 รับ 2, 4, 6)
เป้าหมายของพวกเขาคือการสกัดความรู้แบบกำหนดเป้าหมายในหกมิติ: ข้อมูลส่วนบุคคล ความชอบ เหตุการณ์ ข้อมูลชั่วคราว การอัปเดต และข้อมูลผู้ช่วย ผลการค้นพบที่มีโครงสร้างเหล่านี้จะถูกจัดเก็บในรูปแบบดั้งเดิมและเชื่อมโยงกับเซสชันต้นทาง
2. การดึงข้อมูลแบบ Agentic ที่กระตือรือร้น (Search Agents)
เมื่อมีคำถามเข้ามา เราไม่ได้สอบถามฐานข้อมูลเวกเตอร์ แต่เราใช้ Agent ค้นหาแบบขนาน 3 ตัว Agent เหล่านี้จะอ่านและใช้เหตุผลกับผลการค้นพบที่จัดเก็บไว้อย่างกระตือรือร้น โดยแต่ละตัวมีจุดเน้นเฉพาะ:
- Agent 1: ค้นหาข้อเท็จจริงโดยตรงและข้อความที่ชัดเจน
- Agent 2: มองหาบริบทที่เกี่ยวข้อง สัญญาณทางสังคม และนัยยะ
- Agent 3: สร้างไทม์ไลน์ชั่วคราวและแผนที่ความสัมพันธ์ขึ้นมาใหม่
ตัวจัดเตรียมจะรวบรวมผลการค้นพบจาก Agent ค้นหาทั้งสามตัว โดยดึงข้อความที่ตัดตอนมาจากเซสชันต้นฉบับเพื่อตรวจสอบรายละเอียด ซึ่งช่วยให้สามารถดึงข้อมูลอย่างชาญฉลาดโดยอาศัยความเข้าใจทางปัญญาที่แท้จริง แทนที่จะเป็นเพียงคำสำคัญหรือความคล้ายคลึงทางคณิตศาสตร์
3. กลุ่มคำตอบที่ถูกจัดเตรียมโดย Agent
เมื่อประกอบบริบทแล้ว พรอมต์เดียวไม่สามารถจัดการกับคำถามที่หลากหลายใน LongMemEval ได้ คำถามบางข้อต้องการให้คุณอนุมานรายละเอียด ในขณะที่บางข้อต้องการให้คุณเจาะจงมาก เราทดลองกับโฟลว์การตอบแบบ Agentic ที่แตกต่างกันสองแบบ:
รัน 1: กลุ่ม 8 รูปแบบ (ความแม่นยำ 98.60%)
ในแนวทางแรกของเรา เราส่งต่อบริบทที่ดึงมาผ่านพรอมต์เฉพาะทาง 8 รูปแบบที่ทำงานแบบขนาน (เช่น ตัวนับที่แม่นยำ ผู้เชี่ยวชาญด้านเวลา การเจาะลึกบริบท) แต่ละรูปแบบจะประเมินบริบทและสร้างคำตอบอย่างอิสระ หาก เส้นทางการใช้เหตุผลที่แตกต่างกัน 8 เส้นทางใดเส้นทางหนึ่ง ไปถึงความจริงพื้นฐานได้สำเร็จ คำถามนั้นจะถูกทำเครื่องหมายว่าถูกต้อง วิธีการตัดสินแบบหลายผู้พิพากษาแบบขนานนี้ทำให้เราบรรลุ ความแม่นยำโดยรวม 98.60% ซึ่งครอบคลุมจุดบอดของเราได้อย่างสมบูรณ์แบบ
รัน 2: ป่าแห่งการตัดสินใจ 12 รูปแบบ (ความแม่นยำ 97.20%)
เพื่อทดสอบระบบที่สร้างคำตอบที่เชื่อถือได้เพียงคำตอบเดียว แทนที่จะพึ่งพาความพยายามอิสระหลายครั้ง เราขยายสถาปัตยกรรมของเราเป็นป่าแห่งการตัดสินใจ 12 รูปแบบ
ที่นี่ Agent เฉพาะทาง 12 ตัว (ขับเคลื่อนโดย GPT-4o-mini) ตอบพรอมต์อย่างอิสระ จากนั้นเราแนะนำ LLM ผู้รวบรวม เพื่อทำหน้าที่เป็นผู้ตัดสินคนสุดท้าย ผู้รวบรวมจะสังเคราะห์คำตอบ 12 คำตอบโดยใช้การลงคะแนนเสียงข้างมาก ความไว้วางใจในโดเมน และการแก้ไขข้อขัดแย้ง โมเดลฉันทามติเดียวนี้ยังบรรลุ ความแม่นยำ 97.20% ที่สูงอย่างไม่น่าเชื่ออีกด้วย

ผลลัพธ์
ประสิทธิภาพของสถาปัตยกรรมการทดลองนี้เปลี่ยนแปลงสิ่งที่เป็นไปได้ในหน่วยความจำ AI ระยะยาวอย่างมีนัยสำคัญ เพื่อให้เข้าใจถึงขนาดของความสำเร็จนี้ นี่คือวิธีที่โฟลว์แบบ Agentic เชิงทดลองของเราเทียบกับทั้งระบบการผลิตดั้งเดิมของเราและอุตสาหกรรมโดยรวม:

ระบบนี้ยังส่งผลต่อความหน่วงของ Agent น้อยกว่าที่คุณคาดไว้ อย่างไรก็ตาม นี่คือประเด็นที่เราพัฒนาอย่างต่อเนื่อง

สิ่งที่เราเรียนรู้และสิ่งที่จะเกิดขึ้นต่อไป
การสร้างระบบที่ทำคะแนนได้ ~99% บนเกณฑ์มาตรฐานระดับการผลิตทำให้เกิดข้อมูลเชิงลึกทางวิศวกรรมที่สำคัญบางประการ:
- Agentic Retrieval ดีกว่า Vector Search: การละทิ้ง Vector Embeddings เพื่อใช้ Agent ค้นหาที่กระตือรือร้นคือตัวเปลี่ยนเกมที่ใหญ่ที่สุด Agent ที่ค้นหาบริบทอย่างกระตือรือร้นช่วยขจัดกับดักความคล้ายคลึงทางความหมายที่ทำให้ RAG แบบดั้งเดิมล้มเหลวในการเปลี่ยนแปลงและการอัปเดตชั่วคราว
- การประมวลผลแบบขนานเป็นสิ่งสำคัญ: การแบ่งปริมาณงานการนำเข้าและการดึงข้อมูลระหว่าง Agent เฉพาะหลายตัว (อ่าน 3 ตัว, ค้นหา 3 ตัว) ช่วยเพิ่มทั้งความเร็วและความละเอียดของการสกัดข้อเท็จจริงได้อย่างมาก นอกจากนี้ยังช่วยป้องกันความขัดแย้ง เนื่องจาก Agent แต่ละตัวได้รับอนุญาตให้มีจุดเน้นเฉพาะในขณะที่สกัดข้อมูล
- ความเชี่ยวชาญพิเศษดีกว่าการทำงานทั่วไป: การส่งต่อบริบทผ่าน Agent ผู้เชี่ยวชาญเฉพาะทาง (เช่น ตัวนับหรือตัวสกัดรายละเอียด) มีประสิทธิภาพเหนือกว่าพรอมต์หลักเพียงตัวเดียวอย่างมาก
เนื่องจากนี่เป็นแซนด์บ็อกซ์ทดลองมากกว่าเครื่องมือ Supermemory หลักของเรา เราจึงต้องการให้ชุมชน AI สามารถเรียนรู้และสร้างต่อจากสถาปัตยกรรมนี้ได้
เราจะเปิดเผยซอร์สโค้ดที่สมบูรณ์สำหรับโฟลว์แบบ Agentic เชิงทดลองนี้ในเร็วๆ นี้ หน่วยความจำคือความท้าทายที่พัฒนาอยู่ตลอดเวลา และแม้ว่างานวิจัยนี้จะผลักดันเพดานของสิ่งที่เป็นไปได้ แต่เราก็กำลังมองหาวิธีที่จะแปลเทคนิคการดึงข้อมูลแบบ Agentic บริสุทธิ์เหล่านี้ไปใช้ในสภาพแวดล้อมการผลิตหลักของเรา
ในอีก 11 วัน (ต้นเดือนเมษายน) เราจะเผยแพร่และเปิดเผยซอร์สทุกอย่างเกี่ยวกับระบบหน่วยความจำ Agent ใหม่นี้ มันจะถูกสร้างขึ้นต่อสาธารณะ เป็นภาพที่พวกคุณทุกคนจะได้เห็น เรากำลังสนุกสนาน
ตรวจสอบ GitHub ของเราได้ที่ https://github.com/supermemoryai และจับตาดูที่นั่นเพื่อการเปิดตัว 👀
ตอนนี้หน่วยความจำของ Agent (อาจ) เป็นปัญหาที่แก้ไขแล้ว?





