Musk kinh ngạc! DeepSeek và Kimi phá vỡ "các quy tắc bất thành văn" của kiến trúc Transformer

Musk kinh ngạc! DeepSeek và Kimi phá vỡ "các quy tắc bất thành văn" của kiến trúc Transformer

@AlchainHust
TIẾNG TRUNG2 tháng trước · 16 thg 3, 2026

AI features

880K
768
153
33
0

TL;DR

Công nghệ Attention Residuals (AttnRes) mới của Kimi cho phép các lớp truy cập linh hoạt vào các đầu ra trước đó, giải quyết vấn đề mất mát thông tin tồn tại từ lâu và vượt trội hơn phương pháp mHC gần đây của DeepSeek.

More patterns to decode

Recent viral articles

Explore more viral articles

Được xây dựng cho nhà sáng tạo.

Tìm ý tưởng từ các bài viết viral trên 𝕏, giải mã vì sao chúng hiệu quả và biến pattern đó thành góc nội dung tiếp theo của bạn.

Explore more viral articles