
Musk kinh ngạc! DeepSeek và Kimi phá vỡ "các quy tắc bất thành văn" của kiến trúc Transformer
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
Công nghệ Attention Residuals (AttnRes) mới của Kimi cho phép các lớp truy cập linh hoạt vào các đầu ra trước đó, giải quyết vấn đề mất mát thông tin tồn tại từ lâu và vượt trội hơn phương pháp mHC gần đây của DeepSeek.
Reading the TIẾNG VIỆT translation

