
¡Musk asombrado! DeepSeek y Kimi rompen las "reglas no escritas" de los Transformers
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
Los nuevos Attention Residuals (AttnRes) de Kimi permiten que las capas accedan dinámicamente a las salidas anteriores, resolviendo problemas persistentes de pérdida de información y superando el reciente enfoque mHC de DeepSeek.
Reading the ESPAÑOL translation


