
Musk stupito! DeepSeek e Kimi infrangono le "regole non scritte" dei Transformer
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
I nuovi Attention Residuals (AttnRes) di Kimi consentono ai layer di accedere dinamicamente agli output precedenti, risolvendo i persistenti problemi di perdita di informazioni e superando il recente approccio mHC di DeepSeek.
Reading the ITALIANO translation


