
Musk impressionado! DeepSeek e Kimi quebram as "regras não ditas" dos Transformers
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
O novo Attention Residuals (AttnRes) do Kimi permite que as camadas acessem dinamicamente saídas anteriores, resolvendo problemas persistentes de perda de informação e superando a recente abordagem mHC do DeepSeek.
Reading the PORTUGUÊS translation


