
Musk ist begeistert! DeepSeek und Kimi brechen die „ungeschriebenen Gesetze“ von Transformern
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
Kimis neue Attention Residuals (AttnRes) ermöglichen es Schichten, dynamisch auf vorherige Ausgaben zuzugreifen, lösen langjährige Probleme des Informationsverlusts und übertreffen den kürzlich vorgestellten mHC-Ansatz von DeepSeek.
Reading the DEUTSCH translation


