
머스크도 놀랐다! DeepSeek와 Kimi, 트랜스포머의 '불문율'을 깨다
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
Kimi의 새로운 Attention Residuals(AttnRes)는 레이어가 이전 출력값에 동적으로 접근할 수 있게 하여, 고질적인 정보 손실 문제를 해결하고 DeepSeek의 최근 mHC 방식보다 뛰어난 성능을 보여줍니다.
Reading the 한국어 translation


