
イーロン・マスクも驚愕! DeepSeek と Kimi が Transformers の「暗黙のルール」を打破
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
Kimi の新しい Attention Residuals (AttnRes) は、各層が以前の出力を動的に参照することを可能にし、長年の課題であった情報損失の問題を解決。DeepSeek の最近の mHC アプローチを凌駕する成果を上げている。
Reading the 日本語 translation


