
Musk ทึ่ง! DeepSeek และ Kimi ทลาย "กฎเหล็ก" ของ Transformers
AI features
- Views
- 880K
- Likes
- 768
- Reposts
- 153
- Comments
- 33
- Bookmarks
- 0
TL;DR
Attention Residuals (AttnRes) รูปแบบใหม่ของ Kimi ช่วยให้แต่ละเลเยอร์สามารถเข้าถึงเอาต์พุตก่อนหน้าได้อย่างยืดหยุ่น ซึ่งช่วยแก้ปัญหาการสูญเสียข้อมูลที่มีมาอย่างยาวนาน และทำผลงานได้เหนือกว่าแนวทาง mHC ล่าสุดของ DeepSeek
Reading the ไทย translation


