อินโฟกราฟิกเชิงเทคนิคแบบเปรียบเทียบเคียงข้างกันอย่างละเอียด เพื่อเปรียบเทียบสถาปัตยกรรม Transformer ของ DeepSeek V3/R1 และ DeepSeek V4 เหมาะสำหรับโพสต์บนโซเชียลมีเดีย งานนำเสนอ หรือภาพประกอบการวิเคราะห์โมเดล
{"type":"อินโฟกราฟิกเปรียบเทียบสถาปัตยกรรม AI แบบเคียงข้างกัน","style":"แผนภาพเชิงเทคนิคที่สะอาดตา พื้นหลังสีขาว เส้นขอบสีดำบาง สี่เหลี่ยมมุมมน กล่องข้อความแบบประ ไฮไลต์รหัสสี สไตล์สไลด์นำเสนอ อินโฟกราฟิกแบบเวกเตอร์","canvas":{"aspect_ratio":"2:1","resolution":"แนวนอนแบบกว้าง"},"title_row":{"left_title":"DeepSeek V3/R1 (671 พันล้านพารามิเตอร์)","right_title":"DeepSeek V4 (1.2 ล้านล้านพารามิเตอร์)","left_title_color":"สีส้มแดงสด","right_title_color":"สีฟ้าสด"},"layout":{"columns":2,"sections":[{"title":"DeepSeek V3/R1 (671 พันล้านพารามิเตอร์)","position":"ครึ่งซ้าย","count":9,"labels":["ขนาดคำศัพท์ 129k","โมดูล FeedForward (SwiGLU)","มิติของเลเยอร์แฝงระดับกลาง 2,048","เลเยอร์ MoE","รองรับความยาวบริบท 128k โทเค็น","3 บล็อกแรกใช้ Dense FFN ขนาด 18,432 แทน MoE","ข้อความอินพุตตัวอย่าง","มิติการฝัง (Embedding) 7,168","128 หัวความสนใจ (Heads)"]},{"title":"DeepSeek V4 (1.2 ล้านล้านพารามิเตอร์)","position":"ครึ่งขวา","count":9,"labels":["ขนาดคำศัพท์ 160k","โมดูล FeedForward (SwiGLU)","มิติของเลเยอร์แฝงระดับกลาง 3,072","เลเยอร์ MoE","รองรับความยาวบริบท 256k โทเค็น","3 บล็อกแรกใช้ Dense FFN ขนาด 24,576 แทน MoE","ข้อความอินพุตตัวอย่าง","มิติการฝัง (Embedding) 8,192","128 หัวความสนใจ (Heads)"]},{"title":"ตารางเปรียบเทียบด้านล่าง","position":"ด้านล่างเต็มความกว้าง","count":10,"labels":["พารามิเตอร์รวม","พารามิเตอร์ที่ทำงานต่อโทเค็น","ขนาด Hidden","การออกแบบตัวอย่าง","DeepSeek V3/R1","ระดับกลาง (FF)","หัวความสนใจ (Attention heads)","ความยาวบริบท","มิติการฝัง (Embedding)","ขนาดคำศัพท์"]}]},"left_panel":{"background":"สี่เหลี่ยมมุมมนสีเทาอ่อนมาก","main_stack":{"count":8,"blocks":["ข้อความที่แปลงเป็นโทเค็น","เลเยอร์ Token embedding","RMSNorm 1","Multi-head Latent Attention","RMSNorm 2","MoE","RMSNorm สุดท้าย","เลเยอร์เอาต์พุตเชิงเส้น"]},"side_module":"RoPE เชื่อมต่อกับบล็อกความสนใจทางด้านซ้าย","attention_block":{"label":"Multi-head Latent Attention","accent":"ข้อความสีส้มแดงสำหรับคำว่า Latent"},"feedforward_inset":{"title":"โมดูล FeedForward (SwiGLU)","count":4,"blocks":["เลเยอร์เชิงเส้น","การกระตุ้น SiLU","เลเยอร์เชิงเส้น","เลเยอร์เชิงเส้น"],"diagram":"สองสาขาคูณกันแล้วฉายภาพ"},"moe_inset":{"title":"เลเยอร์ MoE","count":5,"blocks":["โหนดรวมด้านบน","Feed forward","Feed forward","Router","ป้ายกำกับจำนวนผู้เชี่ยวชาญ 256"],"details":"สี่เหลี่ยมสีดำขนาดเล็กพร้อมผู้เชี่ยวชาญที่เลือก 1 ราย ลูกศรชี้ไปยังผู้เชี่ยวชาญ เส้นแบ่งแบบประ"},"annotations":{"vocab":"ขนาดคำศัพท์ 129k","ff_dim":"มิติของเลเยอร์แฝงระดับกลาง 2,048","context":"รองรับความยาวบริบท 128k โทเค็น","dense_first_blocks":"3 บล็อกแรกใช้ Dense FFN ขนาด 18,432 แทน MoE","resource_savings":"การประหยัดทรัพยากร: ขนาดโมเดล 671B แต่มีเพียง 1 (แชร์) + 8 ผู้เชี่ยวชาญที่ทำงานต่อโทเค็น; ใช้พารามิเตอร์เพียง 37B ต่อขั้นตอนการอนุมาน"},"bottom_stats":{"count":10,"items":["พารามิเตอร์รวม: 671B","พารามิเตอร์ที่ทำงานต่อโทเค็น: 37B (1 + 8 ผู้เชี่ยวชาญ)","ขนาด Hidden: 7,128","การออกแบบตัวอย่าง: 28,432","ระดับกลาง (FF): 2,048","หัวความสนใจ: 128","ความยาวบริบท: 128k","มิติการฝัง: 3 บล็อกแรก","ความยาวบริบท: 22G7","ขนาดคำศัพท์: 129k"]}},"right_panel":{"background":"สี่เหลี่ยมมุมมนสีฟ้าอ่อนมาก","main_stack":{"count":8,"blocks":["ข้อความที่แปลงเป็นโทเค็น","เลเยอร์ Token embedding","RMSNorm 1","Multi-head Latent Attention","RMSNorm 2","MoE","RMSNorm สุดท้าย","เลเยอร์เอาต์พุตเชิงเส้น"]},"side_module":"RoPE เชื่อมต่อกับบล็อกความสนใจทางด้านซ้าย","attention_block":{"label":"Multi-head Latent Attention","accent":"ข้อความสีฟ้าสำหรับคำว่า Latent"},"feedforward_inset":{"title":"โมดูล FeedForward (SwiGLU)","count":4,"blocks":["เลเยอร์เชิงเส้น","การกระตุ้น SiLU","เลเยอร์เชิงเส้น","เลเยอร์เชิงเส้น"],"diagram":"โครงสร้างเดียวกับแผงด้านซ้าย"},"moe_inset":{"title":"เลเยอร์ MoE","count":5,"blocks":["โหนดรวมด้านบน","Feed forward","Feed forward","Router","ป้ายกำกับจำนวนผู้เชี่ยวชาญ 384"],"details":"สี่เหลี่ยมสีดำขนาดเล็กพร้อมผู้เชี่ยวชาญที่เลือก 1 ราย ลูกศรชี้ไปยังผู้เชี่ยวชาญ เส้นแบ่งแบบประ เน้นขอบสีฟ้า"},"annotations":{"vocab":"ขนาดคำศัพท์ 160k","ff_dim":"มิติของเลเยอร์แฝงระดับกลาง 3,072","context":"รองรับความยาวบริบท 256k โทเค็น","dense_first_blocks":"3 บล็อกแรกใช้ Dense FFN ขนาด 24,576 แทน MoE","resource_savings":"การประหยัดทรัพยากร: ขนาดโมเดล 1.2T แต่มีเพียง 1 (แชร์) + 8 ผู้เชี่ยวชาญที่ทำงานต่อโทเค็น; ใช้พารามิเตอร์เพียง 52B ต่อขั้นตอนการอนุมาน"},"bottom_stats":{"count":10,"items":["พารามิเตอร์รวม: 1.2T","พารามิเตอร์ที่ทำงานต่อโทเค็น: 52B (1 + 8 ผู้เชี่ยวชาญ)","ขนาด Hidden: 7,2B","การออกแบบตัวอย่าง: 28,432","ระดับกลาง (FF): 3,072","หัวความสนใจ: 128","ความยาวบริบท: 256k","มิติการฝัง: 3 บล็อกแรก","ความยาวบริบท: 22G7","ขนาดคำศัพท์: 160k"]}},"global_notes":"สร้างแผนภาพเปรียบเทียบสถาปัตยกรรม Transformer ที่ละเอียดสูงด้วยเลย์เอาต์แบบสะท้อนกระจก แต่ละครึ่งประกอบด้วยแผนภาพสแต็กโมเดลขนาดใหญ่ 1 ชุด พร้อมแผนภาพแทรก 2 ชุด: โมดูล Feedforward 1 ชุด และเลเยอร์ MoE 1 ชุด ใช้ลูกศรระหว่างบล็อก ป้ายกำกับทางเทคนิคขนาดเล็ก และเส้นเชื่อมจากป้ายกำกับไปยังส่วนประกอบที่เกี่ยวข้อง รักษาความหนาแน่นของตัวอักษรและสไตล์แบบสไลด์ โดยใช้สีส้มแดงสำหรับเน้น V3/R1 ทั้งหมด และสีฟ้าสำหรับเน้น V4 ทั้งหมด รวมแถวตารางเมตริกขนาดกะทัดรัดที่ด้านล่างตลอดความกว้าง รักษาลุคอินโฟกราฟิกที่ดูเหมือนทำด้วยมือเล็กน้อย พร้อมข้อความขนาดเล็กมากและคำอธิบายประกอบที่หนาแน่น"}