Un'infografica tecnica dettagliata che mette a confronto le architetture transformer di DeepSeek V3/R1 e DeepSeek V4, ideale per post sui social media, presentazioni o analisi visive dei modelli.
{"type":"infografica comparativa dell'architettura AI","style":"diagramma tecnico pulito, sfondo bianco, contorni neri sottili, rettangoli arrotondati, riquadri tratteggiati, evidenziazioni a colori, estetica da Slides di presentazione, infografica vettoriale","canvas":{"aspect_ratio":"2:1","resolution":"orizzontale ampia"},"title_row":{"left_title":"DeepSeek V3/R1 (671 miliardi)","right_title":"DeepSeek V4 (1,2 trilioni)","left_title_color":"rosso-arancio brillante","right_title_color":"blu brillante"},"layout":{"columns":2,"sections":[{"title":"DeepSeek V3/R1 (671 miliardi)","position":"metà sinistra","count":9,"labels":["Dimensione vocabolario di 129k","Modulo FeedForward (SwiGLU)","Dimensione layer nascosto intermedio di 2.048","Layer MoE","Lunghezza contesto supportata di 128k token","I primi 3 blocchi utilizzano FFN denso con dimensione nascosta 18.432 invece di MoE","Testo di input di esempio","Dimensione embedding di 7.168","128 teste"]},{"title":"DeepSeek V4 (1,2 trilioni)","position":"metà destra","count":9,"labels":["Dimensione vocabolario di 160k","Modulo FeedForward (SwiGLU)","Dimensione layer nascosto intermedio di 3.072","Layer MoE","Lunghezza contesto supportata di 256k token","I primi 3 blocchi utilizzano FFN denso con dimensione nascosta 24.576 invece di MoE","Testo di input di esempio","Dimensione embedding di 8.192","128 teste"]},{"title":"tabella comparativa inferiore","position":"parte inferiore a tutta larghezza","count":10,"labels":["Parametri totali","Parametri attivi per token","Dimensione nascosta","Design di esempio","DeepSeek V3/R1","Intermedio (FF)","Teste di attenzione","Lunghezza contesto","Dimensione embedding","Dimensione vocabolario"]}]},"left_panel":{"background":"rettangolo arrotondato grigio molto chiaro","main_stack":{"count":8,"blocks":["Testo tokenizzato","Layer di embedding dei token","RMSNorm 1","Multi-head Latent Attention","RMSNorm 2","MoE","RMSNorm finale","Layer di output lineare"]},"side_module":"RoPE collegato al blocco di attenzione sul lato sinistro","attention_block":{"label":"Multi-head Latent Attention","accent":"testo rosso-arancio per la parola Latent"},"feedforward_inset":{"title":"Modulo FeedForward (SwiGLU)","count":4,"blocks":["Layer lineare","Attivazione SiLU","Layer lineare","Layer lineare"],"diagram":"due rami moltiplicati, poi proiettati"},"moe_inset":{"title":"Layer MoE","count":5,"blocks":["nodo di combinazione superiore","Feed forward","Feed forward","Router","badge conteggio esperti 256"],"details":"piccolo quadrato nero con 1 esperto selezionato, frecce che indirizzano verso l'alto agli esperti, linea divisoria tratteggiata"},"annotations":{"vocab":"Dimensione vocabolario di 129k","ff_dim":"Dimensione layer nascosto intermedio di 2.048","context":"Lunghezza contesto supportata di 128k token","dense_first_blocks":"I primi 3 blocchi utilizzano FFN denso con dimensione nascosta 18.432 invece di MoE","resource_savings":"Risparmio di risorse: il modello ha 671B ma solo 1 (condiviso) + 8 esperti attivi per token; solo 37B di parametri sono attivi per passaggio di inferenza"},"bottom_stats":{"count":10,"items":["Parametri totali: 671B","Parametri attivi per token: 37B (1 + 8 esperti)","Dimensione nascosta: 7.128","Design di esempio: 28.432","Intermedio (FF): 2.048","Teste di attenzione: 128","Lunghezza contesto: 128k","Dimensione embedding: Primi 3 blocchi","Lunghezza contesto: 22G7","Dimensione vocabolario: 129k"]}},"right_panel":{"background":"rettangolo arrotondato blu molto chiaro","main_stack":{"count":8,"blocks":["Testo tokenizzato","Layer di embedding dei token","RMSNorm 1","Multi-head Latent Attention","RMSNorm 2","MoE","RMSNorm finale","Layer di output lineare"]},"side_module":"RoPE collegato al blocco di attenzione sul lato sinistro","attention_block":{"label":"Multi-head Latent Attention","accent":"testo blu per la parola Latent"},"feedforward_inset":{"title":"Modulo FeedForward (SwiGLU)","count":4,"blocks":["Layer lineare","Attivazione SiLU","Layer lineare","Layer lineare"],"diagram":"stessa struttura del pannello sinistro"},"moe_inset":{"title":"Layer MoE","count":5,"blocks":["nodo di combinazione superiore","Feed forward","Feed forward","Router","badge conteggio esperti 384"],"details":"piccolo quadrato nero con 1 esperto selezionato, frecce che indirizzano verso l'alto agli esperti, linea divisoria tratteggiata, enfasi bordo blu"},"annotations":{"vocab":"Dimensione vocabolario di 160k","ff_dim":"Dimensione layer nascosto intermedio di 3.072","context":"Lunghezza contesto supportata di 256k token","dense_first_blocks":"I primi 3 blocchi utilizzano FFN denso con dimensione nascosta 24.576 invece di MoE","resource_savings":"Risparmio di risorse: il modello ha 1.2T ma solo 1 (condiviso) + 8 esperti attivi per token; solo 52B di parametri sono attivi per passaggio di inferenza"},"bottom_stats":{"count":10,"items":["Parametri totali: 1.2T","Parametri attivi per token: 52B (1 + 8 esperti)","Dimensione nascosta: 7.2B","Design di esempio: 28.432","Intermedio (FF): 3.072","Teste di attenzione: 128","Lunghezza contesto: 256k","Dimensione embedding: Primi 3 blocchi","Lunghezza contesto: 22G7","Dimensione vocabolario: 160k"]}},"global_notes":"Crea un diagramma di confronto dell'architettura transformer altamente dettagliato con layout speculari. Ogni metà contiene un grande diagramma dello stack del modello più 2 diagrammi a inserto: 1 modulo feedforward e 1 layer MoE. Usa frecce tra i blocchi, etichette tecniche minuscole e linee di collegamento dalle etichette ai componenti pertinenti. Mantieni la tipografia densa e simile a una slide, con il rosso-arancio usato per tutta l'enfasi su V3/R1 e il blu usato per tutta l'enfasi su V4. Includi una piccola riga inferiore di metriche tabulari compatte che coprono l'intera larghezza. Preserva l'aspetto dell'infografica leggermente imperfetto e fatto a mano, con testo molto piccolo e annotazioni dense."}