Il rilascio di DeepSeek V4 non ha replicato la frenesia dell'anno scorso. In effetti, rispetto a Claude Sonnet 4.5, uscito sei mesi fa, le loro capacità sono più o meno allo stesso livello, ma il divario è molto più ampio di sei mesi, perché Sonnet 4.5 era considerato solo di seconda fascia solo sei mesi fa. Tuttavia, negli articoli sui social media, vediamo spesso modelli cinesi produrre dati benchmark sempre più belli, con affermazioni di "essere indietro solo di sei mesi" o "sostanzialmente in pari" che si sentono ovunque.
Qual è la situazione reale del divario nell'IA tra Cina e Stati Uniti?
Il 22 aprile, nel podcast "Into Asia", Zhang Chi, professore assistente di IA all'Università di Pechino, ha detto la verità come la vede. Zhang Chi è attualmente professore assistente all'Università di Pechino e recentemente si è dimesso dal team centrale di modelli di grandi dimensioni di ByteDance (Seed LLM).
Come professionista della R&S che ha lavorato realmente in prima linea in una grande azienda tecnologica, il suo giudizio sull'attuale IA nazionale è piuttosto pungente:
"Non sono d'accordo con l'opinione che i modelli cinesi stiano recuperando terreno. Credo che siamo ancora molto indietro, e questo divario potrebbe allargarsi."
▸ Prosperità Falsa: Tutti "Insegnano per il Test", ma Manca il Combattimento Reale
All'esterno, i modelli dei vari colossi tecnologici sono impegnati in una feroce battaglia su vari benchmark, con punteggi che raggiungono continuamente nuovi massimi. Ma internamente, questa è solo una massiccia "istruzione finalizzata al test" per i grandi modelli.
Zhang Chi ha rivelato nell'intervista che all'interno di ByteDance (e sospetta che altre grandi aziende tecnologiche siano simili), l'atmosfera di lavoro è in realtà relativamente "rilassata" (con una pausa pranzo di due ore e circa 9 ore di lavoro effettive al giorno), ma tutti affrontano una pressione KPI implicita: Bench-maxing.
I leader prestano molta attenzione ai punteggi dei modelli su specifiche classifiche. Se il modulo di cui sei responsabile non corrisponde ai punteggi dei modelli statunitensi leader, la tua valutazione delle prestazioni sarà molto negativa.
Risultato: I dati sulla carta sono estremamente belli, ma una volta messi alla prova in applicazioni reali complesse, l'esperienza è frustrante.
▸ L'Abisso di Calcolo e Infrastruttura: Tre Mesi per Loro, Forse Sei Mesi per Noi
I colli di bottiglia hardware sono una vecchia storia, ma la reazione a catena che causano è più profonda di quanto immaginiamo.
Attualmente, gran parte di ciò che i giganti nazionali usano per addestrare i loro modelli principali sono ancora chip NVIDIA accumulati prima del bando, o le edizioni speciali H20 conformi. Fortunatamente, a partire da DeepSeek V4, c'è una transizione completa verso le schede grafiche Huawei Ascend, che dovrebbe migliorare l'ecosistema di addestramento nazionale.
Ma il divario nella potenza di calcolo si riflette già direttamente nella "velocità di iterazione".
Zhang Chi ha menzionato una voce di settore: Google potrebbe ora aver bisogno solo di 3 mesi per completare un ciclo completo di pre-addestramento e post-addestramento per un modello linguistico di grandi dimensioni. Per i giganti nazionali, limitati dalla scala della potenza di calcolo e dell'infrastruttura, questo ciclo potrebbe durare fino a sei mesi.
Più nascosto è il divario nell'infrastruttura (Infra). Zhang Chi, che ha fatto uno stage da Google, ha lamentato che l'infrastruttura sottostante lì è così ben fatta che i ricercatori devono solo scrivere codice su un'interfaccia grafica fluida senza preoccuparsi dell'architettura sottostante. Nei giganti tecnologici nazionali, l'addestramento si blocca frequentemente o genera errori; questi costi di attrito stanno invisibilmente rallentando il ritmo del recupero.
▸ "Gli utenti usano tutti modelli statunitensi; dove prenderemo i dati per migliorare?"
Se la potenza di calcolo è la prima spada che pende sull'IA cinese, allora secondo Zhang Chi, la seconda spada - e attualmente la più irrisolvibile - è la rottura del "volano dei dati".
Ha offerto un'analisi molto acuta nell'intervista: I modelli statunitensi leader hanno stabilito un ciclo positivo estremamente difficile da superare. GPT e Claude hanno enormi basi di utenti globali. Questi utenti usano i modelli nel lavoro reale e mettono "mi piace" o "non mi piace" ai risultati. Questo feedback di alta qualità costituisce i dati di addestramento più preziosi per scenari del mondo reale.
Al contrario, a causa del divario oggettivo nelle capacità di base, gli utenti ad alto valore che hanno più bisogno dell'assistenza dell'IA - come programmatori e ricercatori hardcore - stanno "disertando" in massa.
"Ora uso principalmente Claude Code e Cursor per programmare," ha detto Zhang Chi senza mezzi termini. "Sento persino di non aver bisogno di assumere così tanti dottorandi per aiutarmi; posso trattare completamente Claude Code e Cursor come miei studenti. Posso far loro da mentore e dare loro istruzioni per fare ciò che voglio. Ma sono anche in conflitto: se la mia generazione non forma nuove persone, chi continuerà la ricerca quando sarò vecchio?"
Questa scelta quotidiana di un top scienziato cinese dell'IA riflette la fredda realtà: Quando i migliori sviluppatori cinesi che dovrebbero fornire dati di feedback ai modelli nazionali usano tutti modelli statunitensi per aumentare l'efficienza, dove otterranno le grandi aziende cinesi di modelli linguistici i dati di interazione di alta qualità per ottimizzare le capacità di programmazione e ragionamento?
▸ Il Prezzo delle Scorciatoie: L'Intelligenza "Distillata" Non Ha Anima
Se non c'è tempo per perfezionare l'infrastruttura e si affronta la pressione urgente di raggiungere i KPI, cosa fanno i giganti nazionali?
La risposta è una parola: Distillazione.
Se vuoi addestrare un modello ad alta intelligenza, il modo più hardcore è assumere esperti del settore estremamente professionali per scrivere dati di ragionamento di alta qualità tratto per tratto, il che è sia costoso che dispendioso in termini di tempo.
Ma c'è una scorciatoia: Chiedi direttamente a GPT, Claude o Gemini. Dopo aver ottenuto la risposta corretta e il processo di ragionamento, copiala e dallo in pasto al tuo modello. Questo è noto come "distillazione" nel mondo dell'IA - essenzialmente copiare i compiti del miglior studente.
Zhang Chi ha ammesso che potremmo già essere a livello mondiale nella tecnologia di "distillazione", ma questo potrebbe non tradursi in un vero vantaggio a lungo termine. Copiare i compiti può aiutarti a passare rapidamente dall'essere insufficiente al superamento, o anche a un punteggio di 80, ma non puoi mai diventare un vero top studente copiando.
Perché ti manca il tuo profondo data pipeline. Quando i modelli stranieri iniziano ad evolversi autonomamente, le "scorciatoie" diventano invece catene che legano le nostre capacità originali.
▸ L'Unica Fiducia Rimanente: Hardware e il Sogno dell'"IA Incorporata"
Nonostante il suo forte pessimismo sulle prospettive di recupero nei puri modelli linguistici di grandi dimensioni, Zhang Chi ha comunque indicato alcuni vantaggi strutturali nell'ecosistema IA cinese.
A suo avviso, il vantaggio risiede nella produzione manifatturiera. Ha menzionato Unitree, che ha recentemente suscitato dibattito pubblico, credendo che la Cina abbia competitività globale nei corpi hardware e nel controllo del movimento motorio. Riguardo all'attuale "IA Incorporata" di tendenza, l'opinione di Zhang Chi è che se il tuo modello linguistico viene utilizzato solo per eseguire compiti relativamente semplici (come afferrare oggetti), allora le capacità degli attuali grandi modelli cinesi sono "abbastanza buone".
Ma ha anche gettato acqua fredda: attualmente, la stragrande maggioranza dei produttori di robot è ancora bloccata nella fase di "controllo del movimento" e non ha veramente messo l'intelligenza nel cervello del robot. Una volta coinvolti ragionamenti complessi e "manipolazione abile" generalizzata, è probabile che colpiamo lo stesso soffitto che attualmente affrontano i grandi modelli linguistici.
▸ Futuro?
Chip limitati, data pipeline deboli, infrastruttura in ritardo, mancanza di cicli di feedback degli utenti e dipendenza eccessiva dalla distillazione: questi problemi combinati non possono essere risolti da un singolo breakthrough tecnico. Fortunatamente, DeepSeek V4 è completamente adattato alle schede grafiche nazionali. Sebbene la capacità complessiva sia un po' indietro, c'è ancora speranza di recuperare una volta perfezionato l'ecosistema, e senza fare affidamento sulla distillazione.
Link al Podcast Originale: [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)





