La sortie de DeepSeek V4 n'a pas reproduit la frénésie de l'année dernière. En fait, comparé à Claude Sonnet 4.5, sorti il y a six mois, leurs capacités se situent à peu près dans la même catégorie, mais l'écart est bien plus grand qu'il y a six mois, car Sonnet 4.5 n'était considéré que comme de second rang il y a un an. Cependant, dans les articles sur les réseaux sociaux, on voit souvent les grands modèles chinois produire des données de référence de plus en plus belles, avec des affirmations comme « seulement six mois de retard » ou « pratiquement rattrapé » qui se font entendre partout.
Quelle est la situation réelle concernant le fossé de l'IA entre la Chine et les États-Unis ?
Le 22 avril, dans le podcast « Into Asia », Zhang Chi, professeur assistant en IA à l'Université de Pékin, a dit la vérité telle qu'il la voit. Zhang Chi est actuellement professeur assistant à l'Université de Pékin et a récemment démissionné de l'équipe centrale de grands modèles de ByteDance (Seed LLM).
En tant que professionnel de la R&D ayant véritablement travaillé en première ligne dans une grande entreprise technologique, son jugement sur l'IA domestique actuelle est assez cinglant :
« Je ne suis pas d'accord avec l'avis selon lequel les modèles chinois rattrapent leur retard. Je pense que nous sommes encore loin derrière, et cet écart pourrait se creuser. »
▸ Fausse prospérité : tout le monde « enseigne pour le test », mais le combat réel fait défaut
Pour le monde extérieur, les modèles des différents géants de la tech sont engagés dans une bataille féroce sur divers benchmarks, les scores atteignant sans cesse de nouveaux sommets. Mais en interne, ce n'est qu'une immense « éducation axée sur les examens » pour les grands modèles.
Zhang Chi a révélé dans l'interview qu'à l'intérieur de ByteDance (et il soupçonne que c'est similaire dans d'autres grandes entreprises technologiques), l'ambiance de travail est en fait relativement « cool » (pause déjeuner de deux heures et environ 9 heures de travail effectif par jour), mais tout le monde fait face à une pression KPI implicite : le Bench-maxing.
Les dirigeants surveillent de près les scores des modèles sur des classements spécifiques. Si le module dont vous êtes responsable ne correspond pas aux scores des modèles américains leaders, votre évaluation de performance sera très mauvaise.
Résultat : Les données sur le papier sont extrêmement belles, mais une fois confrontées à des applications réelles complexes, l'expérience est frustrante.
▸ Le fossé en matière de calcul et d'infrastructure : trois mois pour les autres, peut-être six mois pour nous
Les goulots d'étranglement matériels sont une vieille histoire, mais la réaction en chaîne qu'ils provoquent est plus profonde que nous l'imaginons.
Actuellement, une grande partie de ce que les géants nationaux utilisent pour entraîner leurs modèles principaux sont encore des puces NVIDIA stockées avant l'interdiction, ou les éditions spéciales H20 conformes. Heureusement, à partir de DeepSeek V4, il y a une transition complète vers les cartes graphiques Huawei Ascend, ce qui devrait améliorer l'écosystème d'entraînement national.
Mais l'écart de puissance de calcul se reflète déjà directement dans la « vitesse d'itération ».
Zhang Chi a mentionné une rumeur dans l'industrie : Google pourrait maintenant n'avoir besoin que de 3 mois pour effectuer un cycle complet de pré-entraînement et de post-entraînement pour un grand modèle de langage. Pour les géants nationaux, limités par l'échelle de la puissance de calcul et l'infrastructure, ce cycle pourrait durer jusqu'à six mois.
Plus caché est l'écart dans l'infrastructure (Infra). Zhang Chi, qui a fait un stage chez Google, a déploré que l'infrastructure sous-jacente y soit si bien faite que les chercheurs n'ont qu'à écrire du code sur une interface graphique fluide sans se soucier de l'architecture sous-jacente. Dans les géants technologiques nationaux, l'entraînement se fige fréquemment ou génère des erreurs ; ces coûts de friction ralentissent invisiblement le rythme du rattrapage.
▸ « Les utilisateurs utilisent tous des modèles américains ; où trouverons-nous les données pour nous améliorer ? »
Si la puissance de calcul est la première épée suspendue au-dessus de l'IA chinoise, alors selon Zhang Chi, la deuxième épée – et actuellement la plus insoluble – est la rupture du « volant de données ».
Il a offert une perspective très acérée dans l'interview : Les modèles américains leaders ont établi un cycle positif extrêmement difficile à surmonter. GPT et Claude ont d'énormes bases d'utilisateurs mondiaux. Ces utilisateurs utilisent les modèles dans leur travail réel et « aiment » ou « n'aiment pas » les résultats. Ce retour de haute qualité constitue les données d'entraînement les plus précieuses pour des scénarios réels.
En revanche, en raison de l'écart objectif dans les capacités de base, les utilisateurs à haute valeur ajoutée qui ont le plus besoin d'aide de l'IA – comme les programmeurs et les chercheurs acharnés – « font défection » en masse.
« J'utilise maintenant principalement Claude Code et Cursor pour la programmation », a déclaré franchement Zhang Chi. « J'ai même l'impression de ne pas avoir besoin de recruter autant d'étudiants en doctorat pour m'aider ; je peux complètement traiter Claude Code et Cursor comme mes étudiants. Je peux les encadrer et leur donner des instructions pour faire ce que je veux. Mais je suis aussi en conflit : si ma génération ne forme pas de nouvelles personnes, qui continuera la recherche quand je serai vieux ? »
Ce choix quotidien d'un scientifique de l'IA chinois de premier plan reflète la dure réalité : Quand les meilleurs développeurs chinois, qui devraient fournir des données de retour aux modèles nationaux, utilisent tous des modèles américains pour gagner en efficacité, où les entreprises chinoises de grands modèles obtiendront-elles les données d'interaction de haute qualité pour optimiser les capacités de programmation et de raisonnement ?
▸ Le prix des raccourcis : l'intelligence « distillée » n'a pas d'âme
S'il n'y a pas le temps de peaufiner l'infrastructure et que l'on fait face à la pression urgente de rattraper les KPI, que font les géants nationaux ?
La réponse est un mot : Distillation.
Si vous voulez entraîner un modèle à haute intelligence, la manière la plus dure est d'embaucher des experts industriels extrêmement professionnels pour écrire des données de raisonnement de haute qualité, trait par trait, ce qui est à la fois coûteux et long.
Mais il y a un raccourci : Demandez directement à GPT, Claude ou Gemini. Après avoir obtenu la bonne réponse et le processus de raisonnement, copiez-les et nourrissez votre propre modèle. C'est ce qu'on appelle la « distillation » dans le cercle de l'IA – essentiellement copier les devoirs du meilleur élève.
Zhang Chi a admis que nous pourrions déjà être de classe mondiale dans la technologie de « distillation », mais cela pourrait ne pas se traduire par un véritable avantage à long terme. Copier les devoirs peut vous aider à passer rapidement de l'échec à la réussite, ou même à obtenir une note de 80, mais vous ne pouvez jamais devenir un véritable meilleur élève en copiant.
Parce qu'il vous manque votre propre pipeline de données profond. Quand les modèles étrangers commencent à évoluer de manière autonome, les « raccourcis » deviennent plutôt des chaînes qui lient nos capacités originales.
▸ Le seul espoir restant : le matériel et le rêve de l'IA incarnée
Malgré son fort pessimisme quant aux perspectives de rattrapage dans les purs grands modèles de langage, Zhang Chi a tout de même souligné quelques avantages structurels dans l'écosystème de l'IA en Chine.
Selon lui, l'avantage réside dans la fabrication. Il a mentionné Unitree, qui a récemment suscité un débat public, estimant que la Chine a une compétitivité mondiale dans les corps matériels et le contrôle des mouvements des moteurs. Concernant l'actuel « IA incarnée » très en vogue, l'avis de Zhang Chi est que si votre modèle de langage n'est utilisé que pour effectuer des tâches relativement simples (comme attraper des objets), alors les capacités des grands modèles chinois existants sont « suffisantes ».
Mais il a aussi tempéré : actuellement, la grande majorité des fabricants de robots sont encore bloqués au stade du « contrôle des mouvements » et n'ont pas vraiment mis d'intelligence dans le cerveau du robot. Dès qu'il s'agit de raisonnement complexe et de « manipulation dextre » généralisée, nous risquons de heurter le même plafond que celui auquel les grands modèles de langage sont actuellement confrontés.
▸ Avenir ?
Puces limitées, pipelines de données faibles, infrastructure en retard, absence de boucles de retour utilisateur, et dépendance excessive à la distillation – ces problèmes combinés ne peuvent pas être résolus par une seule avancée technique. Heureusement, DeepSeek V4 est entièrement adapté aux cartes graphiques nationales. Bien que la capacité globale soit un peu en retard, il y a encore de l'espoir de rattraper une fois l'écosystème perfectionné, et sans recourir à la distillation.
Lien du podcast original : [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)





