El lanzamiento de DeepSeek V4 no replicó el frenesí del año pasado. De hecho, en comparación con Claude Sonnet 4.5, lanzado hace seis meses, sus capacidades están más o menos en el mismo nivel, pero la brecha es mucho mayor que hace seis meses porque Sonnet 4.5 solo se consideraba de segundo nivel hace medio año. Sin embargo, en artículos de redes sociales, a menudo vemos modelos chinos de gran tamaño produciendo datos de referencia cada vez más impresionantes, con afirmaciones de "solo seis meses de retraso" o "básicamente alcanzados" que se escuchan por todas partes.
¿Cuál es la situación real con respecto a la brecha de IA entre China y Estados Unidos?
El 22 de abril, en el podcast "Into Asia", Zhang Chi, profesor asistente de IA en la Universidad de Pekín, contó la verdad tal como la ve. Zhang Chi es actualmente profesor asistente en la Universidad de Pekín y recientemente renunció al equipo central de modelos grandes de ByteDance (Seed LLM).
Como profesional de I+D que ha trabajado realmente en la primera línea de una gran empresa tecnológica, su juicio sobre la IA nacional actual es bastante mordaz:
"No estoy de acuerdo con la opinión de que los modelos chinos están alcanzando. Creo que todavía estamos muy rezagados, y esta brecha podría estar ampliándose."
▸ Falsa Prosperidad: Todos "Enseñan para el Examen", pero Falta el Combate Real
Hacia el exterior, los modelos de varios gigantes tecnológicos están inmersos en una feroz batalla en diversos puntos de referencia, con puntuaciones que alcanzan nuevos máximos repetidamente. Pero internamente, esto es solo una enorme "educación orientada a exámenes" para modelos grandes.
Zhang Chi reveló en la entrevista que dentro de ByteDance (y sospecha que en otras grandes empresas tecnológicas es similar), el ambiente de trabajo es en realidad relativamente "tranquilo" (con una pausa para el almuerzo de dos horas y aproximadamente 9 horas de trabajo real al día), pero todos se enfrentan a una presión de KPI implícita: Bench-maxing.
Los líderes prestan mucha atención a las puntuaciones de los modelos en tablas de clasificación específicas. Si el módulo del que eres responsable no coincide con las puntuaciones de los modelos estadounidenses líderes, tu revisión de rendimiento se verá muy mal.
Resultado: Los datos sobre el papel son extremadamente brillantes, pero una vez que se aplican a aplicaciones complejas del mundo real, la experiencia es frustrante.
▸ La Brecha en Cómputo e Infraestructura: Tres Meses para Otros, Quizás Medio Año para Nosotros
Los cuellos de botella de hardware son una historia antigua, pero la reacción en cadena que causan es más profunda de lo que imaginamos.
Actualmente, una gran parte de lo que los gigantes nacionales utilizan para entrenar sus modelos principales sigue siendo chips NVIDIA acumulados antes de la prohibición, o las ediciones especiales H20 compatibles. Afortunadamente, a partir de DeepSeek V4, hay una transición completa a las tarjetas gráficas Huawei Ascend, lo que se espera que mejore el ecosistema de entrenamiento nacional.
Pero la brecha en la potencia de cálculo ya se refleja directamente en la "velocidad de iteración".
Zhang Chi mencionó un rumor de la industria: Google ahora podría necesitar solo 3 meses para completar un ciclo completo de pre-entrenamiento y post-entrenamiento para un modelo de lenguaje grande. Para los gigantes nacionales, limitados por la escala de la potencia de cálculo y la infraestructura, este ciclo podría durar hasta medio año.
Más oculta está la brecha en infraestructura (Infra). Zhang Chi, que hizo prácticas en Google, lamentó que la infraestructura subyacente allí está tan bien hecha que los investigadores solo necesitan escribir código en una interfaz gráfica fluida sin preocuparse por la arquitectura subyacente. En los gigantes tecnológicos nacionales, el entrenamiento se congela con frecuencia o da errores; estos costos de fricción están frenando invisiblemente el ritmo de la recuperación.
▸ "Los usuarios usan todos modelos estadounidenses; ¿de dónde sacaremos los datos para mejorar?"
Si la potencia de cálculo es la primera espada que pende sobre la IA china, entonces, en opinión de Zhang Chi, la segunda espada, y actualmente la más irresoluble, es la ruptura del "volante de datos".
Ofreció una visión muy aguda en la entrevista: Los modelos estadounidenses líderes han establecido un ciclo positivo que es extremadamente difícil de superar. GPT y Claude tienen enormes bases de usuarios globales. Estos usuarios utilizan los modelos en el trabajo real y dan "me gusta" o "no me gusta" a los resultados. Esta retroalimentación de alta calidad constituye los datos de entrenamiento más valiosos para escenarios del mundo real.
En contraste, debido a la brecha objetiva en las capacidades básicas, los usuarios de alto valor que más necesitan asistencia de IA, como programadores e investigadores hardcore, están "desertando" en masa.
"Ahora uso principalmente Claude Code y Cursor para programar", dijo Zhang Chi sin rodeos. "Incluso siento que no necesito contratar a tantos estudiantes de doctorado para que me ayuden; puedo tratar completamente a Claude Code y Cursor como mis estudiantes. Puedo ser su mentor y darles instrucciones para que hagan lo que quiero. Pero también estoy en conflicto: si mi generación no forma a nuevas personas, ¿quién continuará la investigación cuando sea mayor?"
Esta elección diaria de un científico de IA chino de primer nivel refleja la cruda realidad: Cuando los mejores desarrolladores chinos, que deberían estar contribuyendo con datos de retroalimentación a los modelos nacionales, están todos usando modelos estadounidenses para aumentar su eficiencia, ¿de dónde obtendrán las empresas chinas de modelos grandes los datos de interacción de alta calidad para optimizar las capacidades de programación y razonamiento?
▸ El Precio de Tomar Atajos: La Inteligencia "Destilada" No Tiene Alma
Si no hay tiempo para pulir la infraestructura y uno se enfrenta a la presión urgente de alcanzar los KPI, ¿qué hacen los gigantes nacionales?
La respuesta es una palabra: Destilación.
Si quieres entrenar un modelo de alta inteligencia, la forma más rigurosa es contratar a expertos de la industria extremadamente profesionales para que escriban datos de razonamiento de alta calidad trazo a trazo, lo cual es caro y lleva mucho tiempo.
Pero hay un atajo: Preguntar directamente a GPT, Claude o Gemini. Después de obtener la respuesta correcta y el proceso de razonamiento, cópialo y aliméntalo a tu propio modelo. Esto se conoce como "destilación" en el círculo de la IA: esencialmente copiar la tarea del mejor estudiante.
Zhang Chi admitió que podríamos ser ya de clase mundial en tecnología de "destilación", pero esto puede no traducirse en una verdadera ventaja a largo plazo. Copiar la tarea puede ayudarte a pasar rápidamente de suspender a aprobar, o incluso a obtener una puntuación de 80, pero nunca puedes convertirte en un verdadero mejor estudiante copiando.
Porque careces de tu propio pipeline de datos profundo. Cuando los modelos extranjeros comienzan a evolucionar de forma autónoma, los "atajos" se convierten en grilletes que atan nuestras capacidades originales.
▸ La Única Confianza Restante: Hardware y el Sueño de la "IA Incorporada"
A pesar de su fuerte pesimismo sobre las perspectivas de alcanzar a los modelos de lenguaje puro grandes, Zhang Chi aún señaló algunas ventajas estructurales en el ecosistema de IA de China.
En su opinión, la ventaja reside en la fabricación. Mencionó a Unitree, que recientemente provocó el debate público, creyendo que China tiene competitividad global en cuerpos de hardware y control de movimiento motor. Con respecto a la actualmente popular "IA Incorporada", la opinión de Zhang Chi es que si tu modelo de lenguaje solo se utiliza para realizar tareas relativamente simples (como agarrar objetos), entonces las capacidades de los modelos chinos grandes existentes son "suficientemente buenas".
Pero también echó un jarro de agua fría: actualmente, la gran mayoría de los fabricantes de robots todavía están atascados en la etapa de "control de movimiento" y no han puesto realmente inteligencia en el cerebro del robot. Una vez que se trata de razonamiento complejo y "manipulación diestra" generalizada, es probable que nos topemos con el mismo techo que enfrentan actualmente los modelos de lenguaje grandes.
▸ ¿Futuro?
Chips limitados, pipelines de datos débiles, infraestructura rezagada, falta de bucles de retroalimentación de usuarios y dependencia excesiva de la destilación: estos problemas combinados no pueden ser resueltos por un solo avance técnico. Afortunadamente, DeepSeek V4 está completamente adaptado a las tarjetas gráficas nacionales. Aunque la capacidad general está algo rezagada, todavía hay esperanza de alcanzarlos una vez que el ecosistema se perfeccione, y sin depender de la destilación.
Enlace al Podcast Original: [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)





