El lanzamiento de DeepSeek V4 no replicó el frenesí del año pasado. De hecho, en comparación con Claude Sonnet 4.5, lanzado hace seis meses, sus capacidades están más o menos en el mismo nivel, pero la brecha es mucho mayor que hace seis meses porque Sonnet 4.5 solo se consideraba de segunda categoría hace medio año. Sin embargo, en artículos de redes sociales, vemos a menudo que los grandes modelos chinos producen datos de referencia cada vez más impresionantes, con afirmaciones de "solo seis meses de retraso" o "básicamente alcanzados" que se escuchan por todas partes.
¿Cuál es la situación real con respecto a la brecha de IA entre China y Estados Unidos?
El 22 de abril, en el podcast "Into Asia", Zhang Chi, profesor asistente de IA en la Universidad de Pekín, dijo la verdad tal como la ve. Zhang Chi es actualmente profesor asistente en la Universidad de Pekín y recientemente renunció al equipo central de modelos grandes de ByteDance (Seed LLM).
Como profesional de I+D que ha trabajado realmente en las líneas del frente de una gran empresa tecnológica, su juicio sobre la IA nacional actual es bastante mordaz:
"No estoy de acuerdo con la opinión de que los modelos chinos están alcanzando. Creo que todavía estamos muy rezagados, y esta brecha podría estar ampliándose."
▸ Falsa Prosperidad: Todos "Enseñan para el Examen", pero Falta Combate Real
Para el mundo exterior, los modelos de varios gigantes tecnológicos están en una feroz batalla en diversos puntos de referencia, con puntuaciones que alcanzan nuevos máximos repetidamente. Pero internamente, esto es solo una enorme "educación orientada a exámenes" para los modelos grandes.
Zhang Chi reveló en la entrevista que dentro de ByteDance (y sospecha que en otras grandes empresas tecnológicas es similar), el ambiente de trabajo es en realidad relativamente "tranquilo" (con un descanso para almorzar de dos horas y aproximadamente 9 horas de trabajo real al día), pero todos se enfrentan a una presión KPI implícita: Bench-maxing.
Los líderes prestan mucha atención a las puntuaciones de los modelos en tablas de clasificación específicas. Si el módulo del que eres responsable no coincide con las puntuaciones de los modelos estadounidenses líderes, tu evaluación de rendimiento se verá muy mal.
Resultado: Los datos en el papel son extremadamente brillantes, pero una vez que se aplican a aplicaciones complejas del mundo real, la experiencia es frustrante.
▸ La Brecha en Cómputo e Infraestructura: Tres Meses para Otros, Quizás Medio Año para Nosotros
Los cuellos de botella de hardware son una historia antigua, pero la reacción en cadena que causan es más profunda de lo que imaginamos.
Actualmente, una gran parte de lo que los gigantes nacionales usan para entrenar sus modelos principales sigue siendo chips NVIDIA acumulados antes de la prohibición, o las ediciones especiales H20 compatibles. Afortunadamente, a partir de DeepSeek V4, hay una transición completa a las tarjetas gráficas Huawei Ascend, lo que se espera que mejore el ecosistema de entrenamiento nacional.
Pero la brecha en capacidad de cómputo ya se refleja directamente en la "velocidad de iteración".
Zhang Chi mencionó un rumor de la industria: Google podría ahora necesitar solo 3 meses para completar una ronda completa de pre-entrenamiento y post-entrenamiento para un modelo de lenguaje grande. Para los gigantes nacionales, limitados por la escala de la capacidad de cómputo y la infraestructura, este ciclo podría ser de hasta medio año.
Más oculta está la brecha en infraestructura (Infra). Zhang Chi, quien hizo prácticas en Google, lamentó que la infraestructura subyacente allí está tan bien hecha que los investigadores solo necesitan escribir código en una interfaz gráfica fluida sin preocuparse por la arquitectura subyacente. En los gigantes tecnológicos nacionales, el entrenamiento se congela o da errores con frecuencia; estos costos de fricción están frenando invisiblemente el ritmo de la recuperación.
▸ "Los usuarios están usando todos modelos estadounidenses; ¿de dónde sacaremos los datos para mejorar?"
Si la capacidad de cómputo es la primera espada que pende sobre la IA china, entonces, en opinión de Zhang Chi, la segunda espada, y actualmente la más irresoluble, es la ruptura del "volante de datos".
Ofreció una visión muy aguda en la entrevista: Los modelos estadounidenses líderes han establecido un ciclo positivo que es extremadamente difícil de superar. GPT y Claude tienen bases masivas de usuarios globales. Estos usuarios utilizan los modelos en el trabajo real y dan "me gusta" o "no me gusta" a los resultados. Esta retroalimentación de alta calidad constituye los datos de entrenamiento más valiosos para escenarios del mundo real.
En contraste, debido a la brecha objetiva en las capacidades básicas, los usuarios de alto valor que más necesitan asistencia de IA, como programadores e investigadores avanzados, están "desertando" en masa.
"Ahora uso principalmente Claude Code y Cursor para programar", dijo Zhang Chi sin rodeos. "Incluso siento que no necesito contratar a tantos estudiantes de doctorado para que me ayuden; puedo tratar completamente a Claude Code y Cursor como mis estudiantes. Puedo guiarlos y darles instrucciones para que hagan lo que quiero. Pero también estoy en conflicto: si mi generación no forma a nuevas personas, ¿quién continuará la investigación cuando sea mayor?"
Esta elección diaria de un científico de IA chino de primer nivel refleja la cruda realidad: Cuando los mejores desarrolladores chinos, que deberían estar aportando datos de retroalimentación a los modelos nacionales, están usando todos modelos estadounidenses para aumentar su eficiencia, ¿de dónde obtendrán las empresas chinas de modelos grandes los datos de interacción de alta calidad para optimizar las capacidades de programación y razonamiento?
▸ El Precio de Tomar Atajos: La Inteligencia "Destilada" No Tiene Alma
Si no hay tiempo para pulir la infraestructura y uno se enfrenta a la presión urgente de alcanzar los KPI, ¿qué hacen los gigantes nacionales?
La respuesta es una palabra: Destilación.
Si quieres entrenar un modelo de alta inteligencia, la forma más rigurosa es contratar expertos de la industria extremadamente profesionales para escribir datos de razonamiento de alta calidad paso a paso, lo cual es caro y lleva mucho tiempo.
Pero hay un atajo: Preguntar directamente a GPT, Claude o Gemini. Después de obtener la respuesta correcta y el proceso de razonamiento, cópialo y dáselo a tu propio modelo. Esto se conoce como "destilación" en el círculo de la IA, esencialmente copiar la tarea del mejor estudiante.
Zhang Chi admitió que podríamos ser ya de clase mundial en tecnología de "destilación", pero esto puede no traducirse en una verdadera ventaja a largo plazo. Copiar la tarea puede ayudarte a pasar rápidamente de reprobar a aprobar, o incluso a obtener una puntuación de 80, pero nunca puedes convertirte en un verdadero mejor estudiante copiando.
Porque careces de tu propio pipeline de datos profundo. Cuando los modelos extranjeros comienzan a evolucionar de forma autónoma, los "atajos" se convierten en cadenas que atan nuestras capacidades originales.
▸ La Única Confianza Restante: Hardware y el Sueño de la "IA Incorporada"
A pesar de su fuerte pesimismo sobre las perspectivas de alcanzar en modelos de lenguaje puramente grandes, Zhang Chi aún señaló algunas ventajas estructurales en el ecosistema de IA de China.
En su opinión, la ventaja radica en la fabricación. Mencionó a Unitree, que recientemente provocó debate público, creyendo que China tiene competitividad global en cuerpos de hardware y control de movimiento motor. Con respecto a la actualmente popular "IA Incorporada", la opinión de Zhang Chi es que si tu modelo de lenguaje solo se usa para realizar tareas relativamente simples (como agarrar objetos), entonces las capacidades de los modelos grandes chinos existentes son "suficientemente buenas".
Pero también echó agua fría: actualmente, la gran mayoría de los fabricantes de robots todavía están atascados en la etapa de "control de movimiento" y no han puesto realmente inteligencia en el cerebro del robot. Una vez que se trata de razonamiento complejo y "manipulación diestra" generalizada, es probable que nos topemos con el mismo techo que enfrentan actualmente los modelos de lenguaje grandes.
▸ ¿Futuro?
Chips limitados, pipelines de datos débiles, infraestructura rezagada, falta de bucles de retroalimentación de usuarios y dependencia excesiva de la destilación: estos problemas combinados no pueden resolverse con un solo avance técnico. Afortunadamente, DeepSeek V4 está completamente adaptado a las tarjetas gráficas nacionales. Aunque la capacidad general está algo rezagada, todavía hay esperanza de alcanzarlos una vez que el ecosistema se perfeccione, y sin depender de la destilación.
Enlace al Podcast Original: [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)





