O verdadeiro abismo na IA chinesa pode estar aumentando: insights de um ex-pesquisador da ByteDance

@Gorden_Sun
CHINÊShá 2 meses · 26 de abr. de 2026
217K
465
92
43
625

TL;DR

O professor da Universidade de Pequim, Zhang Chi, explica como o 'bench-maxing' e a falta de feedback de alta qualidade dos usuários estão prejudicando o desenvolvimento da IA chinesa, forçando as empresas a dependerem da 'destilação' de modelos dos EUA em vez de inovar.

O lançamento do DeepSeek V4 não repetiu a euforia do ano passado. Na verdade, comparado ao Claude Sonnet 4.5 lançado há seis meses, suas capacidades estão aproximadamente no mesmo nível, mas a diferença é muito maior do que seis meses porque o Sonnet 4.5 era considerado apenas de segundo escalão há meio ano. No entanto, em artigos de redes sociais, vemos frequentemente modelos chineses produzindo dados de benchmark cada vez mais bonitos, com alegações de "apenas seis meses de atraso" ou "praticamente alcançamos" sendo ouvidas por toda parte.

Qual é a situação real em relação à lacuna de IA entre a China e os EUA?

Em 22 de abril, no podcast "Into Asia", Zhang Chi, professor assistente de IA na Universidade de Pequim, contou a verdade como ele a vê. Zhang Chi é atualmente professor assistente na Universidade de Pequim e recentemente se demitiu da equipe principal de modelos grandes da ByteDance (Seed LLM).

Como profissional de P&D que realmente trabalhou na linha de frente de uma grande empresa de tecnologia, seu julgamento sobre a IA doméstica atual é bastante contundente:

"Não concordo com a visão de que os modelos chineses estão alcançando. Acredito que ainda estamos muito atrás, e essa lacuna pode estar aumentando."

▸ Prosperidade Falsa: Todo Mundo Está "Ensinando para a Prova", mas Falta Combate Real

Para o mundo exterior, os modelos de várias gigantes de tecnologia estão em uma batalha feroz em vários benchmarks, com pontuações atingindo novos recordes repetidamente. Mas internamente, isso é apenas um enorme "ensino voltado para exames" para modelos grandes.

Zhang Chi revelou na entrevista que dentro da ByteDance (e ele suspeita que outras grandes empresas de tecnologia são semelhantes), o ambiente de trabalho é relativamente "tranquilo" (com pausa para almoço de duas horas e cerca de 9 horas de trabalho efetivo por dia), mas todos enfrentam uma pressão implícita de KPI — Bench-maxing.

Os líderes prestam muita atenção às pontuações dos modelos em rankings específicos. Se o módulo pelo qual você é responsável não corresponder às pontuações dos principais modelos dos EUA, sua avaliação de desempenho será muito ruim.

Resultado: Os dados no papel são extremamente bonitos, mas quando se trata de aplicações complexas do mundo real, a experiência é frustrante.

▸ O Abismo em Computação e Infraestrutura: Três Meses para Uns, Talvez Seis Meses para Nós

Gargalos de hardware são uma história antiga, mas a reação em cadeia que eles causam é mais profunda do que imaginamos.

Atualmente, grande parte do que as gigantes domésticas usam para treinar seus modelos principais ainda são chips NVIDIA estocados antes da proibição, ou as edições especiais H20 em conformidade. Felizmente, começando com o DeepSeek V4, há uma transição completa para as placas gráficas Huawei Ascend, o que deve melhorar o ecossistema de treinamento doméstico.

Mas a lacuna em poder computacional já se reflete diretamente na "velocidade de iteração".

Zhang Chi mencionou um rumor da indústria: o Google pode agora precisar de apenas 3 meses para completar um ciclo completo de pré-treinamento e pós-treinamento para um modelo de linguagem grande. Para as gigantes domésticas, limitadas pela escala de poder computacional e infraestrutura, esse ciclo pode chegar a seis meses.

Mais oculta é a lacuna em infraestrutura (Infra). Zhang Chi, que estagiou no Google, lamentou que a infraestrutura subjacente lá é tão bem-feita que os pesquisadores só precisam escrever código em uma interface gráfica suave, sem se preocupar com a arquitetura subjacente. Nas gigantes de tecnologia domésticas, o treinamento frequentemente congela ou gera erros; esses custos de atrito estão invisivelmente diminuindo o ritmo de recuperação.

▸ "Os usuários estão todos usando modelos dos EUA; onde vamos conseguir os dados para melhorar?"

Se o poder computacional é a primeira espada pairando sobre a IA chinesa, então, na visão de Zhang Chi, a segunda espada — e atualmente a mais insolúvel — é a ruptura do "ciclo virtuoso dos dados".

Ele ofereceu uma visão muito perspicaz na entrevista: Os principais modelos dos EUA estabeleceram um ciclo positivo extremamente difícil de superar. GPT e Claude têm enormes bases de usuários globais. Esses usuários usam os modelos no trabalho real e "curtem" ou "não curtem" os resultados. Esse feedback de alta qualidade constitui os dados de treinamento mais preciosos para cenários do mundo real.

Em contraste, devido à lacuna objetiva nas capacidades básicas, os usuários de alto valor que mais precisam de assistência de IA — como programadores e pesquisadores hardcore — estão "migrando" em massa.

"Atualmente, uso principalmente Claude Code e Cursor para programar", disse Zhang Chi diretamente. "Sinto até que não preciso contratar tantos alunos de doutorado para me ajudar; posso tratar completamente o Claude Code e o Cursor como meus alunos. Posso orientá-los e dar instruções para fazerem o que quero. Mas também fico em conflito: se minha geração não treinar novas pessoas, quem continuará a pesquisa quando eu estiver velho?"

Essa escolha diária de um dos principais cientistas de IA chineses reflete a realidade fria: Quando os melhores desenvolvedores chineses, que deveriam estar contribuindo com dados de feedback para modelos domésticos, estão todos usando modelos dos EUA para aumentar a produtividade, onde as empresas chinesas de modelos grandes obterão os dados de interação de alta qualidade para otimizar as capacidades de programação e raciocínio?

▸ O Preço de Atalhos: Inteligência "Destilada" Não Tem Alma

Se não há tempo para aperfeiçoar a infraestrutura e se enfrenta a pressão urgente de alcançar KPIs, o que as gigantes domésticas fazem?

A resposta é uma palavra: Destilação.

Se você quer treinar um modelo de alta inteligência, o caminho mais difícil é contratar especialistas da indústria extremamente profissionais para escrever dados de raciocínio de alta qualidade, traço por traço, o que é caro e demorado.

Mas há um atalho: Pergunte diretamente ao GPT, Claude ou Gemini. Depois de obter a resposta correta e o processo de raciocínio, copie e alimente seu próprio modelo. Isso é conhecido como "destilação" no círculo de IA — essencialmente copiar o dever de casa do melhor aluno.

Zhang Chi admitiu que podemos já ser de classe mundial em tecnologia de "destilação", mas isso pode não se traduzir em uma verdadeira vantagem a longo prazo. Copiar o dever de casa pode ajudá-lo a passar rapidamente de reprovado para aprovado, ou até mesmo para uma nota 80, mas você nunca se tornará um verdadeiro aluno de topo copiando.

Porque você não tem seu próprio pipeline de dados profundo. Quando os modelos estrangeiros começam a evoluir de forma autônoma, os "atalhos" se tornam correntes que prendem nossas capacidades originais.

▸ A Única Confiança Restante: Hardware e o Sonho da "IA Incorporada"

Apesar de seu forte pessimismo sobre as perspectivas de alcançar modelos puros de linguagem grande, Zhang Chi ainda apontou algumas vantagens estruturais no ecossistema de IA da China.

Em sua opinião, a vantagem está na manufatura. Ele mencionou a Unitree, que recentemente gerou discussão pública, acreditando que a China tem competitividade global em corpos de hardware e controle de movimento motor. Sobre a "IA Incorporada" atualmente em alta, a visão de Zhang Chi é que, se seu modelo de linguagem é usado apenas para realizar tarefas relativamente simples (como agarrar objetos), então as capacidades dos modelos chineses existentes são "boas o suficiente".

Mas ele também jogou água fria: atualmente, a grande maioria dos fabricantes de robôs ainda está presa no estágio de "controle de movimento" e não colocou verdadeiramente inteligência no cérebro do robô. Uma vez que envolvam raciocínio complexo e "manipulação hábil" generalizada, é provável que encontremos o mesmo teto que os modelos de linguagem grande enfrentam atualmente.

▸ Futuro?

Chips limitados, pipelines de dados fracos, infraestrutura atrasada, falta de ciclos de feedback do usuário e dependência excessiva de destilação — esses problemas combinados não podem ser resolvidos por um único avanço técnico. Felizmente, o DeepSeek V4 está totalmente adaptado às placas gráficas domésticas. Embora a capacidade geral esteja um pouco atrasada, ainda há esperança de alcançar uma vez que o ecossistema seja aperfeiçoado, e sem depender de destilação.

Link do Podcast Original: [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais