Die Veröffentlichung von DeepSeek V4 hat nicht die gleiche Begeisterung wie im letzten Jahr ausgelöst. Tatsächlich liegen ihre Fähigkeiten im Vergleich zu Claude Sonnet 4.5, das vor sechs Monaten veröffentlicht wurde, in etwa auf dem gleichen Niveau, aber der Abstand ist viel größer als vor sechs Monaten, da Sonnet 4.5 vor einem halben Jahr nur als zweitklassig galt. In den sozialen Medien sehen wir jedoch oft, dass chinesische große Modelle immer schönere Benchmark-Daten produzieren, und Behauptungen wie „nur sechs Monate zurück" oder „im Grunde aufgeholt" sind überall zu hören.
Wie sieht die tatsächliche Situation hinsichtlich der KI-Lücke zwischen China und den USA aus?
Am 22. April sagte Zhang Chi, Assistenzprofessor für KI an der Peking-Universität, im Podcast „Into Asia" die Wahrheit, wie er sie sieht. Zhang Chi ist derzeit Assistenzprofessor an der Peking-Universität und ist kürzlich aus dem Kernteam für große Modelle (Seed LLM) von ByteDance ausgeschieden.
Als F&E-Experte, der wirklich an vorderster Front eines großen Technologieunternehmens gearbeitet hat, ist sein Urteil über die derzeitige heimische KI ziemlich scharf:
„Ich stimme der Ansicht nicht zu, dass chinesische Modelle aufholen. Ich glaube, wir sind noch weit zurück, und diese Lücke könnte sich sogar vergrößern."
▸ Falscher Wohlstand: Alle „pauken für die Prüfung", aber die echte Bewährung fehlt
Nach außen hin liefern sich die Modelle der verschiedenen Technologiegiganten einen erbitterten Kampf auf verschiedenen Benchmarks, wobei die Punktzahlen immer neue Höchstwerte erreichen. Aber intern ist dies nur eine massive „Examensvorbereitung" für große Modelle.
Zhang Chi verriet im Interview, dass die Arbeitsatmosphäre innerhalb von ByteDance (und er vermutet, dass es bei anderen großen Tech-Firmen ähnlich ist) tatsächlich relativ „entspannt" ist (mit einer zweistündigen Mittagspause und etwa 9 tatsächlichen Arbeitsstunden pro Tag), aber jeder steht unter einem impliziten KPI-Druck – Bench-maxing.
Die Führungskräfte achten genau auf die Modellpunktzahlen auf bestimmten Bestenlisten. Wenn das Modul, für das Sie verantwortlich sind, nicht mit den Punktzahlen der führenden US-Modelle übereinstimmt, wird Ihre Leistungsbeurteilung sehr schlecht aussehen.
Ergebnis: Die Daten auf dem Papier sind extrem beeindruckend, aber sobald es an komplexe reale Anwendungen geht, ist die Erfahrung frustrierend.
▸ Die Kluft bei Rechenleistung und Infrastruktur: Drei Monate für andere, vielleicht ein halbes Jahr für uns
Hardware-Engpässe sind eine alte Geschichte, aber die Kettenreaktion, die sie auslösen, ist tiefer, als wir uns vorstellen.
Derzeit verwenden die heimischen Giganten für das Training ihrer Kernmodelle immer noch größtenteils NVIDIA-Chips, die vor dem Verbot eingelagert wurden, oder die konformen H20-Sondereditionen. Glücklicherweise gibt es ab DeepSeek V4 eine vollständige Umstellung auf Huawei Ascend-Grafikkarten, was voraussichtlich das heimische Trainingsökosystem verbessern wird.
Aber die Lücke bei der Rechenleistung spiegelt sich bereits direkt in der „Iterationsgeschwindigkeit" wider.
Zhang Chi erwähnte ein Gerücht aus der Branche: Google braucht jetzt vielleicht nur 3 Monate, um einen vollständigen Durchlauf von Pre-Training und Post-Training für ein großes Sprachmodell abzuschließen. Für heimische Giganten könnte dieser Zyklus, begrenzt durch den Umfang der Rechenleistung und der Infrastruktur, bis zu einem halben Jahr dauern.
Noch versteckter ist die Lücke in der Infrastruktur (Infra). Zhang Chi, der bei Google ein Praktikum absolviert hat, beklagte, dass die zugrunde liegende Infrastruktur dort so gut gemacht sei, dass Forscher nur Code auf einer reibungslosen grafischen Oberfläche schreiben müssten, ohne sich um die zugrunde liegende Architektur kümmern zu müssen. In heimischen Technologiegiganten friert das Training häufig ein oder wirft Fehler aus; diese Reibungskosten verlangsamen unsichtbar das Tempo des Aufholprozesses.
▸ „Die Nutzer verwenden alle US-Modelle; woher sollen wir die Daten zur Verbesserung bekommen?"
Wenn die Rechenleistung das erste Damoklesschwert über der chinesischen KI ist, dann ist aus Zhang Chis Sicht das zweite Schwert – und derzeit das am schwierigsten zu lösende – der Bruch des „Daten-Schwungrads".
Er bot im Interview eine sehr scharfsinnige Einsicht: Führende US-Modelle haben einen positiven Kreislauf etabliert, der extrem schwer zu durchbrechen ist. GPT und Claude haben riesige globale Nutzerbasen. Diese Nutzer verwenden die Modelle in der tatsächlichen Arbeit und bewerten die Ergebnisse mit „Gefällt mir" oder „Gefällt mir nicht". Dieses hochwertige Feedback stellt die wertvollsten Trainingsdaten für reale Szenarien dar.
Im Gegensatz dazu laufen aufgrund der objektiven Lücke bei den grundlegenden Fähigkeiten die hochwertigen Nutzer, die KI-Unterstützung am dringendsten benötigen – wie Programmierer und Hardcore-Forscher – in Scharen davon.
„Ich verwende jetzt hauptsächlich Claude Code und Cursor zum Programmieren", sagte Zhang Chi unverblümt. „Ich habe sogar das Gefühl, dass ich nicht so viele Doktoranden einstellen muss, die mir helfen; ich kann Claude Code und Cursor vollständig als meine Studenten betrachten. Ich kann sie betreuen und ihnen Anweisungen geben, um das zu tun, was ich will. Aber ich bin auch zwiegespalten: Wenn meine Generation keine neuen Leute ausbildet, wer wird dann die Forschung fortsetzen, wenn ich alt bin?"
Diese alltägliche Wahl eines führenden chinesischen KI-Wissenschaftlers spiegelt die kalte Realität wider: Wenn die besten chinesischen Entwickler, die eigentlich Feedback-Daten zu heimischen Modellen beitragen sollten, alle US-Modelle verwenden, um ihre Effizienz zu steigern, woher sollen dann die chinesischen Unternehmen für große Modelle die hochwertigen Interaktionsdaten zur Optimierung der Programmier- und Denkfähigkeiten bekommen?
▸ Der Preis von Abkürzungen: „Destillierte" Intelligenz hat keine Seele
Wenn keine Zeit bleibt, die Infrastruktur zu verbessern, und man dem dringenden Druck ausgesetzt ist, KPIs zu erreichen, was tun dann die heimischen Giganten?
Die Antwort ist ein Wort: Destillation.
Wenn man ein Modell mit hoher Intelligenz trainieren will, ist der härteste Weg, extrem professionelle Branchenexperten einzustellen, die hochwertige Reasoning-Daten Strich für Strich schreiben. Das ist sowohl teuer als auch zeitaufwändig.
Aber es gibt eine Abkürzung: Fragen Sie direkt GPT, Claude oder Gemini. Nachdem Sie die richtige Antwort und den Reasoning-Prozess erhalten haben, kopieren Sie sie und füttern Sie Ihr eigenes Modell damit. Dies wird im KI-Bereich als „Destillation" bezeichnet – im Wesentlichen das Abschreiben der Hausaufgaben des besten Schülers.
Zhang Chi gab zu, dass wir in der „Destillations"-Technologie möglicherweise bereits weltweit führend sind, aber dies könnte sich langfristig nicht in einen echten Vorteil verwandeln. Das Abschreiben von Hausaufgaben kann Ihnen helfen, schnell von „durchgefallen" auf „bestanden" oder sogar auf eine Note von 80 zu kommen, aber Sie können niemals ein echter Top-Schüler werden, indem Sie abschreiben.
Weil Ihnen Ihre eigene tiefe Daten-Pipeline fehlt. Wenn ausländische Modelle beginnen, sich autonom zu entwickeln, werden „Abkürzungen" stattdessen zu Fesseln, die unsere ursprünglichen Fähigkeiten binden.
▸ Das einzige verbleibende Vertrauen: Hardware und der Traum von der „verkörperten KI"
Trotz seines starken Pessimismus hinsichtlich der Aussichten, bei reinen großen Sprachmodellen aufzuholen, wies Zhang Chi dennoch auf einige strukturelle Vorteile im chinesischen KI-Ökosystem hin.
Seiner Ansicht nach liegt der Vorteil in der Fertigung. Er erwähnte Unitree, das kürzlich öffentliche Diskussionen ausgelöst hat, und glaubt, dass China bei Hardware-Körpern und Motor-Bewegungssteuerung weltweit wettbewerbsfähig ist. In Bezug auf die derzeit heiße „verkörperte KI" ist Zhang Chis Ansicht, dass, wenn Ihr Sprachmodell nur verwendet wird, um relativ einfache Aufgaben auszuführen (wie das Greifen von Objekten), die Fähigkeiten der bestehenden chinesischen großen Modelle „gut genug" sind.
Aber er goss auch kaltes Wasser auf: Derzeit stecken die allermeisten Roboterhersteller immer noch im Stadium der „Bewegungssteuerung" fest und haben nicht wirklich Intelligenz in das Gehirn des Roboters eingebaut. Sobald komplexes Reasoning und generalisierte „geschickte Manipulation" ins Spiel kommen, werden wir wahrscheinlich auf die gleiche Obergrenze stoßen, mit der große Sprachmodelle derzeit konfrontiert sind.
▸ Zukunft?
Begrenzte Chips, schwache Daten-Pipelines, rückständige Infrastruktur, fehlende Nutzer-Feedback-Schleifen und übermäßige Abhängigkeit von Destillation – diese Probleme zusammen können nicht durch einen einzigen technologischen Durchbruch gelöst werden. Glücklicherweise ist DeepSeek V4 vollständig an heimische Grafikkarten angepasst. Obwohl die Gesamtfähigkeit etwas zurückliegt, besteht dennoch Hoffnung auf Aufholen, sobald das Ökosystem perfektioniert ist, und ohne auf Destillation angewiesen zu sein.
Original-Podcast-Link: [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)





