DeepSeek V4 のリリースは、昨年のような熱狂を引き起こしませんでした。実際、6 ヶ月前にリリースされた Claude Sonnet 4.5 と比較すると、その能力はおおよそ同じレベルですが、その差は 6 ヶ月前よりもはるかに大きくなっています。なぜなら、Sonnet 4.5 は半年前には二線級と見なされていたからです。しかし、ソーシャルメディアの記事では、中国の大規模モデルがますます美しいベンチマークデータを生み出し、「あと 6 ヶ月」や「基本的に追いついた」という主張があちこちで聞かれます。
米中間の AI ギャップの実態はどうなっているのでしょうか?
4 月 22 日、ポッドキャスト「Into Asia」において、北京大学の AI 准教授である張馳氏が、自身の見解として真実を語りました。張馳氏は現在北京大学の准教授であり、最近 ByteDance のコア大規模モデルチーム(Seed LLM)を退職しました。
大手テクノロジー企業の最前線で実際に研究開発に携わってきたプロフェッショナルとして、彼の現在の国内 AI に対する評価はかなり辛辣です。
「私は、中国のモデルが追いついているという見方には同意しません。私たちはまだ大きく遅れをとっており、その差は広がっている可能性さえあると信じています。」
▸ 偽りの繁栄:誰もが「試験対策」に忙しく、実戦が不足している
外部から見ると、各テクノロジー大手のモデルは様々なベンチマークで激しい戦いを繰り広げ、スコアは次々と新記録を更新しています。しかし内部では、これは大規模モデルに対する巨大な「受験教育」に過ぎません。
張馳氏はインタビューで、ByteDance 内部(そして彼は他の大手テクノロジー企業も同様だと推測している)では、実際の労働環境は比較的「のんびり」している(昼休みは 2 時間、実働時間は 1 日約 9 時間)ものの、誰もが暗黙の KPI プレッシャー、すなわち Bench-maxing に直面していると明かしました。
リーダーたちは、特定のリーダーボードにおけるモデルのスコアを非常に気にしています。自分が担当するモジュールが、米国の主要モデルのスコアに及ばなければ、業績評価は非常に悪いものになります。
結果:紙の上のデータは極めて華やかですが、複雑な実世界のアプリケーションに投入されると、その体験は苛立たしいものになります。
▸ 計算資源とインフラの断絶:向こうは 3 ヶ月、こちらは半年かもしれない
ハードウェアのボトルネックは今に始まった話ではありませんが、それが引き起こす連鎖反応は、私たちが想像するよりも深いものです。
現在、国内大手が中核モデルの訓練に使用しているものの多くは、依然として禁輸前に備蓄された NVIDIA チップか、規制に準拠した H20 特別版です。幸い、DeepSeek V4 からは、全面的に Huawei Ascend グラフィックカードへの移行が行われており、国内の訓練エコシステムの改善が期待されています。
しかし、計算能力の差はすでに「反復速度」に直接現れています。
張馳氏は業界の噂を一つ挙げました。Google は現在、大規模言語モデルの事前学習と事後学習の全ラウンドを完了するのに、わずか 3 ヶ月しか必要としないかもしれません。国内大手の場合、計算能力の規模とインフラに制限され、このサイクルは半年にも及ぶ可能性があります。
さらに隠れた部分は、インフラストラクチャ(Infra) の差です。Google でインターン経験のある張馳氏は、そこでの基盤インフラは非常に優れており、研究者はスムーズなグラフィカルインターフェース上でコードを書くだけで、基盤となるアーキテクチャを気にする必要がないと嘆きました。国内のテクノロジー大手では、訓練中に頻繁にフリーズしたりエラーが発生したりします。これらの摩擦コストは、目に見えない形で追いつくペースを遅らせています。
▸「ユーザーは皆、米国のモデルを使っている。改善のためのデータはどこから得るのか?」
計算能力が中国の AI にのしかかる第一の剣だとすれば、張馳氏の見解では、第二の剣、そして現在最も解決が難しいのは、「データの好循環」の断絶です。
彼はインタビューで非常に鋭い洞察を述べました。米国の主要モデルは、克服することが極めて難しい正のサイクルを確立しています。 GPT と Claude は膨大なグローバルユーザーベースを持っています。これらのユーザーは実際の業務でモデルを使用し、結果に対して「いいね」や「よくないね」を付けます。この高品質なフィードバックこそが、実世界のシナリオにおける最も貴重な訓練データとなります。
対照的に、基本能力の客観的なギャップにより、AI 支援を最も必要とする高価値ユーザー、例えば プログラマーやハードコアな研究者 は、「大量離脱」 しています。
「私は今、主に Claude Code と Cursor を使ってプログラミングしています」と張馳氏は率直に語ります。「博士課程の学生をたくさん雇って手伝ってもらう必要すら感じません。Claude Code と Cursor を完全に自分の学生として扱えます。彼らを指導し、指示を与えてやりたいことをさせることができます。しかし、同時に矛盾も感じています。もし私の世代が新しい人材を育成しなければ、私が年を取ったときに誰が研究を継続するのでしょうか?」
中国のトップ AI 科学者によるこの日常的な選択は、冷厳な現実を反映しています。フィードバックデータを国内モデルに提供すべきトップクラスの中国の開発者が、皆、米国のモデルを使って効率を上げているとしたら、中国の大規模言語モデル企業は、プログラミングと推論能力を最適化するための高品質なインタラクションデータをどこから得るのでしょうか?
▸ 近道の代償:「蒸留」された知性には魂がない
インフラを磨く時間がなく、KPI に追いつくという緊急のプレッシャーに直面した場合、国内大手はどうするのでしょうか?
答えは一言です。蒸留(Distillation)。
高インテリジェンスなモデルを訓練したい場合、最もハードコアな方法は、非常に専門的な業界の専門家を雇い、高品質な推論データを一から書き上げることです。これは費用がかかり、時間もかかります。
しかし、近道があります。GPT、Claude、または Gemini に直接尋ねることです。 正しい答えと推論プロセスを得た後、それをコピーして自分のモデルに与えます。これは AI 業界では「蒸留」として知られており、本質的にはトップの学生の宿題をコピーすることです。
張馳氏は、私たちは「蒸留」技術においてはすでに世界クラスかもしれないが、長期的にはこれは真のアドバンテージにはならないかもしれないと認めています。宿題をコピーすれば、不合格から合格、あるいは 80 点にまで素早く到達できますが、コピーによって真のトップスカラーになることは決してできません。
なぜなら、あなたには独自の深いデータパイプラインが欠けているからです。海外のモデルが自律的に進化し始めたとき、「近道」はむしろ、私たちの本来の能力を縛る枷となります。
▸ 残された唯一の自信:ハードウェアと「具現化 AI」の夢
純粋な大規模言語モデルにおける追いつきの見通しについて強い悲観論を持ちながらも、張馳氏は中国の AI エコシステムにおけるいくつかの構造的優位性を指摘しました。
彼の見解では、優位性は 製造業 にあります。彼は最近話題になった Unitree に言及し、中国はハードウェアのボディとモーターのモーションコントロールにおいて世界的な競争力を持っていると述べました。現在ホットな「具現化 AI」について、張馳氏の見解は、もし言語モデルが比較的単純なタスク(例えば物を掴むこと)を実行するためだけに使われるのであれば、既存の中国の大規模モデルの能力で「十分に良い」というものです。
しかし、彼は冷水も浴びせました。現在、ロボットメーカーの大部分は依然として「モーションコントロール」の段階に留まっており、真の知能をロボットの頭脳に搭載していません。複雑な推論や汎用的な「巧みな操作」が関わってくると、私たちは大規模言語モデルが現在直面しているのと同じ天井にぶつかる可能性が高いのです。
▸ 未来は?
限られたチップ、弱いデータパイプライン、遅れたインフラ、ユーザーフィードバックループの欠如、そして蒸留への過度の依存。これらの問題が組み合わさると、単一の技術的ブレークスルーでは解決できません。幸い、DeepSeek V4 は国内のグラフィックカードに完全に対応しています。全体的な能力はやや劣るものの、エコシステムが完成し、蒸留に依存しなければ、追いつく希望はまだあります。
元のポッドキャストリンク:[https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)





