Khoảng cách thực sự trong lĩnh vực AI tại Trung Quốc có thể đang nới rộng: Góc nhìn từ một cựu nghiên cứu viên tại ByteDance

Việc phát hành DeepSeek V4 không tạo nên cơn sốt như năm ngoái. Thực tế, so với Claude Sonnet 4.5 được phát hành sáu tháng trước, khả năng của chúng gần như tương đương, nhưng khoảng cách lại lớn hơn nhiều so với sáu tháng trước vì Sonnet 4.5 chỉ được coi là hạng hai cách đây nửa năm. Tuy nhiên, trên các bài báo mạng xã hội, chúng ta thường thấy các mô hình lớn của Trung Quốc tạo ra dữ liệu benchmark ngày càng đẹp, với những tuyên bố như "chỉ chậm hơn sáu tháng" hoặc "về cơ bản đã bắt kịp" được nghe thấy ở khắp mọi nơi.

Thực tế về khoảng cách AI giữa Trung Quốc và Mỹ là gì?

Vào ngày 22 tháng 4, trong podcast "Into Asia", Zhang Chi, trợ lý giáo sư AI tại Đại học Bắc Kinh, đã nói ra sự thật như anh ấy thấy. Zhang Chi hiện là trợ lý giáo sư tại Đại học Bắc Kinh và gần đây đã từ chức khỏi nhóm mô hình lớn cốt lõi (Seed LLM) của ByteDance.

Là một chuyên gia R&D đã thực sự làm việc ở tuyến đầu của một công ty công nghệ lớn, nhận định của anh ấy về AI trong nước hiện tại khá gay gắt:

"Tôi không đồng ý với quan điểm cho rằng các mô hình Trung Quốc đang bắt kịp. Tôi tin rằng chúng ta vẫn còn tụt hậu xa, và khoảng cách này có thể đang ngày càng lớn hơn."

▸ Sự Thịnh Vượng Giả Tạo: Mọi Người Đều "Dạy Để Thi", Nhưng Thiếu Thực Chiến

Đối với thế giới bên ngoài, các mô hình từ nhiều gã khổng lồ công nghệ đang tham gia vào một cuộc chiến khốc liệt trên nhiều benchmark khác nhau, với điểm số liên tục đạt mức cao mới. Nhưng bên trong, đây chỉ là một "nền giáo dục định hướng thi cử" khổng lồ dành cho các mô hình lớn.

Zhang Chi tiết lộ trong cuộc phỏng vấn rằng bên trong ByteDance (và anh ấy nghi ngờ các công ty công nghệ lớn khác cũng tương tự), bầu không khí làm việc thực tế khá "thoải mái" (nghỉ trưa hai tiếng và khoảng 9 giờ làm việc thực tế mỗi ngày), nhưng mọi người đều phải đối mặt với áp lực KPI ngầm—Bench-maxing.

Các nhà lãnh đạo theo dõi sát sao điểm số của mô hình trên các bảng xếp hạng cụ thể. Nếu mô-đun bạn phụ trách không khớp với điểm số của các mô hình hàng đầu của Mỹ, đánh giá hiệu suất của bạn sẽ rất tệ.

Kết quả: Dữ liệu trên giấy tờ cực kỳ đẹp, nhưng một khi áp dụng vào các ứng dụng thực tế phức tạp, trải nghiệm lại rất thất vọng.

▸ Khoảng Cách Về Tính Toán và Cơ Sở Hạ Tầng: Ba Tháng Cho Người Khác, Có Thể Nửa Năm Cho Chúng Ta

Nút thắt phần cứng là câu chuyện cũ, nhưng phản ứng dây chuyền mà nó gây ra sâu sắc hơn chúng ta tưởng tượng.

Hiện tại, phần lớn những gì các gã khổng lồ trong nước sử dụng để huấn luyện các mô hình cốt lõi của họ vẫn là chip NVIDIA dự trữ trước lệnh cấm, hoặc phiên bản đặc biệt H20 tuân thủ. May mắn thay, bắt đầu với DeepSeek V4, đã có sự chuyển đổi hoàn toàn sang card đồ họa Huawei Ascend, dự kiến sẽ cải thiện hệ sinh thái đào tạo trong nước.

Nhưng khoảng cách về sức mạnh tính toán đã được phản ánh trực tiếp vào "tốc độ lặp lại."

Zhang Chi đề cập đến một tin đồn trong ngành: Google hiện có thể chỉ cần 3 tháng để hoàn thành một vòng đầy đủ quá trình tiền huấn luyện và hậu huấn luyện cho một mô hình ngôn ngữ lớn. Đối với các gã khổng lồ trong nước, bị giới hạn bởi quy mô sức mạnh tính toán và cơ sở hạ tầng, chu kỳ này có thể kéo dài tới nửa năm.

Điều ẩn giấu hơn nữa là khoảng cách về cơ sở hạ tầng (Infra). Zhang Chi, người từng thực tập tại Google, than thở rằng cơ sở hạ tầng cơ bản ở đó được xây dựng tốt đến mức các nhà nghiên cứu chỉ cần viết mã trên giao diện đồ họa mượt mà mà không cần lo lắng về kiến trúc cơ bản. Trong các gã khổng lồ công nghệ trong nước, việc huấn luyện thường xuyên bị đóng băng hoặc báo lỗi; những chi phí ma sát này đang âm thầm làm chậm nhịp độ bắt kịp.

▸ "Người dùng đều đang sử dụng mô hình Mỹ; chúng ta lấy đâu ra dữ liệu để cải thiện?"

Nếu sức mạnh tính toán là thanh kiếm đầu tiên treo lơ lửng trên đầu AI Trung Quốc, thì theo quan điểm của Zhang Chi, thanh kiếm thứ hai—và hiện tại là vấn đề khó giải quyết nhất—chính là sự đứt gãy của "vòng xoáy dữ liệu."

Anh ấy đưa ra một nhận định rất sắc bén trong cuộc phỏng vấn: Các mô hình hàng đầu của Mỹ đã thiết lập một vòng tuần hoàn tích cực cực kỳ khó vượt qua. GPT và Claude có cơ sở người dùng toàn cầu khổng lồ. Những người dùng này sử dụng các mô hình trong công việc thực tế và "thích" hoặc "không thích" kết quả. Phản hồi chất lượng cao này tạo nên dữ liệu huấn luyện quý giá nhất cho các tình huống thực tế.

Ngược lại, do khoảng cách khách quan về khả năng cơ bản, những người dùng có giá trị cao, những người cần sự trợ giúp của AI nhất—chẳng hạn như lập trình viên và nhà nghiên cứu chuyên sâu—đang "đào tẩu" hàng loạt.

"Tôi hiện chủ yếu sử dụng Claude Code và Cursor để lập trình," Zhang Chi thẳng thắn nói. "Tôi thậm chí còn cảm thấy mình không cần tuyển quá nhiều nghiên cứu sinh tiến sĩ để giúp mình; tôi hoàn toàn có thể coi Claude Code và Cursor như sinh viên của mình. Tôi có thể hướng dẫn chúng và giao cho chúng làm những gì tôi muốn. Nhưng tôi cũng mâu thuẫn: nếu thế hệ của tôi không đào tạo người mới, ai sẽ tiếp tục nghiên cứu khi tôi già đi?"

Sự lựa chọn hàng ngày này của một nhà khoa học AI hàng đầu Trung Quốc phản ánh thực tế lạnh lùng: Khi các nhà phát triển hàng đầu Trung Quốc, những người đáng lẽ phải đóng góp dữ liệu phản hồi cho các mô hình trong nước, lại đang sử dụng mô hình Mỹ để tăng năng suất, thì các công ty mô hình lớn Trung Quốc sẽ lấy đâu ra dữ liệu tương tác chất lượng cao để tối ưu hóa khả năng lập trình và suy luận?

▸ Cái Giá Của Việc Đi Tắt: "Trí Thông Minh Chưng Cất" Không Có Linh Hồn

Nếu không có thời gian để mài giũa cơ sở hạ tầng và phải đối mặt với áp lực cấp bách của việc bắt kịp KPI, các gã khổng lồ trong nước làm gì?

Câu trả lời là một từ: Chưng cất.

Nếu bạn muốn huấn luyện một mô hình có trí thông minh cao, cách khó khăn nhất là thuê các chuyên gia trong ngành cực kỳ chuyên nghiệp để viết dữ liệu suy luận chất lượng cao từng chút một, vừa tốn kém vừa mất thời gian.

Nhưng có một lối tắt: Hỏi trực tiếp GPT, Claude hoặc Gemini. Sau khi có được câu trả lời đúng và quy trình suy luận, hãy sao chép nó và đưa vào mô hình của bạn. Đây được gọi là "chưng cất" trong giới AI—về cơ bản là sao chép bài tập về nhà của học sinh giỏi nhất.

Zhang Chi thừa nhận rằng chúng ta có thể đã đẳng cấp thế giới trong công nghệ "chưng cất", nhưng điều này có thể không chuyển thành lợi thế thực sự về lâu dài. Sao chép bài tập về nhà có thể giúp bạn nhanh chóng đi từ trượt lên đỗ, hoặc thậm chí đạt điểm 80, nhưng bạn không bao giờ có thể trở thành một học sinh giỏi thực sự bằng cách sao chép.

Bởi vì bạn thiếu đường ống dữ liệu sâu của riêng mình. Khi các mô hình nước ngoài bắt đầu tự tiến hóa, "lối tắt" lại trở thành xiềng xích trói buộc khả năng nguyên bản của chúng ta.

▸ Niềm Tin Còn Lại Duy Nhất: Phần Cứng và Giấc Mơ "AI Nhập Thể"

Mặc dù rất bi quan về triển vọng bắt kịp trong các mô hình ngôn ngữ lớn thuần túy, Zhang Chi vẫn chỉ ra một vài lợi thế cấu trúc trong hệ sinh thái AI của Trung Quốc.

Theo quan điểm của anh ấy, lợi thế nằm ở sản xuất. Anh ấy đề cập đến Unitree, công ty gần đây đã gây ra cuộc thảo luận công khai, tin rằng Trung Quốc có khả năng cạnh tranh toàn cầu về phần cứng cơ thể và điều khiển chuyển động động cơ. Về "AI Nhập Thể" đang hot hiện nay, quan điểm của Zhang Chi là nếu mô hình ngôn ngữ của bạn chỉ được sử dụng để thực hiện các nhiệm vụ tương đối đơn giản (như lấy đồ vật), thì khả năng của các mô hình lớn Trung Quốc hiện tại là "đủ tốt."

Nhưng anh ấy cũng dội một gáo nước lạnh: hiện tại, đại đa số các nhà sản xuất robot vẫn đang mắc kẹt trong giai đoạn "điều khiển chuyển động" và chưa thực sự đặt trí thông minh vào bộ não của robot. Một khi liên quan đến suy luận phức tạp và "thao tác khéo léo" tổng quát, chúng ta có khả năng sẽ chạm phải cùng một trần nhà mà các mô hình ngôn ngữ lớn hiện đang phải đối mặt.

▸ Tương Lai?

Chip hạn chế, đường ống dữ liệu yếu, cơ sở hạ tầng chậm trễ, thiếu vòng phản hồi người dùng và phụ thuộc quá nhiều vào chưng cất—những vấn đề này kết hợp lại không thể được giải quyết bằng một đột phá kỹ thuật đơn lẻ. May mắn thay, DeepSeek V4 đã được thích ứng hoàn toàn với card đồ họa trong nước. Mặc dù khả năng tổng thể có phần chậm hơn, vẫn còn hy vọng bắt kịp một khi hệ sinh thái được hoàn thiện và không phụ thuộc vào chưng cất.

Liên kết Podcast Gốc: [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)

▸ Sự Thịnh Vượng Giả Tạo: Mọi Người Đều "Dạy Để Thi", Nhưng Thiếu Thực Chiến

▸ Khoảng Cách Về Tính Toán và Cơ Sở Hạ Tầng: Ba Tháng Cho Người Khác, Có Thể Nửa Năm Cho Chúng Ta

▸ "Người dùng đều đang sử dụng mô hình Mỹ; chúng ta lấy đâu ra dữ liệu để cải thiện?"

▸ Cái Giá Của Việc Đi Tắt: "Trí Thông Minh Chưng Cất" Không Có Linh Hồn

▸ Niềm Tin Còn Lại Duy Nhất: Phần Cứng và Giấc Mơ "AI Nhập Thể"

▸ Tương Lai?

Use YouMind to read viral articles deeply

Bài viết viral gần đây

10 cuốn sách mọi kỹ sư AI nên đọc vào năm 2026

Hướng dẫn toàn tập thiết lập Claude Cowork: Vận hành doanh nghiệp một mình

ORACLE: Các tác nhân AI chính thức giao dịch trên Polymarket

Làm thế nào để xây dựng công ty một người với AI?

Tin tức IDOLiSH7 số 5: Tổng hợp thông tin ứng dụng

FSD V14 LITE: Đánh giá của tôi