Tôi đã chạy thuật toán mã nguồn mở của X và tìm ra 7 biến số mà người sáng tạo có thể kiểm soát

@GoSailGlobal
TIẾNG TRUNG2 tháng trước · 16 thg 5, 2026
542K
18
0
6
17

TL;DR

Phân tích về bản cập nhật thuật toán tháng 5 của X cho thấy cách điểm chất lượng, thời gian dừng (dwell time) và vòng kết nối cộng đồng tác động đến khả năng phân phối, từ đó cung cấp lộ trình cho các nhà sáng tạo nội dung.

Tôi đã chạy thuật toán đề xuất của X được phát hành mã nguồn mở vào tháng 5 và phát hiện ra rằng phần mã nguồn mở chỉ giải thích 30% thứ hạng Feed thực tế. 70% còn lại ẩn trong cấu hình máy chủ, VM Ranker và các quy tắc vận hành.

Nhưng 30% mã công khai này đủ để trả lời một câu hỏi: người sáng tạo thực sự có thể kiểm soát điều gì?

Kho lưu trữ gốc: xai-org/x-algorithm (Cập nhật ngày 15 tháng 5, thêm 187 tệp và 18.263 dòng mã)

Bài viết này sẽ không lặp lại tổng quan về thuật toán (hai bài đăng của Punk2898 đã rất đầy đủ) mà tập trung vào ba điều:

1️⃣ Những hiện tượng phản trực giác mà tôi quan sát được khi chạy pipeline

2️⃣ Các cơ chế trong bản cập nhật mã tháng 5 có tác động lớn nhất đến người sáng tạo

3️⃣ Đề xuất vận hành cụ thể dựa trên những quan sát này

Quan sát 1: Xếp hạng mã nguồn mở và Feed thực tế gần như không có tương quan

Jason Zhu - inline image

Tôi đã sử dụng mô hình Phoenix để chạy một ngữ liệu gồm 537.000 bài đ bài đăng thể thao. Phạm vi điểm số cuối cùng do mô hình đưa ra là 0.0000 đến 0.0015, cực kỳ phẳng. Xác suất dự đoán cho Fav, Reply và RT đều gần bằng 0; việc xếp hạng chủ yếu dựa vào Dwell (thời gian ở lại) như một tín hiệu để tạo ra khoảng cách.

Sau đó, tôi đã scrape Feed For You thực tế để so sánh. Sử dụng Kendall's tau để tính tương quan thứ hạng, kết quả là -0.10.

Con số này có nghĩa là: sử dụng trọng số demo trong mã nguồn mở (fav1.0 + reply0.5 + RT0.3 + dwell0.2) để dự đoán thứ hạng Feed thực tế bạn thấy, độ chính xác tương đương với đoán ngẫu nhiên.

Trong Feed thực tế, các bài đăng có lượng tương tác bằng 0 xuất hiện trong top 7, trong khi các bài đăng có lượng tương tác cao bị đẩy xuống vị trí thứ 9 hoặc 10. Các bài đăng hoàn toàn mới được đăng trong vòng 3 phút với lượng tương tác bằng 0 cũng có thể vào Feed.

Điều này có nghĩa là gì?

Điều đó có nghĩa là mô hình Phoenix mã nguồn mở chỉ chịu trách nhiệm "sàng lọc ứng viên ban đầu." Điều thực sự quyết định thứ hạng của bạn trong Feed của người khác là các lớp xếp hạng lại tiếp theo. Mã được phát hành mã nguồn mở vào tháng 5 tình cờ hoàn thiện logic cho các lớp xếp hạng lại này.

Quan sát 2: Điểm chất lượng 0.4 là ranh giới sống còn vô hình

Jason Zhu - inline image

Mô-đun Grox mới được thêm vào tháng 5 là phần quan trọng nhất của bản cập nhật này. Nó không phải là sự thay thế cho Phoenix; nó là nhà cung cấp thượng nguồn của Phoenix. Sau mỗi bài đăng mới được gửi, Grox sử dụng mô hình lớn VLM để làm 5 việc:

  • Gán điểm chất lượng (quality_score, 0 đến 1)
  • Tạo 7 thẻ boolean (nội dung người lớn, bạo lực, ngôn từ kích động thù địch, v.v.)
  • Gán điểm slop (slop_score, cấp độ 1-3)
  • Tạo vector nhúng đa phương thức
  • Thực hiện đánh giá an toàn PTOS

Mã nêu rõ: quality_score >= 0.4 là cần thiết để vượt qua sàng lọc ban đầu. Bất cứ điều gì dưới 0.4 đều bị gắn nhãn "chất lượng thấp" và quá trình lan truyền sau đó bị cản trở ở mọi nơi.

Ngưỡng 0.4 này được đánh giá bởi mô hình VLM, không phải so khớp từ khóa. Nó có thể hiểu ý nghĩa văn bản của bạn, nội dung hình ảnh và khung hình video. Các hệ thống quy tắc trước đây có thể bị đánh lừa bằng "thêm hình ảnh và xếp chồng từ khóa" sẽ không còn hiệu quả nữa.

slop_score là một vũ khí mới khác: nội dung khuôn mẫu, mật độ thông tin thấp và các bài đăng có dấu hiệu do AI tạo ra rõ ràng sẽ nhận điểm cao. Cấp độ 1 là bình thường; cấp độ 2-3 có nghĩa là thuật toán cho rằng bạn đang "pha loãng" nội dung.

Quan sát 3: Vuốt đi là một hình phạt chủ động, không chỉ đơn thuần là "không thấy"

Jason Zhu - inline image

Phiên bản tháng 5 đã nâng cấp các tín hiệu hành vi từ 18 đầu rời rạc lên 19 đầu rời rạc + 8 đầu phụ trợ liên tục. Các đầu liên tục mới dự đoán các số liệu chi tiết như "đã ở lại bao lâu" và "tỷ lệ đọc hoàn thành."

Nhưng tín hiệu có tác động lớn nhất đến người sáng tạo là: not_dwelled.

Trước đây, chúng ta nghĩ "không có tương tác của người dùng" là trung tính, tương đương với không được nhìn thấy. Sai. Người dùng vuốt nhanh qua bài đăng của bạn là một tín hiệu tiêu cực chủ động và thuật toán sẽ phạt bạn vì điều đó.

Điều này có nghĩa là:

  • Không thu hút được sự chú ý trong 1 giây đầu tiên của video = bị phạt chủ động
  • Câu đầu tiên nhàm chán trong một bài đăng dài = bị phạt chủ động
  • Hình ảnh không có tác động thị giác = bị phạt chủ động

Trong khi quan sát Feed thực tế, tôi nhận thấy một hiện tượng: một số bài đăng không có tương tác có thể vào Top 7, trong khi một số bài đăng có tương tác cao bị đẩy lùi. Một lời giải thích hợp lý là: những bài đăng không có tương tác đó, mặc dù không được thích, nhưng thực tế người dùng đã ở lại (tạo ra tín hiệu dwell), trong khi một số bài đăng trông có vẻ có dữ liệu tốt lại thực sự có số lượng lớn thao tác vuốt nhanh.

Quan sát 4: Bạn theo dõi ai quyết định thuật toán đặt bạn vào vòng tròn nào

Jason Zhu - inline image

Mã tháng 5 đã thêm mutual_follow_jaccard_hydrator, tính toán "độ tương đồng của vòng tròn theo dõi lẫn nhau giữa bạn và một tác giả nhất định."

Nếu bạn và một tác giả theo dõi nhiều người giống nhau (hệ số Jaccard cao), thuật toán coi bạn đang ở cùng một "vòng tròn thông tin" và có xu hướng đẩy nội dung của họ cho bạn.

Cơ chế này thay đổi một giả định cơ bản: trước đây là "chất lượng nội dung quyết định phân phối"; bây giờ là "chất lượng nội dung + thuộc về vòng tròn cùng quyết định phân phối."

Cụ thể:

  • Mỗi tài khoản bạn theo dõi đang tính toán danh tính vòng tròn của bạn
  • Theo dõi ngẫu nhiên tương đương với việc làm loãng các thẻ vòng tròn của bạn
  • Theo dõi lẫn nhau với các KOL trong cùng lĩnh vực hiệu quả hơn nhiều so với theo dõi một chiều 100 tài khoản ngẫu nhiên
  • Các bình luận chất lượng cao dưới bài đăng của người nổi tiếng sẽ đi vào chuỗi tín hiệu following_replied_users và ảnh đại diện của bạn có thể xuất hiện trong lời nhắc "những người bạn theo dõi cũng đã bình luận ở đây"

Feed For You của tôi xác nhận điều này: hơn 60% nội dung được đề xuất đến từ những người sáng tạo trong vòng tròn AI Trung AI Trung Quốc vì danh sách theo dõi của tôi tập trung vào vòng tròn đó.

Quan sát 5: Phần bình luận giờ đây là một đường đua độc lập

Jason Zhu - inline image

Mã tháng 5 đã tiết lộ một hệ thống tính điểm độc lập cho phần bình luận. Mỗi bình luận được chấm điểm 0-3 bởi Grok:

  • 3 điểm: Bình luận có giá trị gia tăng thông tin, có thể kích hoạt thảo luận
  • 2 điểm: Tương tác bình thường
  • 1 điểm: Ngắn nhưng không phải spam
  • 0 điểm: Kích hoạt thẻ spam, ảnh hưởng đến uy tín tài khoản

Một bình luận 0 điểm không chỉ bị thu gọn; nó để lại hồ sơ trên tài khoản của bạn rằng bạn "đã từng đăng bình luận spam." Tích lũy lâu dài có thể ảnh hưởng đến trọng số tài khoản tổng thể của bạn.

Đồng thời, các bình luận spam dưới bài đăng của bạn cũng ảnh hưởng đến trọng số của bài đăng chính. Cácn như "follow để follow lại," "first," hoặc "+1"—thuật toán không chỉ không thích chúng; nó còn giảm mức độ phân phối bài đăng chính của bạn vì chúng.

Ngược lại, giá trị hiển thị của một bình luận chất lượng cao có thể lớn hơn việc đăng 10 bài đăng thông thường của bạn. Để lại một bình luận có căn cứ dữ liệu, kích hoạt thảo luận dưới bài đăng của một người nổi tiếng tương đương với việc mượn lối vào lưu lượng của người nổi tiếng đó.

Quan sát 6: Chiến lược bộ nhớ đệm khiến "thời điểm đăng" trở nên tinh vi hơn "nội dung đăng"

Jason Zhu - inline image

Có một chi tiết trong mã: khi số lượng bài đăng trong nhóm bộ nhớ đệm >= 500, hệ thống bỏ qua tất cả logic kéo bài đăng thời gian thực từ Thunder/Phoenix/TweetMixer và trực tiếp trả về nội dung đã lưu trong bộ nhớ đệm.

Điều này có nghĩa là: đối với những người dùng nặng, mở X hàng chục lần mỗi ngày, nhiều yêu cầu của họ không đi qua thuật toán đề xuất nào cả; họ thấy một danh sách cũ trong bộ nhớ đệm Redis.

Một bài đăng bạn vừa gửi có thể hoàn toàn vô hình đối với những người dùng nặng này. Nội dung của bạn chỉ có cơ hội vào khi bộ nhớ đệm được làm mới tiếp theo.

Điều này cũng giải thích một hiện tượng phả trực giác: một số tài khoản đăng bài hàng chục lần mỗi ngày và lượng truy cập của họ không tệ. Đó là vì đăng bài tần suất cao làm tăng xác suất "được chọn trong một lần làm mới bộ nhớ đệm nhất định." Tuy nhiên, Punk2898 dự đoán chiến lược này sau đó sẽ được điều chỉnh.

Đối với những người sáng tạo bình thường, gợi ý là: đăng bài 10-30 phút trước giờ hoạt động cao điểm của đối tượng mục tiêu, để bài đăng của bạn có cơ hội tốt hơn được đưa vào khi bộ nhớ đệm làm mới.

Quan sát 7: MediumRisk là mức giảm trọng số ẩn mà bạn không biết

Jason Zhu - inline image

Mã hệ thống quảng cáo đã tiết lộ biến brand_safety_verdict lần đầu tiên. Nó có bốn cấp độ: Safe / LowRisk / MediumRisk / HighRisk.

Phát hiện chính: Giá trị mặc định là MediumRisk.

Nói cách khác, nếu bài đăng của bạn chưa được Grox xem xét đầy đủ (hoặc thiếu thẻ), hệ thống sẽ mặc định coi bạn là "Rủi ro Trung bình." Các bài đăng có Rủi ro Trung bình không bị chặn trực tiếp, nhưng chúng bị tránh đặt cạnh quảng cáo. Và các vị trí xung quanh quảng cáo thường là các khu vực có mức độ hiển thị cao (khu vực tập trung thị giác của người dùng).

Kết quả là: bạn không bao giờ nhận được bất kỳ thông báo vi phạm nào, nhưng mức độ hiển thị của bạn đã bị giảm. Đây là "lệnh cấm ngầm ẩn" dễ bị bỏ qua nhất trong thuật toán v2.

Làm thế nào để tránh nó? Các bài đăng có chủ đề rõ ràng và không có nội dung "nhạy cảm" có nhiều khả năng được nhanh chóng phân loại là Safe. Sau khi đăng một bài đăng quan trọng, hãy đợi 30-60 phút để quá trình xem xét hoàn tất trước khi thực hiện quảng cáo mạnh.

Danh sách hành động dành cho người sáng tạo

Jason Zhu - inline image

Dựa trên 7 quan sát trên, đây là các bước hành động cụ thể:

Về Chất lượng Nội dung

10 từ đầu tiên của mỗi bài đăng quyết định dwell hay not_dwelled. Bạn phải tạo ra khoảng cách nhận thức hoặc tác động dữ liệu trong câu đầu tiên. Bắt đầu bằng "Hôm nay tôi học được một mẹo nhỏ" trực tiếp kích hoạt thao tác vuốt đi.

Nội dung nên có lập luận rõ ràng, mật độ thông tin và cảm giác có cấu trúc. Ngưỡng điểm chất lượng 0.4 không cao, nhưng các bài đăng "khuôn mẫu + thông tin thấp + vài chữ với một bức ảnh" chắc chắn sẽ không vượt qua.

Tránh cảm giác AI khuôn mẫu: cấu trúc câu đồng nhất, mở đầu cố định ("Thứ nhất... Thứ hai... Cuối cùng") và kết thúc hoành tráng sẽ bị phát hiện bởi slop_score.

Về Vận hành Vòng tròn

Kiểm tra danh sách theo dõi của bạn. Bỏ theo dõi các tài khoản ngẫu nhiên không thuộc vòng tròn mục tiêu của bạn. Mỗi lần theo dõi định hình hệ số Jaccard của bạn.

Theo dõi lẫn nhau 5-10 tài khoản cốt lõi trong vòng tròn mục tiêu. Trọng số theo dõi lẫn nhau cao hơn nhiều so với theo dõi một chiều.

Trong các bài đăng của người nổi tiếng trong vòng tròn, hãy để lại bình luận có giá trị gia tăng thông tin. Không phải "đã học được," mà là bổ sung một điểm dữ liệu, chia sẻ một phản ví dụ hoặc đặt một câu hỏi mở rộng.

Về Quản lý Phần Bình luận

Thường xuyên dọn dẹp các bình luận spam dưới bài đăng của bạn. Quảng cáo và trả lời vô nghĩa sẽ làm giảm trọng số của bài đăng chính.

Đừng spam sự hiện diện của bạn dưới các bài đăng không liên quan. Các bình luận 0 điểm để lại hồ sơ spam trên tài khoản của bạn.

Về Thời điểm Đăng bài

Đăng bài 10-30 phút trước giờ hoạt động cao điểm của đối tượng mục tiêu của bạn. Chừa một khoảng thời gian để bộ nhớ đệm làm mới đưa bạn vào.

Đợi 30-60 phút sau một bài đăng quan trọng trước khi quảng cáo nó. Để quá trình xem xét Grox hoàn tất nhằm nâng cấp từ MediumRisk mặc định lên Safe.

Về Quote Retweet

Thận trọng khi trích dẫn nội dung nhạy cảm. Cơ chế chịu trách nhiệm chung VF v2 sẽ khiến việc giảm trọng số từ các bài đăng bị phạt lan truyền đến bạn dọc theo chuỗi trích dẫn.

Sử dụng ảnh chụp màn hình + bình luận của riêng bạn cho nội dung gây tranh cãi thay vì trích dẫn trực tiếp.

Về Hashtag

Xác định 1-2 chủ đề Grok cốt lõi và sáng tạo xung quanh chúng một cách nhất quán. Các luồng khám phá của người dùng mới được lọc nghiêm ngặt theo chủ đề; nếu bạn không nằm trong bộ chủ đề của họ, bạn không tồn tại đối với họ.

Thỉnh thoảng sử dụng thẻ # rõ ràng để củng cố phân loại chủ đề của thuật toán.

Về Video

1 giây đầu tiên của video là ranh giới sống còn. Tín hiệu not_dwelled rõ ràng nhất trong video.

Nội dung quan trọng phải có phiên bản chỉ văn bản. Một số người dùng đã bật bộ lọc "xem ít video hơn" và các bài đăng có trường thời lượng video sẽ bị cắt bỏ hoàn toàn.

Liên kết tham khảo:

https://github.com/xai-org/x-algorithm

https://x.com/punk2898/status/2013538743467286981

https://x.com/punk2898/status/2055439323693289598

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Thêm pattern để giải mã

Bài viết viral gần đây

Khám phá thêm bài viết viral