Cách xây dựng hệ điều hành Agent tiên phong với hội đồng đa mô hình

Tôi sẽ chỉ cho bạn từng bước cách liên tục đạt được kết quả tốt nhất với Claude Code, Codex, OpenCode hoặc bất kỳ công cụ nào bạn đang sử dụng...

bởi vì một công cụ chỉ là ứng dụng bạn gõ hướng dẫn cho agent vào, là buồng lái bạn ngồi

bản năng là chạy theo một mô hình tốt hơn để nhét vào bên trong (ĐANG DÙNG FABLE 5 LOL)

lợi thế thực sự bạn có thể đạt được lại nằm ở một nơi khác, ở chỗ bạn đã dừng lại ở một mô hình duy nhất

và thời điểm hiện tại khiến sai lầm đó trở nên đắt đỏ hơn trước đây... bởi vì mô hình tốt nhất duy nhất đã trở thành một mục tiêu di động mà bạn không thể trông cậy vào:

Fable 5 sắp quay lại trong khoảng một tuần và sau đó sẽ quá đắt để có thể chi trả

Mythos 5 bị khóa trong một danh sách ngắn các công ty được chính phủ phê duyệt

GPT-5.6 Sol chỉ được gửi đến khoảng 20 công ty được chấp thuận và không ai khác

vì vậy, đặt cược toàn bộ hoạt động của bạn vào bất kỳ mô hình nào "tốt nhất" trong tháng này sẽ thất bại ngay khi nó bị giới hạn

vì vậy, giải pháp là một sự hợp nhất của các LLM tiên tiến, một nhóm các mô hình cùng nhau gánh vác công việc thay vì một mô hình gánh vác tất cả

đó là điều phân biệt kết quả trung bình với kết quả tốt nhất, và đó là điều đầu tiên tôi thiết lập trong mọi dự án bây giờ

nếu bạn muốn học cách tận dụng tối đa những công cụ này và kiếm tiền thật với chúng, đó là mục đích của cộng đồng AI ops thời gian thực: weeklyaiops.com

sự qua lại chậm chạp và khốn khổ

hãy xem một dự án bình thường diễn ra như thế nào, nút thắt cổ chai nằm ngay giữa nó:

bạn mở một công cụ và giao nhiệm vụ cho nó

sau đó bạn lấy kế hoạch của nó, dán vào một mô hình thứ hai, và hỏi "cái này đúng không"

mô hình thứ hai tìm ra lỗ hổng, vậy là bạn mang những ghi chú đó quay lại mô hình đầu tiên

bạn dành cả buổi chiều làm người đưa tin, chạy qua chạy lại ngữ cảnh giữa hai mô hình không thể nói chuyện với nhau

hãy thành thật mà nói, sự qua lại đó thật là một cơn đau...

tôi biết rõ vòng lặp này, bạn để Claude kiểm tra kế hoạch của Codex, sau đó mang những lỗ hổng quay lại, và cả ngày biến mất vào việc chuyển ghi chú giữa hai mô hình

tại sao một nhóm AI lại đánh bại mô hình yêu thích của bạn

có một lý do tại sao mô hình thứ hai liên tục bắt được những thứ mà mô hình đầu tiên đã bỏ lỡ...

mô hình xem xét công việc có chung điểm mù với mô hình đã tạo ra nó, bởi vì chúng thất bại ở cùng một chỗ

vì vậy, yêu cầu một mô hình tự kiểm tra sẽ cho bạn một câu "có vẻ ổn với tôi" đầy tự tin về chính cái lỗi mà nó đã tạo ra

một hội đồng khắc phục điều đó về mặt cấu trúc, không phải bằng một prompt tốt hơn - bởi vì các mô hình khác nhau sẽ bù đắp điểm yếu cho nhau

và bằng chứng cho điều này được hỗ trợ bởi các bài báo thực tế:

một nhóm nghiên cứu tại Sakana đã xây dựng một bộ điều phối đủ nhỏ để chạy trên một chiếc laptop, một mô hình không bao giờ trả lời câu hỏi của bạn

nó đọc câu hỏi

quyết định mô hình lớn nào nên xử lý từng phần

và phân chia công việc

họ hướng nó vào GPT-5, Gemini và Claude, và nó đã đánh bại cả ba mô hình đó một mình...

sau đó họ thử đưa một mô hình hàng đầu vào để làm nhiệm vụ điều phối thay thế, và kết quả còn tệ hơn lol

vì vậy, người chỉ huy không cần phải là mô hình mạnh nhất bạn có nhưng nó cần đọc được vấn đề và định tuyến nó đến người phù hợp nhất cho phần đó

ba vai trò, và vai trò thường bị bỏ qua

bộ điều phối giao cho mỗi mô hình một công việc tại một thời điểm:

người suy nghĩ: chia nhỏ nhiệm vụ, xây dựng kế hoạch, tìm ra lỗ hổng trong đó

người làm việc: thực hiện công việc, bản nháp, mã, số liệu, bất cứ sản phẩm giao được là gì

người xác minh: đánh giá kết quả và nói "xuất bản" hoặc "sửa cái này"

người xác minh thường bị bỏ qua, và nó mới là vai trò quan trọng nhất

công việc chưa hoàn thành khi một mô hình tạo ra thứ gì đó... nó hoàn thành khi người xác minh ký duyệt

một quy tắc duy nhất đó, một điều kiện "hoàn thành" rõ ràng, là toàn bộ sự khác biệt giữa một vòng lặp kết thúc và một vòng lặp quay vòng vô tận

giao sự qua lại cho một hội đồng

bây giờ, việc thêm một bộ điều phối nghe có vẻ như thêm một lớp nữa để quản lý

nhưng thực tế lại ngược lại, lớp bạn loại bỏ chính là bạn

vì vậy, giải pháp rất đơn giản, bạn ủy quyền việc điều phối: bạn ngừng làm người đưa tin và để một bộ điều phối chạy vòng lặp người suy nghĩ, người làm việc và người xác minh cho bạn

Tôi hiện đang sử dụng Fugu cho việc này (sakana.ai/fugu), và nói rõ ràng, đây không phải bài quảng cáo được tài trợ, tôi chỉ yêu thích nó

nó là phiên bản thương mại hóa của nghiên cứu đó, bạn hướng công cụ của mình vào nó giống như cách bạn hướng vào bất kỳ mô hình nào khác, và nó chạy hội đồng đằng sau một yêu cầu duy nhất

tôi sẽ thành thật về nó là gì, bởi vì điều này rất quan trọng

nó mới ra đời vài ngày, nó mất thời gian vì nó thực sự đang chạy một hội đồng thay vì giả mạo, và nó mạnh nhất ở vai trò người xác minh, người "nướng" công việc trước khi bạn xuất bản

$20 cho bạn tham gia, với một tháng thứ hai miễn phí nếu bạn bắt đầu trước cuối tháng bảy

tôi không tin tưởng nó một cách mù quáng, tôi tin tưởng vào mô hình hội đồng, và đây là cách dễ nhất tôi tìm thấy để chạy mô hình đó mà không cần phải kè kè bên cạnh

bây giờ hãy đi sâu vào quy trình từng bước để liên tục đạt được kết quả tốt nhất với BẤT KỲ công cụ agent nào:

chạy hội đồng ở điểm bắt đầu và điểm kết thúc

tôi đưa hội đồng vào ở hai thời điểm trong mọi dự án, ngay từ đầu và khi bàn giao

hãy hình dung một công việc thực tế, ra mắt một bản tin, xây dựng một danh sách khách hàng tiềm năng, xuất bản một trang đích

1. phỏng vấn trước - trước khi bất kỳ công việc nào diễn ra, hãy để agent của bạn phỏng vấn bạn một cách chuyên sâu (grill-me từ matt là một kỹ năng khiến agent đặt câu hỏi cho bạn về mọi thứ), độ sâu của cuộc phỏng vấn đó đặt ra giới hạn cho mọi thứ sau nó

2. triệu tập hội đồng - để xây dựng kế hoạch, bộ điều phối xử lý phần nhiều mô hình để bạn không còn phải sao chép dán giữa các công cụ nữa

3. xác định các vòng lặp - đặt mục tiêu và điều kiện dừng ngay từ đầu để nó có thể chạy mà không cần bạn theo dõi từng bước

4. ủy quyền theo vai trò - gửi đúng nhiệm vụ đến đúng nơi và dựa vào các subagent (subagent chỉ đơn giản là một agent trợ giúp mà agent chính giao việc cho)

5. nướng khi bàn giao - khi công việc có vẻ đã hoàn thành, hãy gửi nó trở lại qua hội đồng để xé nát nó trước khi nó được gửi đi

cùng một vòng lặp, hai đầu, lập kế hoạch ở điểm bắt đầu và nướng ở điểm kết thúc - đó là toàn bộ động cơ, và nó đã thay đổi sâu sắc tốc độ tôi có thể xuất bản một thứ mà tôi tin tưởng

hội đồng là động cơ, thiết lập giữ cho nó sắc bén

một động cơ chỉ tốt khi cỗ máy xung quanh nó tốt...

vì vậy, đây là sáu thao tác giúp mỗi agent trong hội đồng tạo ra kết quả tốt nhất, không có thao tác nào phức tạp cả

1. xây dựng kỹ năng của riêng bạn, đừng tải về một thư viện

một kỹ năng là một tập hợp hướng dẫn đã được lưu mà agent của bạn có thể tái sử dụng, giống như một công thức nó làm theo (không hơn gì một tệp markdown với các ví dụ...)

sự cám dỗ là lấy một thư viện kỹ năng lớn do người khác xuất bản và chỉ việc chạy nó

tôi sẽ bỏ qua điều đó, khoảng một phần ba các kỹ năng công khai có chứa lỗ hổng bảo mật... nếu không muốn nói là tệ hơn lol

và ngay cả những kỹ năng sạch sẽ cũng là ngữ cảnh của người khác, không phải của bạn, một kỹ năng chỉ hữu ích khi bạn đã đích thân gặp phải bức tường mà nó giải quyết

trước đó, nó chỉ là tiếng ồn làm đầy bộ nhớ của agent

vì vậy, đây là lời khuyên của tôi: hãy xây dựng một vài kỹ năng bạn thực sự cần, rút ra từ những lần chạy thất bại của chính bạn, đó là nơi lợi thế thực sự tồn tại

2. ưu tiên CLI nhỏ, không phải máy chủ MCP

trước tiên, hai từ nhanh, MCP là một cách để gắn thêm các công cụ vào agent của bạn, và CLI là một lệnh nhỏ bạn chạy trong cửa sổ văn bản

phản xạ là gắn một MCP vào mọi thứ, và mỗi cái sẽ tải toàn bộ bảng hướng dẫn của nó vào bộ nhớ của agent trước khi bạn kịp đặt câu hỏi đầu tiên

những mô tả công cụ đó có thể ngốn hơn 100.000 từ bộ nhớ ngay từ đầu, lấn át công việc thực sự

vì vậy, đối với các tác vụ hàng ngày, hãy sử dụng một CLI nhỏ thay thế, nó nhẹ hơn, agent đã biết cách chạy một lệnh, và đầu ra của nó sẽ nằm trong một tệp thay vì làm tắc nghẽn bộ nhớ

một công cụ tên là printing-press (printingpress.dev) sẽ viết một cái cho bất kỳ dịch vụ nào từ một prompt duy nhất... hãy lạm dụng nó

chỉ giữ MCP cho những công việc thực sự cần chúng, đăng nhập dùng chung, nhiều người dùng, một kết nối trực tiếp phải luôn mở

nguyên tắc là CLI-first, không phải CLI-only

3. giữ tệp hướng dẫn nhẹ nhàng

agent của bạn đọc một tệp hướng dẫn trước mỗi nhiệm vụ, thường là AGENTS.md hoặc CLAUDE.md

sự thôi thúc là nhồi nhét nó với mọi thứ bạn có thể nghĩ ra, và kết quả là agent làm theo ít hơn, không phải nhiều hơn

một mô hình đáng tin cậy làm theo khoảng 150 đến 200 hướng dẫn, sau đó nó bắt đầu bỏ qua chúng

hãy giữ nó dưới 100 dòng - nó hoạt động tốt hơn như vậy

4. dọn dẹp ngữ cảnh, giữ bộ nhớ trong các tệp

cửa sổ ngữ cảnh là bộ nhớ ngắn hạn của agent, và nó sẽ đầy lên và trở nên kém thông minh hơn khi làm việc

Claude Opus 4.8 là một ví dụ tuyệt vời... đây là một mô hình đặc biệt, nhưng ngay khi bạn đạt đến 300-400k token, bạn nên 100% xóa ngữ cảnh - ĐỪNG SỬ DỤNG TÍNH NĂNG NÉN

vì vậy, hãy xóa nó thường xuyên, và giữ bộ nhớ quan trọng trong các tệp thay thế

một tệp learnings.md mà agent đọc khi bắt đầu một phiên và cập nhật khi kết thúc, mọi lúc, ngay cả khi nó nghĩ không có gì thay đổi

hãy để nó cập nhật những ghi chú đó sau mỗi lần commit, một commit là một điểm kiểm tra đã lưu của công việc

các quy tắc lâu dài nằm trong tệp hướng dẫn, những thứ nó học được trên đường đi nằm trong learnings, và nếu bạn đang chỉnh sửa tệp quy tắc của mình sau mỗi lần chạy, bạn đã đặt sai thứ vào đó

tôi đã xây dựng cho mình một kỹ năng gọi là /before-clear, nó chỉ đơn giản là tạo một điểm kiểm tra trong dự án, một tệp tạm thời mà agent đọc trước tiên... nó có một danh sách việc cần làm rất đơn giản, tóm tắt ngắn gọn những gì đã xảy ra trong phiên trước và nhiệm vụ cấp bách nhất tiếp theo là gì

tôi hiếm khi mất bất kỳ ngữ cảnh quan trọng nào từ phiên này sang phiên khác

5. viết ít quy tắc, mỗi quy tắc rõ ràng

một danh sách ngắn các quy tắc rõ ràng TỐT HƠN NHIỀU so với một đống dài các quy tắc thông minh

một khi tệp quy tắc trở nên dài, các quy tắc bắt đầu cạnh tranh lẫn nhau, và agent phải đoán xem cái nào thắng

hãy viết mỗi quy tắc theo cách bạn nói với một nhân viên mới, một dòng, một ý nghĩa, không có chỗ để diễn giải

khi quy tắc rõ ràng, agent làm theo nó, khi nó mơ hồ, agent ứng biến, và ứng biến chính xác là nơi đầu ra của bạn đi chệch hướng

6. ủy quyền công việc nặng nhọc cho subagent

đẩy công việc lộn xộn, đắt đỏ xuống cho subagent, đặc biệt là bất cứ thứ gì liên quan đến trình duyệt

điều khiển trình duyệt từ agent chính có thể đốt cháy RẤT NHIỀU ngữ cảnh chỉ cho các ảnh chụp màn hình

hãy giao công việc đó cho một subagent và nó sẽ quay lại với "xong, đây là bản tóm tắt" trong một hoặc hai dòng

agent chính vẫn là người chỉ huy, những người trợ giúp làm công việc với tay, và bộ nhớ chính của bạn luôn sạch sẽ

đó lại là ý tưởng hội đồng, thấp hơn một cấp, bạn điều phối công việc thay vì tự mình làm tất cả

toàn bộ hệ điều hành, trong một khối

mô hình tốt nhất liên tục bị giới hạn, vì vậy một mô hình không thể là nền tảng của bạn

giao việc điều phối cho một hội đồng: người suy nghĩ lập kế hoạch, người làm việc xây dựng, người xác minh ký duyệt

người xác minh là điều kiện dừng, công việc hoàn thành khi nó nói vậy, không phải trước đó

chạy hội đồng hai lần, lúc bắt đầu để lập kế hoạch và lúc bàn giao để nướng

tôi sử dụng Fugu để chạy nó, $20 để thử, không được tài trợ, thành thật về việc nó còn sớm

sau đó giữ cho mỗi agent sắc bén:

xây dựng kỹ năng của riêng bạn, đừng tải về một thư viện

CLI-first, MCP chỉ khi bạn thực sự cần chúng

tệp hướng dẫn dưới 100 dòng

xóa ngữ cảnh thường xuyên, giữ bộ nhớ trong các tệp

ít quy tắc, mỗi quy tắc rõ ràng

ủy quyền công việc nặng nhọc cho subagent

mọi thứ khác trên nền tảng đó chỉ là sự tối ưu hóa thuần túy mà bạn có thể sẽ không nhận thấy trừ khi bạn là một kỹ sư phần mềm

đây là cách bạn xây dựng cho mình một hệ điều hành hoạt động hiệu quả, có hoặc không có Fable 5...

dù sao đi nữa, tôi đang xây dựng cộng đồng AI tốt nhất thế giới, bạn có muốn tham gia cùng tôi không?

weeklyaiops.com

Cách xây dựng hệ điều hành Agent tiên phong: Chiến lược hội đồng đa mô hình

sự qua lại chậm chạp và khốn khổ

tại sao một nhóm AI lại đánh bại mô hình yêu thích của bạn

ba vai trò, và vai trò thường bị bỏ qua

giao sự qua lại cho một hội đồng

chạy hội đồng ở điểm bắt đầu và điểm kết thúc

hội đồng là động cơ, thiết lập giữ cho nó sắc bén

1. xây dựng kỹ năng của riêng bạn, đừng tải về một thư viện

2. ưu tiên CLI nhỏ, không phải máy chủ MCP

3. giữ tệp hướng dẫn nhẹ nhàng

4. dọn dẹp ngữ cảnh, giữ bộ nhớ trong các tệp

5. viết ít quy tắc, mỗi quy tắc rõ ràng

6. ủy quyền công việc nặng nhọc cho subagent

toàn bộ hệ điều hành, trong một khối

Turn one viral article into a full content workflow

Bài viết viral gần đây

Đánh giá trận đấu: Nhật Bản 1-2 Brazil "Âm và Dương" bởi M. Sinan Pala

Sweetwater có phải là khuôn viên "Trinity" của IREN / NVIDIA / Palantir không?

Giải mã ứng dụng Tesla 4.58.5

Cuộc Đại Hạ Giá

Tình hình hiện tại của Indiana Fever

AAOI: Chiến lược tích hợp dọc trong lĩnh vực bộ thu phát quang AI