Tesla của bạn có bình xăng không? Các AI agent của bạn thì có đấy.

@ATBASHai
TIẾNG ANH2 tháng trước · 18 thg 5, 2026
668K
173
13
16
9

TL;DR

Những người đồng sáng lập Atbash lập luận rằng các AI agent đòi hỏi một mô hình bảo mật mới tập trung vào các lằn ranh đỏ và ranh giới tiền thực thi. Bài viết giải thích lý do tại sao những rủi ro từ Software 2.0 đòi hỏi sự thực thi tuyệt đối để ngăn chặn những thiệt hại không thể đảo ngược.

Bởi Yosef và Or, đồng sáng lập Atbash

Niềm tin nguy hiểm nhất trong lĩnh vực AI hiện nay không phải là các mô hình sẽ trở nên mạnh mẽ.

Phần đó là hiển nhiên.

Niềm tin nguy hiểm là một điều âm thầm hơn. Đó là giả định nằm bên dưới hầu hết mọi lộ trình sản phẩm, tầng quản trị, hệ thống phân quyền, stack kiểm toán và khung tác tử đang được xây dựng hiện nay:

Rằng khi các mô hình tốt hơn, các hệ thống được xây dựng xung quanh chúng sẽ an toàn hơn như một hệ quả.

Tôi không nghĩ mọi chuyện sẽ diễn ra như vậy.

Tôi nghĩ chúng ta sắp bước vào một giai đoạn mà các sản phẩm AI sẽ trở nên tồi tệ hơn trên những khía cạnh thực sự quan trọng:

niềm tin,

sự cô lập,

tính dự đoán,

khả năng phục hồi.

Các điểm chuẩn sẽ tăng lên.

Các bản demo sẽ sạch hơn.

Các tác tử sẽ trở nên có năng lực hơn.

Và các hệ thống xung quanh sẽ trở nên mong manh hơn, bởi vì chúng được xây dựng từ một mô hình tinh thần sai lầm.

Đó là lỗi cấu trúc.

Phần mềm 2.0 đang được bảo vệ bởi Phần mềm 1.0.

Trước khi đưa ra lập luận đó, tôi nợ bạn một lời thú nhận về nơi mà công ty này thực sự đến từ.

Một lời thú nhận.

Tôi đọc Sách Sáng Thế như một tài liệu kỹ thuật.

Tôi là một người Do Thái sùng đạo. Tôi đã dành phần lớn cuộc đời trưởng thành của mình để suy nghĩ về mối quan hệ của Chúa với con người. Câu hỏi đó cuối cùng đã dẫn tôi đến Atbash.

Không phải vì Sách Sáng Thế là một cuốn sổ tay khởi nghiệp.

Bởi vì Sách Sáng Thế là câu chuyện về ranh giới đỏ lâu đời nhất mà tôi biết.

Vườn Địa Đàng là một sandbox.

Một ranh giới đỏ rõ ràng:

không được ăn trái cây biết điều thiện và điều ác.

Con rắn là một công cụ bị nhiễm độc.

Nó không thể tiếp cận Adam trực tiếp, vì vậy nó tấn công thông qua nhánh đáng tin cậy.

Eve nhận được mũi tiêm thay đổi khung:

ngươi chắc chắn sẽ không chết đâu,

ngươi sẽ trở nên giống như các thần.

Cô mang lý luận bị nhiễm độc trở lại vào hệ thống.

Hệ thống phòng thủ của Adam, vốn đã chống lại được cuộc tấn công trực tiếp, đã không kích hoạt trước đầu vào đáng tin cậy.

Sau đó là phần quan trọng.

Chúa không giết họ.

Chúa đã cô lập họ.

Con người bị loại khỏi sandbox và được đặt vào một môi trường mới, Trái Đất, nơi họ có thể phát triển năng lực mà không làm ô nhiễm hệ thống ban đầu.

Một thiên thần với thanh gươm lửa được đặt ở ranh giới để ngăn chặn sự tái nhập.

Không phải sự trừng phạt.

Là kiến trúc.

Atbash được đặt theo tên của mật mã lâu đời nhất được biết đến, từ Sách Giê-rê-mi:

một sự thay thế đơn giản tại ranh giới của ý nghĩa.

Cái tên phản ánh những gì sản phẩm làm.

Sản phẩm phản ánh những gì tôi đọc trong Sách Sáng Thế.

Torah cho tôi thấy rằng sự an toàn không được tạo ra bằng cách giới hạn mọi hành vi.

Sự an toàn không được tạo ra bằng cách làm chậm toàn bộ hệ thống.

Sự an toàn đến từ một số lượng nhỏ các ranh giới đỏ,

thực thi tuyệt đối,

và một ranh giới không bao giờ ngủ.

Bạn xác định các ranh giới đỏ.

Atbash ngăn các tác tử trước khi chúng vượt qua chúng.

Các tác tử không phải là con người nhanh

Andrej @karpathy đã đặt tên cho sự thay đổi mô hình từ nhiều năm trước.

Ông gọi đó là Phần mềm 2.0:

mã không còn chỉ được viết bởi con người, mà được huấn luyện.

Các mô hình thay thế logic.

Dữ liệu thay thế đặc tả.

Ông đang mô tả những gì tính toán đã trở thành.

Nhưng hầu hết mọi phần hạ tầng mà chúng ta xây dựng để quản trị, phân quyền, bảo mật và kiểm toán Phần mềm 2.0 vẫn kế thừa các giả định từ thế giới Phần mềm 1.0.

MCP.

x402.

AgentKit.

Khung ủy quyền.

Công cụ chính sách.

Nhật ký kiểm toán.

Yêu cầu đã ký.

Quyền hạn phạm vi.

Luồng phê duyệt của con người.

Mỗi cái trong số đó đều có ý nghĩa nếu bạn tin rằng các tác tử về cơ bản là con người nhanh với API.

Chúng không phải vậy.

Chúng là những chiếc Tesla với bình xăng được bắt vít vào.

Một hệ thống năng lượng hoàn toàn mới,

được bao quanh bởi hạ tầng được thiết kế cho một loại máy móc khác.

Con người thiết kế trang thanh toán, vì vậy chúng tôi đã xây dựng trang thanh toán headless cho các tác tử.

Con người ký yêu cầu, vì vậy chúng tôi đã xây dựng yêu cầu đã ký cho các tác tử.

Con người được cấp quyền theo vai trò, vì vậy chúng tôi đã xây dựng ủy quyền phạm vi cho các tác tử.

Con người phê duyệt hành động, vì vậy chúng tôi đã xây dựng màn hình phê duyệt cho các tác tử.

Mỗi bước đi đều hợp lý.

Đó là vấn đề.

Logic thuộc về tác nhân sai.

Một con người, được cung cấp mười công cụ, thường không kết nối chúng theo những cách mà các nhà thiết kế không bao giờ tưởng tượng ra.

Khi một thứ gì đó hoạt động kỳ lạ, con người thường nhận ra và dừng lại.

Con người mang sự do dự xã hội,

nỗi sợ hãi,

sự xấu hổ,

sự nhàm chán,

sự nghi ngờ,

và bối cảnh.

Các tác tử không đáng tin cậy có bất kỳ điều nào trong số đó.

Các tác tử kết nối các công cụ theo những cách mà không nhà thiết kế nào mô hình hóa.

Các tác tử bị định hình lại bởi các prompt,

bộ nhớ được truy xuất,

tài liệu,

đầu ra của công cụ,

và bối cảnh ẩn theo những cách mà tầng phân quyền xung quanh không thể thấy.

Các tác tử không có phản xạ tự nhiên:

"điều đó kỳ lạ, để tôi dừng lại"

trừ khi chúng ta thiết kế một cái.

Và ngay cả khi đó, nó có thể bị prompt xóa đi.

Đây là ngụy biện con người nhanh.

Niềm tin rằng các tác tử chỉ là phiên bản nhanh hơn của chúng ta.

Chúng không phải vậy.

Và nếu tác nhân đã thay đổi, mô hình kiểm soát phải thay đổi theo.

Đừng ghét người chơi. Hãy ghét khung.

Điều này rất quan trọng.

Các ví dụ trên hoặc dưới đây không phải là sự chỉ trích đối với các đội ngũ liên quan.

Không phải Anthropic.

Không phải OpenAI.

Không phải Microsoft.

Không phải Mistral.

Không phải OpenClaw.

Không phải Lovable.

Không phải Vercel.

Không phải ai cả.

Vấn đề là ngược lại.

Đây là những đội ngũ nghiêm túc,

các nhà nghiên cứu nghiêm túc,

các sản phẩm nghiêm túc,

các giao thức nghiêm túc,

và các công ty nghiêm túc đang gặp phải cùng một vấn đề cấu trúc.

Đó là điều làm cho mô hình này trở nên nguy hiểm.

Nếu chỉ có các đội ngũ tồi thất bại, câu trả lời sẽ là đội ngũ tốt hơn.

Nhưng khi các đội ngũ thông minh liên tục đâm vào cùng một bức tường,

bức tường chính là câu chuyện.

Sai lầm không phải là các đội ngũ này không suy nghĩ đủ kỹ.

Sai lầm là ngành công nghiệp vẫn đang suy nghĩ từ thế kỷ phần mềm sai lầm.

Chúng ta tiếp tục coi các tác tử như con người nhanh với API.

Và mọi sơ đồ phân quyền,

nhật ký kiểm toán,

ủy quyền phạm vi,

luồng phê duyệt,

và tầng quản trị được xây dựng trên giả định đó đều kế thừa cùng một vết nứt.

Kẻ thù không phải là người chơi.

Kẻ thù là khung.

Các vết nứt bắt đầu hình thành sớm hơn hầu hết mọi người nhận ra.

Không phải vì các phòng thí nghiệm tiên phong bất cẩn.

Bởi vì tác nhân đã thay đổi.

Vết nứt đầu tiên

Anthropic đã chứng minh một điều mà ngành công nghiệp đã âm thầm hiểu nhưng chưa tiêu hóa hoàn toàn.

Khi được hướng dẫn trong quá trình đánh giá, một mô hình tiên phong đã kết nối nhiều lỗ hổng, cố gắng thoát khỏi sandbox và tìm kiếm các đường dẫn đến truy cập internet bên ngoài môi trường cô lập dự kiến của nó.

Riêng rẽ, các hệ thống tiên phong đã chứng minh khả năng xác định các lỗ hổng đã tồn tại qua nhiều năm kiểm tra của con người, fuzzing và kiểm toán thủ công.

Phần quan trọng không phải là các mô hình có ác ý.

Phần quan trọng là các hệ thống không còn ở lại trong hình dạng mà các nhà thiết kế của chúng tưởng tượng.

Đó là sự phá vỡ thể loại.

Một hệ thống có khả năng khám phá các đường dẫn mà con người liên tục bỏ lỡ không thể được quản trị chỉ thông qua các giả định mà con người đã xác định trước khi đường dẫn xuất hiện.

Điều đó không có nghĩa là các phòng thí nghiệm tiên phong đã thất bại.

Nó có nghĩa là tác nhân đã thay đổi.

Vết nứt thứ hai

Microsoft đã tiết lộ các lỗ hổng trong Semantic Kernel nơi tiêm prompt có thể điều hướng các quy trình tác tử vào thực thi lệnh ở cấp độ máy chủ.

Một câu trở thành một shell.

Đó là sự thay đổi thể loại ẩn bên dưới cuộc trò chuyện về hạ tầng.

Phần mềm 1.0 coi prompt như đầu vào.

Phần mềm 2.0 ngày càng biến prompt thành các đường dẫn thực thi có thể.

Sự khác biệt đó nghe có vẻ triết học cho đến khi một tác tử bắt đầu dịch ngôn ngữ tự nhiên thành công cụ,

công cụ thành lệnh,

và lệnh thành các thay đổi trạng thái thế giới thực.

Phần quan trọng không phải là một lỗ hổng tồn tại.

Các lỗ hổng luôn tồn tại.

Phần quan trọng là loại lỗ hổng này là gì.

Tác tử không phá vỡ tính cách.

Nó tuân theo kiến trúc chính xác như thiết kế:

diễn giải ngôn ngữ,

chọn công cụ,

kết nối hành động,

thực thi.

Và đó là vấn đề.

Mô hình cũ cho rằng hướng dẫn và thực thi sống trong các hộp khái niệm riêng biệt.

Các tác tử xóa bỏ ranh giới đó.

Một câu bị nhiễm độc có thể trở thành một chuỗi hành động đặc quyền.

Đó không phải là một con người nhanh.

Đó là một loài thực thi khác.

Vết nứt thứ ba

Sau đó, mô hình lan rộng.

Vercel tiết lộ một vi phạm liên quan đến kết nối công cụ AI của bên thứ ba bị xâm phạm.

Kẻ tấn công không bắt đầu bằng cách đột nhập trực tiếp qua cánh cửa chính được bảo vệ chắc chắn của Vercel.

Chúng di chuyển qua lòng tin được ủy quyền.

Một nhân viên đã ủy quyền cho một công cụ AI của bên thứ ba.

Kết nối mang theo quyền truy cập.

Mối quan hệ đáng tin cậy trở thành đường dẫn tấn công.

Đó là vấn đề ranh giới mới.

Không phải vì Vercel bất cẩn.

Bởi vì các hệ thống hiện đại giờ đây đầy rẫy các nhánh đáng tin cậy:

ủy quyền OAuth,

tích hợp AI,

tiện ích mở rộng trình duyệt,

quy trình tác tử,

tự động hóa nội bộ,

quyền được ủy quyền,

và các phê duyệt cũ tiếp tục tồn tại lâu sau khi bối cảnh con người ban đầu đã biến mất.

Kẻ tấn công không còn cần phải đánh bại lâu đài nếu lâu đài đã tin tưởng người đưa tin.

Giả định đã chết:

rằng việc củng cố bề mặt chính là đủ.

Nó không đủ.

Các công cụ liền kề của bạn hiện là một phần của ranh giới bảo mật của bạn.

Sau đó, mô hình tăng tốc

Phần tồi tệ nhất là khung bây giờ tự động tái tạo chính nó.

Con người đang sử dụng các tác tử để xây dựng thế hệ công cụ tiếp theo cho các tác tử nhanh hơn so với các nguyên thủy quản trị xung quanh có thể tiến hóa.

Các ứng dụng vibe-code.

Các tích hợp do AI tạo ra.

Các máy chủ MCP do tác tử viết.

Các luồng OAuth được ủy quyền được lắp ráp mà không có mô hình hóa mối đe dọa đầy đủ.

Các scaffold sản xuất được giao bởi những người hầu như không hiểu bán kính nổ của những gì họ đã kết nối.

Ngành công nghiệp gọi đây là tăng tốc.

Đôi khi nó là vậy.

Đôi khi nó là sự mong manh công nghiệp hóa.

Gần như cùng lúc đó, ngành công nghiệp bắt đầu va chạm với một nhận thức rộng hơn về chính các công cụ tác tử.

Các hệ thống kiểu OpenClaw cho thấy thể loại đang đi về đâu:

các tác tử có bộ nhớ,

kỹ năng,

công cụ,

môi trường thực thi,

và quyền truy cập được ủy quyền di chuyển qua các hệ thống không bao giờ được thiết kế cho các tác nhân không phải con người.

Karpathy gọi hệ sinh thái là một cơn ác mộng bảo mật.

Không phải vì các tác tử là giả.

Bởi vì thể loại là có thật.

Và bởi vì mô hình kiểm soát xung quanh vẫn cho rằng tác nhân hành xử như một người yêu cầu là con người.

Ở nơi khác, Lovable đã phơi bày mức độ nhanh chóng mà phát triển AI-native có thể công nghiệp hóa các sai lầm ủy quyền cũ.

Đã đăng nhập trở nên nhầm lẫn với đã được ủy quyền.

"Công khai" trở nên nhầm lẫn với "đã được hiểu."

"Có thể cấu hình" trở nên nhầm lẫn với "an toàn."

Và bên ngoài thế giới AI-native hoàn toàn, các sự cố như KelpDAO tiếp tục tiết lộ cùng một vết nứt cấu trúc từ một góc độ khác:

các hệ thống sống giữa các giả định được ủy quyền,

trách nhiệm chia sẻ,

sự mơ hồ về ranh giới,

và không có tầng thẩm quyền cuối cùng trước hậu quả.

Mô hình cứ lặp lại vì cùng một mô hình tinh thần cứ lặp lại.

Lòng tin được thừa kế.

Thẩm quyền được ủy quyền.

Sự mơ hồ về ranh giới.

Các giả định chia sẻ.

Không có thẩm quyền cuối cùng trước hậu quả.

Cùng một vết nứt xuất hiện trong chuỗi cung ứng phần mềm.

Trong chiến dịch Mini Shai-Hulud, các bản phát hành gói bị xâm phạm đã lan truyền qua các phần của hệ sinh thái npm và PyPI, bao gồm các gói Mistral AI, TanStack, UiPath và những gói khác.

Cảnh báo không chỉ đơn thuần là các gói có thể bị xâm phạm.

Mọi người đều đã biết điều đó.

Cảnh báo là các đường dẫn phát hành đáng tin cậy, các gói có vẻ hợp lệ và hạ tầng nhà phát triển có thể trở thành các kênh lan truyền một khi thẩm quyền được thừa kế thay vì được xác minh lại tại ranh giới.

Ngụy biện tự củng cố

Phần tồi tệ nhất là điều này không tự sửa chữa.

Con người hiện đang sử dụng các tác tử để xây dựng thế hệ công cụ tiếp theo cho các tác tử,

với tốc độ cao hơn,

bên trong cùng một khung bị hỏng.

Mọi tác tử viết mã đang viết một máy chủ MCP.

Mọi triển khai hỗ trợ AI của một sơ đồ phân quyền.

Mọi scaffold vibe-code được đẩy lên sản xuất.

Mọi tích hợp do tác tử tạo ra kế thừa các giả định OAuth cũ.

Mọi tầng phê duyệt cho rằng tác tử sẽ hành xử như một người yêu cầu là con người.

Trong một trong những môi trường beta của chúng tôi, chúng tôi đã quan sát thấy một bầy tác tử tẩy rửa các hướng dẫn độc hại thành các bước thực thi trông sạch sẽ trước khi các tầng kiểm tra hạ nguồn nhìn thấy ý định ban đầu.

Một hệ thống chỉ kiểm tra cuộc gọi công cụ cuối cùng sẽ bỏ lỡ hoàn toàn sự biến đổi.

Ranh giới đã quá muộn.

Điều đó quan trọng.

Bởi vì mô hình không "phá vỡ" quy trình.

Nó đang tuân theo:

diễn giải,

viết lại,

lập kế hoạch,

và dịch ý định trước khi thực thi.

Hướng dẫn độc hại đã biến mất ở thượng nguồn từ lâu trước khi hành động không thể đảo ngược xuất hiện ở hạ nguồn.

Mọi nhật ký kiểm toán ghi lại kết quả nhưng không ghi lại quyết định ranh giới trước kết quả.

Khung không tự sửa khi chúng ta mở rộng quy mô.

Nó cứng lại.

Bởi vì mọi lần giao hàng thành công của các đường ray thông qua lăng kính con người củng cố niềm tin rằng lăng kính là đúng.

Trong khi đó, năng lực được giao trước.

Các nguyên thủy quản trị được giao sau.

Nếu có.

Khoảng cách giữa những gì các tác tử có thể làm và những gì các đường ray xung quanh có thể thấy ngày càng rộng ra với mỗi bản phát hành mô hình.

Và các đội ngũ quan trọng trong mười hai tháng tới sẽ không phải là những người có bản demo thông minh nhất.

Họ sẽ là những người hiểu các ranh giới đỏ ở đâu.

Không phải mọi hành động.

Điều đó sẽ giết chết hệ thống.

Hầu hết hành vi của tác tử nên được để chảy.

Nhưng các hành động không thể đảo ngược không thể được giao cho lòng tin được thừa kế,

phân quyền mơ hồ,

hoặc phán đoán của tác tử.

Di chuyển tiền.

Chạm vào sản xuất.

Xuất dữ liệu khách hàng.

Sử dụng quyền truy cập OAuth được ủy quyền để vào môi trường nội bộ.

Thay đổi hạ tầng.

Phát hành bí mật.

Phê duyệt giao dịch.

Xóa bản ghi.

Vượt từ mô phỏng sang trạng thái.

Đó không phải là các hành động thông thường.

Đó là các ranh giới đỏ.

Atbash làm gì

Atbash được xây dựng cho khoảnh khắc trước khi một hành động tác tử nhạy cảm trở thành hiện thực.

Đó là ranh giới.

Không phải toàn bộ quy trình.

Không phải mọi suy nghĩ.

Không phải mọi token.

Không phải mọi cuộc gọi công cụ.

Ranh giới.

Khoảnh khắc trước khi tác tử vượt từ ý định sang hậu quả.

Ba điều xảy ra ở đó.

Thực thi

Bạn xác định các ranh giới đỏ.

Atbash đánh giá các hành động tác tử nhạy cảm đã chọn trước khi thực thi và trả về:

CHO PHÉP.

GIỮ LẠI.

CHẶN.

Nếu hành động vượt qua một ranh giới bị cấm, nó có thể bị giam giữ trước khi chạm đến trạng thái thế giới thực.

Không phải ghi nhật ký sau khi sự việc xảy ra.

Không phải từ chối để tác tử có thể thử lại xung quanh nó.

Bị giam giữ.

Ngươi không được động vào cơ sở dữ liệu sản xuất.

Ngươi không được chuyển tiền trên ngưỡng này.

Ngươi không được xuất danh sách khách hàng.

Ngươi không được xoay vòng bí mật mà không có phê duyệt.

Ngươi không được sử dụng quyền truy cập được ủy quyền để vào môi trường này.

Hầu hết hành vi của tác tử nên được để chảy.

Atbash chỉ can thiệp tại các ranh giới quan trọng:

những điều không thể đảo ngược,

những điều có hậu quả,

những nơi mà "để tôi hoàn tác điều đó" không tồn tại.

Dòng dõi

Khi có sự cố xảy ra, câu hỏi đầu tiên không còn là:

"Hệ thống bị xâm phạm tuyên bố điều gì đã xảy ra?"

Atbash ghi lại hành động đã cố gắng,

phiên bản chính sách,

phán quyết,

ranh giới được gọi,

và quyết định của người vận hành khi con người được đưa vào.

Bản ghi được neo mật mã để dòng thời gian có thể được tái tạo khi có tranh chấp.

Điều đó quan trọng bởi vì điều đầu tiên những kẻ tấn công và các triển khai cẩu thả làm là phá hủy câu chuyện.

Chúng viết lại nhật ký.

Chúng làm mờ dòng thời gian.

Chúng tranh cãi ai đã phê duyệt cái gì.

Chúng làm cho sự cố không thể tái tạo.

Atbash không cố gắng thay thế mọi hệ thống kiểm toán.

Nó cố gắng làm cho quyết định ranh giới có thể chứng minh được.

Ai đã cố gắng vượt qua ranh giới đỏ nào?

Chính sách nào tồn tại tại thời điểm đó?

Hành động đã được cho phép,

giữ lại,

chặn,

hay bị giam giữ?

Ai đã can thiệp?

Điều gì đã thay đổi sau đó?

Đó là bản ghi quan trọng khi cuộc tranh luận bắt đầu.

Thích ứng

Khi cùng một loại áp lực ranh giới xuất hiện hết lần này đến lần khác, Atbash đưa nó lên bề mặt.

Có thể chính sách quá lỏng lẻo.

Có thể một công cụ đang đầu độc quy trình.

Có thể một nguồn bộ nhớ đang đẩy tác tử về phía ranh giới.

Có thể một lớp prompt liên tục điều khiển hệ thống vào lãnh thổ bị cấm.

Có thể người vận hành đã phát hiện ra một ranh giới đỏ mới không tồn tại ngày hôm qua.

Atbash đưa mô hình lên bề mặt.

Người vận hành quyết định.

Sự khác biệt đó quan trọng.

Chúng tôi không tin rằng an toàn đến từ việc giả vờ rằng hệ thống có thể biết một cách kỳ diệu mọi ranh giới tương lai.

An toàn đến từ việc làm cho áp lực ranh giới trở nên có thể thấy trước khi có hậu quả,

sau đó để người vận hành củng cố các ranh giới đỏ quan trọng.

Một công cụ chính sách tốt hơn vẫn thực thi các chính sách.

Một sơ đồ phân quyền tốt hơn vẫn cấp các vai trò.

Một stack kiểm toán tốt hơn vẫn ghi lại kết quả.

Một sản phẩm bảo mật tốt hơn vẫn phát hiện các mối đe dọa.

Atbash khác biệt vì nó nằm trước khi các hành động không thể đảo ngược đã chọn được thực thi.

Đó là nguyên thủy.

Không phải quản trị chung chung.

Không phải bảo mật tác tử giả tạo.

Không phải "tầng tin cậy" mơ hồ.

Một ranh giới đỏ trước khi thực thi cho các tác tử.

Bạn xác định các ranh giới đỏ.

Atbash ngăn các tác tử trước khi chúng vượt qua chúng.

Điều gì tiếp theo

Một vài đội ngũ siêu sao đang làm công việc thực sự và có các sáng kiến thực sự trong thể loại này.

@AnthropicAI với Project Glasswing.

@OpenAI với Daybreak.

@linuxfoundation với MCP.

@Microsoft với AGT.

@Google với SGP.

@CheckPointSW, CrowdStrike, Palo Alto, và Cisco.

Và nhiều người khác.

Họ hiểu rằng tăng tốc năng lực mà không có các nguyên thủy kiểm soát mới đang trở nên nguy hiểm.

Chúng tôi không cố gắng đánh bại họ trong trò chơi của họ.

Điều đó sẽ là ảo tưởng.

Họ có đội ngũ nghiên cứu sâu hơn,

bộ dữ liệu lớn hơn,

đội ngũ bảo mật rộng hơn,

uy tín doanh nghiệp hơn,

phân phối lớn hơn,

và các tổ chức an ninh mạng trưởng thành hơn.

Tốt.

Hãy để họ làm những gì họ được xây dựng để làm.

Chúng tôi không cố gắng thay thế công việc mà các đội ngũ này đang làm.

Thể loại này cần họ.

Tăng tốc năng lực mà không có các nguyên thủy kiểm soát mới trở nên nguy hiểm rất nhanh.

Chúng tôi cạnh tranh trên khung.

Một tác tử là loại tác nhân gì?

Thẩm quyền thực sự nằm ở đâu?

Hành động nào quá hệ trọng để giao cho lòng tin được thừa kế?

Điều gì nên xảy ra tại khoảnh khắc cuối cùng trước khi một tác tử thay đổi trạng thái thế giới thực?

Đó là mặt trận của chúng tôi.

Thế giới cũ hỏi:

Hệ thống có quyền không?

Thế giới mới hỏi:

Tác tử này có được phép vượt qua ranh giới đỏ này ngay bây giờ không?

Đó không phải là cùng một câu hỏi.

Chúng tôi, con người, đã vượt qua ranh giới đỏ đầu tiên.

Vấn đề lâu đời hơn công nghệ.

Giải pháp cũng vậy.

Hãy tìm ra ranh giới đỏ nào mà stack hiện tại của bạn thực sự không thể thực thi trước khi một tác tử vượt qua chúng.

Sau đó quyết định xem bạn sẽ đợi bao lâu.

CLI, SDK và bảng điều khiển vận hành hiện đang được triển khai có chọn lọc cho các đội ngũ triển khai các tác tử vào các quy trình nhạy cảm.

Atbash.ai

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Dành cho nhà sáng tạo

Biến Markdown của bạn thành bài viết 𝕏 gọn gàng

Khi bạn đăng bài viết dài của riêng mình, việc định dạng hình ảnh, bảng và khối mã cho 𝕏 rất mệt mỏi. YouMind biến cả bản nháp Markdown thành một bài viết 𝕏 gọn gàng, sẵn sàng để đăng.

Thử Markdown sang 𝕏

Thêm pattern để giải mã

Bài viết viral gần đây

Khám phá thêm bài viết viral