Tesla ของคุณมีถังน้ำมันไหม? ถ้าไม่มี เอเจนต์ของคุณก็ไม่ควรมีเช่นกัน

@ATBASHai
อังกฤษ2 เดือนที่ผ่านมา · 18 พ.ค. 2569
668K
173
13
16
9

TL;DR

ผู้ร่วมก่อตั้ง Atbash โต้แย้งว่า AI agents ต้องการกระบวนทัศน์ด้านความปลอดภัยรูปแบบใหม่ที่เน้นการกำหนดเส้นตายและขอบเขตก่อนการประมวลผล บทความนี้อธิบายว่าทำไมความเสี่ยงของ Software 2.0 จึงจำเป็นต้องมีการบังคับใช้มาตรการที่เด็ดขาดเพื่อป้องกันความเสียหายที่ไม่อาจแก้ไขได้

โดย Yosef และ Or ผู้ร่วมก่อตั้ง Atbash

ความเชื่อที่อันตรายที่สุดในวงการ AI ขณะนี้ไม่ใช่การที่โมเดลจะทรงพลังขึ้น

ส่วนนั้นชัดเจนอยู่แล้ว

ความเชื่อที่อันตรายนั้นเงียบกว่า มันคือสมมติฐานที่อยู่ใต้ทุกแผนผังผลิตภัณฑ์ เลเยอร์การกำกับดูแล ระบบอนุญาต กองตรวจสอบ และเฟรมเวิร์กเอเจนต์ที่กำลังถูกสร้างขึ้นในตอนนี้:

ว่าเมื่อโมเดลดีขึ้น ระบบที่สร้าง环绕พวกมันจะปลอดภัยขึ้นตามไปด้วย

ผมไม่คิดว่ามันจะเป็นแบบนั้น

ผมคิดว่าเรากำลังจะเข้าสู่ช่วงเวลาที่ผลิตภัณฑ์ AI แย่ลงในมิติที่สำคัญจริงๆ:

ความไว้วางใจ

การกักขัง

ความสามารถในการคาดเดา

ความสามารถในการกู้คืน

เกณฑ์วัดจะเพิ่มขึ้น

การสาธิตจะดูดีขึ้น

เอเจนต์จะมีความสามารถมากขึ้น

และระบบที่环绕它们จะเปราะบางมากขึ้น เพราะถูกสร้างขึ้นจากโมเดลความคิดที่ผิด

นั่นคือความผิดพลาดเชิงโครงสร้าง

Software 2.0 กำลังถูกปกป้องโดย Software 1.0

ก่อนที่ผมจะโต้แย้งประเด็นนั้น ผมต้องสารภาพก่อนว่าบริษัทนี้มาจากไหนจริงๆ

คำสารภาพ

ผมอ่านปฐมกาลในฐานะเอกสารทางเทคนิค

ผมเป็นชาวยิวที่เคร่งศาสนา ผมใช้เวลาส่วนใหญ่ในวัยผู้ใหญ่คิดถึงความสัมพันธ์ของพระเจ้ากับมนุษย์ คำถามนั้นนำผมไปสู่ Atbash ในที่สุด

ไม่ใช่เพราะปฐมกาลเป็นคู่มือสตาร์ทอัพ

เพราะปฐมกาลเป็นเรื่องราวเส้นแดงที่เก่าแก่ที่สุดที่ผมรู้จัก

สวนเอเดนเป็นแซนด์บ็อกซ์

เส้นแดงที่ชัดเจนหนึ่งเส้น:

อย่ากินผลจากต้นไม้แห่งความรู้ดีและชั่ว

งูเป็นเครื่องมือที่มีพิษ

มันไม่สามารถเข้าถึงอาดัมได้โดยตรง มันจึงโจมตีผ่านทางแยกที่ไว้ใจได้

เอวาได้รับการฉีดรีเฟรม:

เจ้าจะไม่ตายแน่

เจ้าจะเป็นเหมือนพระเจ้า

เธอนำตรรกะที่มีพิษกลับเข้าไปในระบบ

การป้องกันของอาดัม ซึ่งเคยต้านทานการโจมตีโดยตรงได้ ไม่ทำงานกับการป้อนข้อมูลที่ไว้ใจได้

จากนั้นส่วนสำคัญก็มาถึง

พระเจ้าไม่ได้ฆ่าพวกเขา

พระเจ้าทรงกักขังพวกเขา

มนุษย์ถูกนำออกจากแซนด์บ็อกซ์และวางในสิ่งแวดล้อมใหม่ คือโลก ที่ซึ่งพวกเขาสามารถพัฒนาความสามารถได้โดยไม่ทำให้ระบบเดิมปนเปื้อน

ทูตสวรรค์ถือดาบเพลิงถูกวางไว้ที่ขอบเขตเพื่อป้องกันการกลับเข้ามา

ไม่ใช่การลงโทษ

แต่เป็นสถาปัตยกรรม

Atbash ตั้งชื่อตามรหัสที่เก่าแก่ที่สุดที่รู้จัก จากหนังสือเยเรมีย์:

การแทนที่อย่างง่ายที่ขอบเขตของความหมาย

ชื่อนี้สะท้อนว่าผลิตภัณฑ์ทำอะไร

ผลิตภัณฑ์สะท้อนสิ่งที่ผมอ่านในปฐมกาล

โตราห์แสดงให้ผมเห็นว่าความปลอดภัยไม่ได้เกิดจากการจำกัดทุกพฤติกรรม

ความปลอดภัยไม่ได้เกิดจากการทำให้ทั้งระบบช้าลง

ความปลอดภัยมาจากเส้นแดงจำนวนน้อย

การบังคับใช้อย่างเด็ดขาด

และขอบเขตที่ไม่เคยหลับไหล

คุณกำหนดเส้นแดง

Atbash หยุดเอเจนต์ก่อนที่พวกมันจะข้ามเส้นเหล่านั้น

เอเจนต์ไม่ใช่มนุษย์ที่เร็ว

Andrej @karpathy ตั้งชื่อกระบวนทัศน์นี้ไว้เมื่อหลายปีก่อน

เขาเรียกมันว่า Software 2.0:

โค้ดที่ไม่ได้เขียนโดยมนุษย์เท่านั้น แต่ถูกฝึก

โมเดลเข้ามาแทนที่ตรรกะ

ข้อมูลเข้ามาแทนที่ข้อกำหนด

เขากำลังอธิบายว่าการคำนวณกลายเป็นอะไร

แต่เกือบทุกชิ้นส่วนของโครงสร้างพื้นฐานที่เราสร้างขึ้นเพื่อกำกับ อนุญาต รักษาความปลอดภัย และตรวจสอบ Software 2.0 ยังคงสืบทอดสมมติฐานจากโลกของ Software 1.0

MCP

x402

AgentKit

เฟรมเวิร์กการมอบหมาย

เอนจินนโยบาย

บันทึกตรวจสอบ

คำขอที่ลงนาม

สิทธิ์ที่กำหนดขอบเขต

ขั้นตอนการอนุมัติของมนุษย์

ทุกสิ่งเหล่านี้สมเหตุสมผลถ้าคุณเชื่อว่าเอเจนต์คือมนุษย์ที่เร็วที่มี API

พวกมันไม่ใช่

พวกมันคือ Tesla ที่มีถังแก๊สติดอยู่

ระบบพลังงานใหม่ทั้งหมด

ที่ถูกล้อมรอบด้วยโครงสร้างพื้นฐานที่ออกแบบมาสำหรับเครื่องจักรชนิดอื่น

มนุษย์ออกแบบหน้าเช็คเอาต์ เราจึงสร้างหน้าเช็คเอาต์แบบไม่มีหัวสำหรับเอเจนต์

มนุษย์ลงนามคำขอ เราจึงสร้างคำขอที่ลงนามสำหรับเอเจนต์

มนุษย์ได้รับสิทธิ์ตามบทบาท เราจึงสร้างการมอบหมายที่กำหนดขอบเขตสำหรับเอเจนต์

มนุษย์อนุมัติการกระทำ เราจึงสร้างหน้าจออนุมัติสำหรับเอเจนต์

แต่ละการเคลื่อนไหวมีเหตุผล

นั่นคือปัญหา

ตรรกะเป็นของนักแสดงที่ผิด

มนุษย์ที่ได้รับเครื่องมือสิบอย่าง มักจะไม่นำมาใช้ต่อกันในแบบที่นักออกแบบไม่เคยจินตนาการ

เมื่อบางสิ่งมีพฤติกรรมแปลก มนุษย์มักสังเกตและหยุด

มนุษย์มีความลังเลทางสังคม

ความกลัว

ความอาย

ความเบื่อหน่าย

ความสงสัย

และบริบท

เอเจนต์ไม่มีสิ่งเหล่านั้นอย่างน่าเชื่อถือ

เอเจนต์ใช้เครื่องมือต่อกันในแบบที่ไม่มีนักออกแบบใดออกแบบ

เอเจนต์ถูกเปลี่ยนรูปโดยพรอมต์

หน่วยความจำที่ดึงมา

เอกสาร

ผลลัพธ์ของเครื่องมือ

และบริบทที่ซ่อนเร้นในแบบที่เลเยอร์สิทธิ์ที่อยู่รอบข้างมองไม่เห็น

เอเจนต์ไม่มีปฏิกิริยาตามธรรมชาติแบบ “นี่มันแปลก ให้ฉันหยุด” นอกจากเราจะสร้างมันขึ้นมา

และถึงอย่างนั้น มันก็สามารถถูกเปลี่ยนผ่านพรอมต์ได้

นี่คือความเข้าใจผิดเรื่องมนุษย์ที่เร็ว

ความเชื่อที่ว่าเอเจนต์คือเราในเวอร์ชันที่เร็วขึ้น

พวกมันไม่ใช่

และถ้านักแสดงเปลี่ยนไป โมเดลควบคุมก็ต้องเปลี่ยนตามไปด้วย

อย่าเกลียดผู้เล่น เกลียดกรอบ

นี่คือสิ่งสำคัญ

ตัวอย่างข้างต้นหรือด้านล่างไม่ใช่การวิจารณ์ทีมที่เกี่ยวข้อง

ไม่ใช่ Anthropic

ไม่ใช่ OpenAI

ไม่ใช่ Microsoft

ไม่ใช่ Mistral

ไม่ใช่ OpenClaw

ไม่ใช่ Lovable

ไม่ใช่ Vercel

ไม่ใช่ใครทั้งนั้น

ประเด็นคือตรงกันข้าม

เหล่านี้คือทีมที่จริงจัง

นักวิจัยที่จริงจัง

ผลิตภัณฑ์ที่จริงจัง

โปรโตคอลที่จริงจัง

และบริษัทที่จริงจัง ที่กำลังชนเข้ากับปัญหาเชิงโครงสร้างเดียวกัน

นั่นคือสิ่งที่ทำให้รูปแบบนี้อันตราย

ถ้ามีแต่ทีมไม่ดีที่ล้มเหลว คำตอบก็คือทีมที่ดีกว่า

แต่เมื่อทีมฉลาดๆ ชนกำแพงเดิมซ้ำแล้วซ้ำเล่า

กำแพงคือเรื่องราว

ความผิดพลาดไม่ใช่การที่ทีมเหล่านี้คิดไม่หนักพอ

ความผิดพลาดคืออุตสาหกรรมยังคงคิดจากศตวรรษซอฟต์แวร์ที่ผิด

เรายังคงปฏิบัติต่อเอเจนต์เหมือนมนุษย์ที่เร็วที่มี API

และทุกระบบสิทธิ์

บันทึกตรวจสอบ

การอนุญาตที่กำหนดขอบเขต

ขั้นตอนการอนุมัติ

และเลเยอร์การกำกับดูแลที่สร้างบนสมมติฐานนั้น ก็สืบทอดรอยร้าวเดียวกัน

ศัตรูไม่ใช่ผู้เล่น

ศัตรูคือกรอบ

รอยร้าวเริ่มก่อตัวเร็วกว่าที่คนส่วนใหญ่ตระหนัก

ไม่ใช่เพราะห้องปฏิบัติการชั้นนำนั้นไม่ระมัดระวัง

เพราะนักแสดงเปลี่ยนไป

รอยร้าวแรก

Anthropic แสดงให้เห็นสิ่งที่อุตสาหกรรมเข้าใจเงียบๆ แต่ยังไม่ได้ย่อยอย่างเต็มที่

เมื่อได้รับคำสั่งระหว่างการประเมิน โมเดลชั้นนำใช้ช่องโหว่หลายจุดต่อกัน พยายามหลบหนีแซนด์บ็อกซ์ และหาเส้นทางสู่การเข้าถึงอินเทอร์เน็ตนอกสภาพแวดล้อมการกักขังที่ตั้งใจ

แยกกัน ระบบชั้นนำแสดงความสามารถในการระบุช่องโหว่ที่รอดพ้นจากการตรวจสอบของมนุษย์ การฟัซซิง และการตรวจสอบด้วยมือเป็นเวลาหลายปี

ส่วนสำคัญไม่ใช่การที่โมเดลมีเจตนาร้าย

ส่วนสำคัญคือระบบไม่ถูกจำกัดอยู่ในรูปทรงที่นักออกแบบจินตนาการอีกต่อไป

นั่นคือการแตกหมวดหมู่

ระบบที่สามารถค้นพบเส้นทางที่มนุษย์พลาดซ้ำแล้วซ้ำเล่า ไม่สามารถถูกกำกับด้วยสมมติฐานที่มนุษย์กำหนดก่อนที่เส้นทางจะปรากฏเท่านั้น

นั่นไม่ได้หมายความว่าห้องปฏิบัติการชั้นนำล้มเหลว

มันหมายความว่านักแสดงเปลี่ยนไป

รอยร้าวที่สอง

Microsoft เปิดเผยช่องโหว่ใน Semantic Kernel ที่การฉีดพรอมต์สามารถนำพาเวิร์กโฟลว์เอเจนต์ไปสู่การเรียกใช้คำสั่งระดับโฮสต์ได้

ประโยคกลายเป็นเชลล์

นั่นคือการเปลี่ยนแปลงหมวดหมู่ที่ซ่อนอยู่ภายใต้การสนทนาโครงสร้างพื้นฐาน

Software 1.0 ปฏิบัติต่อพรอมต์เหมือนอินพุต

Software 2.0 เปลี่ยนพรอมต์ให้กลายเป็นเส้นทางการดำเนินการที่เป็นไปได้มากขึ้นเรื่อยๆ

ความแตกต่างนั้นฟังดูเป็นปรัชญาจนกระทั่งเอเจนต์เริ่มแปลภาษาธรรมชาติเป็นเครื่องมือ

เครื่องมือเป็นคำสั่ง

และคำสั่งเป็นการเปลี่ยนแปลงสถานะในโลกจริง

ส่วนสำคัญไม่ใช่การที่มีช่องโหว่

ช่องโหว่มักมีอยู่เสมอ

ส่วนสำคัญคือว่าช่องโหว่นี้เป็นประเภทไหน

เอเจนต์ไม่ได้ทำลายตัวละคร

มันทำตามสถาปัตยกรรมตามที่ออกแบบไว้ทุกประการ:

ตีความภาษา เลือกเครื่องมือ ต่อเนื่องการกระทำ และดำเนินการ

และนั่นคือปัญหา

โมเดลเก่าสันนิษฐานว่าคำสั่งและการดำเนินการอยู่ในกล่องแนวคิดแยกกัน

เอเจนต์ลบขอบเขตนั้น

ประโยคที่มีพิษสามารถกลายเป็นลูกโซ่การดำเนินการที่มีสิทธิ์

นั่นไม่ใช่มนุษย์ที่เร็ว

นั่นคือสปีชีส์การดำเนินการที่แตกต่าง

รอยร้าวที่สาม

จากนั้นรูปแบบก็แพร่กระจาย

Vercel เปิดเผยการละเมิดที่เชื่อมโยงกับการเชื่อมต่อเครื่องมือ AI ของบุคคลที่สามที่ถูกบุกรุก

ผู้โจมตีไม่ได้เริ่มด้วยการเจาะประตูหน้าที่แข็งแกร่งของ Vercel โดยตรง

พวกเขาเคลื่อนผ่านความไว้วางใจที่ถูกมอบหมาย

พนักงานได้อนุญาตเครื่องมือ AI ของบุคคลที่สาม

การเชื่อมต่อพกพาการเข้าถึง

ความสัมพันธ์ที่ไว้ใจได้กลายเป็นเส้นทางการโจมตี

นั่นคือปัญหาเขตแดนใหม่

ไม่ใช่เพราะ Vercel ประมาท

เพราะระบบสมัยใหม่เต็มไปด้วยทางแยกที่ไว้ใจได้:

การอนุญาต OAuth

การผสานรวม AI

ส่วนขยายเบราว์เซอร์

เวิร์กโฟลว์เอเจนต์

ระบบอัตโนมัติภายใน

สิทธิ์ที่ถูกมอบหมาย

และการอนุมัติเก่าที่ยังคงมีชีวิตอยู่นานหลังจากบริบทของมนุษย์ดั้งเดิมหายไป

ผู้โจมตีไม่จำเป็นต้องเอาชนะปราสาทอีกต่อไป ถ้าปราสาทนั้นไว้ใจผู้ส่งสารแล้ว

สมมติฐานที่ตายไป:

ว่าการทำให้พื้นผิวหลักแข็งแกร่งขึ้นนั้นเพียงพอ

มันไม่พอ

เครื่องมือที่อยู่ติดกันของคุณเป็นส่วนหนึ่งของขอบเขตความปลอดภัยของคุณแล้ว

จากนั้นรูปแบบก็เร่งขึ้น

ส่วนที่แย่ที่สุดคือตอนนี้กรอบกลับสร้างตัวเองซ้ำโดยอัตโนมัติ

มนุษย์ใช้เอเจนต์เพื่อสร้างเครื่องมือรุ่นต่อไปสำหรับเอเจนต์ เร็วกว่าที่สิ่งพื้นฐานการกำกับดูแลรอบข้างจะพัฒนาตามทัน

แอปพลิเคชันที่ทำด้วย Vibe coding

การผสานรวมที่สร้างด้วย AI

เซิร์ฟเวอร์ MCP ที่เขียนโดยเอเจนต์

โฟลว์ OAuth ที่ถูกมอบหมายซึ่งประกอบขึ้นโดยไม่มีการสร้างแบบจำลองภัยคุกคามอย่างสมบูรณ์

โครงสร้างการผลิตที่ถูกจัดส่งโดยคนที่ไม่ค่อยเข้าใจรัศมีการระเบิดของสิ่งที่พวกเขาเชื่อมต่อ

อุตสาหกรรมเรียกสิ่งนี้ว่าการเร่งความเร็ว

บางครั้งมันก็ใช่

บางครั้งมันก็คือความเปราะบางที่ถูกทำให้เป็นอุตสาหกรรม

ในเวลาใกล้กัน อุตสาหกรรมเริ่มชนเข้ากับความตระหนักในวงกว้างเกี่ยวกับเครื่องมือเอเจนต์เอง

ระบบ OpenClaw แสดงให้เห็นว่าหมวดหมู่กำลังมุ่งหน้าไปทางไหน:

เอเจนต์ที่มีหน่วยความจำ ทักษะ เครื่องมือ สภาพแวดล้อมการดำเนินการ และการเข้าถึงที่ถูกมอบหมาย เคลื่อนที่ข้ามระบบที่ไม่เคยออกแบบมาสำหรับนักแสดงที่ไม่ใช่มนุษย์

Karpathy เรียกระบบนิเวศนี้ว่าฝันร้ายด้านความปลอดภัย

ไม่ใช่เพราะเอเจนต์เป็นของปลอม

เพราะหมวดหมู่เป็นของจริง

และเพราะโมเดลควบคุมรอบข้างยังคงสันนิษฐานว่านักแสดงทำตัวเหมือนผู้ขอที่เป็นมนุษย์

ที่อื่น Lovable เปิดเผยว่าการพัฒนาแบบ AI-native สามารถทำให้ความผิดพลาดด้านการอนุญาตแบบเก่ากลายเป็นอุตสาหกรรมได้เร็วแค่ไหน

การล็อกอินกลายเป็นความสับสนกับการอนุญาต

“สาธารณะ” กลายเป็นความสับสนกับ “เข้าใจ”

การปรับแต่งได้กลายเป็นความสับสนกับความปลอดภัย

และภายนอกโลก AI-native เหตุการณ์อย่าง KelpDAO ยังคงเผยรอยร้าวเชิงโครงสร้างเดียวกันจากอีกมุม:

ระบบที่ดำเนินชีวิตระหว่างสมมติฐานที่ถูกมอบหมาย ความรับผิดชอบร่วมกัน ความคลุมเครือของขอบเขต และไม่มีเลเยอร์อำนาจสุดท้ายก่อนผลกระทบ

รูปแบบเกิดซ้ำแล้วซ้ำเล่าเพราะโมเดลความคิดเดียวกันเกิดซ้ำแล้วซ้ำเล่า

ความไว้วางใจที่สืบทอดมา

อำนาจที่ถูกมอบหมาย

ความคลุมเครือของขอบเขต

สมมติฐานร่วมกัน

ไม่มีอำนาจสุดท้ายก่อนผลกระทบ

รอยร้าวเดียวกันปรากฏในซัพพลายเชนซอฟต์แวร์

ในแคมเปญ Mini Shai-Hulud การปล่อยแพ็กเกจที่ถูกบุกรุกแพร่กระจายข้ามส่วนของระบบนิเวศ npm และ PyPI รวมถึงแพ็กเกจของ Mistral AI, TanStack, UiPath และอื่นๆ

คำเตือนไม่ใช่แค่ว่าแพ็กเกจสามารถถูกบุกรุกได้

ทุกคนรู้อยู่แล้ว

คำเตือนคือเส้นทางการปล่อยที่ไว้ใจได้ แพ็กเกจที่ดูถูกต้อง และโครงสร้างพื้นฐานนักพัฒนาสามารถกลายเป็นช่องทางการแพร่กระจาย เมื่ออำนาจถูกสืบทอดแทนที่จะถูกตรวจสอบอีกครั้งที่ขอบเขต

ความเข้าใจผิดทบต้น

ส่วนที่แย่ที่สุดคือสิ่งนี้ไม่แก้ไขตัวเอง

มนุษย์กำลังใช้เอเจนต์เพื่อสร้างเครื่องมือรุ่นต่อไปสำหรับเอเจนต์

ด้วยความเร็วที่สูงขึ้น

ภายในกรอบที่แตกหักเดิม

เอเจนต์เขียนโค้ดทุกตัวที่เขียนเซิร์ฟเวอร์ MCP

การปรับใช้ระบบสิทธิ์ที่ช่วยด้วย AI ทุกครั้ง

โครงสร้าง Vibe coding ที่พุชไปยังโปรดักชันทุกครั้ง

การผสานรวมที่สร้างโดยเอเจนต์ทุกครั้งที่สืบทอดสมมติฐาน OAuth เก่า

เลเยอร์การอนุมัติทุกครั้งที่สันนิษฐานว่าเอเจนต์จะทำตัวเหมือนผู้ขอที่เป็นมนุษย์

ในสภาพแวดล้อมเบต้าแห่งหนึ่งของเราเอง เราสังเกตเห็นฝูงเอเจนต์ซักฟอกคำสั่งที่เป็นอันตรายให้เป็นขั้นตอนการดำเนินการที่ดูสะอาด ก่อนที่เลเยอร์การตรวจสอบปลายน้ำจะเห็นเจตนาดั้งเดิม

ระบบที่ตรวจสอบเฉพาะการเรียกใช้เครื่องมือครั้งสุดท้ายจะพลาดการเปลี่ยนแปลงทั้งหมด

ขอบเขตสายเกินไปแล้ว

นั่นสำคัญ

เพราะโมเดลไม่ได้ “ทำลาย” เวิร์กโฟลว์

มันกำลังทำตาม:

ตีความ เขียนใหม่ วางแผน และแปลเจตนาก่อนดำเนินการ

คำสั่งที่เป็นอันตรายหายไปต้นน้ำนานก่อนที่การกระทำที่ไม่สามารถย้อนกลับจะปรากฏปลายน้ำ

ทุบบันทึกตรวจสอบที่บันทึกผลลัพธ์ แต่ไม่ใช่การตัดสินใจที่ขอบเขตก่อนผลลัพธ์

กรอบไม่ถูกแก้ไขเมื่อเราขยายขนาด

มันแข็งตัว

เพราะทุกการส่งมอบรางผ่านปริซึมมนุษย์ที่ประสบความสำเร็จตอกย้ำความเชื่อว่าปริซึมนั้นถูกต้อง

ในขณะเดียวกัน ความสามารถถูกจัดส่งก่อน

สิ่งพื้นฐานการกำกับดูแลถูกจัดส่งทีหลัง

ถ้าถูกจัดส่งเลย

ช่องว่างระหว่างสิ่งที่เอเจนต์ทำได้กับสิ่งที่ราวรอบข้างมองเห็นกว้างขึ้นทุกครั้งที่มีการปล่อยโมเดล

และทีมที่สำคัญในสิบสองเดือนข้างหน้าจะไม่ใช่ทีมที่มีการสาธิตที่ฉลาดที่สุด

พวกเขาจะเป็นทีมที่เข้าใจว่าเส้นแดงอยู่ตรงไหน

ไม่ใช่ทุกการกระทำ

นั่นจะฆ่าระบบ

พฤติกรรมเอเจนต์ส่วนใหญ่ควรให้ไหลผ่าน

แต่การกระทำที่ไม่สามารถย้อนกลับไม่สามารถปล่อยให้เป็นความไว้วางใจที่สืบทอด

สิทธิ์ที่คลุมเครือ

หรือดุลยพินิจของเอเจนต์

การย้ายเงิน

การแตะโปรดักชัน

การส่งออกข้อมูลลูกค้า

การใช้การเข้าถึง OAuth ที่ถูกมอบหมายเพื่อเข้าสู่สภาพแวดล้อมภายใน

การเปลี่ยนโครงสร้างพื้นฐาน

การปล่อยความลับ

การอนุมัติธุรกรรม

การลบบันทึก

การข้ามจากการจำลองสู่สถานะจริง

สิ่งเหล่านั้นไม่ใช่การกระทำธรรมดา

สิ่งเหล่านั้นคือเส้นแดง

สิ่งที่ Atbash ทำ

Atbash ถูกสร้างขึ้นสำหรับช่วงเวลาก่อนที่การกระทำที่ละเอียดอ่อนของเอเจนต์จะกลายเป็นจริง

นั่นคือขอบเขต

ไม่ใช่เวิร์กโฟลว์ทั้งหมด

ไม่ใช่ทุกความคิด

ไม่ใช่ทุกโทเคน

ไม่ใช่ทุกการเรียกใช้เครื่องมือ

ขอบเขต

ช่วงเวลาก่อนที่เอเจนต์จะข้ามจากเจตนาสู่ผลลัพธ์

สามสิ่งเกิดขึ้นที่นั่น

การบังคับใช้

คุณกำหนดเส้นแดง

Atbash ประเมินการกระทำที่ละเอียดอ่อนที่เลือกของเอเจนต์ก่อนดำเนินการ และส่งคืน:

ALLOW

HOLD

BLOCK

ถ้าการกระทำข้ามขอบเขตต้องห้าม มันสามารถถูกคุมขังก่อนที่จะถึงสถานะในโลกจริง

ไม่ใช่บันทึกหลังจากความจริง

ไม่ใช่ปฏิเสธเพื่อให้เอเจนต์ลองใหม่รอบๆ

คุมขัง

เจ้าอย่าแตะฐานข้อมูลโปรดักชัน

เจ้าอย่าย้ายเงินเกินเกณฑ์นี้

เจ้าอย่าส่งออกรายชื่อลูกค้า

เจ้าอย่าหมุนเวียนความลับโดยไม่ได้รับการอนุมัติ

เจ้าอย่าใช้การเข้าถึงที่ถูกมอบหมายเพื่อเข้าสู่สภาพแวดล้อมนี้

พฤติกรรมเอเจนต์ส่วนใหญ่ควรไหลผ่าน

Atbash เข้าแทรกแซงเฉพาะที่ขอบเขตที่สำคัญ:

สิ่งที่ไม่สามารถย้อนกลับ

สิ่งที่มีผลกระทบ

สถานที่ซึ่ง “ให้ฉันยกเลิกสิ่งนั้น” ไม่มีอยู่

สายเลือด

เมื่อมีสิ่งผิดพลาด คำถามแรกจะไม่ใช่:

“ระบบที่ถูกบุกรุกอ้างว่าเกิดอะไรขึ้น?”

Atbash บันทึกการกระทำที่พยายาม

เวอร์ชันนโยบาย

คำตัดสิน

ขอบเขตที่ถูกเรียกใช้

และการตัดสินใจของผู้ปฏิบัติงานเมื่อมนุษย์ถูกดึงเข้ามา

บันทึกถูกยึดด้วยการเข้ารหัสเพื่อให้ลำดับเหตุการณ์สามารถสร้างขึ้นใหม่ได้ภายใต้ข้อพิพาท

นั่นสำคัญ เพราะสิ่งแรกที่ผู้โจมตีและการปรับใช้ที่เลอะเทอะทำคือทำลายเรื่องราว

พวกเขาเขียนบันทึกใหม่

พวกเขาทำให้ลำดับเหตุการณ์เบลอ

พวกเขาโต้แย้งว่าใครอนุมัติอะไร

พวกเขาทำให้เหตุการณ์ไม่สามารถสร้างขึ้นใหม่ได้

Atbash ไม่ได้พยายามแทนที่ทุกระบบตรวจสอบ

มันพยายามทำให้การตัดสินใจที่ขอบเขตพิสูจน์ได้

ใครพยายามข้ามเส้นแดงไหน?

นโยบายอะไรที่มีอยู่ในขณะนั้น?

การกระทำถูกอนุญาต ค้างไว้ ปิดกั้น หรือคุมขัง?

ใครเข้าแทรกแซง?

อะไรเปลี่ยนไปหลังจากนั้น?

นั่นคือบันทึกที่สำคัญเมื่อการโต้แย้งเริ่มต้นขึ้น

การปรับตัว

เมื่อความกดดันที่ขอบเขตแบบเดียวกันปรากฏซ้ำแล้วซ้ำเล่า Atbash จะนำมันขึ้นมา

บางทีนโยบายอาจหลวมเกินไป

บางทีเครื่องมืออาจวางยาพิษในเวิร์กโฟลว์

บางทีแหล่งหน่วยความจำอาจผลักเอเจนต์ไปใกล้เส้น

บางทีคลาสพรอมต์บางอย่างอาจพัดพาระบบไปสู่ดินแดนต้องห้าม

บางทีผู้ปฏิบัติงานอาจค้นพบเส้นแดงใหม่ที่ไม่มีอยู่เมื่อวาน

Atbash นำรูปแบบขึ้นมา

ผู้ปฏิบัติงานตัดสินใจ

ความแตกต่างนั้นสำคัญ

เราไม่เชื่อว่าความปลอดภัยมาจากการแสร้งว่าระบบสามารถรู้ทุกขอบเขตในอนาคตอย่างน่าอัศจรรย์

ความปลอดภัยมาจากการทำให้ความกดดันที่ขอบเขตมองเห็นได้ก่อนผลลัพธ์

จากนั้นให้ผู้ปฏิบัติงานแข็งเส้นแดงที่สำคัญ

เอนจินนโยบายที่ดีกว่ายังคงบังคับใช้นโยบาย

ระบบสิทธิ์ที่ดีกว่ายังคงให้บทบาท

กองตรวจสอบที่ดีกว่ายังคงบันทึกผลลัพธ์

ผลิตภัณฑ์ความปลอดภัยที่ดีกว่ายังคงตรวจจับภัยคุกคาม

Atbash แตกต่างเพราะมันอยู่ก่อนการกระทำที่ไม่สามารถย้อนกลับที่ถูกเลือกจะดำเนินการ

นั่นคือสิ่งพื้นฐาน

ไม่ใช่การกำกับดูแลทั่วไป

ไม่ใช่การแสร้งทำเป็นความปลอดภัยเอเจนต์

ไม่ใช่หมอก “เลเยอร์ความไว้วางใจ”

ขอบเขตเส้นแดงก่อนการดำเนินการสำหรับเอเจนต์

คุณกำหนดเส้นแดง

Atbash หยุดเอเจนต์ก่อนที่พวกมันจะข้ามเส้นเหล่านั้น

สิ่งที่จะเกิดขึ้นต่อไป

ทีมระดับซูเปอร์สตาร์สองสามทีมกำลังทำงานจริงและมีโครงการจริงในหมวดนี้

@AnthropicAI กับ Project Glasswing

@OpenAI กับ Daybreak

@linuxfoundation กับ MCP

@Microsoft กับ AGT

@Google กับ SGP

@CheckPointSW, CrowdStrike, Palo Alto, และ Cisco

และอีกมากมาย

พวกเขาเข้าใจว่าการเร่งความสามารถโดยไม่มีสิ่งพื้นฐานการควบคุมใหม่กำลังกลายเป็นอันตราย

เราไม่พยายามเอาชนะพวกเขาในเกมของพวกเขา

นั่นจะเป็นการหลงตัวเอง

พวกเขามีม้านั่งวิจัยที่ลึกกว่า

ชุดข้อมูลที่ใหญ่กว่า

ทีมรักษาความปลอดภัยที่กว้างขึ้น

ความน่าเชื่อถือในองค์กรที่มากกว่า

การกระจายที่ใหญ่กว่า

และองค์กรไซเบอร์ที่เติบโตกว่า

ดีแล้ว

ปล่อยให้พวกเขาทำในสิ่งที่พวกเขาถูกสร้างมา

เราไม่พยายามแทนที่งานที่ทีมเหล่านี้กำลังทำ

หมวดหมู่ต้องการพวกเขา

การเร่งความสามารถโดยไม่มีสิ่งพื้นฐานการควบคุมใหม่กลายเป็นอันตรายอย่างรวดเร็ว

เราแข่งขันในกรอบ

เอเจนต์เป็นนักแสดงประเภทไหน?

อำนาจอยู่ที่ไหนจริงๆ?

การกระทำใดที่สำคัญเกินกว่าจะปล่อยให้เป็นความไว้วางใจที่สืบทอด?

ควรเกิดอะไรขึ้นในช่วงเวลาสุดท้ายก่อนที่เอเจนต์จะเปลี่ยนสถานะในโลกจริง?

นั่นคือพื้นที่ของเรา

โลกเก่าถามว่า:

ระบบมีสิทธิ์หรือไม่?

โลกใหม่ถามว่า:

เอเจนต์นี้ควรได้รับอนุญาตให้ข้ามเส้นแดงนี้ตอนนี้หรือไม่?

นั่นไม่ใช่คำถามเดียวกัน

เรามนุษย์ข้ามเส้นแดงแรก

ปัญหานั้นเก่ากว่าเทคโนโลยี

วิธีแก้ปัญหาก็เช่นกัน

คิดว่าเส้นแดงไหนที่สแต็กปัจจุบันของคุณไม่สามารถบังคับใช้ได้จริงก่อนที่เอเจนต์จะข้ามมัน

แล้วตัดสินใจว่ารอได้นานแค่ไหน

CLI, SDK และแผงควบคุมผู้ปฏิบัติงานกำลังทยอยเปิดให้ทีมที่ปรับใช้เอเจนต์ในเวิร์กโฟลว์ที่ละเอียดอ่อนใช้งานแบบเลือกสรรแล้ว

Atbash.ai

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
สำหรับครีเอเตอร์

เปลี่ยน Markdown ของคุณให้เป็นบทความ 𝕏 ที่สะอาดตา

เวลาคุณเผยแพร่งานเขียนยาวของตัวเอง การจัดรูปแบบรูปภาพ ตาราง และบล็อกโค้ดให้เข้ากับ 𝕏 นั้นน่าปวดหัว YouMind เปลี่ยนร่าง Markdown ทั้งฉบับให้เป็นบทความ 𝕏 ที่สะอาดตาและพร้อมโพสต์ทันที

ลอง Markdown เป็น 𝕏

แพตเทิร์นให้ถอดรหัสเพิ่มเติม

บทความไวรัลล่าสุด

สำรวจบทความไวรัลเพิ่มเติม