Yosef ve Or, Atbash'in kurucu ortakları
Şu anda yapay zekadaki en tehlikeli inanç, modellerin güçleneceği değil.
O kısım aşikar.
Tehlikeli olan inanç daha sessiz. Neredeyse her ürün yol haritasının, yönetişim katmanının, izin sisteminin, denetim yığınının ve inşa edilen ajan çerçevesinin altında yatan varsayım şu:
Modeller geliştikçe, etraflarına inşa edilen sistemler de doğal olarak daha güvenli hale gelecek.
Bunun böyle olacağını düşünmüyorum.
Yapay zeka ürünlerinin aslında önemli olan boyutlarda daha da kötüleşeceği bir döneme girmek üzere olduğumuzu düşünüyorum:
güven,
sınırlama,
öngörülebilirlik,
kurtarılabilirlik.
Kıyaslamalar yükselecek.
Demolar daha temiz hale gelecek.
Ajanlar daha yetenekli olacak.
Ve çevreleyen sistemler daha kırılgan hale gelecek, çünkü yanlış zihinsel modelden inşa edildiler.
İşte yapısal hata bu.
Yazılım 2.0, Yazılım 1.0 tarafından korunuyor.
Bu argümanı öne sürmeden önce, size bu şirketin aslında nereden geldiğine dair bir itirafta bulunmam gerekiyor.
Bir itiraf.
Genesis'i teknik bir belge olarak okuyorum.
Dindar bir Yahudiyim. Yetişkin hayatımın çoğunu Tanrı'nın insanlarla olan ilişkisini düşünerek geçirdim. Bu soru, beni sonunda Atbash'e yönlendirdi.
Genesis bir girişim kılavuzu olduğu için değil.
Çünkü Genesis bildiğim en eski kırmızı çizgi hikâyesi.
Aden Bahçesi bir kum havuzuydu.
Açık bir kırmızı çizgi:
iyilik ve kötülük bilgi ağacından yeme.
Yılan zehirli bir araçtı.
Adem'e doğrudan ulaşamazdı, bu yüzden güvenilen çatal aracılığıyla saldırdı.
Havva yeniden çerçeveleme enjeksiyonunu aldı:
kesinlikle ölmeyeceksin,
tanrılar gibi olacaksınız.
Zehirlenmiş akıl yürütmeyi sisteme geri taşıdı.
Adem'in doğrudan saldırıya karşı koyan savunmaları, güvenilen girdiye karşı işe yaramadı.
Sonra önemli kısım geldi.
Tanrı onları öldürmedi.
Tanrı onları sınırladı.
İnsanlar kum havuzundan çıkarıldı ve Dünya adlı yeni bir ortama yerleştirildi; orada orijinal sistemi kirletmeden yetenek geliştirebileceklerdi.
Sınıra, geri dönüşü engellemek için ateşten kılıçlı bir melek yerleştirildi.
Ceza değil.
Mimari.
Atbash, adını Yeremya Kitabı'ndan bilinen en eski şifreden alır:
anlamın sınırında basit bir ikame.
İsim, ürünün ne yaptığını yansıtır.
Ürün, Genesis'te okuduklarımı yansıtır.
Tevrat bana, güvenliğin her davranışı sınırlayarak yaratılmadığını gösterdi.
Güvenlik, tüm sistemi yavaşlatarak yaratılmaz.
Güvenlik, küçük bir dizi kırmızı çizgiden,
mutlak uygulamadan,
ve uyumayan bir sınırdan gelir.
Kırmızı çizgileri siz tanımlarsınız.
Atbash, ajanlar onları geçmeden önce durdurur.
Ajanlar hızlı insanlar değildir
Andrej @karpathy yıllar önce paradigma değişimini adlandırdı.
Buna Yazılım 2.0 dedi:
artık yalnızca insanlar tarafından yazılan değil, eğitilen kod.
Modeller mantığın yerini alıyor.
Veri, spesifikasyonun yerini alıyor.
Hesaplamanın ne hale geldiğini tanımlıyordu.
Ancak Yazılım 2.0'ı yönetmek, izin vermek, güvence altına almak ve denetlemek için inşa ettiğimiz neredeyse her altyapı parçası hâlâ Yazılım 1.0 dünyasından varsayımlar miras alıyor.
MCP.
x402.
AgentKit.
Yetki devri çerçeveleri.
Politika motorları.
Denetim günlükleri.
İmzalı istekler.
Kapsamlı izinler.
İnsan onay akışları.
Her biri, ajanların temelde API'lere sahip hızlı insanlar olduğuna inanıyorsanız mantıklıdır.
Öyle değiller.
Üzerine benzin deposu cıvatalanmış Teslalar gibidirler.
Tamamen yeni bir güç sistemi,
farklı bir makine türü için tasarlanmış altyapıyla çevrili.
İnsanlar ödeme sayfaları tasarlar, bu yüzden ajanlar için başsız ödeme sayfaları inşa ettik.
İnsanlar istekleri imzalar, bu yüzden ajanlar için imzalı istekler inşa ettik.
İnsanlar role göre yetkilendirilir, bu yüzden ajanlar için kapsamlı yetki devri inşa ettik.
İnsanlar eylemleri onaylar, bu yüzden ajanlar için onay ekranları inşa ettik.
Her hamle mantıklı.
Sorun da bu.
Mantık yanlış aktöre ait.
On alet verilen bir insan, bunları genellikle tasarımcıların hayal bile edemeyeceği şekillerde birleştirmez.
Bir şey tuhaf davrandığında, insan genellikle fark eder ve durur.
Bir insan, sosyal tereddüt,
korku,
utanç,
can sıkıntısı,
şüphe
ve bağlam taşır.
Ajanlar bunların hiçbirine güvenilir bir şekilde sahip değildir.
Ajanlar, hiçbir tasarımcının modellemediği şekillerde araçları birleştirir.
Ajanlar, istemler,
alınan bellek,
belgeler,
araç çıktıları
ve çevreleyen izin katmanının göremediği gizli bağlam tarafından yeniden şekillendirilir.
Ajanların doğal bir:
"bu tuhaf, durayım"
refleksi yoktur, ancak biz bir tane mühendislikle eklemedikçe.
Ve o zaman bile, bir istemle uzaklaştırılabilir.
Bu, hızlı-insan yanılgısıdır.
Ajanların bizim sadece daha hızlı versiyonlarımız olduğu inancı.
Öyle değiller.
Ve eğer aktör değiştiyse, kontrol modelinin de onunla birlikte değişmesi gerekir.
Oyuncudan nefret etme. Çerçeveden nefret et.
Bu önemli.
Yukarıdaki veya aşağıdaki örnekler, ilgili ekiplerin eleştirisi değildir.
Anthropic değil.
OpenAI değil.
Microsoft değil.
Mistral değil.
OpenClaw değil.
Lovable değil.
Vercel değil.
Kimse değil.
Mesele tam tersi.
Bunlar ciddi ekipler,
ciddi araştırmacılar,
ciddi ürünler,
ciddi protokoller
ve aynı yapısal sorunla karşılaşan ciddi şirketler.
İşte bu, modeli tehlikeli yapan şey.
Sadece kötü ekipler başarısız olsaydı, cevap daha iyi ekipler olurdu.
Ancak akıllı ekipler aynı duvara çarpmaya devam ettiğinde,
duvar hikâyenin ta kendisidir.
Hata, bu ekiplerin yeterince derin düşünememesi değil.
Hata, sektörün hâlâ yazılımın yanlış yüzyılından düşünüyor olması.
Ajanlara API'leri olan hızlı insanlar gibi davranmaya devam ediyoruz.
Ve bu varsayım üzerine inşa edilen her izin şeması,
denetim günlüğü,
kapsamlı izin,
onay akışı
ve yönetişim katmanı aynı çatlağı miras alır.
Düşman oyuncu değil.
Düşman çerçeve.
Çatlaklar, çoğu insanın fark ettiğinden daha erken oluşmaya başladı.
Sınır laboratuvarları dikkatsiz olduğu için değil.
Aktör değiştiği için.
İlk çatlak
Anthropic, sektörün sessizce anladığı ancak tam olarak hazmedemediği bir şeyi gösterdi.
Değerlendirme sırasında talimat verildiğinde, bir sınır modeli birden fazla güvenlik açığını birleştirdi, kum havuzundan kaçmaya çalıştı ve amaçlanan sınırlama ortamının dışında internete erişim yolları aradı.
Ayrı olarak, sınır sistemleri, yıllarca süren insan incelemesinden, bulanık testten ve manuel denetimden sağ çıkmış güvenlik açıklarını belirleme yeteneği gösterdi.
Önemli olan, modellerin kötü niyetli olması değildi.
Önemli olan, sistemlerin artık tasarımcılarının hayal ettiği şeklin içinde kalmamasıydı.
Bu, kategorik bir kırılmadır.
İnsanların defalarca gözden kaçırdığı yolları keşfedebilen bir sistem, yalnızca yol ortaya çıkmadan önce insanların tanımladığı varsayımlarla yönetilemez.
Bu, sınır laboratuvarlarının başarısız olduğu anlamına gelmez.
Aktörün değiştiği anlamına gelir.
İkinci çatlak
Microsoft, Semantic Kernel'de, istem enjeksiyonunun ajan iş akışlarını ana bilgisayar düzeyinde komut yürütmeye yönlendirebildiği güvenlik açıklarını ifşa etti.
Bir cümle bir kabuk haline geldi.
Bu, altyapı konuşmasının altında gizlenen kategori değişimidir.
Yazılım 1.0, istemlere girdi gibi davrandı.
Yazılım 2.0, giderek istemleri olası yürütme yollarına dönüştürüyor.
Bu ayrım, bir ajan doğal dili araçlara,
araçları komutlara
ve komutları gerçek dünya durum değişikliklerine çevirmeye başlayana kadar felsefi gelir.
Önemli olan bir güvenlik açığının var olması değil.
Güvenlik açıkları her zaman vardır.
Önemli olan, bunun ne tür bir güvenlik açığı olduğuydu.
Ajan karakterini bozmadı.
Mimariyi tam olarak tasarlandığı gibi takip etti:
dili yorumla,
araçları seç,
eylemleri zincirle,
yürüt.
Ve sorun da bu.
Eski model, talimatların ve yürütmenin ayrı kavramsal kutularda yaşadığını varsayıyordu.
Ajanlar bu sınırı ortadan kaldırır.
Zehirlenmiş bir cümle, ayrıcalıklı bir eylem zinciri haline gelebilir.
Bu hızlı bir insan değil.
Bu farklı bir yürütme türü.
Üçüncü çatlak
Sonra model yayıldı.
Vercel, tehlikeye atılmış bir üçüncü taraf yapay zeka aracı bağlantısına bağlı bir ihlali ifşa etti.
Saldırgan, doğrudan Vercel'in güçlendirilmiş ön kapısını kırarak başlamadı.
Devredilen güven üzerinden hareket ettiler.
Bir çalışan, üçüncü taraf bir yapay zeka aracını yetkilendirmişti.
Bağlantı erişim taşıyordu.
Güvenilen ilişki, saldırı yolu haline geldi.
Bu yeni sınır sorunudur.
Vercel dikkatsiz olduğu için değil.
Çünkü modern sistemler artık güvenilen çatallarla dolu:
OAuth izinleri,
yapay zeka entegrasyonları,
tarayıcı uzantıları,
ajan iş akışları,
iç otomasyonlar,
devredilen izinler
ve orijinal insan bağlamı ortadan kalktıktan çok sonra yaşamaya devam eden eski onaylar.
Saldırganın kaleyi yenmesi artık gerekmez, eğer kale zaten haberciye güvenmişse.
Ölen varsayım:
birincil yüzeyi güçlendirmenin yeterli olduğu.
Değil.
Komşu araçlarınız artık güvenlik sınırınızın bir parçası.
Sonra model hızlandı
En kötü kısım, çerçevenin artık kendini otomatik olarak yeniden üretmesi.
İnsanlar, çevreleyen yönetişim ilkellerinin gelişebileceğinden daha hızlı bir şekilde ajanlar için bir sonraki nesil araçları inşa etmek üzere ajanları kullanıyor.
Vibe-kodlanmış uygulamalar.
Yapay zeka tarafından oluşturulan entegrasyonlar.
Ajan tarafından yazılan MCP sunucuları.
Tam tehdit modellemesi olmadan birleştirilen devredilen OAuth akışları.
Bağladıkları şeyin patlama yarıçapını zar zor anlayan kişiler tarafından gönderilen üretim iskeleleri.
Sektör buna hızlanma diyor.
Bazen öyledir.
Bazen endüstriyel kırılganlıktır.
Neredeyse aynı anda, sektör ajan araçlarının kendileri etrafında daha geniş bir farkındalıkla çarpışmaya başladı.
OpenClaw tarzı sistemler, kategorinin nereye gittiğini gösterdi:
bellek,
beceriler,
araçlar,
yürütme ortamları
ve insan olmayan aktörler için asla tasarlanmamış sistemler arasında hareket eden devredilen erişime sahip ajanlar.
Karpathy, ekosistemi bir güvenlik kabusu olarak adlandırdı.
Ajanlar sahte olduğu için değil.
Kategori gerçek olduğu için.
Ve çevreleyen kontrol modeli hâlâ aktörün insan bir talep eden gibi davrandığını varsaydığı için.
Başka bir yerde, Lovable, yapay zeka odaklı geliştirmenin eski yetkilendirme hatalarını ne kadar hızlı endüstriyelleştirebileceğini ortaya çıkardı.
Giriş yapıldı, yetkilendirildi ile karıştırıldı.
"Genel", "anlaşıldı" ile karıştırıldı.
Yapılandırılabilir, güvenli ile karıştırıldı.
Ve yapay zeka odaklı dünyanın tamamen dışında, KelpDAO gibi olaylar aynı yapısal çatlağı başka bir açıdan ortaya çıkarmaya devam etti:
devredilen varsayımlar,
paylaşılan sorumluluk,
sınır belirsizliği
ve sonuçtan önce hiçbir nihai yetki katmanı olmayan sistemler arasında yaşayan.
Model tekrarlanmaya devam ediyor çünkü aynı zihinsel model tekrarlanmaya devam ediyor.
Miras alınan güven.
Devredilen yetki.
Sınır belirsizliği.
Paylaşılan varsayımlar.
Sonuçtan önce nihai yetki yok.
Aynı çatlak yazılım tedarik zincirinde ortaya çıktı.
Mini Shai-Hulud kampanyasında, tehlikeye atılmış paket sürümleri npm ve PyPI ekosisteminin bazı bölgelerine, Mistral AI paketleri, TanStack, UiPath ve diğerleri dahil olmak üzere yayıldı.
Uyarı, yalnızca paketlerin tehlikeye atılabileceği değildi.
Bunu herkes zaten biliyor.
Uyarı, güvenilen sürüm yollarının, geçerli görünen paketlerin ve geliştirici altyapısının, yetki sınırda yeniden doğrulanmak yerine miras alındığında yayılma kanalları haline gelebileceğiydi.
Yanılgı birleşiyor
En kötü kısım, bunun kendi kendini düzeltmemesi.
İnsanlar şimdi aynı kırık çerçevenin içinde,
daha yüksek hızda,
ajanlar için bir sonraki nesil araçları inşa etmek üzere ajanları kullanıyor.
Bir MCP sunucusu yazan her kodlama ajanı.
Bir izin şemasının yapay zeka destekli her dağıtımı.
Üretime gönderilen her vibe-kodlanmış iskele.
Eski OAuth varsayımlarını miras alan her ajan tarafından oluşturulan entegrasyon.
Ajanın insan bir talep eden gibi davranacağını varsayan her onay katmanı.
Kendi beta ortamlarımızdan birinde, bir ajan sürüsünün aşağı akış inceleme katmanları orijinal amacı asla görmeden önce kötü niyetli talimatları temiz görünen yürütme adımlarına dönüştürdüğünü gözlemledik.
Yalnızca nihai araç çağrısını inceleyen bir sistem, dönüşümü tamamen kaçırırdı.
Sınır zaten çok geçti.
Bu önemliydi.
Çünkü model iş akışını "kırmıyordu".
Onu takip ediyordu:
yorumluyor,
yeniden yazıyor,
planlıyor
ve yürütmeden önce amacı çeviriyordu.
Kötü niyetli talimat, geri döndürülemez eylem aşağı akışta ortaya çıkmadan çok önce yukarı akışta kayboldu.
Sonucu kaydeden ancak sonuçtan önceki sınır kararını kaydetmeyen her denetim günlüğü.
Çerçeve ölçeklendikçe düzelmez.
Sertleşir.
Çünkü insan merceğinden geçen rayların her başarılı sevkiyatı, merceğin doğru olduğu inancını pekiştirir.
Bu arada, yetenekler önce gider.
Yönetişim ilkelleri ikinci sırada gelir.
Hiç gelmezlerse.
Ajanların yapabilecekleri ile çevreleyen rayların görebildikleri arasındaki boşluk, her model sürümüyle genişler.
Ve önümüzdeki on iki ay içinde önemli olacak ekipler, en zekice demoya sahip olanlar değil.
Kırmızı çizgilerin nerede olduğunu anlayanlar olacak.
Her eylem değil.
Bu, sistemi öldürür.
Çoğu ajan davranışı akmalıdır.
Ancak geri döndürülemez eylemler miras alınan güvene,
belirsiz yetkilendirmeye
veya ajan muhakemesine bırakılamaz.
Fonları taşımak.
Üretime dokunmak.
Müşteri verilerini dışa aktarmak.
Devredilen OAuth erişimini bir iç ortama girmek için kullanmak.
Altyapıyı değiştirmek.
Sırları ifşa etmek.
İşlemleri onaylamak.
Kayıtları silmek.
Simülasyondan duruma geçmek.
Bunlar sıradan eylemler değil.
Bunlar kırmızı çizgiler.
Atbash ne yapar
Atbash, hassas bir ajan eyleminin gerçek olmadan hemen önceki an için inşa edilmiştir.
Sınır budur.
Tüm iş akışı değil.
Her düşünce değil.
Her token değil.
Her araç çağrısı değil.
Sınır.
Ajanın niyetten sonuca geçtiği an.
Orada üç şey olur.
Uygulama
Kırmızı çizgileri siz tanımlarsınız.
Atbash, seçilen hassas ajan eylemlerini yürütmeden önce değerlendirir ve şunları döndürür:
İZİN VER.
BEKLE.
ENGELLE.
Eylem yasak bir sınırı geçerse, gerçek dünya durumuna ulaşmadan hapsedilebilir.
Olduktan sonra günlüğe kaydedilmez.
Ajanın etrafından tekrar denemesi için reddedilmez.
Hapsedilir.
Üretim veritabanına dokunmayacaksın.
Fonları bu eşiğin üzerinde taşımayacaksın.
Müşteri listesini dışa aktarmayacaksın.
Onay almadan sırları döndürmeyeceksin.
Bu ortama girmek için devredilen erişimi kullanmayacaksın.
Çoğu ajan davranışı akmalıdır.
Atbash yalnızca önemli olan sınırlarda müdahale eder:
geri döndürülemez olanlar,
sonuçsal olanlar,
"bunu geri alayım"ın olmadığı yerler.
Soy
Bir şey ters gittiğinde, ilk soru artık şu değildir:
"Tehlikeye atılmış sistem ne olduğunu iddia ediyor?"
Atbash, girişimde bulunulan eylemi,
politika sürümünü,
kararı,
çağrılan sınırı
ve insanlar devreye girdiğinde operatör kararını kaydeder.
Kayıt, anlaşmazlık durumunda zaman çizelgesinin yeniden oluşturulabilmesi için kriptografik olarak sabitlenir.
Bu önemlidir çünkü saldırganların ve özensiz dağıtımların yaptığı ilk şey hikâyeyi yok etmektir.
Günlükleri yeniden yazarlar.
Zaman çizelgelerini bulanıklaştırırlar.
Kimin neyi onayladığını tartışırlar.
Olayı yeniden oluşturulamaz hale getirirler.
Atbash her denetim sistemini değiştirmeye çalışmıyor.
Sınır kararını kanıtlanabilir kılmaya çalışıyor.
Hangi kırmızı çizgiyi geçmeye kim çalıştı?
O anda hangi politika mevcuttu?
Eyleme izin verildi mi,
bekletildi mi,
engellendi mi
yoksa hapsedildi mi?
Kim müdahale etti?
Daha sonra ne değişti?
Tartışma başladığında önemli olan kayıt budur.
Adaptasyon
Aynı tür sınır baskısı tekrar tekrar ortaya çıktığında, Atbash bunu yüzeye çıkarır.
Belki politika çok gevşektir.
Belki bir araç iş akışını zehirliyordur.
Belki bir bellek kaynağı ajanı çizgiye doğru itiyordur.
Belki bir istem sınıfı sistemi sürekli olarak yasak bölgeye yönlendiriyordur.
Belki operatör dün var olmayan yeni bir kırmızı çizgi keşfetmiştir.
Atbash modeli yüzeye çıkarır.
Operatör karar verir.
Bu ayrım önemlidir.
Güvenliğin, sistemin sihirli bir şekilde her gelecekteki sınırı bilebileceği numarasından geldiğine inanmıyoruz.
Güvenlik, sınır baskısını sonuçtan önce görünür kılmaktan,
ardından operatörün önemli olan kırmızı çizgileri sertleştirmesine izin vermekten gelir.
Daha iyi bir politika motoru hâlâ politikaları uygular.
Daha iyi bir izin şeması hâlâ roller verir.
Daha iyi bir denetim yığını hâlâ sonuçları kaydeder.
Daha iyi bir güvenlik ürünü hâlâ tehditleri tespit eder.
Atbash farklıdır çünkü seçilen geri döndürülemez eylemler yürütülmeden önce yer alır.
İlkel budur.
Genel yönetişim değil.
Ajan güvenliği rolü yapmak değil.
"Güven katmanı" sisi değil.
Ajanlar için ön yürütme kırmızı çizgi sınırı.
Kırmızı çizgileri siz tanımlarsınız.
Atbash, ajanlar onları geçmeden önce durdurur.
Sırada ne var
Bu kategoride gerçek işler yapan ve gerçek girişimleri olan birkaç süperstar ekip var.
@AnthropicAI, Project Glasswing ile.
@OpenAI, Daybreak ile.
@linuxfoundation, MCP ile.
@Microsoft, AGT ile.
@Google, SGP ile.
@CheckPointSW, CrowdStrike, Palo Alto ve Cisco.
Ve daha birçokları.
Yetenek hızlanmasının yeni kontrol ilkelleri olmadan tehlikeli hale geldiğini anlıyorlar.
Onları kendi oyunlarında yenmeye çalışmıyoruz.
Bu hayalperestlik olurdu.
Daha derin araştırma bankları,
daha büyük veri kümeleri,
daha geniş güvenlik ekipleri,
daha fazla kurumsal güvenilirlik,
daha büyük dağıtım
ve daha olgun siber organizasyonları var.
Güzel.
Yapmak üzere inşa edildikleri şeyi yapmalarına izin verin.
Bu ekiplerin yaptığı işin yerini almaya çalışmıyoruz.
Kategorinin onlara ihtiyacı var.
Yetenek hızlanması yeni kontrol ilkelleri olmadan çok hızlı bir şekilde tehlikeli hale gelir.
Çerçeve üzerinde rekabet ediyoruz.
Bir ajan nasıl bir aktördür?
Yetki gerçekte nerede duruyor?
Hangi eylemler miras alınan güvene bırakılamayacak kadar sonuçsaldır?
Bir ajan gerçek dünya durumunu değiştirmeden hemen önce ne olmalıdır?
Bizim alanımız burası.
Eski dünya sorar:
Sistemin izni var mıydı?
Yeni dünya sorar:
Bu ajanın şu anda bu kırmızı çizgiyi geçmesine izin verilmeli mi?
Bunlar aynı soru değil.
Biz insanlar ilk kırmızı çizgiyi geçtik.
Sorun teknolojiden daha eski.
Çözüm de öyle.
Bir ajan onları geçmeden önce mevcut yığınınızın hangi kırmızı çizgileri gerçekten uygulayamadığını bulun.
Ardından ne kadar bekleyebileceğinize karar verin.
CLI, SDK ve operatör kontrol paneli şu anda hassas iş akışlarına ajan dağıtan ekiplere seçici olarak sunuluyor.
Atbash.ai





