Ajan mühendisliğiyle ilgili çoğu konuşmada, eylem yönlendirmeden işletmeye dönüştü. İşte sisin içine bakan bir sınır: yazılım fabrikaları, hedefler, döngüler, arka plan oturumları, alt ajanlar, kancalar, korumalı alanlar, ajanları onaylayan ajanlar. Geleceğin birçok yaratıcısı için bu davranış, ürünlere 1. günden itibaren yerleşik olarak gelecek: Claude Code ve Codex bu değişimi doğrudan gözler önüne seriyor.
Mühendis bakış açısından, riski sınırlamak ve geri dönüşülebilirliği artırmak için düşük özerklik kullanacaksınız, ancak belirli faaliyetler için daha yüksek özerklik ve devasa kod tabanlarını güvenle yeniden düzenleyen paralel ajan filoları kullanacaksınız. Bir eylemle ilgili temel soru her zaman şudur: bu görev hangi seviyeyi hak ediyor ve hangi doğrulama bu seviyeyi savunulabilir kılıyor?
Sınırın en uç noktası, tetikleyicisiyle uyanan, yardımcılarına görev devrederken çıktılarını sürekli doğrulayan ve yalnızca bir insan tarafından verilmesi gereken kararlarla geri dönen yönetici ajandır. Bu tür bir kurulumu kullanan kişiler, büyük ölçüde sürekli güncellenen kod tabanlarında halihazırda yüzlerce veya binlerce ajan çalıştırıyor olabilir. Özerklikle ilgili çoğu düşünce gibi, ölçeği nasıl algıladığınız herkes için hâlâ farklıdır.
En sık bahsedilen ölçek, Steve Yegge'nin "[Gas Town'a Hoş Geldiniz](https://steve-yegge.medium.com/welcome-to-gas-town-4f25ee16dd04)" ve The Pragmatic Engineer'da bahsettiği tek eksenli merdivendir. Yapay zekaya ne kadar yerel olduğunuzu söyleyen bir sayı istiyorsanız iyi bir referanstır: merdiven, tek bir ajana olan güveninizi biliyorsanız ölçmek için size tek bir sayı verir. İşte bir versiyonu:

2026'nın başlarında, işler delegasyondan orkestrasyona kaymaya başlarken bile bu, riski ölçmek için oldukça iyi bir vekildi. Ancak günümüzde, birçok beceri seti, aynı anda birden çok ajan çalıştırabildiğinizde önem ve kaldıraç açısından artmış olabilir. Tek bir basamak, çoklu ajan becerisini yerleştirmenize yardımcı olamaz.
Bunun yerine, gördüğüm neredeyse her özerklik tartışması, ayrılması gereken iki soruyu birbirine karıştırıyor: bu tek ajanın kendimizden ne kadar uzağa gitmesine izin veriyoruz ve birçok ajantı koordine etme becerimiz nedir?
Bu iki boyutu ayrı ayrı yakalamak için iki eksen kullanacağız: ajanlık ve orkestrasyon.

Ajanlık ekseninde, düşük seviye, olası eylemleri önermeyi ve bir karar beklemeyi içerir.
Orta seviye, ajanın belirli bir görev üzerinde çalıştığı, ancak yaptıklarını kapsamlandırdığı ve yaptıklarını kanıtlarla birlikte sürekli raporladığı anlamına gelir, böylece onu yönlendirmeye devam edebilirsiniz.
Yüksek ajanlık ucunda, ajan bir hedefe doğru çalışır, deneyler yapar, öğrenir, test eder, bir sorunu çözmenin yollarını bulur, engellenir, sorular sorar, farklı yaklaşımlar dener ve tüm bu çalışmayı kanıt olarak geri getirir.
Orkestrasyon ekseninde, düşük, bir ajan, bir iş parçacığı anlamına gelir. Ortada, her biri kendi çalışma ağacında çalışan, muhtemelen farklı hedeflere doğru çalışan ancak izole edilmiş birkaç ajanınız vardır. Yüksek uçta, bir birikmiş iş listesi, sorun izleyici, program veya başka bir kuyruğu alıp sürekli çalışmaya dönüştürebilen ve yalnızca işler başarısız olduğunda devreye girmeniz gereken bir orkestratörünüz vardır: "istisna yönetimi." Bu fikirleri içeren ürünler ve özellikler şunları içerir:
- Claude Code'un /plan, /goal, /loop, /background, /batch, /code-review, /security-review modları, alt ajanlar, kancalar, denetim noktası oluşturma, ajan delegasyonu ve yönetim uygulamaları, arka plan oturumları, ajan-ekip desenleri, /schedule argümanları
- Codex'in yerel/bulut iş parçacıkları, Goal modu, çalışma ağaçları, Otomasyonlar, alt ajanlar, inceleme bölmeleri, GitHub kod incelemesi, kancalar, korumalı alan oluşturma, Otomatik inceleme ve yeniden çalıştırma
Bu yetenekler tek bir merdivene sığmaz.
Tırmanış: üç dönem ve tek bir yığın
Merdiveni aşağıdan yukarıya okursanız, aynı anda hem ajanlık hem de orkestrasyonda tırmandığınızı hayal ediyorsunuz. Aslında, altı seviye, hepimizin geçtiği üç ayrı dönemi temsil ediyor:
İlk olarak, sürücü koltuğundasınız ve bir ajan çoğunlukla sadece yardım eder, sizin onu yönlendirmenizi bekler.
İkinci olarak, ajan sınırlı bir görevin veya hedefin sorumluluğunu üstlenir, ancak siz hâlâ onu yönlendirmek ve yaptıklarını doğrulamak için oradasınız.
Ve üçüncü olarak, orkestrasyon döneminde, sistem gösteriyi yönetebilir, işi birçok ajana dağıtabilir ve çoğunlukla işler ters gittiğinde devreye girmeniz gerekir: "istisna yönetimi."
Bu, işleri basitleştirir, çünkü merdivendeki dikey konum iki ekseni düzgün bir şekilde yakalar (orkestrasyon yalnızca tepeye yakın bir yerde devreye girer) ve bu da onu basamaklar boyunca tek bir istikrarlı tırmanış haline getirir. Yine de, tırmanış hâlâ hepimizin içinden geçtiği bir değişimin parçasıdır.

İyi bir mühendislik günü, bazen daha fazla olmak üzere birkaç basamağa dokunmayı içerir: bir görev sırasında dönemler arasında birkaç kez geçiş yapmak normaldir.
Altı seviye ayrıntılı olarak
Seviye 0: Yardım
Ajan, çoğunlukla iyi ve genellikle mükemmel olan önerilerde bulunur, ancak bunların üzerinde hareket edecek kadar iyi olup olmadığına her zaman siz karar verirsiniz. Otomatik tamamlama, satır içi düzenleme önerileri veya henüz kimsenin sahiplenmediği bir değişikliği tartışan bir sohbet oturumunda takılmayı düşünün. Maliyetli hatalar, küçük değişiklikler veya kendi yargınızı oluştururken kullanın. Doğrulama çoğunlukla yerel olarak gerçekleşir.
Seviye 1: Denetimli eylem
Ajan sizin adınıza düzenleme yapar veya komutları çalıştırır, sonuç doğuracak herhangi bir şeyi yürütmeden önce size sorar. Bu, çoğu insan için varsayılan duruştur. Değişiklikleri uygulamadan önce onayların olduğu yerel bir korumalı alanda yapılabilir - burada her onay, değişikliğin uygulanmasının uygun olduğuna dair bağımsız bir doğrulamadır - veya etkileşimli bir oturumda yapılabilir. Başarısızlık modu onay yorgunluğudur; tüm onaylar, neyi onayladıklarına bakılmaksızın aynı hissettirir. Bunu, diff'e göz atarak, bazı buluşsal yöntemleri izleyerek, onaylamadan önce başka bir kişiye danışarak veya sadece ajanın sorumlu olmasını kabul ederek çözebilirsiniz. Codex Auto-review, sınır koşullarının nihai onayını ayrı bir inceleme ajanına devrederek bu sorunu çözer.
Seviye 2: Kapsamlı görev delegasyonu
Sınırlı bir görevi ajana devredin. Bu görevin net bir hedefi, kısıtlamaları ve bitmişin neye benzediğine dair çalışan bir tanımı olacaktır. Yakınlarda kalacak, müdahale edebilecek, ancak çoğunlukla dahil olmayacaksınız. Bu, yazılım mühendisliği dünyasındaki ağırlık merkezidir. Doğrulama sizden (dinlenmeniz ve uyumanız gerekebilir) ajanın üretebileceği kanıtlara doğru kayıyor: geçen otomatik testler, uygun türler, lint önerileri, ekran görüntüleri, yeniden üretme adımları, örnekle kanıtlama vb.
Seviye 3: Hedef odaklı özerklik
Ajan bir hedefe ulaşmak için ne gerekiyorsa yapar, yalnızca bir koşul karşılandığında durur. İstem modunda bu, istemin kendisinin hedef haline geldiği anlamına gelir (örneğin, "Bu sayfanın etkileşime kadar geçen süresini 1 saniyenin altına düşürebilir misiniz?"). Codex'te bu, Goal modudur: ajan, başarı kriterlerini karşılamayı bırakana kadar planla->hareket et->test et->incele adımlarında döngü yapar. Claude Code'da bu, /goal, /loop ve /schedule komutlarıdır. Bu seviyenin kullanışlı olması için durma koşulunun otomatikleştirilebilecek şekilde ölçülebilir olması gerekir.
Ajanınızdan genel olarak kullanıcı deneyimini iyileştirmek" veya "kod tabanını daha test edilebilir hale getirmek" gibi belirsiz, yumuşak hedefler konusunda yardım istemeyin. Spesifik, ölçülebilir ve otomatik bir şey seçin: statik analizden kaçan üretim hatalarını bulun, yükleme süresini azaltın, açık any'ler olmadan katı bir TypeScript derlememiz olduğundan emin olun, yalnızca anladığımız ve testlerimizi geçenleri tutmak için tüm bağımlılıkları triyajlayın, vb. Ve son olarak, üretimdeki hataları bulmak için ajanın üretim benzeri bir ortamda olması gerekecektir.
Seviye 4: Paralel delegasyon
Birçok ajan üzerinde paralel olarak çalışın. Her ajan, görevin izole edilmiş bir dilimi üzerinde çalışır. Bu seviyedeki en büyük darboğaz ayrıştırmadır: devredilecek doğru dilimleri tanımlamak. Destekler şunları içerir: alt ajanlar, arka plan oturumları, /batch, çalışma ağaçları, ajan ekipleri vb. Başarısızlık modu sahte paralelliktir: aynı anda örtüşen dilimlere karşı birçok ajan çalıştırmak, böylece daha fazla iş yerine birleştirme çakışmaları ve yinelenen kararlar alırsınız. Bunu iyi yapmak için ajanların birbirlerinden izole edilmeleri, her birinin kendi dosyalarına ve durumuna sahip olması gerekir. Her birinin ayrıca kendi inceleme kuyruğuna sahip olması gerekir. Ve son olarak, her ajan, aynı anda çalışan ajan sayısıyla orantılı olarak bir maliyete (tüketilen tokenlar açısından) neden olur. İnsan tarafında, orkestrasyon vergisi, birkaç ajandan sonra bir ajan eklemenin marjinal maliyetini artırır.
Seviye 5: İstisna yönetimiyle orkestrasyon
Başarının neye benzediğini ve hangi politikaların uygulanması gerektiğini tanımlayın. Bir yönetici ajan, tetikleyicilere (ör. yeni sorun, yeni görev, saat) dayalı olarak uyanacak, işçi ajanları gönderecek, ilerlemelerini izleyecek, çıktıyı doğrulayacak, başarısızlıkta yeniden deneyecek, koşullar karşılandığında daha yetkin ajanlara veya insanlara yükseltecek, sonuçları birleştirecek ve nihayetinde iş ürünlerini (ör. PR'lar) ve kanıtları harici sistemlere döndürecektir. Bir fabrika düşünün: sorun izleyici veya birikmiş iş listesi girdidir ve fabrikanın ürünü çıktıdır (yani birçok düzeltilmiş sorun, hata). Ajanlar, birçok duvarı (ve gerekirse kaçış kapakları) olan uygun şekilde izole edilmiş bir ortamda çalışır ve yalnızca yönetici ajan tarafından tanımlanan bir işletim sistemi, fabrikanın ne yapmasının beklendiğini tanımlar.
Bu işletim sisteminin tasarımı insana bırakılmıştır; OpenAI, merkezinde bir Linear panosu bulunan Symphony için bir şartname önermiştir: her sorun kendi ajan çalışma alanını alır ve ajan, kendi çalışma alanındaki bir şartname dosyasında tanımlandığı gibi hedefine doğru ilerleme kaydettiğinden sürekli olarak emin olur. İnsan incelemesi, kanıtın oluşturulduğu yükseklikte yapılabilir, ancak sınır (yani orkestrasyon dünyasında en güçlü olan), yüzlerce hatta binlerce ajanla sürekli ajan fabrikaları kurmaktır. Tırmanışın bu noktasında, bağımsız doğrulamaya sahip olmak giderek daha önemli hale gelir: ayrı uygulayıcılar ve incelemeciler, ayrı test çalıştırıcıları ve QA, ayrı güvenlik kontrolleri, kabul için ayrı süreç geçitleri.
Risk ve geri dönüşülebilirlik tavanı belirler.
Daha önceki bir Anthropic çalışmasını okuduğumu hatırlıyorum; Claude Code ile en zor görevlerden bazılarında, kullanıcıların müdahale etmesinden iki kat daha fazla açıklama istediği belirtiliyordu. Deneyimli kullanıcılar (~750 oturum, 50'nin altına karşı), ilerlemeyi izleyerek otomatik onaylama ve müdahale etme olasılığı daha yüksekti.
Ayrıca insanların Claude Code'u nasıl kullandığına dair daha geniş bir analiz yaptılar. Ekim 2025 ile Nisan 2026 arasında ~235K kişiden ~400K oturuma baktılar. Her oturumdan, bir kişinin verdiği kararları, örneğin her istemde kaç eylem istedikleri, bunlardan hangilerini otomatik olarak onaylamayı seçtikleri, ne sıklıkta müdahale ettikleri vb. çıkarabildiler. İnsanlar planlama kararlarının ~%70'ini veriyor, ancak Claude yürütmenin ~%80'ini yapıyor. Yüksek özerklik, insanları döngünün dışında bırakmakla ilgili değil, her adımı onların yapmasından, sıradaki yönü onların belirlemesine geçmekle ilgilidir.
Büyük bir yapay zeka sisteminin yüksek özerklikle çalışıp çalışmadığını belirlemek istiyorsak, sormamız gereken üç soru şunlardır:
- Yaptığı şey konusunda yanıldığımızı ne kadar çabuk anlarız?
- Yaptığı şeyi ne kadar temiz bir şekilde geri alabiliriz?
- Yaptığı şey konusunda haklı olduğumuzu ne kanıtlar?
Üçünün de cevabı şuysa: hızlı değil, büyük zorlukla ve özete güvenerek, bu yüksek özerklik değildir.
Her ajan çalıştırmasından önce, ne yapmaya çalıştığını tanımlayan bir sözleşme yapılmalıdır.
Hedef: ulaşmaya çalıştığımız şey (bir aktivite değil, bir teknik değil, bir sonuç).
Kapsam: hangi alanda faaliyet gösterdiğimiz ve hangi tekniklere izin verildiği.
Hedef olmayanlar: hedefin parçası olmayan şeyler.
Araçlar ve izinler: ajanın dünyayla nasıl birlikte çalışabileceği. Durma koşulu: ne zaman duracağı; ideal olarak ölçülebilir bir değişken.
Kanıt: bir şeyin yapıldığını doğrulamak için kullanılabilecek belirli testler, ekran görüntüleri, günlükler, veritabanı kayıtları veya diğer göstergeler (ajandan bağımsız).
Yükseltme: hangi koşullar altında kimin dahil olacağı (ajanı kimin çalıştırdığı dahil).
Ve bütçe: göreve ne kadar zaman, çaba ve token ayrılacağına dair bir sınır (tokenlar büyük yapay zeka modellerinin bütçesidir - görevi deneyebileceği sayıda bir sınır ve paralellik derecesi için bir sınır da ekleyebilirsiniz).
Metrikler özerkliği biraz daha güvenilir kılar
Bir metriğe olaydan sonra karar vermek muhtemelen yeterli değildir. Metrikler önceden, kısa bir belgeye yerleştirilebilir. Bu da özerkliğin daha güvenilir hissettirir ve inanç sıçramasını biraz daha kolaylaştırır.
Başarıyı ölçmenin birçok yolu olsa da, her özerklik seviyesi için bu metriklerin bir versiyonunu takip etmeyi düşünün:
- Müdahaleler arasındaki ortalama süre
- Kabul edilen işle en uzun başarılı gözetimsiz çalışma
- Korumalı alanda çalıştırılan eylemlerin yükseltilenlere oranı
- Otomatik onaylanan vs reddedilen eylemlerin yüzdesi
- İnsan talimatı başına ortalama ajan eylemi sayısı
- Açıklama talep oranı / Müdahale talep oranı
- Kabul edilen değişiklik başına inceleme süresi
- Her güven seviyesinde yeniden çalışma oranı
- Her güven seviyesinde hata kaçış oranı
- Kabul edilen değişiklik başına token maliyeti
Bu tür metrikler bir hikaye anlatabilir: insan el değiştirmeleriyle meşgul tutulan tek bir ajan, bir gösterge panosuyla Seviye 4'tür. Otomatik alım, yeniden denemeler ve iyi kanıtlar olmadan ilerlemeye isteksiz, muhafazakar bir ajan, gerçek bir geçitle Seviye 5'tir.
Hazır olma durumunu düşünün
İşi risk ve ne kadar kolay geri alınabileceğine göre sınıflandırın. Özerkliği muhafazakar bir şekilde uygulayın, yalnızca daha yüksek seviyeyi destekleyen kanıtlar biriktikçe yükseltin. Güçlü testler ve inceleme ajanları tarafından korunan, temiz bir geri alma yoluna sahip bir ödeme motoru yeniden düzenlemesi, herhangi bir kurallı gerçekten yoksun bir dokümantasyon otomasyon görevinden çok daha yüksek özerkliği destekleyebilir. Özerklik seviyesi, görev adını değil, doğrulama sürecini takip etmelidir.
Dört anti-desen
Her sistem, dikkatli bir şekilde kaçınılmadıkça bu dört özerklik anti-desenine kolayca kurban gidebilir.
Statü olarak özerklik - bir ajanın özerklik derecesi anlamsız bir statü rozeti haline gelir. Daha yüksek özerklik, güvenliğin değil, yeteneğin kanıtı olarak ele alınır ve ajanlar, doğrulamanın desteklediğinden daha sıcak çalıştırılır. Düzeltme: Doğru özerklik seviyesine karar verenleri ve sınırı aşmaktan amansızca kaçınanları övün ve ödüllendirin.
İzin aklama - onay yorgunluğunun zorbalığı, yapay zeka ajanlarına ve araçlarına gerekenden çok daha geniş erişim vermemize yol açar. Düzeltme: Daha iyi sınırlar her zaman bir düzeltmedir; korumalı alan profilleri, kapsamlı yazılabilir kökler, izin verilen komutlar, kancalar ve Otomatik inceleme gibi.
Özet ikamesi - ajanın çalışma özetinin, özetin yeterli olduğu varsayılarak incelemenin yerini alması. Düzeltme: Bilişsel teslimiyetten kaçınırken, tamamen manuel incelemelerle aynı kanıt paketini (bir diff, testler, günlükler, ekran görüntüleri, incelemecinin bulguları, riskler, boşluklar vb.) bir araya getirin.
Filo kostümcülüğü - düzinelerce ajan paralel olarak çalışır, ancak bir insan her bağımlılığı manuel olarak yönetmeye devam eder. Düzeltme: Paylaşılan durum, sahiplik kuralları ve daha iyi bağımlılık takibi, manuel olarak koordine etme ihtiyacını kademeli olarak azaltır. Daha küçük WIP limitleri, orkestrasyon otomatik hale gelene kadar koordineli adımları kodlamaya ve belgelemeye odaklanmayı zorlar.
Bir kalibrasyon alıştırması
Ajan yardımıyla üstlendiğiniz son on görevi gözden geçirin. Her görev için, uygulanan özerklik seviyesini, ilgili riski, işin ne kadar kolay geri alınabileceğini, doğrulama gereksinimlerini karşılamak için üretilen kanıtı, inceleme süresini, herhangi bir yeniden çalışma gerekip gerekmediğini ve seçilen özerklik seviyesinin bir dahaki sefere hala uygun olup olmayacağını kaydedin.
Güvenli bir şekilde nasıl tırmanılır
Her seferinde bir eksende yukarı çıkın. Başarıya dair savunulabilir kanıt üreten tek bir kapsamlı görevi yapmak için tek bir denetimli ajanla başlayın (yeterince düzenliyse bir özerklik seviyesi 1). Ardından kademeli olarak üç ortogonal yönde genişleyin. Salt okunur ağırlıklı keşif görevlerini paralelleştirin (özerklik seviyesi 4). Kısıtlı dosya sahipliği kurallarıyla ayrı çalışma ağaçlarında hareket eden yazma ajanları ekleyin (özerklik seviyesi 4). Yinelenen otomasyonlar, ardından sorunlara, sese vb. dayalı ajan liderliğindeki orkestrasyon ekleyin. Kaldıraçtaki her adım, yeni bir dizi güvenlik mekanizması (yeni başarısızlık modları gibi) gerektirir.
Bunları adlandırın: Daha uzun tek ajanlı çalışmalar sürüklenmeye, bağlam çürümesine, iletişimin düşmesine veya hedeflerden sapmaya yol açabilir. Arka plan çalışmaları, güncelliğini yitirmiş varsayımlara ve zayıf devir teslimlere yol açabilir. Çok fazla paralel çalışma, birleştirme çakışmalarına veya yinelenen kararlara yol açabilir. Çok fazla yinelenen çalışma, sessiz token harcamasına veya güncelliğini yitirmiş istemlere yol açabilir. İstisna yönetimi, uzun inceleme kuyruklarına ve uyarı yorgunluğuna yol açabilir. Daha sıkı güvenmeyi düzeltmeyin; bunun yerine, kapsamı daraltın, daha iyi kanıt sağlayın, daha ucuz geri alma yollarını etkinleştirin, geçitleri sağlamlaştırın ve daha net sahiplik kuralları tanımlayın.
Özerklik seviyesini kullanın:
- Seviye 0, hassas işler ve yargının hâlâ oluşturulduğu durumlar için en iyisidir.
- Seviye 1, iş iyi anlaşılanın sınırlarına yakın yapılıyorsa, çoğu keşif için en iyisidir.
- Seviye 2, bilinmeyen bağımlılıklar ve öngörülemeyen pürüzler olabileceğini bilerek, çoğu sınırlı görev için en iyisidir.
- Seviye 3, başarı koşullarının yeterli netlikte ifade edilebildiği durumlar için en iyisidir.
- Seviye 4, iş bu başarı koşulları arasında temiz bir şekilde bölünebildiğinde en iyisidir.
- Seviye 5, çeşitli başarı koşulları arasında ihtiyaç duyulan koordinasyon ve iletişim tamamen kodlandıktan sonra en iyisidir.
Doğrulama her zaman darboğaz olacaktır.
Mevcut gösterişe ve mevcut araçlara rağmen, yapay zeka ajanlarıyla çalışan bir mühendislik ekibinin olgun duruşu kalibre edilmiş özerkliktir.

Darboğazlar koordinasyon, doğrulama, bakım, ürün muhakemesi ve olay öğrenmedir.
Yakın gelecekte, ne zaman çalışacağını, ne zaman doğrulayacağını ve ne zaman soracağını bilen döngüler tasarlamak isteyeceğiz - ancak mühendisin becerisi hâlâ doğru özerklik seviyesini seçmekte ve onun karanlık köşelerine karşı koruma sağlayan desenler ve savunulabilir kanıtlar oluşturmakta yatacaktır.
Not: Pangram bu makaleyi %100 insan yazımı olarak etiketlemiştir: https://www.pangram.com/history/87531e13-cd12-4cb0-9e02-9579719ddc26





