AI Ajanlarında Ne Öğrenmeli, Ne İnşa Etmeli ve Neyi Atlamalı (2026)

AI Ajanlarında Ne Öğrenmeli, Ne İnşa Etmeli ve Neyi Atlamalı (2026)

@rohit4verse
İNGILIZCE2 hafta önce · 29 Nis 2026

AI features

2.5M
1.6K
242
46
6.3K

TL;DR

Bağlam mühendisliği ve MCP gibi kalıcı ilkelere odaklanan, geliştiricilere ise popülerlik odaklı çerçeveler yerine sağlam değerlendirme ve sanal alan (sandboxing) yöntemlerine yönelmelerini tavsiye eden stratejik bir AI ajanı geliştirme rehberi.

Her gün yeni bir framework, yeni bir benchmark, yeni bir "10x" lansmanı geliyor. Sorun artık "nasıl yetişirim" olmaktan çıkıyor. Asıl soru şu: Burada gerçekten sinyal olan ne ve aciliyet kostümü giymiş gürültü olan ne?

Her yol haritası, lansmandan bir ay sonra geçerliliğini yitiriyor. Geçen çeyrekte ustalaştığın framework artık legacy. Optimize ettiğin benchmark oynandı ve değiştirildi. Geleneksel bir yolu izlemeye şartlandırıldık: konuları ve seviyeleri olan bir stack, bir dizi iş ve görev süresi, yavaş bir tırmanış. Yapay zeka bu tabloyu yeniden yazdı. Doğru prompt'lara ve doğru zevke sahip olan herkes, eskiden 2 yıllık deneyime sahip bir mühendisin bir sprintte çıkaracağı işi artık teslim edebiliyor.

Uzmanlık hâlâ önemli. Sistemlerin çöktüğünü görmenin, sabah 2'de bir bellek sızıntısını debug etmenin, zekice bir seçenek yerine sıkıcı olanı savunup haklı çıkmanın yerini hiçbir şey tutamaz. Bu tür bir zevk birikir. Eskisi gibi birikmeyi bırakan şeyse: bu haftanın framework'ünün API yüzeyini bilmek. Altı ay sonra farklı olacak. İki yıl içinde kazananlar, dayanıklı temel yapı taşlarını (primitives) erken seçip gerisini geçip gidenler oldu.

Bu alanda iki yıl geçirdim, 250 bin doların üzerinde birden fazla teklif aldım ve şimdi gizli bir şirkette teknik liderlik yapıyorum. "Şu anda gerçekten neye dikkat etmeliyim?" diye soran birine göndereceğim şey bu.

Bu bir yol haritası değil. Ajan (agent) alanının henüz bir varış noktası yok. Büyük laboratuvarlar herkesin gözü önünde yineleme yapıyor, milyonlarca kullanıcıya regresyonlar gönderiyor, postmortem'ler yazıyor, canlıda yama yapıyor. Claude Code'un arkasındaki ekip %47'lik bir performans regresyonu gönderip bunu ancak kullanıcı topluluğu fark ettikten sonra yakalayabiliyorsa, tüm bunların altında istikrarlı bir harita olduğu fikri kurgudur. Herkes işi çözmeye çalışıyor. Devler de bilmediği için startuplar çoğalıyor. Kod yazmayanlar ajanlarla eşleşiyor ve Salı günü ML doktoralıların imkansız dediği şeyleri Cuma günü teslim ediyor.

Bu anın ilginç yanı, kimlik bilgileri (credentials) sorusuna yaptığı şey. Geleneksel yol sizi kimlik bilgileri için optimize etti: diploma, junior rol, senior rol, staff rol, rütbenin yavaş birikimi. Bu, altınızdaki alan hareket etmediğinde mantıklıydı. Alan şimdi herkesin altında eşit şekilde hareket ediyor. Ajan demolarını herkese açık şekilde teslim eden 22 yaşındaki biriyle 35 yaşındaki bir senior mühendis arasındaki fark artık on yıllık birikmiş stack hakimiyeti değil. 22 yaşındakinin de senior mühendisin de önünde aynı boş tuval var ve ikisi için de biriken şey, teslim etme isteği artı bir çeyrekte geçerliliğini yitirmeyen küçük bir temel yapı taşları listesi.

İşte tüm bu yazının üzerine inşa edildiği yeniden çerçeveleme (reframe). Aşağıda, hangi temel yapı taşlarının dikkatinize değer olduğu ve hangi lansmanları geçip gitmeye bırakmanız gerektiği hakkında bir düşünme biçimi var. Size uyanı seçin. Uymayanı bırakın.

Gerçekten işe yarayan filtre

Haftalık lansmanlara yetişemezsiniz. Denememelisiniz bile. İhtiyacınız olan şey bir besleme (feed) değil, bir filtredir.

Son 18 ayda beş test geçerliliğini korudu. Bir lansmanı stack'inize dokundurmadan önce bu testlerden geçirin.

Bunun iki yıl sonra bir önemi olacak mı? Eğer bir frontier modelin etrafındaki bir sarmalayıcı (wrapper), bir CLI flag'i veya "X için Devin" ise, cevap neredeyse her zaman hayır. Eğer bir temel yapı taşı (bir protokol, bir bellek deseni, bir sandbox yaklaşımı) ise, cevap daha sık evet olur. Sarmalayıcıların yarı ömrü kısadır. Temel yapı taşlarının yarı ömrü yıllardır.

Saygı duyduğunuz biri, bunun üzerine gerçek bir şey inşa etti mi ve bunun hakkında dürüstçe yazdı mı? Pazarlama gönderileri sayılmaz. Postmortem'ler sayılır. "X'i üretimde denedik ve işte bozulan şeyler" başlıklı bir blog, on lansman duyurusuna bedeldir. Bu alandaki iyi sinyal her zaman bir hafta sonunu buna harcamış biri tarafından yazılır.

Benimsemek, tracing'inizi, yeniden denemelerinizi (retries), yapılandırmanızı (config), kimlik doğrulamanızı (auth) atmanızı gerektiriyor mu? Cevap evetse, bu platform olmaya çalışan bir framework'tür. Platform olmaya çalışan framework'lerin %90 ölüm oranı vardır. İyi temel yapı taşları, bir geçişi (migration) zorlamadan mevcut sisteminize oturur.

Bunu altı ay boyunca atlamanın size maliyeti nedir? Çoğu lansman için cevap hiçbir şeydir. Altı ay içinde daha fazlasını bileceksiniz. Kazanan versiyon daha net olacak. Bu, lansmanların %90'ını endişe duymadan atlamanızı sağlayan testtir ve çoğu insanın, atlamak geride kalmak gibi hissettirdiği için uygulamayı reddettiği testtir. Öyle değil.

Ajanlarınıza gerçekten yardımcı olup olmadığını ölçebiliyor musunuz? Ölçemiyorsanız, tahmin ediyorsunuz demektir. Değerlendirmeleri (evals) olmayan ekipler hislere göre çalışır ve regresyonlar gönderir. Değerlendirmeleri olan ekipler, verilerin onlara bu hafta belirli iş yüklerinde GPT-5.5'in mi yoksa Opus 4.7'nin mi kazandığını söylemesine izin verebilir.

Bu yazıdan tek bir alışkanlık edinecekseniz, şu olsun: yeni bir şey piyasaya sürüldüğünde, altı ay içinde bunun önemli olduğuna inanmak için ne görmeniz gerektiğini yazın. Sonra geri dönüp kontrol edin. Çoğu zaman soru kendini cevaplamış olacak ve siz dikkatinizi biriken şeylere harcamış olacaksınız.

Bu testlerin altında yatan beceriyi adlandırmak, testlerin herhangi birinden daha zordur. Almadığınız şey konusunda havalı olmamaya istekli olmaktır. Bu hafta Hacker News'te viral olan framework'ün on dört gün boyunca bir alkışçı ordusu olacak ve hepsi zeki görünecek. Altı ay sonra, bu framework'lerin yarısı bakımsız kalacak ve alkışçılar başka yere geçmiş olacak. İlgilenmeyen insanlar, lansman heyecanı geçtikten sonra sıkıcı olma testini geçen şeyler için dikkatlerini sakladılar. Bu duruş, geri durmak, izlemek, "altı ay içinde bileceğim" demek, bu alanın asıl profesyonel becerisidir. Herkes lansmanları okuyabilir. Neredeyse hiç kimse onlara tepki vermemekte iyi değildir.

Ne öğrenmeli

Kavramlar. Desenler. Şeylerin şekli. Bunlar bileşik getiri sağlayan fikirlerdir. Model değişimlerinden, framework değişimlerinden, paradigma kaymalarından sağ çıkarlar. Bunları derinlemesine anlayın ve herhangi bir yeni aracı bir hafta sonunda öğrenebilirsiniz. Bunları atlayın ve sürekli olarak yüzey mekaniklerini yeniden öğrenirsiniz.

Bağlam mühendisliği (Context engineering)

Son iki yılın en önemli yeniden adlandırması, "prompt mühendisliği"nin "bağlam mühendisliği" haline gelmesiydi. Bu değişim gerçek, kozmetik değil.

Model artık zekice bir talimat hazırladığınız bir şey değil. Her adımda onun için çalışan bir bağlam oluşturduğunuz bir şey. Bu bağlam, sistem talimatları, araç şemaları, alınan belgeler, önceki araç çıktıları, karalama defteri durumu ve sıkıştırılmış geçmişin hepsi birdir. Ajanın davranışı, pencereye koyduğunuz şeyin ortaya çıkan bir özelliğidir (emergent property).

Bunu içselleştirin: bağlam durumdur (state). İlgisiz gürültünün her token'ı size muhakeme kalitesine mal olur. Bağlam çürümesi (context rot) gerçek bir üretim hatasıdır. On adımlı bir görevin sekizinci adımında, orijinal hedef araç çıktısının altına gömülebilir. Güvenilir ajanlar gönderen ekipler aktif olarak özetler, sıkıştırır, budar. Araç açıklamalarının sürümünü tutarlar. Statik kısımları önbelleğe alır ve değişen kısımları önbelleğe almayı reddederler. Bağlam penceresi hakkında, deneyimli bir mühendisin RAM hakkında düşündüğü gibi düşünürler.

Bunu hissetmenin somut bir yolu: üretimdeki herhangi bir ajanı alın ve tam izleme günlüğünü (full trace logging) açın. Birinci adımdaki bağlama bakın. Yedinci adımdaki bağlama bakın. Bu token'ların kaç tanesinin hâlâ işe yaradığını sayın. Bunu ilk yaptığınızda utanacaksınız. Sonra gidip düzelteceksiniz ve aynı ajan, modelde veya prompt'ta hiçbir değişiklik olmadan gözle görülür şekilde daha güvenilir hale gelecek.

Bu konuda bir şey okuyacaksanız, Anthropic'in "AI Ajanları için Etkili Bağlam Mühendisliği" (Effective Context Engineering for AI Agents) makalesini okuyun. Ardından, ölçeklendirdiğinizde bağlam izolasyonunun ne kadar önemli olduğuna dair rakamlar veren çoklu ajan araştırma postmortem'lerini okuyun.

Araç tasarımı (Tool design)

Araçlar, ajanların işinizle buluştuğu yerdir. Model, araçları ad ve açıklamalara göre seçer. Model, hata mesajlarına göre yeniden dener. Model, aracın sözleşmesinin (contract) bir LLM'nin ifade etmekte iyi olduğu şeyle eşleşip eşleşmediğine göre başarılı olur veya başarısız olur.

İyi adlandırılmış beş ila on araç, yirmi vasat aracı yener. Araç adları İngilizce fiil öbekleri gibi okunmalıdır. Açıklamalar, aracın ne zaman kullanılacağını ve ne zaman kullanılmayacağını içermelidir. Hata mesajları, modelin üzerinde hareket edebileceği geri bildirim olmalıdır. "Maksimum 500 token aşıldı, önce özetlemeyi deneyin", "Hata: 400 Bad Request" mesajını çok büyük bir farkla yener. Kamuya açık bir araştırmada bir ekip, yalnızca hata mesajlarını yeniden yazarak yeniden deneme döngülerinde %40 azalma bildirdi.

Anthropic'in "Ajanlar için araç yazma" (Writing tools for agents) makalesi doğru başlangıç noktasıdır. Bundan sonra, kendi araçlarınızı enstrümante edin ve gerçek çağrı desenlerine bakın. Ajan güvenilirliğindeki en büyük kazanımlar neredeyse her zaman araç tarafındadır. İnsanlar prompt'ları ayarlamaya devam ediyor ve asıl kaldıracın olduğu yeri görmezden geliyor.

Orkestratör-alt-ajan deseni (The orchestrator-subagent pattern)

2024 ve 2025'in çoklu ajan tartışması, artık herkesin gönderdiği bir sentezle sona erdi. Birden fazla ajanın paylaşılan duruma paralel olarak yazdığı saf çoklu ajan sistemleri, hatalar birbirini büyüttüğü için feci şekilde başarısız olur. Tek ajanlı döngüler, beklediğinizden daha fazla ölçeklenir. Üretimde çalışan tek bir çoklu ajan şekli vardır: dar kapsamlı salt okunur görevleri izole alt ajanlara devreden ve ardından sonuçlarını sentezleyen bir orkestratör ajan.

Anthropic'in araştırma sistemi böyle çalışır. Claude Code'un alt ajanları böyle çalışır. Spring AI ve çoğu üretim framework'ünün artık standartlaştırdığı desen budur. Alt ajanlar küçük, odaklanmış bağlamlar alır. Paylaşılan durumu değiştiremezler. Orkestratör yazma işlemlerine sahiptir.

Cognition'in "Çoklu Ajanlar İnşa Etmeyin" (Don't Build Multi-Agents) makalesi ve Anthropic'in "Çoklu ajan araştırma sistemimizi nasıl inşa ettik" (How we built our multi-agent research system) makalesi zıt gibi görünür ve aynı şeyi farklı kelime dağarcıklarıyla söyler. İkisini de okuyun.

Varsayılan olarak tek ajanı kullanın. Orkestratör-alt-ajan desenine yalnızca tek ajan gerçek bir duvara çarptığında başvurun: bağlam penceresi baskısı, sıralı araç çağrılarından kaynaklanan gecikme veya odaklanmış bağlamlardan gerçekten fayda sağlayan görev heterojenliği. Acıyı hissetmeden önce bunu inşa etmek, ihtiyacınız olmayan karmaşıklığı gönderir.

Değerlendirmeler ve altın veri kümeleri (Evals and golden datasets)

Güvenilir ajanlar gönderen her ekibin değerlendirmeleri vardır. Göndermeyen her ekibin yoktur. Bu, alandaki en yüksek kaldıraçlı alışkanlıktır ve baktığım her şirkette gördüğüm en az yatırım yapılan şeydir.

İşe yarayan şey: üretim izlerinizi toplayın, başarısızlıkları etiketleyin, bunu bir regresyon seti olarak ele alın. Yeni bir başarısızlık gönderildiğinde buna ekleyin. Öznel kısımlar için LLM-as-judge kullanın, geri kalanı için tam eşleşme veya programlı kontroller kullanın. Herhangi bir prompt, model veya araç değişikliğinden önce paketi çalıştırın. Spotify'ın mühendislik blogu, yargıç katmanlarının ajan çıktılarının yaklaşık %25'ini gönderilmeden önce veto ettiğini bildirdi. Bu olmadan, dört kötü sonuçtan biri kullanıcılara ulaşmış olacaktı.

Bunu kalıcı kılan zihinsel model: bir değerlendirme, altındaki her şey değişirken ajanı dürüst tutan bir birim testtir (unit test). Model yeni bir sürüm alır. Framework kırıcı bir değişiklik yayınlar. Satıcı bir uç noktayı kullanımdan kaldırır. Değerlendirmeleriniz, ajanınızın işini hâlâ yapıp yapmadığını söyleyen tek şeydir. Onlar olmadan, doğruluğu hareketli bir hedefin iyi niyetine bağlı olan bir sistem yazıyorsunuz.

Değerlendirme framework'leri (Braintrust, Langfuse evals, LangSmith) iyidir. Hiçbiri darboğaz değildir. Darboğaz, ilk etapta etiketli bir sete sahip olmaktır. Bunu birinci günde, herhangi bir şeyi ölçeklendirmeden önce oluşturun. İlk elli örnek bir öğleden sonra elle etiketlenebilir. Hiçbir mazeret yoktur.

Dosya-sistemi-durum-olarak ve düşün-hareket et-gözlemle döngüsü (File-system-as-state and the think-act-observe loop)

Gerçek çok adımlı işler yapan herhangi bir ajan için dayanıklı mimari şudur: düşün, hareket et, gözlemle, tekrarla. Dosya sistemi veya yapılandırılmış bir depo, gerçeğin kaynağı olarak. Kaydedilen ve tekrar oynatılabilen her eylem. Claude Code, Cursor, Devin, Aider, OpenHands, goose. Hepsi bir nedenden dolayı burada birleşti.

Model durumsuzdur (stateless). Koşum takımı (harness) durumlu (stateful) olmalıdır. Dosya sistemi, her geliştiricinin zaten anladığı durumlu bir temel yapı taşıdır. Bu çerçevelemeyi kabul ettiğinizde, tüm koşum takımı disiplini (kontrol noktası oluşturma, sürdürülebilirlik, alt ajan doğrulama, sandbox'ta yürütme) deseni ciddiye almaktan kaynaklanır.

Bunun size öğrettiği daha derin şey: hesaplama faturasına değer herhangi bir üretim ajanında, koşum takımı modelden daha fazla iş yapıyor. Model bir sonraki eylemi seçer. Koşum takımı bunu doğrular, bir sandbox'ta çalıştırır, çıktıyı yakalar, neyin geri besleneceğine karar verir, ne zaman duracağına karar verir, ne zaman kontrol noktası oluşturacağına karar verir, ne zaman bir alt ajan başlatacağına karar verir. Modeli benzer kalitede başka bir modelle değiştirin ve iyi bir koşum takımı yine de teslimat yapar. Koşum takımını daha kötüsüyle değiştirin ve dünyanın en iyi modeli bile rastgele ne yaptığını unutan bir ajan üretir.

Tek seferlik bir araç çağrısından daha karmaşık bir şey inşa ediyorsanız, zamanınızı harcamanız gereken yer koşum takımıdır. Model, onun içindeki bir bileşendir.

MCP, kavramsal olarak

Sadece MCP sunucularını nasıl çağıracağınızı öğrenmeyin. Modeli öğrenin. Altında genişletilebilir bir kimlik doğrulama ve taşıma hikayesi olan, ajan yetenekleri, araçlar ve kaynaklar arasında temiz bir ayrım. Bunu anladığınızda, gördüğünüz diğer her "ajan entegrasyon framework'ü" size MCP'nin daha kötü bir versiyonu gibi görünecek ve her birini değerlendirme zamanından tasarruf edeceksiniz.

Linux Foundation artık onu yönetiyor. Her büyük model sağlayıcısı onu destekliyor. "Yapay zekanın USB-C'si" benzetmesi artık ironik olmaktan çok doğru.

Bir temel yapı taşı olarak Sandbox'lama (Sandboxing as a primitive)

Her üretim kodlama ajanı bir sandbox'ta çalışır. Her tarayıcı ajanı dolaylı prompt enjeksiyonuna maruz kalmıştır. Her çok kiracılı ajanın bir noktada bir izin kapsamı hatası gönderilmiştir. Sandbox'lamayı, bir müşteri sorduğunda ekleyeceğiniz bir özellik değil, temel altyapı olarak ele alın.

Temelleri öğrenin. Süreç izolasyonu. Ağ çıkış kontrolleri. Sır kapsamı. Ajan ve araç arasındaki kimlik doğrulama sınırları. Bunu bir müşteri güvenlik incelemesinden sonra ekleyen ekipler, anlaşmayı kaybeden ekiplerdir. Bunu birinci haftadan itibaren inşa eden ekipler, kurumsal satın alma sürecini terlemeden geçer.

Ne ile inşa etmeli

Nisan 2026 için özel seçimler. Bunlar değişecek, ancak yavaşça. Burada sıkıcı seçin.

Orkestrasyon

LangGraph, üretim varsayılanıdır. Büyük şirketlerin kabaca üçte biri ajan çalıştırmak için bunu kullanıyor. Soyutlamalar, ajan sistemlerinin gerçek şekliyle eşleşir: yazılı durum, koşullu kenarlar, dayanıklı iş akışları, insan-in-the-loop kontrol noktaları. Dezavantajı ayrıntılı olmasıdır. Avantajı, ayrıntının bir ajan üretime girdiğinde gerçekten kontrol etmeniz gereken şeyle eşleşmesidir.

TypeScript'te yaşıyorsanız, Mastra fiili seçimdir. Bu ekosistemdeki en temiz zihinsel model.

Ekibiniz Pydantic'i seviyorsa ve birinci sınıf vatandaş olarak tip güvenliği istiyorsa, Pydantic AI makul bir yeşil alan seçimidir. 2025'in sonlarında v1.0'a ulaştı ve momentum gerçek.

Sağlayıcıya özgü işler (bilgisayar kullanımı, ses, gerçek zamanlı) için, LangGraph düğümlerinizin içinde Claude Agent SDK veya OpenAI Agents SDK kullanın. Hiçbirini heterojen bir sistem için üst düzey orkestratör yapmaya çalışmayın. Kendi şeritleri için optimize edilmişlerdir.

Protokol katmanı

MCP, nokta. Araç entegrasyonlarınızı MCP sunucuları olarak oluşturun. Harici entegrasyonları da aynı şekilde tüketin. Kayıt defteri, bir tane oluşturmanız gerekmeden önce neredeyse her zaman bir sunucu bulabileceğiniz noktayı geçti. 2026'da özel araç tesisatı yapmak hiçbir şey için vergi öder.

Bellek

Hype'a göre değil, özerklik seviyesine göre seçin.

Sohbet tarzı kişiselleştirme için Mem0. Kullanıcı tercihleri, hafif geçmiş. Durumun geliştiği ve varlık takibine ihtiyaç duyduğunuz üretim konuşma sistemleri için Zep. Bir ajanın günler veya haftalar boyunca tutarlılığı koruması gerektiğinde Letta. Çoğu ekibin buna ihtiyacı olmayacak. İhtiyacı olanların tam olarak buna ihtiyacı var.

Hata, bir bellek sorununuz olmadan bir bellek framework'üne uzanmaktır. Bağlam pencerenizin tutabildiği artı bir vektör deposuyla başlayın. Yalnızca çözdüğü başarısızlık modunu ifade edebildiğinizde bir bellek sistemi ekleyin.

Gözlemlenebilirlik ve değerlendirmeler

Langfuse, OSS varsayılanıdır. Kendi kendine barındırılabilir, MIT lisanslı, izleme, prompt versiyonlama ve temel LLM-as-judge değerlendirmelerini kapsar. Zaten bir LangChain dükkanıysanız, LangSmith daha sıkı entegre olur. Braintrust, titiz karşılaştırmalarla araştırma tarzı değerlendirme iş akışları için doğru seçimdir. Çok dilli bir yığında satıcıdan bağımsız OpenTelemetry enstrümantasyonuna ihtiyacınız varsa, OpenLLMetry / Traceloop cevaptır.

Hem izlemeye hem de değerlendirmelere ihtiyacınız var. İzleme "ajan gerçekte ne yaptı?" sorusunu yanıtlar. Değerlendirmeler "ajan dünden daha iyi mi yoksa daha kötü mü?" sorusunu yanıtlar. İkisi olmadan teslimat yapmayın. Körü körüne çalışmanın maliyeti, bunu birinci günde doğru şekilde bağlamanın maliyetinin on katıdır.

Çalışma zamanı ve sandbox

Genel sandbox'ta kod yürütme için E2B. Tarayıcı otomasyonu için Browserbase (Stagehand ile eşleştirilmiş). Gerçek işletim sistemi düzeyinde masaüstü kontrolüne ihtiyacınız olduğunda Anthropic Computer Use. Kısa süreli patlamalar için Modal. Sandbox'suz kod yürütmeyi asla çalıştırmayın. Üretim ortamınızda tek bir prompt enjekte edilmiş ajanın patlama yarıçapı, anlatmak istemeyeceğiniz bir hikayedir.

Modeller

Benchmark kovalamacası yorucu ve büyük ölçüde yararsızdır. Pragmatik olarak, Nisan 2026'da:

Güvenilir araç kullanımı, çok adımlı tutarlılık ve zarif hata kurtarma için Claude Opus 4.7 ve Sonnet 4.6. Sonnet, çoğu iş yükü için maliyet-performans tatlı noktasıdır. En güçlü CLI/terminal muhakemesine ihtiyacınız olduğunda veya OpenAI altyapısında yaşıyorsanız GPT-5.4 ve 5.5. Uzun bağlam ağırlıklı veya çok modlu ağırlıklı işler için Gemini 2.5 ve 3. Özellikle dar, iyi tanımlanmış görevler için maliyet en üst düzey performanstan daha önemli olduğunda DeepSeek-V3.2 veya Qwen 3.6.

Modelleri değiştirilebilir olarak ele alın. Ajanınız yalnızca tek bir modelle çalışıyorsa, bu bir koku (smell), bir hendek (moat) değildir. Ne dağıtacağınıza karar vermek için değerlendirmeleri kullanın. Her hafta değil, her çeyrekte yeniden değerlendirin.

Neyi atlamalı

Bunların hepsini öğrenmeniz ve inşa etmeniz söylenecek. Yapmanıza gerek yok. Atlamanın maliyeti düşüktür. Kazanılan zaman büyüktür.

Üretim için AutoGen ve AG2. Microsoft'un framework'ü topluluk bakımına geçti, sürümler durdu, soyutlamalar üretim ekiplerinin gerçekte ihtiyaç duyduğu şeyle eşleşmiyor. Akademik keşif için iyi. Bir ürünü buna dayandırmayın.

Yeni üretim yapıları için CrewAI. Kolay demo verdiği için her yerde. Gerçek sistemler inşa eden mühendisler ondan uzaklaştı. İsterseniz prototipler için kullanın. Taahhüt etmeyin.

Microsoft Semantic Kernel Microsoft kurumsal yığınına kilitlenmediyseniz ve alıcılarınız bunu umursamıyorsa. Ekosistemin gittiği yer burası değil.

DSPy özellikle prompt programlarını ölçekte optimize etmiyorsanız. Felsefi değeri var, niş bir kitle. Genel bir ajan framework'ü değil. Bir tane olarak seçmeyin.

Mimari seçiminiz olarak bağımsız kod yazma ajanları. Kod-eylem-olarak (Code-as-action) ilginç bir araştırma. Henüz üretim varsayılan bir desen değil ve rakiplerinizin sahip olmadığı araç ve güvenlik savaşları vereceksiniz.

"Otonom ajan" sunumları. AutoGPT ve BabyAGI soyu ürün formunda öldü. Sektörün üzerinde anlaştığı dürüst çerçeve "ajan mühendisliği" (agentic engineering): denetimli, sınırlı, değerlendirilmiş. 2026'da hâlâ dağıt ve unut otonom ajanları satan biri size 2023'ü satıyordur.

Ajan uygulama mağazaları ve pazaryerleri. 2023'ten beri vaat ediliyor, hiçbir zaman kurumsal çekiş gücü sağlamadı. Şirketler genel önceden oluşturulmuş ajanları satın almaz. Sonuçlara bağlı dikey ajanlar satın alır veya kendilerininkini oluştururlar. İşinizi bir uygulama mağazası hayali etrafında yapılandırmayın.

Müşteri olarak yatay "herhangi bir ajanı oluştur" kurumsal platformları (Google Agentspace, AWS Bedrock Agents, Microsoft Copilot Studio katmanı). Sonunda kullanışlı olacaklar. Şu anda kafa karıştırıcı, yavaş teslimat yapıyorlar ve satın alma vs. oluşturma matematiği hâlâ dar ajanı kendiniz oluşturmayı veya dikey olanı satın almayı tercih ediyor. Salesforce Agentforce ve ServiceNow Now Assist istisnadır çünkü halihazırda kullandığınız iş akışı sistemlerine gömülü olarak kazanırlar.

SWE-bench ve OSWorld liderlik tablosu kovalamacası. Berkeley'deki araştırmacılar 2025 boyunca, neredeyse her genel benchmark'ın temeldeki görevi çözmeden oynanabileceğini belgeledi. Ekipler artık gerçek sinyal olarak Terminal-Bench 2.0 ve kendi dahili değerlendirmelerini kullanıyor. Tek sayılı benchmark sıçramalarını varsayılan olarak şüpheyle karşılayın.

Saf paralel çoklu ajan mimarileri. Paylaşılan bellek üzerinden sohbet eden beş ajan bir demoda etkileyici görünür ve üretimde dağılır. Bir peçete üzerine okuma/yazma sınırları olan temiz bir orkestratör-alt-ajan diyagramı çizemiyorsanız, göndermeyin.

Yeni ajan ürünleri için koltuk başına SaaS fiyatlandırması. Pazar, sonuç ve kullanım temelliye geçti. Koltuk başına fiyatlandırma masada para bırakır ve alıcılara ürününüzün sonuçları teslim edeceğine güvenmediğinizi işaret eder.

Bu hafta Hacker News'te göreceğiniz bir sonraki framework. Altı ay bekleyin. Hâlâ önemliyse, belli olacaktır. Değilse, bir geçişten kurtuldunuz.

Gerçekten nasıl ilerlemeli

Ajanları benimsemeye çalışıyorsanız, sadece onlara ayak uydurmaya değil, bu sıra işe yarar. Sıkıcı. İşe yarar.

Halihazırda önemli olan bir sonuç seçin. Bir ay atışı (moonshot) değil. Yatay bir "ajan platformu" projesi değil. İşletmenizin zaten önemsediği ölçülebilir bir şey. Destek biletlerini yönlendirmek. İlk geçiş yasal incelemesini taslak haline getirmek. Gelen potansiyel müşterileri nitelendirmek. Aylık raporlar oluşturmak. Ajan, bu sonuç hareket ettiğinde başarılı olur. Bu, birinci günde değerlendirme hedefiniz haline gelir.

Bu adımın her şeyden daha önemli olmasının nedeni, sonraki her kararı sınırlamasıdır. Belirli bir sonuçla, "hangi framework" sorusu felsefi olmaktan çıkar. Sonucunuzu en hızlı teslim edeni seçersiniz. "Hangi model" sorusu bir benchmark tartışması olmaktan çıkar. Değerlendirmelerinizin bu özel işte işe yaradığını söylediğini seçersiniz. "Belleğe / alt ajanlara / özel bir koşum takımına ihtiyacımız var mı" sorusu bir düşünce deneyi olmaktan çıkar. Yalnızca belirli başarısızlık modlarınızın gerektirdiğini eklersiniz. Bu adımı atlayan ekipler, kimsenin istemediği yatay platformlar inşa eder. Bunu ciddiye alan ekipler, bir çeyrekte kendini amorti eden tek bir dar ajan teslim eder ve bu tek teslim edilen ajan onlara alan hakkında iki yıllık okumadan daha fazlasını öğretir.

Bir şey göndermeden önce izleme ve değerlendirmeleri kurun. Langfuse veya LangSmith'i seçin. Bağlayın. Gerekirse elle küçük bir altın veri kümesi oluşturun. Başlamak için elli etiketli örnek yeterlidir. Ölçemediğiniz şeyi iyileştiremezsiniz. Bunu daha sonra inşa etmenin maliyeti, şimdi inşa etmenin maliyetinin kabaca 10 katıdır.

Tek bir ajan döngüsüyle başlayın. LangGraph veya Pydantic AI seçin. Model olarak Claude Sonnet 4.6 veya GPT-5 seçin. Ajana üç ila yedi iyi tasarlanmış araç verin. Durum olarak dosya sistemini veya bir veritabanını verin. Küçük bir kitleye gönderin. İzleri izleyin.

Ajana bir proje değil, bir ürün olarak davranın. Tahmin etmediğiniz şekillerde başarısız olacaktır. Bu başarısızlıklar sizin yol haritanızdır. Gerçek üretim izlerinden regresyon setini oluşturun. Her prompt değişikliği, her model değişikliği, her araç değişikliği dağıtımdan önce değerlendirmelerden geçer. Çoğu ekibin az yatırım yaptığı yer burasıdır. Güvenilirliğin çoğunun geldiği yer burasıdır.

Kapsamı yalnızca hak ettiğinizde ekleyin. Alt ajanlar, bağlam darboğaz olduğunda devreye girer. Bellek framework'leri, tek pencere bağlamı ihtiyacınız olanı tutamadığında devreye girer. Bilgisayar kullanımı veya tarayıcı kullanımı, temeldeki API'ler gerçekten orada olmadığında devreye girer. Bunları önceden mimarilemeyin. Başarısızlık modlarının onları içeri çekmesine izin verin.

Sıkıcı altyapı seçin. Araçlar için MCP. Sandbox'lar için E2B veya Browserbase. Durum için Postgres veya halihazırda çalıştırdığınız herhangi bir veri deposu. Mevcut kimlik doğrulama ve gözlemlenebilirlik yığınınız. Egzotik altyapı nadiren kazançtır. Disiplin öyledir.

Birinci günden itibaren birim ekonominizi izleyin. Eylem başına maliyetler. Önbellek isabet oranları. Yeniden deneme döngüsü maliyetleri. Model çağrı dağılımı. Ajanlar PoC'de ucuz görünür ve başlangıçtan itibaren sonuç başına maliyeti enstrümante etmezseniz 100x ölçekte patlarlar. 0,50$/çalıştırma PoC, orta hacimde ayda 50 bin dolara dönüşür. Bunun geldiğini görmeyen ekipler, hoşlanmadıkları bir CFO toplantısı alırlar.

Modelleri haftalık değil, üç ayda bir yeniden değerlendirin. Bir çeyrek için kilitlenin. Çeyreğin sonunda, değerlendirme paketinizi mevcut frontier'a karşı çalıştırın ve veriler geçiş yapmayı söylüyorsa geçiş yapın. Her sürümü kovalamadan model iyileştirmesinin avantajını elde edersiniz.

Gelgiti okumak

Bir şeyin sinyal olduğuna dair somut ipuçları:

Saygın bir mühendislik ekibi, sadece benimseme iddialarıyla değil, rakamlarla bir postmortem yazar. Bu bir sarmalayıcı veya paket değil, bir ilkeldir (protokol, desen, altyapı). Halihazırda çalıştırdığınız şeylerin yerine geçmek yerine onlarla birlikte çalışır. Sunum, etkinleştirdiği bir yetenekten ziyade çözdüğü bir hata modunu tanımlar. Hakkında "neyin işe yaramadığına" dair bir blog yazısı yazılacak kadar uzun süredir ortalıktadır.

Bir şeyin gürültü olduğuna dair somut işaretler:

Otuz gün sonra hiçbir üretim vaka çalışması olmayan demo videoları. Gerçek olamayacak kadar temiz kıyaslama sıçramaları. "Otonom", "ajan işletim sistemi" veya "herhangi bir ajan oluşturun" ifadelerini nitelendirmeden kullanan sunumlar. Belgeleri, mevcut izleme, kimlik doğrulama ve yapılandırmanızı atacağınızı varsayan çerçeveler. Bunlarla birlikte yükselmeyen commit'ler, sürümler ve katkıda bulunanlar olmadan hızla artan yıldız sayıları. GitHub hızı olmadan Twitter hızı.

Yararlı bir haftalık alışkanlık: Cuma günü sahaya otuz dakika ayırın. Üç şey okuyun. Anthropic'in mühendislik blogu. Simon Willison'ın notları. Latent Space. Herhangi bir postmortem yayınlandıysa bir veya ikisini gözden geçirin. Haftanın geri kalanında her şeyi atlayın. Önemli olan şeyleri bileceksiniz.

İzlemeye Değer Olanlar

Önümüzdeki iki çeyrekte dikkate değer şeyler, garantili kazançlar oldukları için değil, "bu bir sinyal mi?" sorusu tam olarak çözülmediği için:

Replit Agent 4'ün paralel çatallanma modeli. Paylaşılan duruma takılmadan "paralel olarak çalışan birden çok ajan" fikrine yönelik ilk ciddi girişim. Ölçekte tutunursa, orkestratör-alt ajan varsayılanı değişebilir.

Sonuç odaklı fiyatlandırmanın olgunlaşması. Sierra ve Harvey'in gelir gidişatları bunu dar dikeylerde doğruluyor. Soru, bunun dikey dışında genelleşip genelleşmeyeceği veya yalnızca dikey bir model olarak kalıp kalmayacağı.

Bir paketleme katmanı olarak beceriler. GitHub genelinde AGENTS.md ve beceri dizinlerinin çoğalması, ajan yeteneklerini paketlemenin yeni bir yolunun ortaya çıktığını gösteriyor. Bunun, MCP'nin araçlar için yaptığı gibi standartlaşıp standartlaşmayacağı açık bir soru.

Claude Code'un Nisan 2026 kalite gerilemesi ve postmortem'i. Sektör lideri bir ajan, %47'lik bir performans gerilemesi yaşadı ve dahili izleme yakalamadan önce kullanıcılar tarafından fark edildi. Bu, üretim ajan değerlendirme uygulamalarının liderlerde bile ne kadar olgunlaşmamış olduğuna dair bir ders. Bu, sektör çapında daha iyi çevrimiçi değerlendirmelere yatırımı teşvik ederse, düzeltme sağlıklı olur.

Varsayılan destek yüzeyi olarak ses. Sierra'nın ses kanalı 2025'in sonlarında metni geçti. Bu model diğer dikeylerde de geçerliyse, tasarım kısıtlamaları (gecikme, kesinti, gerçek zamanlı araç kullanımı) birinci sınıf hale gelir ve mevcut mimarilerin çoğunun yeniden işlenmesi gerekir.

Açık model ajan yeteneğinin farkı kapatması. Yerel düşünme-araç kullanımına sahip DeepSeek-V3.2. Qwen 3.6. Daha geniş açık kaynak ortamı. Dar ajan görevleri için maliyet-performans değişiyor. Kapalı kaynak varsayılanı kalıcı değil.

Bunların her birinin "altı ay içinde buna inanmak için ne görmem gerekir?" sorusuna net bir cevabı var. Test bu. Duyuruları değil, cevabı takip edin.

Alışılmadık Bahis

Benimsemediğiniz her çerçeve, borçlu olmadığınız bir geçiştir. Kovalamadığınız her kıyaslama, elinizde tuttuğunuz bir çeyrek odaktır. Bu döngüyü kazanan şirketler (kendi alanlarında Sierra, Harvey, Cursor) dar hedefler seçti, sıkıcı bir disiplin oluşturdu ve sahadaki gürültünün yanlarından geçip gitmesine izin verdi.

Geleneksel yol şuydu: bir yığın seç, yıllarca ustalaş, bir merdiveni tırman. Bu, yığın on yıl boyunca istikrarlı olduğunda işe yarardı. Yığın artık her çeyrek değişiyor. Kazanan insanlar, yığın ustalığı için optimize etmeyi bıraktı ve zevk, ilkeller ve yayınlama hızı için optimize etmeye başladı. Küçük şeyleri herkese açık olarak inşa ediyorlar. Yayınlayarak öğreniyorlar. Halihazırda yaptıkları şeyler tarafından odalara çekiliyorlar. Kimlik bilgisi, ortaya koydukları eserdir.

Bir saniyeliğine bunun üzerinde durun, çünkü tüm bu yazının asıl noktası bu. Çoğumuz, dünyanın kimlik bilgilerinin birikmesi için yeterince uzun süre hareketsiz kaldığını varsayan bir çalışma modeliyle büyüdük. Okula gittin. Dereceni aldın. Merdiveni tırmandın. İki yıl burada, üç yıl orada ve yavaş yavaş özgeçmiş kapıları açan bir şeye dönüştü. Tüm bu makine, diğer tarafta istikrarlı bir endüstri olduğunu varsayıyordu.

Ajan alanının şu anda istikrarlı bir diğer tarafı yok. Çalışmak isteyebileceğiniz şirketler altı aylık. Üzerine inşa edildikleri çerçeveler on sekiz aylık. Altlarındaki protokoller iki yıllık. Alandaki en çok alıntı yapılan gönderilerin yarısı, üç yıl önce alanda olmayan insanlar tarafından yazıldı. Tırmanılacak bir merdiven yok çünkü bina kat değiştirmeye devam ediyor. Merdiven işe yaramadığında geriye kalan, çok daha eski yöntemdir: bir şey yap, onu internete koy, çalışmanın seni tanıtmasına izin ver. Kimlik bilgisi sistemini görmezden geldiği için alışılmadık yol budur. Aynı zamanda hareketli bir alanda biriken tek yoldur.

Çağın içeriden görünüşü böyle. Devler bile herkese açık olarak yineleme yapıyor, gerilemeler gönderiyor, postmortem'ler yazıyor, canlı yamalıyor. Bu yıl en ilginç şeyleri gönderen ekipler arasında on sekiz ay önce alanda olmayan insanlar var. Kod yazmayanlar, ajanlarla eşleşiyor ve gerçek yazılımlar gönderiyor. Doktoralılar, doğru ilkelleri seçen ve sallamaya başlayan yapıcılar tarafından geride bırakılıyor. Kapılar açık. Çoğu insan hâlâ başvuru formunu bulmaya çalışıyor.

Şu anda gerçekten geliştirmeniz gereken beceri "ajanlar" değil. Yüzeyin sürekli değiştiği bir alanda hangi çalışmanın biriktiğini anlama disiplinidir. Bağlam mühendisliği birikir. Araç tasarımı birikir. Orkestratör-alt ajan deseni birikir. Değerlendirme disiplini birikir. Altyapı zihniyeti birikir. Salı günü piyasaya sürülen çerçevenin API'sini bilmek birikmez. Bunları birbirinden ayırt edebildiğinizde, haftalık lansman gelgiti baskı gibi hissettirmeyi bırakır ve görmezden gelebileceğiniz bir gürültü gibi hissettirmeye başlar.

Her şeyi öğrenmeniz gerekmiyor. Biriken şeyleri öğrenmeniz ve birikmeyenleri atlamanız gerekiyor. Bir sonuç seçin. Göndermeden önce izleme ve değerlendirmeleri bağlayın. LangGraph veya ekibinizin eşdeğerini kullanın. MCP kullanın. Çalışma zamanınızı korumalı alana alın. Varsayılan olarak tek ajan kullanın. Hata modları onu çektiğinde kapsam ekleyin. Modelleri üç ayda bir yeniden değerlendirin. Cuma günleri üç şey okuyun.

İşte oyun kitabı bu. Gerisi zevk, yayınlama hızı ve önemli olmayan şeylerin peşinden koşmama sabrıdır. Bir şeyler inşa edin. Onları internete koyun. Bu dönem, bir şeyi anlatabilenlerden çok onu yapanları ödüllendiriyor. Yapan kişi olmak için hiç bu kadar iyi bir pencere olmamıştı.

More patterns to decode

Recent viral articles

Explore more viral articles

İçerik üreticileri için tasarlandı.

𝕏 üzerindeki viral makalelerden içerik fikirleri bulun, neden işe yaradıklarını çözün ve kanıtlanmış kalıpları bir sonraki içerik açınıza dönüştürün.