AI kodlama faturamı ayda 4.200 dolardan 312 dolara düşürdüm
Yeni araçlar yok. Daha az ürün çıkarmak yok. "Sadece daha ucuz bir alternatif kullan" bahanesi yok
Sadece daha akıllı yönlendirme, prompt önbellekleme ve iş akışımdaki fark etmeden önce token'larımın ~%50-70'ini sessizce yakan 5 sabit sızıntı
Bu makale, söz verdiğim tam döküm. Her düzeltme, her yapılandırma, kurtarılan her dolar. Sonunda, bu HAFTA SONU gerçekçi bir şekilde uygulayabileceğin eksiksiz bir sisteme sahip olacaksın
Bunu okuyup uyguladıktan sonra şunlara sahip olacaksın:
- Ürün çıkarma hızından veya kalitesinden ödün vermeden %50-70 daha düşük aylık AI kodlama faturası
- Her görev için otomatik olarak doğru modeli seçen çok modelli bir yönlendirici
- Vibe kodlayıcıların %95'inin asla öğrenme zahmetine girmediği token ekonomisi hakkında çalışan bir anlayış
- Her hafta için belirli eylemleri olan 30 günlük bir dağıtım planı
- Cursor / Claude Code'a yapıştırabileceğin kopyala-yapıştır yönlendirici yapılandırması
[ Hadi ayrıntılara inelim ] ↓↓↓
1. AI Kodlama Faturan Neden Patlıyor?
2026'da vibe kodlayıcılar için maliyet grafiği bir hokey sopasına benziyor
Claude Code, Cursor, Aider, Windsurf, her araç aynı ekonomiyle çalışır: token girer, token çıkar, her yön için milyon başına $X. Bu araçlarla ne kadar çok ürün çıkarırsan, o kadar çok token yakarsın ve fatura da onu takip eder
Tuzak şu ki, çoğu vibe kodlayıcı AI kodlamayı GPT-3.5 ücretsizken ve Claude ayda 20 dolarken öğrendi. Hiçbir şey seni, bir Salı sabahı kahve yaparken aracının 50.000 token'lık ajan döngüleri çalıştırmaya başladığı ana hazırlamadı
Aynı anda üç şey oldu:
- Modeller daha akıllı ve daha pahalı hale geldi (Opus 4.6 girişi, iki yıl önceki GPT-3.5'in maliyetinin ~10 katı)
- Araçlar otomatik olarak daha fazla bağlam eklemeye başladı (Cursor'ın otomatik bağlamı, Claude Code'un repo farkındalığı, her IDE'nin
@-herşeyözelliği)
- Ajan iş akışları varsayılan hale geldi (her araç artık çok adımlı döngüler çalıştırıyor, her adım tam token ücretini ödüyor)
Sonuç: Günlük ürün çıkaran ortalama vibe kodlayıcı ayda 2.000-5.000 dolar yakıyor ve çoğu, dökümü görene kadar bunun ne kadarının israf olduğunu fark etmiyor
Teşhis "modeller çok pahalı" değil
Teşhis "TEMBELLİK için para ödüyorsun"
Token faturanın çoğu düzeltilebilir davranış, fiyatlandırma değil. Bu iyi haber. Aynı zamanda bu kılavuzun gerçekten işe yaramasının nedeni de bu
Temel İçgörü (Token'lar İçin Değil, Bağlam İçin Para Ödüyorsun)
İnternetteki her "AI faturanı düşür" makalesi sana modelleri değiştirmeni söyler
Bu YANLIŞ düzeltme
Gerçek düzeltme daha yukarı akışta: göndermene gerek olmayan token'ları göndermeyi bırak
Tipik bir vibe kodlayıcı oturumu şöyle görünür:
- Cursor'ı aç
- Otomatik bağlam, 47.000 token'lık repo dosyasını yükler
- Claude'dan "bu fonksiyondaki hatayı düzelt" diye iste
- Claude, önemli olan 30 satırı bulmak için 47.000 token üzerinde akıl yürütür
- Claude 200 token'lık bir düzeltme döndürür
- Döngü o gün 50 kez tekrarlanır
Maliyet: Tur başına ~0,70 dolar × 50 tur = "küçük" bir iş gününde 35 dolar/gün
Gerçek sinyal: Önemli olan 30 satır
Claude'a hatayı düzeltmesi için para ödemedin. Claude'a, 30 satırı bulabilmesi için tüm repoyu 50 kez okuması için para ödedin
Bağlam disiplini kaldıraçtır. Model seçimi bunun aşağı akışındadır
Bunu içselleştirdiğinde, aşağıdaki her bölüm mantıklı gelir
Token Ekonomisi 101 (Çoğu Vibe Kodlayıcının Aslında Bilmediği Birim Ekonomisi)
Faturalarımızın %80'ini kurtarmaya başlamadan önce, aslında ne için para ödediğini anlaman gerekiyor
Her modern AI faturasında 4 token kategorisi vardır:
Giriş token'ları — modele gönderdiğin HER ŞEY: prompt'un, sistem mesajı, dosya içerikleri, konuşma geçmişi. Milyon başına fiyatlandırılır ($/M giriş)
Çıkış token'ları — modelin sana GERİ gönderdiği HER ŞEY: kod, açıklamalar, akıl yürütme. Genellikle token başına girişten 3-5 kat daha pahalı
Önbelleğe alınmış token'lar — yakın zamanda yapılan bir önceki istekte gönderilen ve önbelleğe alınmak üzere işaretlenen giriş token'ları. Normal giriş maliyetinin ~%10'u fiyatlandırılır. Bu, ÇOĞU KİŞİNİN KULLANMADIĞI, hafife alınan %90'lık maliyet kesintisidir
Akıl yürütme token'ları — modellerin çıktı üretmeden önce kullandığı dahili "düşünme" token'ları. Claude Opus bunları yakar. Görmesen bile sana fatura edilir
2026 ortası itibarıyla yaklaşık fiyatlandırma (her satıcının sayfasından doğrulayın — bunlar değişir):
- Claude Opus 4.6: Milyon başına ~$15 / $75 (giriş / çıkış)
- GPT-5: ~$10 / $40
- Claude Sonnet 4.6: ~$3 / $15
- Claude Haiku 4.5: ~$1 / $5
- Kimi 2.6 (Moonshot): ~$0,50 / $2
En pahalı seçenek ile en ucuz ücretli seçenek arasındaki fark, girişte yaklaşık 30 kat, çıkışta 35 kattır
Sonnet 4.6 ve Kimi 2.6 arasındaki belirli farka dikkat edin: girişte 6 kat daha ucuz, çıkışta 7,5 kat daha ucuz. Ciddi kodlama işlerinin %95'inde, ikisi arasındaki gönderilen kalite farkı görünmez. Sonnet fiyatları ödeyen çoğu vibe kodlayıcı, aynı kalite seviyesinde Kimi'den alabilecekleri çıktı için 6 kat fazla ödüyor
(Hangi görevin nereye gideceğine, gerçek rakamlarla geleceğiz)
[ Şimdi israfını teşhis edelim ] ↓↓↓
Her Vibe Kodlayıcının Düştüğü 5 Token Tuzağı
Bunlar, 4.200 dolarlık aylık faturamı yönlendiren 5 şey. Her birini düzelt ve israfın çoğunu geri kazanacaksın
Tuzak 1: Her Turda Tüm Reponu Yeniden Göndermek
Ne olur:
Cursor veya Claude Code'un otomatik bağlam özelliği, her prompt'ta aynı 30-50 dosyayı içerir. Bu dosyalar değişmez. Ama her turda onlar için para ödersin
50 dosyalık bir bağlam = ~80.000 giriş token'ı. Opus fiyatlandırmasında, bu tur başına 1,20 dolar. Günde 50 tur = 60 dolar/gün = SADECE değişmeyen bağlamı yeniden göndermek için ayda 1.800 dolar
Düzeltme:
- Kararlı dosyalar için otomatik bağlamı kapat. Bunları bir kez prompt önbellekleme aracılığıyla ekle
- Modele sormadan ÖNCE grep/ripgrep kullan. Yalnızca ilgili fonksiyonu veya bloğu gönder
- Cursor'da: rutin işler için
@codebase'i devre dışı bırak. Belirli@filereferansları kullan
- Claude Code'da: dosyaları önden yüklemek yerine aracın kendi grep aracına güven
Sadece bu tuzaktan elde edilen tasarruf: kararlı oturumlar için giriş token'larında %60-80
Tuzak 2: Kontrolden Çıkan Araç Çağrı Döngüleri
Ne olur:
Ajan bir araç çağırır. Veri alır. Tam bağlamı yeniden gönderir. Başka bir araç çağırır. Yeniden gönderir. Üçüncü bir araç çağırır. Yeniden gönderir
Ajanın her "bir bakayım"ı, tam giriş maliyetini tekrar ödüyor. Ajan cevabı bulduğunda, aynı 50.000 token'lık bağlam için 5 kez ödemiş oldun
Düzeltme:
- İlgili araç çağrılarını toplu hale getir. Ajandan, araç çağrılarını yürütmeden önce planlamasını iste
- Araç çıktılarını agresif bir şekilde özetle. Ham çıktıları doğrudan bağlama geri aktarma
- Bilinen iş akışları için, ajan araç döngülerini deterministik Python yardımcılarıyla değiştir
- Araç çağrılarını profille — bir hafta boyunca her çağrının giriş/çıkış token sayısını günlüğe kaydet. Kontrolden çıkan döngüleri bul
Tasarruf: Ajan akışlarında 3-5 kat maliyet azaltma
Tuzak 3: Ucuz Modellerin Halledebileceği Görevlerde Premium Modelleri Çalıştırmak
Ne olur:
Opus'tan "bu yazım hatasını düzelt" veya "bu JSON'u biçimlendir" veya "bu değişkeni her yerde yeniden adlandır" diye istersin. Model 12 saniye düşünür, 8.000 token akıl yürütme yakar, cevabı döndürür. Maliyet: Haiku'nun 0,02 dolara yapacağı bir görev için 0,60 dolar
Ya da daha kötüsü: Sonnet'ten 500 satırlık bir dosyayı yeniden düzenlemesini istersin. Çıktının maliyeti 0,12 dolar ve 14 saniyede gelir. AYNI yeniden düzenleme Kimi 2.6'da 0,04 dolara mal olur, 16 saniyede gelir ve kod üretimde ayırt edilemez
Düzeltme:
- Bir yönlendirici kur (sonraki bölüm). Önemsiz görevler için varsayılan olarak Haiku veya yerel modeli kullan
- Gerçek uygulama işleri için, varsayılan olarak Sonnet yerine Kimi 2.6'yı kullan (kodlama görevlerinde aynı gönderilen kalite, maliyetin çok küçük bir kısmı)
- Opus / GPT-5'i, bileşik getirisi olan kararların %10'u için sakla (mimari, karmaşık yeniden düzenlemeler)
İş akışımdan bunu keskinleştiren gerçek bir örnek: ajan yeniden düzenleme döngüm eskiden uçtan uca Opus'ta çalışırdı. Ortalama maliyet: çalıştırma başına 18-24 dolar. Opus'u yalnızca planlama adımı için (bir çağrı) tuttum ve 25-30 yineleme adımını Kimi 2.6'ya yönlendirdim. Aynı iş akışı, aynı gönderilen kod, aynı geçen testler. Yeni maliyet: çalıştırma başına 1,40 dolar
Premium model, yineleme adımlarında premium kalitede iş yapmıyordu. Kimi 2.6, satır satır onunla eşleşiyordu. Sadece döngünün ihtiyaç duymadığı bir yetenek için para ödüyordum
Tasarruf: Temizlik/biçimlendirme/lint katmanında %95. Her adımın orta düzeyde olduğu uzun ajan döngülerinde 10-15 kat
Tuzak 4: Toplu İşlem Yeterliyken Akış Kullanmak (Veya Tam Tersi)
Ne olur:
Akış yanıtları, bazı iş akışları için prompt önbelleklemesini bozabilir. Ve akış yapman gerekirken toplu işlem yapmak kullanıcı zamanını boşa harcar
Düzeltme:
- Kararlı önekli iş akışları için TOPLU yanıtlar kullan (önbelleğe alınmış prompt'lar toplu işlemle daha iyi çalışır)
- Etkileşimli kodlama için UX hissi istediğinde AKIŞ kullan
- Kullanıcı geri bildirimi gerektirmeyen arka plan ajanları için her zaman toplu işlem yap
Tasarruf: Doğru toplu işlemle önbelleğe alınmış önek çağrılarında %30-50
Tuzak 5: "İhtiyaç Olur" Diye Eklenen Dosyalardan Kaynaklanan Bağlam Şişmesi
Ne olur:
Claude'un utils.ts'ye ihtiyacı olup olmadığından emin değilsindir, bu yüzden onu eklersin. Test dosyasına ihtiyacı olup olmadığından emin değilsindir, bu yüzden onu eklersin. Şemaya ihtiyacı olup olmadığından emin değilsindir, bu yüzden onu eklersin. Şimdi "bu hatayı düzelt" prompt'un 80.000 token oldu
Düzeltme:
- Önce grep/ripgrep kullan. grep bir referans bulamazsa, modelin dosyaya ihtiyacı yoktur
- Ajandan ihtiyacı olan dosyaları istemesini iste. Gönüllü olarak verme
- Uzun oturumlarda, eski bağlamı periyodik olarak özetle ve orijinalleri bırak
- Statik bağlamı bir kez kodlamak için CLAUDE.md / sistem prompt'u kullan, ardından önbelleğe al
Tasarruf: Giriş token'larında %70+
[ Şimdi düzeltmeyi inşa edelim ] ↓↓↓
Yönlendirici Mimarisi (Her Şey İçin Tek Bir Model Kullanmayı Bırak)
İşte yapabileceğin en büyük tek değişiklik
Çalışmanı görev türüne göre birden çok modele böl
Çoğu vibe kodlayıcı her şey için tek bir model kullanır. Ya premiuma giderler (her görevde Opus, pahalı) ya da bütçeye (her görevde Haiku, gerçekten önemli olan işlerde kalite düşer). Çoğu insanın varsayılan olarak kullandığı orta yol (her şeyde Sonnet) her iki dünyanın da en kötüsüdür: gerekenden 6 kat fazla ödersin VE yoğun günlerde yine de hız sınırlarına takılırsın
Akıllıca hareket, görev başına doğru modeli seçen, gerçek kodlama işinin büyük kısmını Kimi 2.6'nın yaptığı bir yönlendiricidir
Yönlendirme karar ağacı:
- Bu bir planlama / mimari görevi mi? → Premium katman (Opus 4.6 veya GPT-5). Bileşik getirisi olan kararların %10'u. Maliyete değer
- Bu uygulama, kod incelemesi, yeniden düzenleme, hata ayıklama veya herhangi bir ciddi kodlama işi mi? → Kimi 2.6. Günlük sürücün. Gönderilen kalitede Sonnet ile eşleşir, 6 kat daha ucuza mal olur, hız sınırı sorunu yok
- Bu, birçok yinelemesi olan uzun bir ajan döngüsü mü? → Yine Kimi 2.6. Maliyet avantajı her yinelemede katlanarak artar
- Bu lint, biçimlendirme, tek satırlık düzenlemeler veya önemsiz düzeltmeler mi? → Yardımcı katman (Haiku 4.5). Veya IDE'nin otomatik tamamlama özelliği
- Bu şablon kod, otomatik tamamlama veya taslak oluşturma mı? → Yerel katman (Ollama üzerinden Qwen 3). Ücretsiz
Çoğu vibe kodlayıcı bunu asla kurmaz çünkü araçlar varsayılan olarak tek bir model kullanır. Ancak modern AI kodlama araçlarının tümü artık özel modelleri destekliyor — Cursor, Aider, Claude Code, Windsurf, hepsi
Bir yönlendirici kurmak 30 dakika sürer
Başka hiçbir şey yapmadan önce faturanı %50-70 oranında keser!!!
Model Katmanları (Her Görev İçin Doğru Modeli Seçmek)
Her görevi hangi modele göndereceğini bilmek savaşın yarısıdır. İşte her büyük modelin, pazarlama olmadan, akıllı bir yığına nasıl uyduğu
Premium Katman (Bileşik Getirisi Olan Kararlar İçin)
Claude Opus 4.6: kıdemli mimar. Dizilişteki en iyi muhakeme, en yüksek maliyet (~M başına $15/$75). Sistem tasarımı, güvenlik açısından kritik incelemeler, karmaşık çok dosyalı yeniden düzenlemeler, eşzamanlılık hata ayıklaması için kullan. İşinin yaklaşık %10'u gerçekten buraya aittir
GPT-5.5: muhakemede Opus'a yakın ikinci, benzer fiyatlandırma katmanı (~$10/$40). Genellikle matematik ağırlıklı görevlerde ve biçimsel kanıtlarda öne geçer. Uzun bağlam tutarlılığı ve kod muhakemesinde biraz geride
İş Atı Katmanı (Günlük Sürücün)
Kimi 2.6 (Moonshot): modern bir AI kodlama yığınının gerçek iş atı (~$0,50/$2). Çoğu insanın burada yanıldığı yer burası, bu yüzden doğrudan olacağım: Kimi 2.6, çoğu kodlama görevinde Sonnet 4.6 ile eşleşir veya onu geçerken 6 kat daha ucuza mal olur
Yaptığım kıyaslamalar (aşağıda tam tablo) Kimi 2.6'nın yeniden düzenleme, hata ayıklama ve kod oluşturmada Sonnet'in kalitesini yakaladığını, hatta bazen biraz öne geçtiğini gösteriyor. 2025'ten kalma "Kimi ucuz seçenektir" çerçevesi güncelliğini yitirdi. 2026'da Kimi 2.6, varsayılan olarak kullanman gereken seçenektir ve Sonnet, belirli güçlü yönlerinin önemli olduğu dar bir görev kümesi için ayrılmıştır
Kimi 2.6'nın açık ara kazandığı yerler:
- Uzun ajan döngüleri (10+ yineleme). Her yineleme küçük, iyi kapsamlı bir adımdır. 30 adımlı bir yeniden düzenleme ajanı çalıştır: Opus'ta ~25 dolar, Sonnet'te ~5 dolar, Kimi'de ~1 dolar. Aynı gönderilen kod. Kimi, durumu yinelemeler arasında Sonnet kadar iyi yönetir
- Orta ila yüksek karmaşıklıkta kod oluşturma. CRUD uç noktaları, iskele kurulumu, çok dosyalı özellik uygulaması. Kimi'nin kod kalitesi, fiyatın 1/6'sına, sürekli olarak Sonnet'inkiyle aynı aralıktadır
- Ölçekte yeniden düzenleme görevleri. 500 satırlık dosyaları yeniden yazarken, Sonnet'in marjinal kalitesi gönderilen diff'te kendini göstermez. Kimi'nin çıktısı aynı testleri geçer
- Sürekli çalışan arka plan ajanları. 7/24 çalışan bir izleme ajanı Sonnet'te ayda 200-400 dolara mal olur. Aynı ajan Kimi'de ayda 15-30 dolara mal olur. Sonnet versiyonu kendini amorti etmez. Kimi versiyonu eder
- Yüksek verimli toplu iş görevleri. İş akışın 30 dakika boyunca Sonnet hız sınırlarının arkasında sıraya girerse, daha ucuz model pratikte aynı zamanda daha hızlı modeldir. Moonshot'ın hız sınırları önemli ölçüde daha cömerttir
- Uzun bağlam çalışması. Kimi 2.6'nın 256k bağlam penceresi, üst aralıkta Sonnet'in tutarlılığıyla eşleşir veya onu geçer. Bir yıl öncesinin "büyük bağlam için Sonnet" kuralı artık geçerli değil
Hala başka bir şeye yöneldiğim dar durumlar:
- Mimari ve sistem tasarımı kararları → Opus veya GPT-5 (premium katman, işin %10'u)
- Üretim PR'larında güvenlik açısından kritik kod incelemesi → Opus
- Son derece uzmanlaşmış alanlar (biçimsel doğrulama, niş derleyiciler) → premium katman
Bu listede OLMAYAN şeye dikkat edin: ciddi uygulama çalışmaları, hata ayıklama, kod incelemesi, yeniden düzenleme, ajan akışları. Bunların hepsi artık Kimi 2.6'da yaşıyor
İşe yarayan çerçeve: bileşik getirisi olan kararların %10'u için premium modeller, ciddi ürün çıkarma işlerinin %90'ı için Kimi 2.6, tamamen temizlik olan %10 için Haiku/yerel. Sonnet, "bu belirli tuhaflık için bir Claude modeli istiyorum" kullanım durumlarının ince bir diliminde kalır, bu iyidir ancak varsayılan değildir
Yardımcı Katman (Temizlik ve Yürütme)
Claude Haiku 4.5: kıdemsiz mühendis. Hızlı ve ucuz (~$1/$5). Lint, biçimlendirme, tek satırlık düzenlemeler, yeniden adlandırma yeniden düzenlemeleri, basit taslak oluşturma için kullan. Çok adımlı işlerde kalite düşer ancak düşünme gerektirmeyen görevler için mükemmeldir
GPT-5 mini / o4-mini: OpenAI ekosisteminde Haiku eşdeğeri. Benzer fiyatlandırma katmanı ve kullanım durumları. Hangisi aracınla temiz bir şekilde entegre oluyorsa onu seç
Yerel Katman (Sıfır Maliyet)
Qwen 3 / Llama 3 (Ollama üzerinden): dizüstü bilgisayarında çalışır. Token başına 0 dolar. Otomatik tamamlama, yazma, şablon kod, sözdizimi düzeltmeleri için en iyisi. Çok adımlı akıl yürütme veya nüans gerektiren hiçbir şey için UYGUN DEĞİLDİR
Dürüst Değerlendirme
- Yalnızca bir modelin olabilirse: 2026'da doğru seçim Kimi 2.6'dır. Vakaların %90'ını yüksek kalitede kapsar, tek bir Sonnet aboneliğinden daha ucuza mal olur
- İki modelli bir yığın istiyorsan: Premium kararlar için Kimi 2.6 + Opus. Bu, yalın, uzman kurulumudur. Tamamen Sonnet tabanlı bir temele kıyasla maliyetleri ~%70 oranında keser
- Ölçekte ürün çıkarıyorsan: tam yönlendirici (Opus/Kimi/Haiku/Yerel), önemli olan işlerde kaliteyi korurken faturaları mantıklı tutmanın tek yoludur
Çoğu vibe kodlayıcının yaptığı hata, 2024-2025 pazarlamasının söylediği gibi varsayılan olarak Sonnet'i kullanmaktır. 2026'da maliyet-kalite matematiği farklıdır. Kimi 2.6 kalite farkını kapattı ve fiyat farkı geniş kaldı. 2026'da varsayılan olarak Sonnet'te kalmak, faturanın %60-70'ini masada bırakmaktır
[ Pratik teknikler ] ↓↓↓
Kaliteden Ödün Vermeden Maliyetleri Düşürmek İçin 7 Pratik Teknik
Aşağıdaki tüm teknikleri uygulayarak benim sonuçlarıma ulaşabilir ve AI kodlama fatura maliyetlerinin %80'ini kesebilirsin
Not: Bunları çalışma alanına nasıl uygulayacağınla ilgili herhangi bir sorun olursa, yorumlarda veya DM'lerimde sormaktan çekinme
Teknik 1: Mümkün Olan Her Yerde Prompt Önbelleklemesini Etkinleştir
Anthropic, OpenAI, Moonshot — hepsi artık prompt önbelleklemesini destekliyor. Önbelleğe alınmış token'lar, normal girişin ~%10'una mal olur
Kararlı bağlamını (CLAUDE.md, sistem talimatları, kod tabanı özeti) önbelleğe alınmış öneke koy. Çalışmanı 5 dakikalık parçalar halinde yapılandır (önbellek TTL'si)
- Claude Code'da: sistem prompt'u ve CLAUDE.md için önbellekleme otomatiktir
- Cursor'da: ayarlar → modeller → "prompt önbellekleme kullan" seçeneğini etkinleştir
- Aider'da:
--cache-promptsparametresini geç
Tasarruf: Kararlı giriş token'larında %60-90
Teknik 2: Getirmeden Önce Grep Kullan
"İhtiyaç olur" diye bir dosyayı eklemek yerine, önce sembolü veya deseni grep ile ara. Yalnızca önemli olanı ekle
Çoğu "tüm dosyaya ihtiyacım var" sezgisi yanlıştır. Zamanın %90'ında, 30 satır yeterlidir
Teknik 3: Araç Çağrılarını Profille
Bir hafta boyunca her araç çağrısının giriş/çıkış token sayısını günlüğe kaydet. Kontrolden çıkan döngüleri ve aynı verileri 10 kez yeniden getiren araçları bulacaksın
Claude Code'da hızlı günlük kaydı: --verbose-tools seçeneğini etkinleştir ve bir dosyaya yönlendir. grep ile analiz et. En büyük token bataklıklarını bul
Çoğu vibe kodlayıcı, yalnızca en kötü 3 araç döngüsünü düzelterek %30-50 oranında kesinti yapar
Teknik 4: Aşamalı Beceri Desenini Kullan
Bir iş akışı çalıştığında, onu bir SKILL.md dosyası olarak kaydet. Bir sonraki ajan beceriyi yükler ve keşif aşamasını tamamen atlar
Örnek: "hazırlama aşamasına dağıt" iş akışım, ajan ortamı her seferinde yeniden çözdüğü için Opus'ta çalıştırma başına 4 dolara mal oluyordu. Bir kez SKILL.md olarak yazdım, çalıştırıcıyı Kimi 2.6'ya geçirdim. Şimdi çalıştırma başına 0,18 dolara mal oluyor, aynı sonucu veriyor
Bu, Browserbase'in Autobrowse'unun tarayıcı ajanları için kullandığı desenin aynısıdır. Bir iş akışı beceri olarak yakalandığında, sonraki çalıştırmalar bir büyüklük sırası daha ucuzdur
İlke kodlama için de geçerlidir
Teknik 5: Şablon Kod ve Otomatik Tamamlama İçin Yerel Modeller
Ollama'da çalışan Qwen 3 / Llama 3 = token başına 0 dolar, dizüstü bilgisayarında çalışır
Bunları şunlar için kullan: otomatik tamamlama, yazma, basit tamamlamalar, sözdizimi düzeltmeleri, taslak oluşturma
Bunları şunlar için KULLANMA: karmaşık akıl yürütme, çok adımlı hiçbir şey, kalitenin önemli olduğu hiçbir şey
Kurulum 5 dakika sürer:
Ardından IDE'nin otomatik tamamlama özelliğini localhost:11434 adresine yönlendir
Tasarruf: Şablon kod katmanında %100
Teknik 6: Uzun Oturumlarda Agresif Bir Şekilde Özetle
Her 10-15 turdan sonra, ajandan ne yapıldığını ve sırada ne olduğunu özetlemesini iste. Orijinal konuşma bağlamını bırak. Sonraki gruba özetten başla
200k token'lık bir oturum, 5k token'lık bir özete sıkıştırılır. Sonraki grup taze başlar, devam etmenin maliyetinin %5'ine mal olur
Çoğu vibe kodlayıcı bunu asla yapmaz çünkü araçlar onları buna yönlendirmez. 30 dakikalık bir zamanlayıcı kur
Teknik 7: "Küçük" İsteklerini Toplu Hale Getir
Modele tek tek 10 küçük soru sormak yerine (10 ayrı API çağrısı = 10 ayrı giriş öneki ücreti), bunları tek bir prompt'ta topla:
"Şu 10 şeyi cevapla, 1-10 arası numaralandır..."
Tasarruf: Toplu iş akışları için giriş token'larında %70-90. Özellikle prompt önbellekleme ile güçlüdür
[ İşe yaradığını kanıtlayan rakamlar ] ↓↓↓
Gerçek Görev Başına Maliyet Kıyaslamaları
Aynı 4 görevi büyük modellerde çalıştırdım. Bunlar açıklayıcıdır, kendi kıyaslamaların görev türüne ve kod tabanına göre değişecektir. Ancak önemli olan ŞEKİL'dir
Görev: 500 satırlık dosyayı yeniden düzenle
Opus 4.6: $0,42 / 18sn / 9,5
GPT-5: $0,32 / 16sn / 9,4
Sonnet 4.6: $0,12 / 14sn / 9,0
Kimi 2.6: $0,04 / 16sn / 9,2
Görev: CRUD uç noktası oluştur
Opus 4.6: $0,18 / 22sn / 9,0
GPT-5: $0,14 / 20sn / 9,0
Sonnet 4.6: $0,06 / 18sn / 9,0
Kimi 2.6: $0,02 / 17sn / 9,0
Görev: Yığın izini hata ayıkla
Opus 4.6: $0,08 / 11sn / 9,5
GPT-5: $0,07 / 10sn / 9,4
Sonnet 4.6: $0,03 / 9sn / 9,0
Kimi 2.6: $0,01 / 10sn / 9,1
Görev: Mimari plan
Opus 4.6: $0,65 / 28sn / 9,8
GPT-5: $0,50 / 26sn / 9,7
Sonnet 4.6: $0,22 / 24sn / 8,5
Kimi 2.6: $0,08 / 25sn / 9,2
Dikkate değer birkaç şey:
- Kimi 2.6, 4 görevin tamamında Sonnet 4.6 ile kalite açısından eşleşir veya onu geçerken 3-4 kat daha ucuza mal olur
- Kimi 2.6, maliyetin 1/10'u ile Opus / GPT-5'in 0,3-0,6 kalite puanı yakınına gelir
- Haiku hızlıdır ancak çoğu görevde kalite ~7,0'ın altına düşer (yalnızca önemsiz işler için değer)
- Opus / GPT-5, yalnızca marjinal kalitenin önemli olduğu mimari kararlarda anlamlı bir şekilde öndedir
Bu tablonun makul yorumu: mimari işlerin %10'unu premium bir modele, rutin ve ciddi işlerin %90'ını Kimi 2.6'ya ve temizlik katmanını Haiku/yerel modele yönlendir. Sonnet, ince bir uç durum diliminde kalır (uzun biçimli düzyazı üretimi, belirli Claude'a özgü desenler), bu iyidir ancak varsayılan değildir. Haftanın sonunda gönderdiğin kalite karşılaştırılabilir. Ayın sonundaki fatura aynı değildir
Tam Yönlendirici Yapılandırmam (Kopyala-Yapıştır)
İşte çalıştırdığım gerçek yapılandırma. Seninkinin ayarlanması gerekecek, ancak bu başlangıç noktasıdır:
Bunu Claude Code veya Cursor yapılandırmana yapıştır (yollar araca göre değişir — "özel yönlendirme" veya "model seçimi" için belgelerine bak)
- Bu yapılandırmadan önce: 4.200 dolar/ay
- Sonra: 312 dolar/ay
- Oran: Orijinal maliyetin %7,5'i
- Kritik görevlerde kalite: değişmedi
[ 30 günlük dağıtımın ] ↓↓↓
Faturanı %80 Kesmek İçin 30 Günlük Plan
Hepsini bir anda yapmak yerine yapılandırılmış bir dağıtım istiyorsan:
1. Hafta: Kanamayı Durdur
- Hangi aracı kullanıyorsan prompt önbelleklemesini etkinleştir
- Kararlı dosyalar için otomatik bağlamı kapat
- ripgrep'i kur, sormadan önce grep kullanmaya başla
- Beklenen tasarruf: %30-40
2. Hafta: Varsayılanı Kimi 2.6'ya Değiştir
Bu yapısal haftadır. Önceki teknikler israfı kırpar. Varsayılan modelini değiştirmek, birim ekonomisini gerçekten değiştiren şeydir
- Aracının özel model yapılandırmasını kur
- Varsayılan iş atını Kimi 2.6'ya yönlendir. Bu, 30 günün tamamındaki en büyük tek hamledir. Çoğu vibe kodlayıcı alışkanlıktan varsayılan olarak Sonnet 4.6'yı kullanır ve kalite açısından eşdeğer olan gönderilen kod için ihtiyaç duyduklarından 6 kat fazla öder
- Lint/biçimlendirmeyi Haiku'ya yönlendir
- Opus / GPT-5'i yalnızca planlama katmanı için ayır
- Beklenen ek tasarruf: %40-55 (azaltmanın büyük kısmı bu tek değişiklikten gelir)
3. Hafta: Araç Döngülerini Profille ve Düzelt
- Bir hafta boyunca ayrıntılı araç günlük kaydını etkinleştir
- En pahalı 3 araç döngünü belirle
- Bunları toplu çağrılar veya deterministik yardımcılarla değiştir
- Beklenen ek tasarruf: %10-20
4. Hafta: Aşamalı Beceriler + Yerel Modeller
- Tekrar tekrar yaptığın 3 iş akışını belirle. Her birini bir SKILL.md olarak yaz
- Otomatik tamamlama ve şablon kod için Ollama + Qwen 3'ü kur
- Önemsiz görevleri yerel modellere yönlendir
- Beklenen ek tasarruf: %5-10
Kümülatif: 30 günde %70-85 fatura azaltma
Ürün çıkarma hızını kaybetmeden!!!
Ne Zaman Daha Fazla Harcamalı (Premium'un Hala Kazandığı %10)
Maliyet kesintisinin sınırları vardır
Bazı görevler gerçekten premium modellere ihtiyaç duyar. Bunlara ucuz bir modeli zorlamak, yeniden denemeler ve hata düzeltmelerinde tasarruftan daha fazlasına mal olur
Opus / GPT-5'i her zaman şunlar için kullan:
- Sistem mimarisi kararları
- Güvenlik açısından kritik kod incelemesi
- Çapraz kesen endişeleri olan karmaşık çok dosyalı yeniden düzenlemeler
- Eşzamanlılık / yarış koşullarında hata ayıklama
- Derleyici / biçimsel doğrulama çalışmaları
Kural:
Yanlış bir cevabın maliyeti, model maliyeti farkının 100 katından fazlaysa, premium modeli kullan
Bir planlama görevinde 0,50 dolarlık bir hata sana bir haftaya mal olabilir
0,05 dolarlık bir düzeltme ters giderse 30 saniyede kurtarılabilir
Modeli, çağrının maliyetine değil, başarısızlığın maliyetine göre fiyatlandır
Ortadaki her şey için (ciddi uygulama, yeniden düzenlemeler, kod incelemesi, eşzamanlılık düzeyinde olmayan hata ayıklama), Kimi 2.6 doğru çağrıdır. "Sadece güvende olmak için premium modeli kullan" içgüdüsü, bunu okumadan önce faturanı yakıyordu
Daha Büyük Resim
Token'lardan kurtardığın her dolar, daha fazla ürün çıkarmaya koyabileceğin bir dolardır
2027'de kazanan geliştiriciler, en iyi modellere sahip olanlar olmayacak
En iyi bağlam disiplinine ve en akıllı yönlendirmeye sahip olanlar olacak
12 ay içinde, ayda 200 dolarlık bütçeyle ürün çıkaran geliştiriciler ile ayda 4.000 dolarlık bütçeyle ürün çıkaran geliştiriciler arasındaki fark beceri olmayacak
Ne kadar iyi yönlendirdikleri olacak
Umarım doğru yolu seçer ve bu makaledeki tüm püf noktalarını uygulamak için tembel olmazsın ❤️





