Ho speso accidentalmente 1,5 milioni di yen su Claude: impostazioni essenziali per evitare un disastro con la fatturazione AI

Per prevenire che incidenti simili si ripetano.

Sarei felice se tutti potessero leggere questo, così che i nostri 1,5 milioni di yen abbiano un senso!!! 🥺

Cosa fare per ora

Imposta i limiti di utilizzo mensili dell'organizzazione Claude Team (ovviamente)
Imposta limiti per servizio per Claude Code Review
Cambia i trigger di Claude Code Review da "per push" a "una volta"
Se puoi trasmettere i log delle transazioni della carta di credito su un canale specifico, tienili d'occhio (è così che me ne sono accorto questa volta)
Implementa a fondo guardrail e vincoli

Impostazione del limite di utilizzo mensile dell'organizzazione Claude Team

Da https://claude.ai/admin-settings/usage

gogotanaka / aisaac, inc. - inline image

In Enterprise, puoi impostare limiti ancora più granulari di quelli mensili, quindi vale la pena sfruttarli.

Limite per servizio di Claude Code Review

Da https://claude.ai/admin-settings/usage

Cambia il trigger di Claude Code Review da "per push" a "una volta"

Da https://claude.ai/admin-settings/usage

Cosa è successo

In un tranquillo sabato sera, un senso di inquietudine ha attraversato l'organizzazione.

1,5 milioni di yen venivano prosciugati in Claude Code Review. 😇

Perché è successo

Per arrivare alla conclusione, stava accadendo quanto segue:

Esecuzioni di Claude Code Review

↓

Vengono aggiunti commenti di revisione

↓

L'AI Agent (Codex/Claude, ecc.) determina se è necessario un fix

↓

L'AI Agent corregge e fa commit/push se necessario

↓

Claude Code Review viene eseguito di nuovo, attivato dal push

↓

Il rebase/force push si propaga alle Stacked PR successive

↓

Claude Code Review viene eseguito anche sulle PR successive

↓

Ripeti all'infinito ♾️

Nel repository che stiamo sviluppando, abbiamo introdotto Claude Code Review, che revisiona automaticamente il codice per le PR di GitHub. Inoltre, questa volta stavamo usando AI agent per gestire modifiche relativamente su larga scala, suddividendole in più PR e impilandole linearmente da monte a valle. (Una serie di tali PR è chiamata Stacked PR). Inoltre, Claude Code Review è un servizio pay-as-you-go basato sul consumo di token.

Stacked PR

feat/branch-1 (PR 1)

↓

feat/branch-2 (PR 2)

↓

feat/branch-3 (PR 3)

↓

…

↓

feat/branch-N (PR N)

Ripensandoci, il costo medio di queste revisioni era di $25,81 per revisione 😱

Anche sul blog ufficiale di Anthropic, viene spiegato che Code Review mira a revisioni approfondite e sarà più costoso di opzioni leggere come Claude Code GitHub Action, ma non avrei mai immaginato che fosse così tanto...

Questa volta, per apportare modifiche su larga scala, abbiamo creato più Stacked PR mentre utilizzavamo più AI agent localmente. Claude Code Review viene eseguito nel momento in cui queste PR vengono create. Normalmente, un umano controllerebbe il contenuto della revisione e deciderebbe se affrontarlo, ma questa volta, supponendo che un umano avrebbe fatto il controllo finale, abbiamo delegato la risposta primaria—incluso il giudizio su se affrontare la revisione—all'AI agent.

Approfondimento del problema

1. Procedere con funzionalità complesse utilizzando più Stacked PR

Questo compito comportava modifiche relativamente grandi. Le abbiamo suddivise in più PR perché mettere tutto in una sola PR rende difficile la revisione e considerando l'ordine di rilascio. Suddividere le PR non è stato l'errore. Il problema era che erano Stacked PR lineari.

Nelle Stacked PR, se correggi una PR a monte, le PR a valle devono incorporare tali modifiche. In altre parole, fare push sulla PR a monte causa una propagazione di rebase/push verso valle.

Questa struttura era incompatibile con l'impostazione di Claude Code Review che si attiva ad ogni push.

2. Lasciare la risposta alla revisione interamente all'AI

Poiché le revisioni venivano eseguite ad ogni push e i commenti di revisione aumentavano, abbiamo assegnato i seguenti compiti all'AI agent:

Controllare i commenti di revisione non risolti
Decidere se affrontarli o saltarli
Se affrontarli, correggere e superare i test locali
Fare commit/push
Rispondere ai commenti di revisione e risolverli
Monitorare per eventuali revisioni aggiuntive per un po' dopo il push

L'obiettivo originale era che la risposta dell'AI ai suggerimenti fosse completata quando avrei effettuato il controllo operativo e la revisione.

Se ci fossimo assicurati che un umano prendesse la decisione finale sulla politica di risposta ai commenti di revisione, probabilmente avremmo potuto prevenirlo.

3. Ha continuato a funzionare anche dopo l'orario di lavoro

Stavo eseguendo e monitorando il processo di cui sopra anche dopo l'orario di lavoro, ma avrei dovuto fermarlo almeno quando finivo di lavorare. Questo è un punto di riflessione completo.

Poiché utilizzavo l'AI agent locale in abbonamento, la sensazione che i costi API stessero aumentando in quel momento era labile. D'altra parte, Claude Code Review in esecuzione sul lato GitHub stava consumando l'utilizzo dell'organizzazione Anthropic. Sulla Anthropic Console, il costo medio per il repository target era visualizzato come $25,81/revisione. Sottovalutare questa sensazione di costo è stato anche uno dei punti di riflessione.

Ho creato una situazione in cui l'AI pay-as-you-go veniva eseguita per molto tempo mentre c'era un divario tra il costo locale percepito e il costo effettivo fatturato.

Cosa è andato storto

1. Aver preso troppo alla leggera l'impostazione "trigger ad ogni push" per revisioni costose

Questa volta, l'impostazione della Anthropic Console prevedeva che le revisioni venissero eseguite ad ogni push. Sebbene la funzionalità di revisione ad ogni push sia comoda, i suggerimenti possono essere frequenti ad ogni modifica, quindi i trigger dovrebbero essere considerati attentamente.

2. Aver giudicato male la compatibilità tra Stacked PR e revisioni automatizzate

Le Stacked PR sono un modo efficace per suddividere le PR in unità revisionabili. Tuttavia, correggere una PR a monte richiede un rebase delle PR a valle. E fare push sulla PR a valle attivava una revisione anche lì. Quella che sarebbe stata una revisione per una PR si è propagata a N PR in una Stacked PR, e le revisioni sono state eseguite per quella quantità.

3. Aver delegato giudizio, correzione e push all'AI

Usare l'AI per organizzare i commenti di revisione o le correzioni locali è molto comodo. Tuttavia, questa volta le abbiamo dato troppa autorità. Il ciclo di vedere un commento di revisione, affrontarlo, fare push e monitorare di nuovo avrebbe dovuto essere gestito con esplicita conferma umana.

4. Aver reso il limite dell'organizzazione l'ultima linea di difesa

Di conseguenza, ha raggiunto quasi il limite dell'organizzazione, ed è lì che abbiamo notato l'anomalia. Avere un limite in sé era positivo. Tuttavia, $10.000 era troppo alto come ultima linea di difesa. Inoltre, a causa dell'influenza dell'utilizzo aggiuntivo abilitato e dei tempi di riflessione, il costo cumulativo mensile dell'organizzazione ha raggiunto oltre $10.000 in quasi un solo giorno. Avevamo bisogno di guardrail che si fermassero molto prima.

Riepilogo

Ho fuso 1,5 milioni di yen in un giorno con Claude Code Review. Attualmente sto inviando una richiesta di rimborso. La causa era che, mentre Claude Code Review era impostato per attivarsi ad ogni push, la combinazione di correzioni/push dell'AI agent e la catena di rebase delle Stacked PR ha creato un ciclo di revisioni e correzioni.

Questa volta, abbiamo sfruttato troppo la comodità dello sviluppo guidato dall'AI e trascurato i guardrail di sicurezza e costo. Fino ad ora, era una fase in cui ci lasciavano semplicemente usare l'AI, quindi vari agent venivano forniti relativamente a buon mercato, ma penso che stiamo entrando in una fase in cui ci prenderanno i soldi come un business ora che conosciamo i benefici.

Stiamo ora reinventando l'organizzazione di sviluppo per l'era dell'AI. https://supateam.com/ Faremo in modo di sfruttare questa esperienza.

Cosa fare per ora

Cosa è successo

1,5 milioni di yen venivano prosciugati in Claude Code Review. 😇

Perché è successo

Approfondimento del problema

1. Procedere con funzionalità complesse utilizzando più Stacked PR

2. Lasciare la risposta alla revisione interamente all'AI

3. Ha continuato a funzionare anche dopo l'orario di lavoro

Cosa è andato storto

1. Aver preso troppo alla leggera l'impostazione "trigger ad ogni push" per revisioni costose

2. Aver giudicato male la compatibilità tra Stacked PR e revisioni automatizzate

3. Aver delegato giudizio, correzione e push all'AI

4. Aver reso il limite dell'organizzazione l'ultima linea di difesa

Riepilogo

Recent viral articles

Ricerca indipendente: Mentsuyu e Shiro-dashi

Uscire di casa è il primo passo per la tua ripresa mentale

Perché voglio stare dalla parte di mia madre, a prescindere da tutto

Creato per i creator.