A Curva de Autonomia: Quanta Liberdade Podes Dar a um Agente de IA?

Quanta autonomia podes dar a um agente de IA resume-se a uma variável: quanto tempo um modelo aguenta uma tarefa sem se desviar. Quanto mais longe um modelo corre uma cadeia de raciocínio e chamadas de ferramentas com fiabilidade, mais corda lhe podes dar numa única passagem. Corremos uma estrutura de agente há quase dois anos, do Claude 3.5 Sonnet passando pela linha Sonnet e Opus até ao Claude Fable 5, e cada lançamento empurrou essa linha um pouco mais para a frente. Uma boa estrutura mais um modelo que corre cadeias longas com fiabilidade é o que transforma "IA que escreve código" em "IA que faz o trabalho".

O que "autonomia" significa de facto para um agente

Autonomia não é uma funcionalidade que ligas. É quanto trabalho consegues delegar numa só passagem antes de teres de voltar a intervir e corrigir.

Um agente de baixa autonomia recebe uma instrução pequena e bem delimitada, fá-la e pára. Tu revês, voltas a dar o prompt, fazes outra vez. Um agente de alta autonomia recebe um objetivo, planeia ele próprio os passos, corre as ferramentas, corrige os próprios erros e volta quando está tudo pronto. A diferença entre os dois não é só a estrutura. É se o modelo consegue manter-se nos carris ao longo de uma cadeia longa de decisões.

É essa a variável única. Tudo o resto decorre daí.

Duas definições antes de avançarmos, já que o resto deste post assenta nelas:

Claude Fable 5 é o modelo mais recente da Anthropic, feito para trabalho complexo, demorado e autónomo. Corre a $10 por 1M de tokens de input e $50 por 1M de tokens de output, com uma janela de contexto de 1M de tokens.
Claude Opus 4.8 (lançado em maio de 2026) é o modelo da Anthropic de nível Opus mais capaz para programação do dia a dia e trabalho de agentes. Corre a $5 por 1M de tokens de input e $25 por 1M de tokens de output.

A curva que vimos mesmo a subir

Não teorizámos isto. Vivemo-lo. A nossa estrutura corre sem parar desde o Claude 3.5 Sonnet, e cada lançamento deixou-nos apagar mais um bocado de código de babysitting e dar ao agente mais um bocado de corda.

Aqui está a curva, em termos qualitativos, era a era. Sem benchmarks inventados. Só o que cada passo nos deixou fazer.

Era do modelo	Quanta corda lhe podíamos dar	O que isso parecia na prática
Claude 3.5 Sonnet	Tarefas curtas e bem delimitadas	Um ficheiro de cada vez. Muita revisão humana entre passos. A estrutura fazia quase todo o trabalho de segurar.
Linha Sonnet / Opus 4.x	Tarefas médias, menos pontos de controlo	Mudanças em vários ficheiros numa só passagem. O modelo segurava um plano ao longo de várias chamadas de ferramentas antes de se desviar.
Claude Opus 4.8	Tarefas longas de agente, o padrão do dia a dia	Trabalho de longo horizonte no estado da arte a um preço que o torna a escolha diária para programar.
Claude Fable 5	Tarefas de delegar e ir embora	As corridas mais longas e mais difíceis. Mais liberdade numa só passagem, e aguenta-se sem se desviar.

O formato é o que importa. Cada era não ficou só "mais inteligente" no abstrato. Ficou melhor na única propriedade que decide a autonomia: correr uma cadeia longa com fiabilidade.

Porque é que uma boa estrutura ainda importa

Mais autonomia não é só uma propriedade do modelo. É também uma propriedade da estrutura.

Um modelo que corre cadeias longas com fiabilidade é desperdiçado se a estrutura à volta dele não lhe der espaço. E uma ótima estrutura à volta de um modelo que se desvia ao fim de três passos só falha mais depressa. Os dois juntos decidem até onde consegues ir.

Em concreto, a estrutura é o que:

Dá ao agente as ferramentas certas, delimitadas ao que a tarefa precisa.
Apanha e devolve os erros para o modelo se autocorrigir em vez de encravar.
Mantém o objetivo firme para o modelo não andar a redescobrir a cada turno o que era suposto fazer.
Define a fronteira, para uma corrida autónoma longa não ir parar a algum sítio caro ou destrutivo.

Quando o modelo fica mais fiável em cadeias longas, podes tirar trabalho da estrutura e passá-lo para o modelo. Foi isso que cada lançamento na curva nos deixou fazer. Menos código a segurar a mão. Mais confiança por passagem.

É a mesma ideia sobre a qual escrevemos em Building is not the bottleneck: o código raramente é a parte difícil. A parte difícil é tudo o que está à volta do código e que decide se o trabalho chega mesmo a sair.

O que muda com o Claude Fable 5

A diferença prática com o Claude Fable 5 não é um número num gráfico. É quanto espaço lhe consegues dar.

Podes entregar-lhe uma tarefa mais longa, dar-lhe mais liberdade numa só passagem, e ele aguenta-se sem se desviar. Para uma estrutura de agente, essa única propriedade faz mais do que levantar o teto. A fiabilidade em cadeias longas absorve parte do peso do QA, porque uma corrida que não se desvia é uma corrida que não tens de andar a vigiar e a verificar passo a passo.

Isso importa porque o QA é onde se esconde a maior parte do custo. Defendemos isso por inteiro em QA is the real AI bottleneck, publicado no mesmo dia que este post. Um modelo que se mantém nos carris durante mais tempo não é só mais capaz. Encolhe, sem alarde, a parte mais cara do ciclo.

O compromisso: quando recorrer ao Fable 5

O Fable 5 não é o padrão. É a ferramenta a que recorres quando a tarefa o merece.

A $10 de input e $50 de output por 1M de tokens, foi feito para corridas longas, difíceis e autónomas, não para cada pequena mudança. Para programar no dia a dia, o Claude Opus 4.8 a $5 de input e $25 de output por 1M de tokens continua a ser a melhor relação custo-benefício, e é genuinamente forte em trabalho de agentes.

Aqui está a regra que usamos:

Usa o Claude Opus 4.8 quando estás dentro do ciclo. Programação interativa, iteração rápida, a escolha diária.
Usa o Claude Fable 5 quando queres delegar uma tarefa longa e ir embora. As corridas onde a fiabilidade ao longo de uma cadeia longa vale o que custa.

A versão honesta: escolhe o modelo pela duração e pelo risco da corrida, não pelo título. A maior parte do teu trabalho não precisa do Fable 5. O trabalho que precisa, precisa muito.

FAQ

Quanta autonomia podes dar a um agente de programação de IA?

Tanta quanto o modelo conseguir segurar sem se desviar. A variável única que decide a autonomia de um agente é com que fiabilidade um modelo corre uma cadeia longa de raciocínio e chamadas de ferramentas numa só passagem. Uma boa estrutura define as fronteiras e devolve os erros, mas é a fiabilidade do modelo em cadeias longas que determina quanto trabalho consegues delegar antes de teres de voltar a intervir.

O Claude Fable 5 é melhor para agentes do que o Claude Opus 4.8?

Para corridas longas, difíceis e autónomas, sim. O Claude Fable 5 é o modelo mais recente da Anthropic para trabalho complexo e demorado ($10 input / $50 output por 1M de tokens) e segura uma tarefa mais longa sem se desviar. Para programação interativa do dia a dia, o Claude Opus 4.8 ($5 input / $25 output por 1M de tokens, maio de 2026) é a melhor relação custo-benefício e continua forte em trabalho de agentes. Usa o Fable 5 quando queres delegar e ir embora.

Qual é a diferença entre um modelo e uma estrutura na autonomia de um agente?

O modelo decide quão longa é a tarefa que consegue correr com fiabilidade. A estrutura decide quanto espaço o modelo tem para correr. Um modelo fiável numa estrutura fraca fica sem espaço. Uma ótima estrutura à volta de um modelo que se desvia só falha mais depressa. A autonomia é o produto dos dois, e é por isso que melhorar qualquer um deles te deixa delegar mais trabalho.

Mais autonomia reduz o peso do QA?

Sim, de forma indireta. Um modelo que corre uma cadeia longa sem se desviar produz uma corrida que não tens de verificar passo a passo, por isso a fiabilidade em cadeias longas absorve parte do custo do QA. É por isto que a fiabilidade de longo horizonte importa mais para uma estrutura de agente do que a capacidade bruta num único passo.

Vimos a curva de autonomia subir do Claude 3.5 Sonnet ao Claude Fable 5, e o próximo passo vai movê-la outra vez. Se quiseres ver como a escolha do modelo encaixa no resto do quadro, começa pelo the best AI coding model for 2026, ou lê os detalhes sobre o Claude Fable 5 e o Claude Opus 4.8. A linha completa está em all models.

A Curva de Autonomia: Quanta Liberdade Podes Dar a um Agente de IA?

On this page