Preços e Controlo de Custos do Claude Fable 5

O Claude Fable 5 custa $10 por milhão de tokens de entrada e $50 por milhão de tokens de saída. Isso é exatamente o dobro do Opus 4.8 ($5/$25), e menos de metade do preço do Mythos Preview (~$30/$150), o modelo restrito de que descende.

Uma tarefa representativa de 100K de entrada / 20K de saída custa $2,00 no Fable 5 contra $1,00 no Opus 4.8. A etiqueta diz 2x, mas a tua conta real depende de cinco alavancas que controlas: o esforço de raciocínio, os orçamentos de tarefa, o prompt caching, a batch API e que tráfego é que sequer encaminhas para o Fable.

O Fable 5 é o primeiro modelo de classe Mythos disponível ao público, um patamar acima do Opus. O preço reflete o patamar, e chega num momento em que as empresas estão cada vez mais críticas dos custos de IA. A TechCrunch notou que o valor de $10/$50 "por si só pode servir de dissuasor para uma utilização generalizada". Este post é a matemática e o manual de jogo para o manter sob controlo.

A Tabela de Preços

Cada linha do preço do Fable 5 é precisamente o dobro do Opus 4.8.

Tipo de token	Claude Fable 5	Claude Opus 4.8
Entrada	$10 / 1M	$5 / 1M
Saída	$50 / 1M	$25 / 1M
Entrada Batch API	$5 / 1M	$2,50 / 1M
Saída Batch API	$25 / 1M	$12,50 / 1M
Escrita de cache 5 min	$12,50 / 1M	$6,25 / 1M
Escrita de cache 1 hora	$20 / 1M	$10 / 1M
Acertos e refrescos de cache	$1 / 1M	$0,50 / 1M

Vale a pena guardar um enquadramento: o valor padrão de $10/$50 do Fable 5 é a mesma taxa por token que o fast mode do Opus 4.8. Estás a pagar preços de fast mode do Opus por um modelo que está um patamar inteiro acima. Se isso é um bom negócio depende inteiramente da tarefa, que é a que tudo o resto se resume.

Quanto Custa Mesmo uma Tarefa

Começa pelo caso base para a etiqueta ficar concreta. Pega numa chamada de 100K de entrada / 20K de saída.

No Fable 5:

input:  100,000 tokens × $10/1M = $1.00
output:  20,000 tokens × $50/1M = $1.00
total                           = $2.00

No Opus 4.8:

input:  100,000 tokens × $5/1M  = $0.50
output:  20,000 tokens × $25/1M = $0.50
total                           = $1.00

Exatamente 2x com utilização de tokens idêntica. Uma chamada de programação mais pequena de 50K de entrada / 10K de saída custa $1,00 no Fable contra $0,50 no Opus. O rácio nunca muda na tabela de preços. O que muda é tudo à volta dela.

O caso que dói é o contexto longo. Um prompt de quase 1M de tokens a $10 por milhão de entrada é uma conta de entrada de cerca de $9 antes de o Fable escrever um único token útil:

input:  900,000 tokens × $10/1M =  $9.00
output:   5,000 tokens × $50/1M =  $0.25
total                           =  $9.25 per call

Corre isso sem cache ao longo de um workflow e a conta acumula depressa. Que é a primeira alavanca.

Alavanca 1: Caching, o Desconto de 10x em Contexto Repetido

Os acertos de cache no Fable 5 custam $1 por milhão de tokens, contra $10 por milhão de entrada fresca. Isso é uma redução de 10x em qualquer contexto que reutilizes.

Pega na chamada de contexto longo de $9,25 acima e assume que os 900K de contexto são um acerto de cache:

cached input:  900,000 tokens × $1/1M  =  $0.90
output:          5,000 tokens × $50/1M =  $0.25
total                                  =  $1.15 per call

De $9,25 para $1,15. Se o teu agente lê o mesmo repo grande, spec ou conjunto de documentos ao longo de muitas chamadas, o caching é a maior alavanca de custo que tens. A escrita de cache custa um prémio uma vez ($12,50/1M para o nível de 5 minutos, $20/1M para o nível de 1 hora), e depois cada acerto fica barato.

Alavanca 2: Esforço, o Botão Suave

O esforço é, nas palavras da Anthropic, "o controlo principal para o compromisso entre inteligência, latência e custo no Claude Fable 5". Define quantos tokens de raciocínio o modelo gasta, e os tokens de raciocínio são faturados como saída a $50 por milhão.

Os níveis são low, medium, high (o padrão) e xhigh. A orientação é usar high para a maioria das tarefas, xhigh para o trabalho mais sensível à capacidade, e medium ou low para tarefas de rotina. A chave para o custo: os níveis de esforço mais baixos no Fable 5 "continuam a ter bom desempenho e ultrapassam muitas vezes o desempenho de xhigh em modelos anteriores".

Lê isso duas vezes. O Fable 5 em esforço medium bate muitas vezes o Opus 4.8 no seu esforço máximo. O resultado do FrontierCode da Anthropic confirma-o: o Fable lidera os modelos de fronteira mesmo em esforço medium. Por isso a alavanca de custo muitas vezes não é "mudar para um modelo mais barato". É "baixar o esforço do Fable".

Imagina uma tarefa difícil que queima cerca de 40K tokens de raciocínio em xhigh e 12K em medium (ilustrativo; a Anthropic não publica as contagens exatas por esforço). A $50 por milhão, isso são cerca de $2,00 de raciocínio contra $0,60 no mesmo trabalho. O próprio conselho da Anthropic é direto: "Reduz o esforço se uma tarefa fica concluída mas demora mais do que o necessário." Nota que o raciocínio adaptativo está sempre ligado, por isso podes encolher a profundidade mas não podes desligar o raciocínio.

Alavanca 3: Orçamentos de Tarefa, o Limite Rígido

O esforço é um botão. Os orçamentos de tarefa são uma parede.

O beta de orçamentos de tarefa (header task-budgets-2026-03-13, mínimo de 20.000 tokens) deixa-te limitar o total de tokens que um loop agêntico pode consumir. Onde o esforço empurra o gasto para baixo em média, um orçamento de tarefa garante que uma única execução autónoma não pode ultrapassar um teto que tu definiste.

Isto importa mais no Fable 5 do que em qualquer modelo anterior, porque os seus turnos são longos por design. Pedidos difíceis individuais podem correr durante minutos em esforço mais alto, e execuções autónomas podem prolongar-se por horas. Um utilizador no dia do lançamento relatou que o Fable 5 estava "a comer o meu plano Max 20x a ~2% por minuto". Um orçamento de tarefa é como garantes que um loop descontrolado pára num número que tu escolheste em vez de um número que o modelo escolheu.

Alavanca 4: Batch API, Metade do Preço para Trabalho Offline

Tudo o que não precisa de acontecer em tempo real deve passar pela batch API. Corta a taxa para metade: $5/$25 em vez de $10/$50. Para avaliações durante a noite, processamento de documentos em massa e pipelines offline, isso é uns 50% de desconto fixo na parte mais cara da tua conta.

Alavanca 5: Routing, Só a Cauda Difícil Vai para o Fable

A maior alavanca é também a mais simples. A maior parte do tráfego não precisa de um modelo de classe Mythos. Define por defeito o trabalho de rotina para o Opus 4.8 ou o Sonnet 4.6 e envia só a cauda difícil, de longo horizonte e propensa a falhas para o Fable 5.

À escala empresarial, o que está em jogo é real. Em saída puramente de rotina, analistas de faturação modelaram 5 mil milhões de tokens de saída por ano em cerca de $250.000 no Fable 5 contra $125.000 no Opus 4.8. Para classificação, sumarização e recuperação RAG, esse diferencial não compra nada, porque o Opus já passa a fasquia da qualidade. Promove uma tarefa para o Fable só quando um modelo mais barato falha de forma demonstrável, perde o fio a meio da tarefa ou queima mais tokens no total através de tentativas.

A Particularidade do Preço de Fallback

Esta é a parte do preço do Fable 5 que não tem equivalente em mais lado nenhum, e vale a pena perceber exatamente.

O Fable 5 corre classificadores de segurança para cibersegurança, biologia e química, e destilação. Quando um dispara, o pedido é tratado pelo Opus 4.8 e és faturado a preços de Opus. A Anthropic diz que isto dispara em menos de 5% das sessões. Seguem-se dois casos de faturação, tirados diretamente da documentação de lançamento da AWS:

Um pedido inteiro encaminhado para o Opus 4.8. Se o classificador disparar logo no início, a resposta inteira vem do Opus 4.8 e fatura totalmente a preços de Opus ($5/$25). Não és cobrado a taxas de Fable, de todo.

Um pedido bloqueado a meio da conversa. Se o bloqueio acontecer a meio, os tokens iniciais (processados pelo Fable antes do bloqueio) faturam a taxas de Fable ($10/$50), e os tokens seguintes (a resposta do Opus) faturam a taxas de Opus ($5/$25). Um único pedido, dividido por duas tabelas de preços.

Na prática, isto significa que cargas de trabalho ligadas a bio, química ou segurança recebem um desconto discreto e parcial sempre que o classificador as reencaminha. Para esses domínios a taxa de fallback é mais alta do que a média de 5%, porque os classificadores são deliberadamente abrangentes. É imprevisível, o que é mais uma razão para encaminhar esse tráfego para o Opus por opção em vez de o descobrires na fatura.

Uma nota de implementação: as recusas podem chegar como um HTTP 200 bem-sucedido com stop_reason: "refusal". O código de produção tem de verificar o motivo de paragem em vez de assumir que cada 200 é uma resposta de Fable faturada, e os clientes da API configuram o fallback para o Opus 4.8 explicitamente, do lado do servidor ou do cliente. Não é automático como é nas apps Claude.

Quando a Etiqueta de 2x Mente

A tabela de preços diz o dobro. Na tarefa certa, o teu custo efetivo fica abaixo do modelo mais barato.

Um laboratório de física de fronteira relatou que o Fable 5 foi o seu modelo mais forte "usando um terço dos tokens de raciocínio", chegando em 36 horas quase ao ponto a que o GPT-5.5 chegou ao fim de quatro dias. A matemática é implacável a favor do Fable: um terço dos tokens ao dobro do preço por token são dois terços do custo efetivo. Nessa classe de trabalho longo e deliberado, o Fable 5 é mais barato, não mais caro.

O mesmo padrão aparece noutros sítios. Uma suite de folhas de cálculo descobriu que o Fable 5 bate o Opus 4.8 em todos os níveis de esforço com menos turnos, terminando 25 a 30% mais depressa. A Base44 disse que apps que "há um ano levavam uma centena de prompts, agora saem num só". A Rakuten: "o raciocínio extra paga-se a si mesmo." E o Stripe correu uma migração numa base de código de 50 milhões de linhas de Ruby num dia, estimada em mais de dois meses de esforço de equipa, onde a conta de tokens é trivial face ao salário que substitui.

A Dianne Penn, da Anthropic, enquadrou-o para a CNBC: os clientes querem mais precisão e benefício por dólar, os clientes iniciais "notaram uma melhoria no gasto por tarefa", e "obténs simplesmente um ROI mais alto por teres modelos mais inteligentes". O número a otimizar é o custo por tarefa concluída, não o custo por token.

Alavanca 6: A Janela Gratuita Antes de 22 de Junho

Há uma alavanca com prazo que fecha depressa. O lançamento por subscrição do Fable 5 é faseado:

De 9 de junho até 22 de junho, o Fable 5 está incluído nos planos Pro, Max, Team e Enterprise por lugar sem custo extra.
A 23 de junho, o Fable 5 sai desses planos. Usá-lo depois disso exige créditos de utilização. A Anthropic diz que pode prolongar a janela se a capacidade permitir.
Eventualmente, a Anthropic pretende restaurar o Fable 5 como parte padrão dos planos de subscrição, sem data comprometida.

Nos planos de API e Enterprise baseados em consumo, o Fable 5 é totalmente medido a $10/$50 desde o primeiro dia. Mas se estás numa subscrição, a janela até 22 de junho é um período de avaliação gratuito. Usa-a para correr as tuas tarefas reais no Fable 5, medir o gasto por tarefa concluída face ao Opus 4.8 e decidir se vale o lugar em créditos de utilização depois do dia 23. Depois disso, o uso casual passa a ser medido por créditos, por isso a altura de fazer o benchmark é agora.

O Manual de Controlo de Custos

Junta as alavancas e a estratégia é curta:

Encaminha por tarefa. Define por defeito o tráfego de rotina para o Opus 4.8 ou o Sonnet 4.6; reserva o Fable 5 para a cauda difícil de longo horizonte.
Baixa o esforço antes de mudar de modelo. O esforço medium no Fable bate muitas vezes o Opus no seu esforço máximo, a uma fração do gasto em tokens de raciocínio.
Faz cache de forma agressiva. Os acertos de cache são $1/1M contra $10/1M fresco, uma alavanca de 10x em contexto repetido.
Limita loops com orçamentos de tarefa. O header beta limita uma execução agêntica (mínimo de 20.000 tokens) para que não se descontrole.
Faz batch do trabalho offline. Metade do preço a $5/$25 para tudo o que não precisa de tempo real.
Faz benchmark na janela gratuita. Avalia em tarefas reais antes de 22 de junho, enquanto é grátis nos planos de subscrição.

O Veredicto

O preço do Fable 5 é simples de enunciar e fácil de ler mal. A etiqueta é exatamente 2x do Opus 4.8, mas a etiqueta é o número errado. O esforço, os orçamentos de tarefa, o caching, o batch, o routing e a própria eficiência de tokens do Fable dobram todos a conta real, às vezes abaixo do modelo mais barato em tarefas difíceis e bem acima dele em tarefas de rotina.

Gasta a tua atenção nas alavancas, não na tabela de preços. Encaminha o trabalho fácil para modelos mais baratos, envia só a cauda difícil para o Fable, afina o esforço e limita os orçamentos, e usa a janela gratuita para aprenderes o teu próprio gasto-por-tarefa antes de o contador arrancar a 23 de junho.

Perguntas Frequentes

Quanto custa o Claude Fable 5?

O Claude Fable 5 custa $10 por milhão de tokens de entrada e $50 por milhão de tokens de saída, exatamente o dobro do Opus 4.8 ($5/$25). Uma tarefa de 100K de entrada / 20K de saída fica a $2,00 no Fable 5 contra $1,00 no Opus 4.8. A batch API corta a taxa para metade, $5/$25, e os acertos de cache baixam a entrada para $1 por milhão.

Porque é que o Claude Fable 5 custa o dobro do Opus 4.8?

O Fable 5 é o primeiro modelo de classe Mythos disponível ao público, um patamar de capacidade acima da classe Opus, e o preço reflete esse patamar. Ainda é menos de metade do preço do Mythos Preview (~$30/$150), o modelo restrito de que descende. A Anthropic argumenta que o ROI mais alto por tarefa concluída pode compensar o prémio por token em trabalho difícil.

Como funciona o preço de fallback do Claude Fable 5?

Quando os classificadores de segurança do Fable 5 encaminham um pedido para o Opus 4.8, pagas taxas de Opus, não de Fable. Se um pedido for bloqueado a meio da conversa, os tokens iniciais faturam a taxas de Fable e os tokens seguintes faturam a taxas de Opus. Este fallback dispara em menos de 5% das sessões em cargas de trabalho típicas.

Como controlo os custos no Claude Fable 5?

Usa cinco alavancas: baixa o esforço de raciocínio (medium bate muitas vezes o Opus no esforço máximo), limita loops agênticos com orçamentos de tarefa (mínimo de 20.000 tokens), faz cache de contexto repetido (os acertos de cache são $1/1M contra $10/1M), usa a batch API para trabalho offline (metade do preço) e encaminha só as tarefas difíceis para o Fable mantendo o trabalho de rotina no Opus 4.8 ou no Sonnet 4.6.

O Claude Fable 5 é grátis neste momento?

Nos planos de subscrição Pro, Max, Team e Enterprise por lugar, o Fable 5 está incluído sem custo extra de 9 de junho a 22 de junho de 2026. A 23 de junho sai desses planos e passa a exigir créditos de utilização. Nos planos de API e Enterprise baseados em consumo, é medido a $10/$50 desde o primeiro dia.

A eficiência de tokens pode tornar o Claude Fable 5 mais barato que o Opus 4.8?

Na tarefa certa, sim. Um laboratório de física relatou que o Fable 5 usou um terço dos tokens de raciocínio de um modelo rival, o que ao dobro do preço por token dá dois terços do custo efetivo. Menos turnos e maiores taxas de sucesso à primeira reduzem o gasto por tarefa concluída, mesmo que a tabela de preços seja o dobro.