Claude Fable 5 vs Opus 4.8

O Claude Fable 5 vence o Opus 4.8 em quase todos os benchmarks que a Anthropic publicou, e custa exatamente o dobro ($10/$50 por milhão de tokens contra $5/$25). A pergunta certa não é "qual modelo é melhor" (é o Fable 5), é "quando é que pagar o dobro por token devolve mais do dobro de valor".

Isto torna a decisão num gasto-por-tarefa, não num preço-por-token. O Fable 5 justifica o prémio em trabalho longo, complexo ou propenso a falhar, onde termina em menos turnos, à primeira, sem ninguém ter de o salvar. Em trabalho rotineiro, bem definido e de grande volume, o Opus 4.8 a metade do preço continua a ser o padrão racional.

O Fable 5 é o primeiro modelo da classe Mythos disponível ao público, um nível que agora fica acima da classe Opus. O enquadramento da própria Anthropic é invulgarmente direto: as suas capacidades "excedem as de qualquer modelo que alguma vez tornámos disponível ao público em geral", e "quanto mais longa e complexa for a tarefa, maior a vantagem do Fable 5 sobre os nossos outros modelos". Essa última frase é a decisão inteira numa só linha.

Veredicto Rápido

Vai buscar o Fable 5 quando a tarefa for difícil o suficiente para que a capacidade se acumule:

migrações de grandes bases de código e refactors multi-repo
execuções autónomas de agentes de longa duração que arrancas e deixas a correr
investigação financeira, analítica ou científica complexa
trabalho com muita visão (screenshot-para-código, extrair números de figuras densas)
análise perto de 1M de tokens onde falhar um detalhe sai caro

Fica no Opus 4.8 quando o trabalho é rotineiro, de grande volume, sensível à latência ou limitado por retenção zero de dados. O Opus 4.8 continua a ser um modelo de fronteira forte, à frente do GPT-5.5 em coding agêntico difícil. Não ficou pior no dia em que o Fable 5 saiu.

Especificações Principais

Especificação	Claude Fable 5	Claude Opus 4.8
ID da API	`claude-fable-5`	`claude-opus-4-8`
Classe do modelo	Classe Mythos (nível acima do Opus)	Topo de gama da classe Opus
Data de lançamento	9 de junho de 2026	28 de maio de 2026
Janela de contexto	1M tokens	1M tokens
Saída máxima	128K tokens	128K tokens
Preço de entrada	$10 / 1M tokens	$5 / 1M tokens
Preço de saída	$50 / 1M tokens	$25 / 1M tokens
Thinking	Apenas adaptive thinking	Apenas adaptive thinking
Níveis de esforço	low, medium, high (padrão), xhigh	low, medium, high, xhigh, max
Retenção de dados	30 dias obrigatórios (covered model)	Retenção zero de dados disponível
Fallback de segurança	cyber / bio-quím / destilação encaminham para o Opus 4.8	nenhum

As duas linhas que decidem tudo são o preço (exatamente o dobro) e a classe (um salto de nível a sério, não um incremento). Tudo o que vem a seguir explica como ler a diferença entre eles.

A Diferença nos Benchmarks É Real, e Cresce com o Comprimento da Tarefa

A maioria dos lançamentos pontuais mostra uns pontinhos de variação. Não é o caso aqui. A vantagem do Fable 5 sobre o Opus 4.8 é maior precisamente onde o trabalho é mais difícil.

Benchmark	Fable 5	Opus 4.8	Diferença
SWE-Bench Pro (coding agêntico)	80,3%	69,2%	+11,1 pts
FrontierCode Diamond (Cognition)	29,3%	13,4%	+15,9 pts (2,2x)
SWE-Bench Verified	95,0%	88,6%	+6,4 pts
Terminal-Bench 2.1	88,0%	82,7%	+5,3 pts
GDPval-AA (Elo de trabalho de conhecimento)	1932	1890	+42 Elo
GDP.pdf (visão, sem ferramentas)	29,8%	22,5%	+7,3 pts

Lê esta tabela com atenção, porque nem todas as linhas significam o mesmo.

O SWE-Bench Pro é aquele a que deves dar mais peso. É a variante difícil, de ponta a ponta, em que um agente de coding tem de resolver issues reais do GitHub, e 80,3% contra 69,2% é o sinal mais limpo de que o Fable 5 acerta em trabalho difícil mais vezes. Para contexto, esses +11,1 de diferença sobre o Opus são maiores do que a própria vantagem do Opus 4.8 sobre o Gemini 3.1 Pro (54,2%).

O SWE-Bench Verified a 95,0% parece dramático mas diz menos. Os modelos de fronteira já estão perto do teto no Verified, por isso o número Pro, mais difícil, é o que carrega a informação real.

O FrontierCode Diamond é o destaque silencioso. Mede se o código é manutenível e de nível de produção, não só se os testes passam, e o Fable 5 mais do que duplica o Opus 4.8. E o crítico: a Anthropic relata que o Fable 5 lidera os modelos de fronteira no FrontierCode mesmo com esforço médio. Não tens de pagar pelo esforço máximo para bater o Opus, o que importa para as contas de custo mais abaixo.

Vale a pena dizer um aviso em voz alta. A Anthropic correu a maior parte destas avaliações, e vários números de clientes iniciais são testemunhos e não resultados auditados. Pelo menos um investigador de código aberto questionou publicamente se os números pré-lançamento foram escolhidos para favorecer. Trata os benchmarks como uma direção e valida nas tuas próprias tarefas antes de comprometeres tráfego.

ROI Por Tarefa, Não Por Token

Aqui está o argumento que decide tudo. A etiqueta diz 2x. A tua fatura não é a etiqueta.

A diretora de gestão de produto para investigação da Anthropic, Dianne Penn, foi direta com a CNBC: o preço está "muito presente na cabeça" dos clientes, mas eles não andam só atrás de custos mais baixos. Querem mais precisão e mais benefício por dólar, e os clientes iniciais do Fable 5 "notaram uma melhoria no gasto por tarefa". O resumo dela: "Tens simplesmente um ROI mais alto por teres modelos mais inteligentes."

Três coisas movem o gasto-por-tarefa a favor do Fable 5:

Menos turnos. Um cliente de automação de folhas de cálculo descobriu que o Fable 5 bate o Opus 4.8 em todos os níveis de esforço e termina execuções 25 a 30% mais depressa com menos turnos. Menos turnos significa menos chamadas a ferramentas e menos exploração repetida, ou seja, menos tokens faturados por trabalho concluído.

Menos tokens para o mesmo resultado. Um laboratório de física de fronteira relatou que o Fable 5 foi o modelo mais forte que testou "usando um terço dos tokens de raciocínio", chegando em 36 horas quase ao ponto onde o GPT-5.5 ficou ao fim de quatro dias. Faz as contas: um terço dos tokens ao dobro do preço por token dá dois terços do custo efetivo. Nessa classe de tarefa, o Fable 5 fica mais barato apesar da tabela de preços ser o dobro.

Ninguém tem de o salvar. Uma execução falhada do Opus que precisa que um programador intervenha custa muito mais do que a fatura de tokens. A Base44 descreveu apps que "levavam cem prompts há um ano" a serem agora resolvidas à primeira. A Rakuten foi mais seca: "o raciocínio extra paga-se a si próprio".

O exemplo único mais claro é a Stripe. Numa base de código Ruby de 50 milhões de linhas, o Fable 5 correu uma migração ao nível de toda a base de código num dia, estimada em mais de dois meses de trabalho manual de uma equipa. A $10/$50, a fatura de tokens desse dia é um erro de arredondamento contra dois meses de salários de engenheiros. É assim que se parece "ROI por tarefa, não por token" no extremo.

O Que Uma Tarefa Custa Mesmo em Cada Modelo

Pega numa chamada agêntica representativa: 100K tokens de contexto à entrada, 20K tokens à saída.

No Opus 4.8:

input:  100,000 tokens × $5/1M  = $0.50
output:  20,000 tokens × $25/1M = $0.50
total                           = $1.00

No Fable 5, com o mesmo uso de tokens:

input:  100,000 tokens × $10/1M = $1.00
output:  20,000 tokens × $50/1M = $1.00
total                           = $2.00

Exatamente o dobro, a confirmar a etiqueta, mas só se o Fable 5 gastar os mesmos tokens. Agora aplica a evidência de eficiência.

Imagina que a tarefa é mesmo difícil. O Opus 4.8 só a conclui à primeira metade das vezes; o Fable 5 acerta logo à primeira. O custo por tentativa fica em $1.00 no Opus e $2.00 no Fable.

Opus 4.8: 2 attempts × $1.00 = $2.00 in tokens, plus a human review of the failed run
Fable 5:  1 attempt  × $2.00 = $2.00 in tokens, no rescue

A mesma fatura de tokens, mas o caminho do Opus também gastou uma tarde de um programador. É a inversão do gasto-por-tarefa que a Penn descreveu, e é por isso que a etiqueta por token é o número errado para otimizar.

O lado oposto é igualmente real. Em saída rotineira e de grande volume que o Opus já trata bem, o prémio de 2x é puro custo adicional. À escala empresarial, os analistas de faturação já o modelaram: 5 mil milhões de tokens de saída por ano custam cerca de $125,000 no Opus 4.8 contra $250,000 no Fable 5. Para classificação, sumarização e extração estruturada, essa diferença não é um erro de arredondamento. É a conversa de orçamento toda.

Quando o Opus 4.8 Ainda É a Escolha Certa

O Fable 5 ganhar os benchmarks não faz do Opus 4.8 o padrão errado. Fica no Opus quando qualquer uma destas se aplicar:

O trabalho é rotineiro e de grande volume. A economia por token domina, e o 2x acumula depressa ao longo de milhões de chamadas.

A latência ou o custo por pedido é a prioridade. O Opus é mais barato e não corre os turnos longos e deliberados que o Fable 5 faz com esforço mais alto.

Precisas de retenção zero de dados. O Opus 4.8 suporta ZDR. O Fable 5 é um covered model com retenção obrigatória de 30 dias, necessária para correr os seus classificadores de segurança. Os dados não são usados para treino, mas ficam retidos, e para algumas empresas isso é uma barreira rígida de compra, independentemente dos benchmarks.

O teu trabalho fica perto das fronteiras de cyber, bio ou quím. O Fable 5 encaminha à mesma as consultas sinalizadas nesses domínios para o Opus 4.8. Pagarias o prémio do Fable até ao momento em que o fallback dispara, e depois recebes uma resposta do Opus. Nesse tráfego, usa só o Opus.

E lembra-te: a troca não é direta. O Fable 5 mantém o thinking sempre ligado (afinas a profundidade com o esforço, não o podes desligar), devolve recusas como um HTTP 200 bem-sucedido com uma stop reason refusal que o teu código tem de verificar, e corre turnos mais longos que podem rebentar os timeouts do cliente. Planeia a migração; não mudes só a string do modelo.

A Relação de Fallback

Há um detalhe sem equivalente em nenhum lançamento do Opus. O Fable 5 vem com classificadores que vigiam pedidos de cibersegurança, biologia e química, e destilação de modelos. Quando um deles dispara, a tua consulta é respondida pelo Opus 4.8 em vez disso, e és avisado de que aconteceu.

A Anthropic diz que isto dispara em menos de 5% das sessões, e que mais de 95% das sessões correm inteiramente no Fable 5. Por outras palavras, cerca de uma em vinte sessões pode não estar a correr no modelo que escolheste. Nos temas que o disparam, o Fable 5 implantável tem efetivamente o desempenho do Opus 4.8, porque é literalmente o que responde.

A vantagem de custo: essas respostas reencaminhadas são faturadas às tarifas do Opus, não às do Fable. Por isso cargas de trabalho de bio, quím ou perto de segurança que disparam o classificador ganham um desconto discreto. A desvantagem é a imprevisibilidade, o que é por si só uma razão para manter esse tráfego no Opus por opção e não por acidente.

Como Escolher

A decisão reduz-se a uma regra de encaminhamento. Por defeito, vai pelo modelo mais barato que ultrapasse de forma fiável a tua barra de qualidade, e promove uma tarefa para o Fable 5 só quando o Opus 4.8 falha de forma demonstrável, perde o plano a meio da tarefa, ou queima mais tokens no total por causa das repetições.

Cenário	Escolhe	Porquê
Migração de grande base de código ou refactor multi-repo	Fable 5	Maior diferença medida; os dois-meses-para-um-dia da Stripe
Execuções autónomas de agentes de longa duração	Fable 5	Menos turnos, retenção do plano, a memória acumula
Investigação financeira ou analítica complexa	Fable 5	Primeiro modelo a passar os 90% no benchmark de analytics da Hex
Extração com muita visão ou screenshot-para-código	Fable 5	Novo estado da arte em visão
Análise de 1M de tokens onde um detalhe perdido sai caro	Fable 5	Ganhos de contexto mais raciocínio
Edições de código rotineiras, helpers, perguntas e respostas	Opus 4.8 ou Sonnet 4.6	O Fable é exagero a 2x
Pipelines de grande volume com orçamento limitado	Opus 4.8	A economia por token domina
Dados com ZDR obrigatório	Opus 4.8	O Fable exige retenção de 30 dias
Trabalho perto de cyber, bio ou quím	Opus 4.8	O Fable encaminha esses para o Opus à mesma

Se geres uma frota de agentes, não escolhes uma só vez. Põe os planeadores e os builders mais difíceis no Fable 5, mantém os avaliadores, os linters, os escritores de docs e os testers rotineiros no Opus 4.8, e deixa cada papel comprar exatamente a inteligência de que precisa. A escolha do modelo vive ao lado do agente, não na raiz do projeto.

O Veredicto

O Fable 5 é um salto de nível a sério, não um lançamento pontual, e está cotado como tal. A diferença nos benchmarks é real e alarga-se à medida que as tarefas ficam mais longas e mais difíceis. O prémio é exatamente 2x no papel, mas o teu número real depende de se os menos turnos do Fable, os menos tokens e a taxa de sucesso mais alta à primeira compram de volta mais do que a tarifa duplicada.

Para a cauda difícil e de longo horizonte do teu trabalho, normalmente compram. Para tudo o que é rotineiro, o Opus 4.8 a metade do preço continua a ganhar. Encaminha em conformidade, e deixa a tarefa decidir o modelo.

Perguntas Frequentes

Vale a pena o Claude Fable 5 em vez do Opus 4.8?

Para tarefas longas, complexas ou propensas a falhar, sim. O Fable 5 lidera o Opus 4.8 em todos os benchmarks publicados (80,3% vs 69,2% no SWE-Bench Pro), e os seus menos turnos e maior taxa de sucesso à primeira podem tornar o gasto-por-tarefa mais baixo apesar da etiqueta de 2x. Para trabalho rotineiro e de grande volume, o Opus 4.8 a metade do preço é a melhor escolha.

Quanto custa o Claude Fable 5 mais do que o Opus 4.8?

Exatamente o dobro em cada linha da tabela de preços: $10 vs $5 por milhão de tokens de entrada e $50 vs $25 por milhão de tokens de saída. Uma tarefa de 100K-entrada/20K-saída custa $2.00 no Fable 5 contra $1.00 no Opus 4.8 com o mesmo uso de tokens. A eficiência de tokens pode estreitar ou até inverter essa diferença em tarefas difíceis.

Devo escolher o Claude Fable 5 ou o Opus 4.8 para coding?

Para grandes migrações, refactors multi-repo e execuções autónomas longas, escolhe o Fable 5, onde a vantagem no SWE-Bench Pro e a retenção do plano se acumulam. Para edições rotineiras, helpers e chamadas de grande volume, escolhe o Opus 4.8 ou o Sonnet 4.6. Muitas equipas encaminham os dois: planeadores e builders difíceis no Fable, tudo o resto no Opus.

Porque é que o meu pedido ao Claude Fable 5 foi respondido pelo Opus 4.8?

Os safeguards do Fable 5 encaminham pedidos sinalizados de cibersegurança, biologia, química e destilação para o Opus 4.8 e avisam-te. A Anthropic diz que isto acontece em menos de 5% das sessões. Essas respostas são faturadas às tarifas do Opus, não às do Fable.

O Claude Fable 5 suporta retenção zero de dados?

Não. O Fable 5 é um covered model com retenção obrigatória de 30 dias, necessária para correr os seus classificadores de segurança. Os dados retidos não são usados para treino, mas ficam retidos. O Opus 4.8 continua a suportar retenção zero de dados, o que pode ser o fator decisivo para cargas de trabalho reguladas.

A diferença nos benchmarks é fiável?

Trata-a como uma direção. A Anthropic correu a maior parte das avaliações e vários números de clientes iniciais são testemunhos e não resultados auditados, e pelo menos um investigador questionou os números pré-lançamento. A metodologia do SWE-Bench Pro é pública e foi aplicada a vários modelos, o que faz dos 80,3% vs 69,2% a comparação única mais de confiança. Valida nas tuas próprias tarefas antes de comprometeres tráfego.