Claude Fable 5 vs Opus 4.8
O Claude Fable 5 ganha em quase todos os benchmarks publicados contra o Opus 4.8 e custa exatamente o dobro. Compensa quando uma tarefa é longa, complexa ou propensa a falhar o suficiente para que o dobro do preço por token traga mais do dobro de valor.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
O Claude Fable 5 vence o Opus 4.8 em quase todos os benchmarks que a Anthropic publicou, e custa exatamente o dobro ($10/$50 por milhão de tokens contra $5/$25). A pergunta certa não é "qual modelo é melhor" (é o Fable 5), é "quando é que pagar o dobro por token devolve mais do dobro de valor".
Isto torna a decisão num gasto-por-tarefa, não num preço-por-token. O Fable 5 justifica o prémio em trabalho longo, complexo ou propenso a falhar, onde termina em menos turnos, à primeira, sem ninguém ter de o salvar. Em trabalho rotineiro, bem definido e de grande volume, o Opus 4.8 a metade do preço continua a ser o padrão racional.
O Fable 5 é o primeiro modelo da classe Mythos disponível ao público, um nível que agora fica acima da classe Opus. O enquadramento da própria Anthropic é invulgarmente direto: as suas capacidades "excedem as de qualquer modelo que alguma vez tornámos disponível ao público em geral", e "quanto mais longa e complexa for a tarefa, maior a vantagem do Fable 5 sobre os nossos outros modelos". Essa última frase é a decisão inteira numa só linha.
Veredicto Rápido
Vai buscar o Fable 5 quando a tarefa for difícil o suficiente para que a capacidade se acumule:
- migrações de grandes bases de código e refactors multi-repo
- execuções autónomas de agentes de longa duração que arrancas e deixas a correr
- investigação financeira, analítica ou científica complexa
- trabalho com muita visão (screenshot-para-código, extrair números de figuras densas)
- análise perto de 1M de tokens onde falhar um detalhe sai caro
Fica no Opus 4.8 quando o trabalho é rotineiro, de grande volume, sensível à latência ou limitado por retenção zero de dados. O Opus 4.8 continua a ser um modelo de fronteira forte, à frente do GPT-5.5 em coding agêntico difícil. Não ficou pior no dia em que o Fable 5 saiu.
Especificações Principais
| Especificação | Claude Fable 5 | Claude Opus 4.8 |
|---|---|---|
| ID da API | claude-fable-5 | claude-opus-4-8 |
| Classe do modelo | Classe Mythos (nível acima do Opus) | Topo de gama da classe Opus |
| Data de lançamento | 9 de junho de 2026 | 28 de maio de 2026 |
| Janela de contexto | 1M tokens | 1M tokens |
| Saída máxima | 128K tokens | 128K tokens |
| Preço de entrada | $10 / 1M tokens | $5 / 1M tokens |
| Preço de saída | $50 / 1M tokens | $25 / 1M tokens |
| Thinking | Apenas adaptive thinking | Apenas adaptive thinking |
| Níveis de esforço | low, medium, high (padrão), xhigh | low, medium, high, xhigh, max |
| Retenção de dados | 30 dias obrigatórios (covered model) | Retenção zero de dados disponível |
| Fallback de segurança | cyber / bio-quím / destilação encaminham para o Opus 4.8 | nenhum |
As duas linhas que decidem tudo são o preço (exatamente o dobro) e a classe (um salto de nível a sério, não um incremento). Tudo o que vem a seguir explica como ler a diferença entre eles.
A Diferença nos Benchmarks É Real, e Cresce com o Comprimento da Tarefa
A maioria dos lançamentos pontuais mostra uns pontinhos de variação. Não é o caso aqui. A vantagem do Fable 5 sobre o Opus 4.8 é maior precisamente onde o trabalho é mais difícil.
| Benchmark | Fable 5 | Opus 4.8 | Diferença |
|---|---|---|---|
| SWE-Bench Pro (coding agêntico) | 80,3% | 69,2% | +11,1 pts |
| FrontierCode Diamond (Cognition) | 29,3% | 13,4% | +15,9 pts (2,2x) |
| SWE-Bench Verified | 95,0% | 88,6% | +6,4 pts |
| Terminal-Bench 2.1 | 88,0% | 82,7% | +5,3 pts |
| GDPval-AA (Elo de trabalho de conhecimento) | 1932 | 1890 | +42 Elo |
| GDP.pdf (visão, sem ferramentas) | 29,8% | 22,5% | +7,3 pts |
Lê esta tabela com atenção, porque nem todas as linhas significam o mesmo.
O SWE-Bench Pro é aquele a que deves dar mais peso. É a variante difícil, de ponta a ponta, em que um agente de coding tem de resolver issues reais do GitHub, e 80,3% contra 69,2% é o sinal mais limpo de que o Fable 5 acerta em trabalho difícil mais vezes. Para contexto, esses +11,1 de diferença sobre o Opus são maiores do que a própria vantagem do Opus 4.8 sobre o Gemini 3.1 Pro (54,2%).
O SWE-Bench Verified a 95,0% parece dramático mas diz menos. Os modelos de fronteira já estão perto do teto no Verified, por isso o número Pro, mais difícil, é o que carrega a informação real.
O FrontierCode Diamond é o destaque silencioso. Mede se o código é manutenível e de nível de produção, não só se os testes passam, e o Fable 5 mais do que duplica o Opus 4.8. E o crítico: a Anthropic relata que o Fable 5 lidera os modelos de fronteira no FrontierCode mesmo com esforço médio. Não tens de pagar pelo esforço máximo para bater o Opus, o que importa para as contas de custo mais abaixo.
Vale a pena dizer um aviso em voz alta. A Anthropic correu a maior parte destas avaliações, e vários números de clientes iniciais são testemunhos e não resultados auditados. Pelo menos um investigador de código aberto questionou publicamente se os números pré-lançamento foram escolhidos para favorecer. Trata os benchmarks como uma direção e valida nas tuas próprias tarefas antes de comprometeres tráfego.
ROI Por Tarefa, Não Por Token
Aqui está o argumento que decide tudo. A etiqueta diz 2x. A tua fatura não é a etiqueta.
A diretora de gestão de produto para investigação da Anthropic, Dianne Penn, foi direta com a CNBC: o preço está "muito presente na cabeça" dos clientes, mas eles não andam só atrás de custos mais baixos. Querem mais precisão e mais benefício por dólar, e os clientes iniciais do Fable 5 "notaram uma melhoria no gasto por tarefa". O resumo dela: "Tens simplesmente um ROI mais alto por teres modelos mais inteligentes."
Três coisas movem o gasto-por-tarefa a favor do Fable 5:
Menos turnos. Um cliente de automação de folhas de cálculo descobriu que o Fable 5 bate o Opus 4.8 em todos os níveis de esforço e termina execuções 25 a 30% mais depressa com menos turnos. Menos turnos significa menos chamadas a ferramentas e menos exploração repetida, ou seja, menos tokens faturados por trabalho concluído.
Menos tokens para o mesmo resultado. Um laboratório de física de fronteira relatou que o Fable 5 foi o modelo mais forte que testou "usando um terço dos tokens de raciocínio", chegando em 36 horas quase ao ponto onde o GPT-5.5 ficou ao fim de quatro dias. Faz as contas: um terço dos tokens ao dobro do preço por token dá dois terços do custo efetivo. Nessa classe de tarefa, o Fable 5 fica mais barato apesar da tabela de preços ser o dobro.
Ninguém tem de o salvar. Uma execução falhada do Opus que precisa que um programador intervenha custa muito mais do que a fatura de tokens. A Base44 descreveu apps que "levavam cem prompts há um ano" a serem agora resolvidas à primeira. A Rakuten foi mais seca: "o raciocínio extra paga-se a si próprio".
O exemplo único mais claro é a Stripe. Numa base de código Ruby de 50 milhões de linhas, o Fable 5 correu uma migração ao nível de toda a base de código num dia, estimada em mais de dois meses de trabalho manual de uma equipa. A $10/$50, a fatura de tokens desse dia é um erro de arredondamento contra dois meses de salários de engenheiros. É assim que se parece "ROI por tarefa, não por token" no extremo.
O Que Uma Tarefa Custa Mesmo em Cada Modelo
Pega numa chamada agêntica representativa: 100K tokens de contexto à entrada, 20K tokens à saída.
No Opus 4.8:
input: 100,000 tokens × $5/1M = $0.50
output: 20,000 tokens × $25/1M = $0.50
total = $1.00No Fable 5, com o mesmo uso de tokens:
input: 100,000 tokens × $10/1M = $1.00
output: 20,000 tokens × $50/1M = $1.00
total = $2.00Exatamente o dobro, a confirmar a etiqueta, mas só se o Fable 5 gastar os mesmos tokens. Agora aplica a evidência de eficiência.
Imagina que a tarefa é mesmo difícil. O Opus 4.8 só a conclui à primeira metade das vezes; o Fable 5 acerta logo à primeira. O custo por tentativa fica em $1.00 no Opus e $2.00 no Fable.
Opus 4.8: 2 attempts × $1.00 = $2.00 in tokens, plus a human review of the failed run
Fable 5: 1 attempt × $2.00 = $2.00 in tokens, no rescueA mesma fatura de tokens, mas o caminho do Opus também gastou uma tarde de um programador. É a inversão do gasto-por-tarefa que a Penn descreveu, e é por isso que a etiqueta por token é o número errado para otimizar.
O lado oposto é igualmente real. Em saída rotineira e de grande volume que o Opus já trata bem, o prémio de 2x é puro custo adicional. À escala empresarial, os analistas de faturação já o modelaram: 5 mil milhões de tokens de saída por ano custam cerca de $125,000 no Opus 4.8 contra $250,000 no Fable 5. Para classificação, sumarização e extração estruturada, essa diferença não é um erro de arredondamento. É a conversa de orçamento toda.
Quando o Opus 4.8 Ainda É a Escolha Certa
O Fable 5 ganhar os benchmarks não faz do Opus 4.8 o padrão errado. Fica no Opus quando qualquer uma destas se aplicar:
O trabalho é rotineiro e de grande volume. A economia por token domina, e o 2x acumula depressa ao longo de milhões de chamadas.
A latência ou o custo por pedido é a prioridade. O Opus é mais barato e não corre os turnos longos e deliberados que o Fable 5 faz com esforço mais alto.
Precisas de retenção zero de dados. O Opus 4.8 suporta ZDR. O Fable 5 é um covered model com retenção obrigatória de 30 dias, necessária para correr os seus classificadores de segurança. Os dados não são usados para treino, mas ficam retidos, e para algumas empresas isso é uma barreira rígida de compra, independentemente dos benchmarks.
O teu trabalho fica perto das fronteiras de cyber, bio ou quím. O Fable 5 encaminha à mesma as consultas sinalizadas nesses domínios para o Opus 4.8. Pagarias o prémio do Fable até ao momento em que o fallback dispara, e depois recebes uma resposta do Opus. Nesse tráfego, usa só o Opus.
E lembra-te: a troca não é direta. O Fable 5 mantém o thinking sempre ligado (afinas a profundidade com o esforço, não o podes desligar), devolve recusas como um HTTP 200 bem-sucedido com uma stop reason refusal que o teu código tem de verificar, e corre turnos mais longos que podem rebentar os timeouts do cliente. Planeia a migração; não mudes só a string do modelo.
A Relação de Fallback
Há um detalhe sem equivalente em nenhum lançamento do Opus. O Fable 5 vem com classificadores que vigiam pedidos de cibersegurança, biologia e química, e destilação de modelos. Quando um deles dispara, a tua consulta é respondida pelo Opus 4.8 em vez disso, e és avisado de que aconteceu.
A Anthropic diz que isto dispara em menos de 5% das sessões, e que mais de 95% das sessões correm inteiramente no Fable 5. Por outras palavras, cerca de uma em vinte sessões pode não estar a correr no modelo que escolheste. Nos temas que o disparam, o Fable 5 implantável tem efetivamente o desempenho do Opus 4.8, porque é literalmente o que responde.
A vantagem de custo: essas respostas reencaminhadas são faturadas às tarifas do Opus, não às do Fable. Por isso cargas de trabalho de bio, quím ou perto de segurança que disparam o classificador ganham um desconto discreto. A desvantagem é a imprevisibilidade, o que é por si só uma razão para manter esse tráfego no Opus por opção e não por acidente.
Como Escolher
A decisão reduz-se a uma regra de encaminhamento. Por defeito, vai pelo modelo mais barato que ultrapasse de forma fiável a tua barra de qualidade, e promove uma tarefa para o Fable 5 só quando o Opus 4.8 falha de forma demonstrável, perde o plano a meio da tarefa, ou queima mais tokens no total por causa das repetições.
| Cenário | Escolhe | Porquê |
|---|---|---|
| Migração de grande base de código ou refactor multi-repo | Fable 5 | Maior diferença medida; os dois-meses-para-um-dia da Stripe |
| Execuções autónomas de agentes de longa duração | Fable 5 | Menos turnos, retenção do plano, a memória acumula |
| Investigação financeira ou analítica complexa | Fable 5 | Primeiro modelo a passar os 90% no benchmark de analytics da Hex |
| Extração com muita visão ou screenshot-para-código | Fable 5 | Novo estado da arte em visão |
| Análise de 1M de tokens onde um detalhe perdido sai caro | Fable 5 | Ganhos de contexto mais raciocínio |
| Edições de código rotineiras, helpers, perguntas e respostas | Opus 4.8 ou Sonnet 4.6 | O Fable é exagero a 2x |
| Pipelines de grande volume com orçamento limitado | Opus 4.8 | A economia por token domina |
| Dados com ZDR obrigatório | Opus 4.8 | O Fable exige retenção de 30 dias |
| Trabalho perto de cyber, bio ou quím | Opus 4.8 | O Fable encaminha esses para o Opus à mesma |
Se geres uma frota de agentes, não escolhes uma só vez. Põe os planeadores e os builders mais difíceis no Fable 5, mantém os avaliadores, os linters, os escritores de docs e os testers rotineiros no Opus 4.8, e deixa cada papel comprar exatamente a inteligência de que precisa. A escolha do modelo vive ao lado do agente, não na raiz do projeto.
O Veredicto
O Fable 5 é um salto de nível a sério, não um lançamento pontual, e está cotado como tal. A diferença nos benchmarks é real e alarga-se à medida que as tarefas ficam mais longas e mais difíceis. O prémio é exatamente 2x no papel, mas o teu número real depende de se os menos turnos do Fable, os menos tokens e a taxa de sucesso mais alta à primeira compram de volta mais do que a tarifa duplicada.
Para a cauda difícil e de longo horizonte do teu trabalho, normalmente compram. Para tudo o que é rotineiro, o Opus 4.8 a metade do preço continua a ganhar. Encaminha em conformidade, e deixa a tarefa decidir o modelo.
Perguntas Frequentes
Vale a pena o Claude Fable 5 em vez do Opus 4.8?
Para tarefas longas, complexas ou propensas a falhar, sim. O Fable 5 lidera o Opus 4.8 em todos os benchmarks publicados (80,3% vs 69,2% no SWE-Bench Pro), e os seus menos turnos e maior taxa de sucesso à primeira podem tornar o gasto-por-tarefa mais baixo apesar da etiqueta de 2x. Para trabalho rotineiro e de grande volume, o Opus 4.8 a metade do preço é a melhor escolha.
Quanto custa o Claude Fable 5 mais do que o Opus 4.8?
Exatamente o dobro em cada linha da tabela de preços: $10 vs $5 por milhão de tokens de entrada e $50 vs $25 por milhão de tokens de saída. Uma tarefa de 100K-entrada/20K-saída custa $2.00 no Fable 5 contra $1.00 no Opus 4.8 com o mesmo uso de tokens. A eficiência de tokens pode estreitar ou até inverter essa diferença em tarefas difíceis.
Devo escolher o Claude Fable 5 ou o Opus 4.8 para coding?
Para grandes migrações, refactors multi-repo e execuções autónomas longas, escolhe o Fable 5, onde a vantagem no SWE-Bench Pro e a retenção do plano se acumulam. Para edições rotineiras, helpers e chamadas de grande volume, escolhe o Opus 4.8 ou o Sonnet 4.6. Muitas equipas encaminham os dois: planeadores e builders difíceis no Fable, tudo o resto no Opus.
Porque é que o meu pedido ao Claude Fable 5 foi respondido pelo Opus 4.8?
Os safeguards do Fable 5 encaminham pedidos sinalizados de cibersegurança, biologia, química e destilação para o Opus 4.8 e avisam-te. A Anthropic diz que isto acontece em menos de 5% das sessões. Essas respostas são faturadas às tarifas do Opus, não às do Fable.
O Claude Fable 5 suporta retenção zero de dados?
Não. O Fable 5 é um covered model com retenção obrigatória de 30 dias, necessária para correr os seus classificadores de segurança. Os dados retidos não são usados para treino, mas ficam retidos. O Opus 4.8 continua a suportar retenção zero de dados, o que pode ser o fator decisivo para cargas de trabalho reguladas.
A diferença nos benchmarks é fiável?
Trata-a como uma direção. A Anthropic correu a maior parte das avaliações e vários números de clientes iniciais são testemunhos e não resultados auditados, e pelo menos um investigador questionou os números pré-lançamento. A metodologia do SWE-Bench Pro é pública e foi aplicada a vários modelos, o que faz dos 80,3% vs 69,2% a comparação única mais de confiança. Valida nas tuas próprias tarefas antes de comprometeres tráfego.
Fontes
- Claude Fable 5 and Claude Mythos 5
- Anthropic's Claude Fable 5 is a version of Mythos the public can access today (TechCrunch)
- Anthropic releases Mythos-like AI model to the public (CNBC)
- Claude Fable 5 on AWS (AWS News Blog)
- Claude Fable 5 and Mythos 5 benchmarks explained (Vellum)
- Claude Fable 5 vs Opus 4.8: Benchmarks, Pricing & When to Use Each (TrueFoundry)
- Prompting Claude Fable 5 (API docs)
Páginas Relacionadas
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
Claude Fable 5: o Guia Rápido
O Claude Fable 5 é o primeiro modelo Mythos-class público da Anthropic, um novo nível acima do Opus. Os mesmos pesos do Claude Mythos 5, preços de $10/$50, 1M de contexto e salvaguardas que encaminham pedidos de risco para o Opus 4.8. Aqui fica o que é novo e quem o deve usar.
Casos de Uso do Claude Fable 5
O que as pessoas fizeram mesmo com o Claude Fable 5 no acesso antecipado: uma migração do Stripe num dia, o Hex a passar os 90% em análise de dados, web apps reconstruídas a partir de screenshots e um agente de programação que entrega uma semana de trabalho numa tarde. Implementações reais, com nomes e números.