Os Safeguards do Claude Fable 5 explicados

Algumas das tuas respostas do Claude Fable 5 vão, em silêncio, vir do Claude Opus 4.8. Isso é intencional. O Fable 5 vem com safeguards que detectam prompts em três áreas de alto risco e entregam essas respostas ao Opus 4.8, e o modelo avisa-te quando acontece.

O Fable 5, lançado a 9 de junho de 2026, é o primeiro modelo da classe Mythos disponível publicamente. É o mesmo modelo subjacente do Claude Mythos 5, a versão que a Anthropic antes dissera ser capaz demais para lançar amplamente. A razão pela qual um membro do público o consegue sequer usar é a camada de segurança descrita neste post.

A versão curta: uma queda para o Opus 4.8 não é uma recusa. Continuas a receber uma resposta útil de um modelo forte. A Anthropic diz que mais de 95 por cento das sessões do Fable 5 não envolvem qualquer queda, e nessas sessões o Fable 5 rende, na prática, o mesmo que o Mythos 5.

Este post explica o que os safeguards cobrem, porque é que a queda acontece, o red-teaming por trás deles, e a nova política de retenção de dados de 30 dias que as empresas precisam de perceber antes de encaminharem dados sensíveis pelo modelo.

Veredicto rápido

O que precisas mesmo de saber:

O Fable 5 encaminha prompts em três áreas para o Opus 4.8: cibersegurança, biologia e química, e destilação
Os classifiers são deliberadamente conservadores, por isso às vezes apanham pedidos inofensivos
Uma queda é uma resposta do Opus 4.8, não uma recusa, e és avisado quando ocorre
Todo o tráfego do Fable 5 e da classe Mythos passa agora a ter retenção de dados obrigatória de 30 dias, mesmo onde antes tinhas um acordo de retenção zero
O Mythos 5, o mesmo modelo com os safeguards de cibersegurança levantados, não é público. Está restrito ao Project Glasswing e a parceiros de acesso de confiança

Como funciona a queda

Quando envias um prompt, sistemas de IA separados chamados classifiers olham para ele antes de o Fable 5 responder. Estes classifiers detectam potencial uso indevido, incluindo tentativas de jailbreak. Se um prompt for sinalizado, os classifiers impedem o Fable 5 de responder e a resposta é tratada pelo Opus 4.8.

O raciocínio da Anthropic é simples. O Opus 4.8 é um modelo altamente capaz por mérito próprio, por isso uma resposta que cai para o Opus é uma experiência muito melhor do que uma recusa total do Fable. Recebes uma resposta real para a maioria das perguntas sinalizadas. Só vem de um modelo cujas próprias capacidades nestas zonas de perigo são muito mais fracas, e que está ele próprio protegido.

O utilizador é informado sempre que isto acontece, por isso não é silencioso. Na API, uma resposta encaminhada traz detalhe estruturado, incluindo um campo de categoria que te diz se o gatilho foi cyber ou bio.

O número da frequência é a parte tranquilizadora. Os dados iniciais mostram que mais de 95 por cento das sessões do Fable 5 não envolvem qualquer queda. Nessas sessões, recebes o modelo completo da classe Mythos. A queda é a excepção, não a regra.

Os três domínios dos classifiers

Os classifiers do Fable 5 cobrem três áreas. Eis o que cada uma é e porque existe.

Domínio	O que cobre	Porquê	Amplitude no lançamento
Cibersegurança	Encontrar e explorar vulnerabilidades de software, mais trabalho ofensivo e agentic de cyber mais amplo, como reconhecimento e movimento lateral	As competências de cyber da classe Mythos podiam tornar os ataques substancialmente mais baratos e fáceis	Amplo. Nos testes, os classifiers bloqueiam qualquer progresso nestas tarefas
Biologia e química	A maioria dos pedidos de bio e química, não só consultas restritas sobre armas biológicas	Risco de uplift para atores maliciosos, mais capacidade científica genuína de duplo uso	Muito ampla e conservadora. A maioria dos pedidos cai. A Anthropic está a trabalhar para a estreitar
Destilação	Pedidos sinalizados como tentativas de extrair as capacidades do modelo para treinar modelos rivais	Previne a proliferação de modelos quase de fronteira lançados sem safeguards	Direcionada à extração em larga escala detectada, sobretudo de países autoritários

Alguns detalhes que vale a pena destacar.

Na cibersegurança, os classifiers são deliberadamente amplos. Não apanham só o desenvolvimento de exploits. Cobrem tarefas ofensivas de cyber num sentido mais lato, porque os modelos da classe Mythos são fortes em hacking agentic, ou seja, conseguem encadear as várias fases separadas de um ataque. A Anthropic desenhou os classifiers para que o modelo não faça qualquer progresso nestas tarefas.

Na biologia e química, os safeguards são neste momento os mais amplos e conservadores. A Anthropic costumava bloquear apenas um conjunto restrito de consultas sobre armas biológicas. Já não acha que isso chega, em parte porque atores maliciosos bem financiados podiam ganhar uplift real, e em parte porque os modelos são agora bons o suficiente em tarefas científicas reais para importar. Por exemplo, modelos da classe Mythos previram propriedades não publicadas da camada exterior de um vírus, superando modelos de proteínas dedicados usando apenas raciocínio biológico. Isso é útil para terapia génica e perigoso nas mãos erradas, por isso, por agora, a maioria dos pedidos de bio e química cai. A Anthropic é explícita em que isto é temporário e que quer estreitar estes safeguards o mais depressa que conseguir, porque não quer falsos positivos a bloquear ciência legítima.

Na destilação, o alvo não és tu. São as tentativas em larga escala de copiar as capacidades do Fable 5 para modelos concorrentes que poderiam depois ser lançados sem qualquer safeguard.

Porque é que os classifiers às vezes apanham prompts inofensivos

A Anthropic afinou estes safeguards de forma conservadora de propósito, para lançar o modelo de forma segura e rápida. O trade-off é que são mais estritos do que o ideal e às vezes apanham pedidos benignos. A empresa diz isto diretamente, chama-lhe frustrante, e diz que reduzir os falsos positivos é o objectivo após o lançamento.

Os builders já estão a notar isto. No Hacker News, programadores observaram que os classifiers são agressivos o suficiente para disparar em tarefas de coding muito benignas e sem relação com segurança. A salvação é que a queda para o Opus 4.8 funciona como pretendido, por isso um falso positivo custa-te a vantagem da classe Mythos nesse prompt em vez de te bloquear por completo.

Se fazes sobretudo trabalho normal de aplicações, isto raramente te vai afectar. O número de menos de 5 por cento é a taxa global por sessão, e é o território próximo da segurança que o aciona. Trabalho normal de funcionalidades, migração e refactor quase nunca o faz.

O registo de red-teaming

A Anthropic pôs esforço real em testar se os classifiers aguentam contra quem tenta quebrá-los. As alegações principais:

Um bug bounty externo correu mais de 1.000 horas e não produziu jailbreaks universais
Organizações externas de red-teaming também não encontraram jailbreaks universais em tarefas agentic de formato longo
Um parceiro externo achou os safeguards de cyber do Fable 5 os mais robustos de qualquer modelo que testou, incluindo o Opus 4.8 e o Opus 4.7
O Fable 5 cumpriu com zero pedidos de cyber maliciosos de turno único em 30 técnicas de jailbreak públicas diferentes

Há uma ressalva reconhecida. O UK AI Safety Institute fez progresso em direcção a um jailbreak universal numa janela inicial breve de testes. A Anthropic é honesta em que prevenir por completo jailbreaks universais é provavelmente impossível. O seu objectivo declarado é mais estreito: tornar qualquer jailbreak que reste lento e caro o suficiente para ser detectado e travado antes de ser usado à escala.

Sê lúcido sobre o que é e o que não é afirmado. A alegação é sem jailbreaks universais, ou seja, sem uma única técnica fiável que quebre os safeguards de forma generalizada. A Anthropic não diz que não foram encontrados jailbreaks parciais, e espera que atacantes motivados continuem a tentar, já que o ganho financeiro da capacidade de cyber da classe Mythos é grande. Trata o registo como forte prova de robustez, não uma garantia de perfeição.

A nova política de retenção de dados de 30 dias

Esta é a parte que as empresas precisam de ler com atenção, porque muda o acordo.

A Anthropic exige agora retenção de 30 dias para todo o tráfego nos modelos da classe Mythos, o que inclui o Fable 5 e o Mythos 5, em superfícies próprias e de terceiros. Crucialmente, isto aplica-se mesmo a empresas que antes tinham acordos de retenção zero. Para o tráfego da classe Mythos, esses acordos deixam de valer.

Eis o que a Anthropic se compromete a fazer em troca. Os dados não são usados para treinar novos modelos Claude, nem para qualquer fim que não seja de segurança. Todo o acesso humano aos dados é registado. São apagados ao fim de 30 dias na quase totalidade dos casos. O fim declarado é defender contra ataques complexos e inéditos, incluindo novos jailbreaks e ataques que se espalham por muitos pedidos, e identificar e reduzir falsos positivos.

A TechCrunch enquadrou isto como um possível precedente da indústria, onde o acesso aos modelos mais poderosos vem agregado a retenção de dados obrigatória como medida de segurança. É esse o padrão maior a vigiar.

Uma coisa a manter clara: esta política de retenção é separada da ordem executiva da Casa Branca sobre partilhar modelos de fronteira com o governo antes do lançamento. Um porta-voz da Anthropic disse à CyberScoop que a mudança de retenção é específica do seu trabalho de safeguards e não tem relação com essa ordem. Não confundas as duas janelas de 30 dias.

O que isto significa para o teu negócio

Se lanças produtos em cima do Claude, ou se encaminhas dados de clientes ou regulados por ele, a mudança de retenção tem consequências concretas.

O teu acordo de retenção zero não cobre o Fable 5. Se tens um acordo de ZDR com a Anthropic, ele não se aplica ao Fable 5 nem a qualquer tráfego da classe Mythos. A retenção de 30 dias é obrigatória e sobrepõe-se a ele. Assumir que os teus termos atuais transitam é o erro a evitar.

Aplica-se também em superfícies de terceiros. Isto não é só sobre a Claude API diretamente. O tráfego da classe Mythos através de parceiros e revendedores também está coberto. Se chegas ao Fable 5 através de uma ferramenta como o GitHub Copilot, o requisito de retenção ainda se aplica, e podes ver um passo de consentimento de retenção de dados.

Verifica os teus compromissos a jusante. Se prometeste aos teus próprios clientes retenção zero, ou se lidas com PII, PHI, segredos comerciais ou dados sob confidencialidade contratual, encaminhar isso pelo Fable 5 pode quebrar uma promessa que fizeste. Pede à tua equipa de compliance para rever antes de enviares dados regulados por ele.

Tens uma opção de queda limpa. Se precisas de retenção zero ou mínima para uma carga de trabalho, mantém-na no Opus 4.8, onde a ZDR continua disponível para clientes enterprise elegíveis ao abrigo da política padrão da Anthropic. Reserva o Fable 5 para trabalhos não sensíveis onde a retenção de 30 dias seja aceitável. Essa divisão deixa-te usar o modelo mais capaz onde é seguro fazê-lo e mantém o teu tráfego sensível no modelo que consegue honrar termos mais estritos.

O resumo honesto é que a retenção é real e sobrepõe-se mesmo à ZDR anterior para estes modelos, mas é estreita no seu propósito. Não é para treino, é registada, e é apagada ao fim de 30 dias na quase totalidade dos casos. O alarme justifica-se como aviso para compliance, não como razão para assumir que os dados estão a ser explorados.

O Mythos 5 e os programas de acesso de confiança

O Fable 5 tem um irmão. O Mythos 5 é o mesmo modelo subjacente com os safeguards de cyber levantados em algumas áreas. Tem as capacidades de cibersegurança mais fortes de qualquer modelo no mundo, que é exactamente porque não é público.

O Mythos 5 é implantado através do Project Glasswing, a colaboração da Anthropic com o governo dos EUA para proteger software crítico. Parceiros que tinham acesso ao anterior Mythos Preview podem agora atualizar para o Mythos 5, a um custo substancialmente mais baixo. O Glasswing começou em abril de 2026 com um grupo limitado e expandiu-se no início de junho para cerca de 150 organizações em mais de 15 países.

O acesso está a alargar-se em duas direcções. A Anthropic planeia um programa de acesso de confiança mais sistemático para que organizações de cibersegurança possam candidatar-se, expandindo-se ao longo do tempo e incluindo agências federais. Está também a abrir um programa separado de acesso de confiança para biologia, que dará a um pequeno número de investigadores das ciências da vida uma versão do Fable 5 com os safeguards de bio e química removidos, mas com os de cyber ainda no lugar.

Para os restantes, a conclusão é simples. A trela no Fable 5 é o preço do acesso público. O modelo sem trela existe, mas fica por trás de um processo de validação. E até o modelo de queda é em camadas: a Anthropic relata que o Opus 4.8 por si só consegue reproduzir a maioria das vulnerabilidades conhecidas a partir de uma descrição, mas os seus safeguards cortam essa taxa de sucesso para cerca de 1 por cento. Todo o sistema é construído em camadas de propósito.

O quadro maior

Vale a pena nomear a tensão. O Fable 5 foi lançado dias depois de a Anthropic ter instado publicamente os laboratórios de IA a acordar um travão coordenado no desenvolvimento de fronteira, alertando que os sistemas avançam depressa o suficiente para arriscar uma autoaperfeiçoamento recursivo. Depois lançou o seu modelo público mais poderoso. Os safeguards são a forma como a Anthropic concilia isto, o que a sua líder de produto Dianne Penn chama uma corrida para o topo, dando a capacidade enquanto constrói as guardrails para que os benefícios superem o dano.

Não tens de tomar partido nesse debate para usar bem o modelo. O que importa na prática é saber porque é que uma resposta ocasionalmente vem do Opus 4.8, saber que os classifiers vão ocasionalmente disparar por engano em prompts inofensivos, e saber que o acordo dos dados mudou. Esses três factos são toda a história dos safeguards do ponto de vista do utilizador.

Perguntas frequentes

Porque é que o Claude Fable 5 cai para o Opus 4.8?

O Fable 5 corre classifiers que detectam prompts em cibersegurança, biologia e química, ou destilação. Os prompts sinalizados são respondidos pelo Opus 4.8 em vez do Fable 5, e és avisado quando acontece. Uma queda é uma resposta real de um modelo capaz, não uma recusa, e ocorre em menos de 5 por cento das sessões.

Quais são os três domínios dos classifiers do Fable 5?

Cibersegurança, cobrindo a exploração de vulnerabilidades e o trabalho ofensivo e agentic de cyber mais amplo; biologia e química, cobrindo atualmente a maioria dos pedidos nessas áreas; e destilação, cobrindo tentativas de extrair as capacidades do modelo para treinar modelos rivais. Os safeguards de biologia e química são os mais amplos no lançamento e a Anthropic planeia estreitá-los.

O Claude Fable 5 guarda os meus dados?

Sim. A Anthropic exige retenção de 30 dias para todo o tráfego do Fable 5 e da classe Mythos, em superfícies próprias e de terceiros, mesmo que antes tivesses um acordo de retenção zero. Os dados não são usados para treino nem para qualquer fim que não seja de segurança, o acesso humano é registado, e são apagados ao fim de 30 dias na quase totalidade dos casos.

Como mantenho retenção zero de dados ao usar o Claude?

Encaminha cargas de trabalho sensíveis pelo Opus 4.8, onde a retenção zero de dados continua disponível para clientes enterprise elegíveis ao abrigo da política padrão da Anthropic, e reserva o Fable 5 para trabalho não sensível. O requisito de retenção de 30 dias é específico dos modelos da classe Mythos e sobrepõe-se à ZDR anterior apenas para esse tráfego.

O que é o Claude Mythos 5?

O Mythos 5 é o mesmo modelo subjacente do Fable 5 com os safeguards de cyber levantados em algumas áreas, o que lhe dá as capacidades de cibersegurança mais fortes de qualquer modelo. Não é público. Está restrito a parceiros do Project Glasswing e a um programa de acesso de confiança em expansão, com um programa de biologia separado a chegar para investigadores.

Alguém já fez jailbreak ao Claude Fable 5?

Um bug bounty externo de mais de 1.000 horas e organizações externas de red-teaming não encontraram jailbreaks universais, embora o UK AI Safety Institute tenha feito progresso em direcção a um numa janela breve. A Anthropic alega que não há jailbreak universal, não que não há jailbreak nenhum, e diz que preveni-los por completo é provavelmente impossível. O seu objectivo é tornar os que restam lentos e caros demais para usar à escala.