Modo Fast do Claude Code

Problema: O trabalho interativo no Opus 4.6 arrasta. Cada viagem de ida e volta parece lenta o suficiente para quebrar o ritmo. Baixar o nível de esforço reduz a latência mas sacrifica a qualidade, e queres a profundidade total a um ritmo mais rápido.

Solução rápida: Dentro da tua sessão do Claude Code, corre /fast e prime Tab. Um raio aparece ao lado do prompt. Mesmo modelo por baixo, respostas 2.5x mais rápidas.

O Que É Realmente o Modo Fast

Aqui está a coisa principal a entender: o modo fast não muda o modelo que estás a correr. O Opus 4.6 continua a ser o Opus 4.6. Mesmos pesos. Mesmas capacidades. Mesmo teto de qualidade. Não há troca silenciosa para o Haiku embrulhado como Opus. O que estás a obter é o Opus 4.6 numa via de infraestrutura prioritária.

O que muda de facto é a configuração de serviço. As tuas chamadas de API tomam uma rota mais rápida, e as respostas chegam cerca de 2.5x mais depressa do que no Opus 4.6 padrão. O preço por token sobe em troca da prioridade. O modelo fica igualmente inteligente. Sem raciocínio abreviado, sem output comprimido, nada saltado para atingir a latência mais baixa. Mesma resposta. Chegada mais rápida.

É por isso que a distinção importa. Antes do modo fast, a única forma de acelerar o Claude Code era baixar o nível de esforço, o que realmente reduz a quantidade de pensamento que vai para uma resposta. Menos tempo de raciocínio funciona em tarefas simples e falha em qualquer coisa complexa. O modo fast salta essa troca. Velocidade com a mesma qualidade.

O modo fast foi lançado como pré-visualização de investigação, por isso espera que a Anthropic refine os preços, os limites de taxa e a experiência geral ao longo do tempo.

Como Ativar o Modo Fast do Claude Code

Um comando ativa-o:

/fast

Prime Tab para confirmar. É isso. Um ícone de raio aparece ao lado do teu prompt, confirmando que o modo fast está ativo. Corre /fast novamente para desativar.

Também podes defini-lo permanentemente no teu ficheiro de definições de utilizador:

{
  "fastMode": true
}

Alguns comportamentos a saber:

Persiste entre sessões. O modo fast mantém-se ativo de uma sessão para a seguinte até o desativares tu mesmo.
Troca automaticamente para o Opus 4.6. No Haiku ou Sonnet quando ativas o modo fast? Passas automaticamente para o Opus 4.6.
Desativar mantém o teu modelo. Desliga o modo fast com /fast e o teu modelo fica no Opus 4.6. Para mudar para outro, corre /model.

Detalhamento de Preços

As taxas dependem do tamanho da tua janela de contexto. Tabela de preços completa:

Modo	Entrada (por MTok)	Saída (por MTok)
Modo fast Opus 4.6 (abaixo de 200K contexto)	$30	$150
Modo fast Opus 4.6 (acima de 200K contexto)	$60	$225

Alguns detalhes de custo a ter em mente:

Compatível com contexto expandido de 1M. A janela de contexto completa de 1M é suportada, embora as taxas aumentem acima dos 200K tokens.
Faturado apenas em uso extra. Os tokens do modo fast ficam fora do uso incluído no teu plano. Todos eles caem na linha de uso extra.
Mudar a meio da conversa é caro. Ativar o modo fast a meio de uma sessão volta a calcular o preço de todo o contexto existente à taxa de entrada não em cache. Para manter os custos baixos, ativa-o antes da tua primeira mensagem.

Quando Usar o Modo Fast

O trabalho interativo é onde a velocidade extra realmente se sente, porque a latência é o que te está a abrandar:

Ciclos de iteração rápida. Edita, corre, pede ao Claude para ajustar, repete. Ao longo de dezenas destas microinterações por sessão, o 2.5x acumula. Uma sessão de depuração com 25 viagens de ida e volta termina aproximadamente 15-20 minutos mais cedo no modo fast do que no Opus 4.6 padrão. Uma tarefa de 20 viagens de ida e volta parece fundamentalmente diferente a 2.5x de velocidade.
Depuração ao vivo. A perseguir um bug através de stack traces e output de logs, a espera por cada resposta é o que quebra a concentração. Respostas mais rápidas mantêm o estado de fluxo. Ficas focado no problema em vez de perder o fio enquanto o cursor pisca.
Prazos urgentes. Correções às 2 da manhã. Demos a uma hora. Nesses momentos, pagar mais por token é obviamente a escolha certa. O custo extra desaparece quando o medes contra o custo de entregar tarde.
Programação em par interativa. Qualquer momento onde a latência supera o custo, porque estás a pensar ao lado do Claude em tempo real e cada pausa quebra o ritmo. Discussões de design onde as ideias voam de um lado para o outro são o exemplo mais claro.

Quando Saltar o Modo Fast

O modo padrão ganha sempre que a latência não é o gargalo. Aqui está o teste rápido: estás ali a ver o cursor? Se não, as taxas normais dão-te o mesmo output por menos.

Tarefas autónomas longas. Inicia uma refatoração grande, vai-te embora, volta. O tempo de resposta é invisível para ti, por isso poupa o dinheiro.
Processamento em lote ou pipelines CI/CD. Os fluxos automatizados não beneficiam de menor latência. As taxas padrão são a escolha certa.
Cargas de trabalho sensíveis ao custo. A gastar tokens numa análise de codebase grande, obtens output idêntico à taxa normal. A qualidade não muda, por isso o custo extra não compra nada.
Tarefas onde te afastas. Diz ao Claude para reestruturar um módulo, vai buscar um café, e a diferença de velocidade literalmente não se nota. O modo fast só compensa enquanto estás a ver o cursor.

Modo Fast vs. Nível de Esforço

Duas definições, dois mecanismos diferentes para tornar as coisas mais rápidas:

Definição	O Que Faz
Modo fast	Mesma qualidade de modelo, menor latência, custo mais elevado por token
Nível de esforço mais baixo	Menos tempo de pensamento, respostas mais rápidas, potencialmente menor qualidade em tarefas complexas

Ambos podem correr juntos. Modo fast mais nível de esforço mais baixo combina a velocidade de infraestrutura com a menor sobrecarga de pensamento de uma vez. É uma boa escolha para trabalhos rápidos: formatação, refatorações simples, boilerplate, onde a análise profunda não se justifica. Em decisões arquiteturais complexas ou depuração complicada, mantém o nível de esforço alto e deixa o modo fast tratar da latência. Dois botões independentes. Cada tarefa é ajustada pelos seus próprios méritos em vez de ficar presa numa definição de compromisso.

Limites de Taxa e Comportamento de Fallback

O modo fast tem o seu próprio limite de taxa, independente do pool do Opus 4.6 padrão. Ativá-lo não afeta o teu limite normal, e vice-versa. Quando atinges o teto, o Claude Code passa por ele sem problemas:

Fallback automático para o Opus 4.6 padrão. A sessão continua sem interrupção. Perdes a velocidade prioritária por um tempo, é tudo. Sem erro, sem fluxo de trabalho interrompido.
O raio fica cinzento. O indicador muda para modo de arrefecimento, por isso um olhar ao prompt diz-te onde estás.
Velocidade e preços padrão aplicam-se. A faturação cai para as taxas normais do Opus 4.6 durante a janela de fallback. Depois de uma explosão intensa de modo fast, isso é na verdade uma pausa no custo.
Reativa automaticamente quando pronto. O arrefecimento termina, o modo fast volta a ligar-se sozinho. Nada para fazer da tua parte.

Não queres esperar o arrefecimento? Corre /fast para desligar o modo fast manualmente e continua às taxas padrão até decidires voltar.

Requisitos e Disponibilidade

A cobertura não é universal. Aqui está o que precisas:

Apenas Anthropic direto. O acesso corre pela Anthropic Console API e pelos planos de subscrição do Claude. O Amazon Bedrock, Google Vertex AI e Microsoft Azure Foundry não o suportam.
O uso extra tem de estar ativado. Como todos os tokens do modo fast são faturados em uso extra, a tua conta tem de ter o uso extra ativado.
Restrições para Equipas e Enterprise. Os administradores da organização têm de ativar o modo fast nas definições da Console ou nas definições de administração do Claude AI antes que qualquer membro da equipa o possa usar. Sem isso, /fast devolve: "Fast mode has been disabled by your organization."

Modo Fast com Equipas de Agentes

Nas equipas de agentes, o modo fast fica na sessão líder. Os agentes companheiros mantêm as suas próprias definições de velocidade, o que te dá controlo preciso sobre onde vai o custo num fluxo de trabalho multi-agente.

Uma configuração de equipa funcional tem este aspeto. O agente líder corre em modo fast para coordenação rápida e decisões. Os companheiros ficam em velocidade padrão para manter a conta razoável. As trocas interativas curtas ficam com o líder, como rever o output dos companheiros, fazer escolhas de encaminhamento e responder às tuas perguntas diretas. Os companheiros ficam com os trabalhos autónomos longos, como escrever testes, refatorar módulos ou gerar documentação, onde um speedup de 2.5x não mudaria realmente o que sentes.

Dicas de Otimização de Custos

Alguns movimentos práticos para evitar que o modo fast dispare a conta:

Ativa no início da sessão. Ligar o modo fast a meio da conversa volta a calcular o preço de todo o contexto à taxa de entrada não em cache. Com 50K tokens já em jogo, isso é um impacto real. Liga-o com a primeira mensagem e a penalidade nunca dispara.
Combina com níveis de esforço. Modo fast mais nível de esforço mais baixo dá às tarefas simples a maior velocidade. Aumenta o esforço de volta quando o trabalho fica complexo.
Alterna conforme o tipo de trabalho. Corre o modo fast durante a programação prática, depois desliga-o antes de iniciar qualquer coisa autónoma. Alguns segundos de alternância por dia poupa um gasto de tokens significativo.
Monitoriza pela Console. Rastreia o uso e a faturação dentro do painel da Anthropic Console para que possas ver como o modo fast muda o teu gasto. Uma ou duas semanas de dados mostram-te onde equilibrar velocidade e custo.

Pôr Tudo Junto

O modo fast preenche exatamente uma lacuna: qualidade do Opus 4.6 sem a espera do Opus 4.6. O que te custa é dinheiro, não inteligência. Para developers que passam horas por dia em sessões interativas do Claude Code, o custo extra paga-se através da concentração sustentada e ciclos de iteração mais apertados.

Pensa nisso como três botões independentes no desempenho do Claude Code. Um botão é a velocidade de infraestrutura, que é o que o modo fast controla. Outro é a profundidade de pensamento, que os níveis de esforço controlam. O terceiro é o nível de capacidade base, que a seleção de modelo define. Os botões funcionam sozinhos e combinam como quiseres.

Para o teu trabalho interativo de maior valor, tudo sobe: modo fast ativo, esforço alto, Opus 4.6. Formatação rápida ou boilerplate é boa combinação para modo fast com esforço baixo. Trabalho em segundo plano que ninguém observa fica em velocidade padrão e poupa dinheiro a custo de impacto zero. Ajusta a definição à tarefa à tua frente. Uma configuração fixa não serve.

Modo Fast do Claude Code

On this page