Modo Fast do Claude Code
O modo fast encaminha os teus pedidos ao Opus 4.6 por uma via de serviço prioritária no Claude Code. Mesmo modelo, mesmo teto de qualidade, respostas 2.5x mais rápidas a uma taxa de tokens mais elevada.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
Problema: O trabalho interativo no Opus 4.6 arrasta. Cada viagem de ida e volta parece lenta o suficiente para quebrar o ritmo. Baixar o nível de esforço reduz a latência mas sacrifica a qualidade, e queres a profundidade total a um ritmo mais rápido.
Solução rápida: Dentro da tua sessão do Claude Code, corre /fast e prime Tab. Um raio aparece ao lado do prompt. Mesmo modelo por baixo, respostas 2.5x mais rápidas.
O Que É Realmente o Modo Fast
Aqui está a coisa principal a entender: o modo fast não muda o modelo que estás a correr. O Opus 4.6 continua a ser o Opus 4.6. Mesmos pesos. Mesmas capacidades. Mesmo teto de qualidade. Não há troca silenciosa para o Haiku embrulhado como Opus. O que estás a obter é o Opus 4.6 numa via de infraestrutura prioritária.
O que muda de facto é a configuração de serviço. As tuas chamadas de API tomam uma rota mais rápida, e as respostas chegam cerca de 2.5x mais depressa do que no Opus 4.6 padrão. O preço por token sobe em troca da prioridade. O modelo fica igualmente inteligente. Sem raciocínio abreviado, sem output comprimido, nada saltado para atingir a latência mais baixa. Mesma resposta. Chegada mais rápida.
É por isso que a distinção importa. Antes do modo fast, a única forma de acelerar o Claude Code era baixar o nível de esforço, o que realmente reduz a quantidade de pensamento que vai para uma resposta. Menos tempo de raciocínio funciona em tarefas simples e falha em qualquer coisa complexa. O modo fast salta essa troca. Velocidade com a mesma qualidade.
O modo fast foi lançado como pré-visualização de investigação, por isso espera que a Anthropic refine os preços, os limites de taxa e a experiência geral ao longo do tempo.
Como Ativar o Modo Fast do Claude Code
Um comando ativa-o:
/fast
Prime Tab para confirmar. É isso. Um ícone de raio aparece ao lado do teu prompt, confirmando que o modo fast está ativo. Corre /fast novamente para desativar.
Também podes defini-lo permanentemente no teu ficheiro de definições de utilizador:
{
"fastMode": true
}Alguns comportamentos a saber:
- Persiste entre sessões. O modo fast mantém-se ativo de uma sessão para a seguinte até o desativares tu mesmo.
- Troca automaticamente para o Opus 4.6. No Haiku ou Sonnet quando ativas o modo fast? Passas automaticamente para o Opus 4.6.
- Desativar mantém o teu modelo. Desliga o modo fast com
/faste o teu modelo fica no Opus 4.6. Para mudar para outro, corre/model.
Detalhamento de Preços
As taxas dependem do tamanho da tua janela de contexto. Tabela de preços completa:
| Modo | Entrada (por MTok) | Saída (por MTok) |
|---|---|---|
| Modo fast Opus 4.6 (abaixo de 200K contexto) | $30 | $150 |
| Modo fast Opus 4.6 (acima de 200K contexto) | $60 | $225 |
Alguns detalhes de custo a ter em mente:
- Compatível com contexto expandido de 1M. A janela de contexto completa de 1M é suportada, embora as taxas aumentem acima dos 200K tokens.
- Faturado apenas em uso extra. Os tokens do modo fast ficam fora do uso incluído no teu plano. Todos eles caem na linha de uso extra.
- Mudar a meio da conversa é caro. Ativar o modo fast a meio de uma sessão volta a calcular o preço de todo o contexto existente à taxa de entrada não em cache. Para manter os custos baixos, ativa-o antes da tua primeira mensagem.
Quando Usar o Modo Fast
O trabalho interativo é onde a velocidade extra realmente se sente, porque a latência é o que te está a abrandar:
- Ciclos de iteração rápida. Edita, corre, pede ao Claude para ajustar, repete. Ao longo de dezenas destas microinterações por sessão, o 2.5x acumula. Uma sessão de depuração com 25 viagens de ida e volta termina aproximadamente 15-20 minutos mais cedo no modo fast do que no Opus 4.6 padrão. Uma tarefa de 20 viagens de ida e volta parece fundamentalmente diferente a 2.5x de velocidade.
- Depuração ao vivo. A perseguir um bug através de stack traces e output de logs, a espera por cada resposta é o que quebra a concentração. Respostas mais rápidas mantêm o estado de fluxo. Ficas focado no problema em vez de perder o fio enquanto o cursor pisca.
- Prazos urgentes. Correções às 2 da manhã. Demos a uma hora. Nesses momentos, pagar mais por token é obviamente a escolha certa. O custo extra desaparece quando o medes contra o custo de entregar tarde.
- Programação em par interativa. Qualquer momento onde a latência supera o custo, porque estás a pensar ao lado do Claude em tempo real e cada pausa quebra o ritmo. Discussões de design onde as ideias voam de um lado para o outro são o exemplo mais claro.
Quando Saltar o Modo Fast
O modo padrão ganha sempre que a latência não é o gargalo. Aqui está o teste rápido: estás ali a ver o cursor? Se não, as taxas normais dão-te o mesmo output por menos.
- Tarefas autónomas longas. Inicia uma refatoração grande, vai-te embora, volta. O tempo de resposta é invisível para ti, por isso poupa o dinheiro.
- Processamento em lote ou pipelines CI/CD. Os fluxos automatizados não beneficiam de menor latência. As taxas padrão são a escolha certa.
- Cargas de trabalho sensíveis ao custo. A gastar tokens numa análise de codebase grande, obtens output idêntico à taxa normal. A qualidade não muda, por isso o custo extra não compra nada.
- Tarefas onde te afastas. Diz ao Claude para reestruturar um módulo, vai buscar um café, e a diferença de velocidade literalmente não se nota. O modo fast só compensa enquanto estás a ver o cursor.
Modo Fast vs. Nível de Esforço
Duas definições, dois mecanismos diferentes para tornar as coisas mais rápidas:
| Definição | O Que Faz |
|---|---|
| Modo fast | Mesma qualidade de modelo, menor latência, custo mais elevado por token |
| Nível de esforço mais baixo | Menos tempo de pensamento, respostas mais rápidas, potencialmente menor qualidade em tarefas complexas |
Ambos podem correr juntos. Modo fast mais nível de esforço mais baixo combina a velocidade de infraestrutura com a menor sobrecarga de pensamento de uma vez. É uma boa escolha para trabalhos rápidos: formatação, refatorações simples, boilerplate, onde a análise profunda não se justifica. Em decisões arquiteturais complexas ou depuração complicada, mantém o nível de esforço alto e deixa o modo fast tratar da latência. Dois botões independentes. Cada tarefa é ajustada pelos seus próprios méritos em vez de ficar presa numa definição de compromisso.
Limites de Taxa e Comportamento de Fallback
O modo fast tem o seu próprio limite de taxa, independente do pool do Opus 4.6 padrão. Ativá-lo não afeta o teu limite normal, e vice-versa. Quando atinges o teto, o Claude Code passa por ele sem problemas:
- Fallback automático para o Opus 4.6 padrão. A sessão continua sem interrupção. Perdes a velocidade prioritária por um tempo, é tudo. Sem erro, sem fluxo de trabalho interrompido.
- O raio fica cinzento. O indicador muda para modo de arrefecimento, por isso um olhar ao prompt diz-te onde estás.
- Velocidade e preços padrão aplicam-se. A faturação cai para as taxas normais do Opus 4.6 durante a janela de fallback. Depois de uma explosão intensa de modo fast, isso é na verdade uma pausa no custo.
- Reativa automaticamente quando pronto. O arrefecimento termina, o modo fast volta a ligar-se sozinho. Nada para fazer da tua parte.
Não queres esperar o arrefecimento? Corre /fast para desligar o modo fast manualmente e continua às taxas padrão até decidires voltar.
Requisitos e Disponibilidade
A cobertura não é universal. Aqui está o que precisas:
- Apenas Anthropic direto. O acesso corre pela Anthropic Console API e pelos planos de subscrição do Claude. O Amazon Bedrock, Google Vertex AI e Microsoft Azure Foundry não o suportam.
- O uso extra tem de estar ativado. Como todos os tokens do modo fast são faturados em uso extra, a tua conta tem de ter o uso extra ativado.
- Restrições para Equipas e Enterprise. Os administradores da organização têm de ativar o modo fast nas definições da Console ou nas definições de administração do Claude AI antes que qualquer membro da equipa o possa usar. Sem isso,
/fastdevolve: "Fast mode has been disabled by your organization."
Modo Fast com Equipas de Agentes
Nas equipas de agentes, o modo fast fica na sessão líder. Os agentes companheiros mantêm as suas próprias definições de velocidade, o que te dá controlo preciso sobre onde vai o custo num fluxo de trabalho multi-agente.
Uma configuração de equipa funcional tem este aspeto. O agente líder corre em modo fast para coordenação rápida e decisões. Os companheiros ficam em velocidade padrão para manter a conta razoável. As trocas interativas curtas ficam com o líder, como rever o output dos companheiros, fazer escolhas de encaminhamento e responder às tuas perguntas diretas. Os companheiros ficam com os trabalhos autónomos longos, como escrever testes, refatorar módulos ou gerar documentação, onde um speedup de 2.5x não mudaria realmente o que sentes.
Dicas de Otimização de Custos
Alguns movimentos práticos para evitar que o modo fast dispare a conta:
- Ativa no início da sessão. Ligar o modo fast a meio da conversa volta a calcular o preço de todo o contexto à taxa de entrada não em cache. Com 50K tokens já em jogo, isso é um impacto real. Liga-o com a primeira mensagem e a penalidade nunca dispara.
- Combina com níveis de esforço. Modo fast mais nível de esforço mais baixo dá às tarefas simples a maior velocidade. Aumenta o esforço de volta quando o trabalho fica complexo.
- Alterna conforme o tipo de trabalho. Corre o modo fast durante a programação prática, depois desliga-o antes de iniciar qualquer coisa autónoma. Alguns segundos de alternância por dia poupa um gasto de tokens significativo.
- Monitoriza pela Console. Rastreia o uso e a faturação dentro do painel da Anthropic Console para que possas ver como o modo fast muda o teu gasto. Uma ou duas semanas de dados mostram-te onde equilibrar velocidade e custo.
Pôr Tudo Junto
O modo fast preenche exatamente uma lacuna: qualidade do Opus 4.6 sem a espera do Opus 4.6. O que te custa é dinheiro, não inteligência. Para developers que passam horas por dia em sessões interativas do Claude Code, o custo extra paga-se através da concentração sustentada e ciclos de iteração mais apertados.
Pensa nisso como três botões independentes no desempenho do Claude Code. Um botão é a velocidade de infraestrutura, que é o que o modo fast controla. Outro é a profundidade de pensamento, que os níveis de esforço controlam. O terceiro é o nível de capacidade base, que a seleção de modelo define. Os botões funcionam sozinhos e combinam como quiseres.
Para o teu trabalho interativo de maior valor, tudo sobe: modo fast ativo, esforço alto, Opus 4.6. Formatação rápida ou boilerplate é boa combinação para modo fast com esforço baixo. Trabalho em segundo plano que ninguém observa fica em velocidade padrão e poupa dinheiro a custo de impacto zero. Ajusta a definição à tarefa à tua frente. Uma configuração fixa não serve.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
Otimização da velocidade
A seleção do modelo, o tamanho do contexto e a especificidade do pedido são as três alavancas que decidem a rapidez com que o Código Claude responde. /modelo de haiku, /compacto, e /claro coberto.
Padrões de Eficiência
Frameworks de permutação transformam 8 a 12 builds manuais numa template CLAUDE.md que o Claude Code usa para gerar as variações 11, 12 e 13 a pedido. Capturas uma vez.