Build This Now
Build This Now
O que é o Código Claude?Instalar o Claude CodeInstalador Nativo do Claude CodeO Teu Primeiro Projeto com Claude Code
Técnicas de Pensamento ProfundoOtimização da velocidadeModo Fast do Claude CodePadrões de Eficiência
speedy_devvkoen_salo
Blog/Handbook/Performance/Claude Code Fast Mode

Modo Fast do Claude Code

O modo fast encaminha os teus pedidos ao Opus 4.6 por uma via de serviço prioritária no Claude Code. Mesmo modelo, mesmo teto de qualidade, respostas 2.5x mais rápidas a uma taxa de tokens mais elevada.

Pare de configurar. Comece a construir.

Templates SaaS com orquestração de IA.

Published Feb 22, 2026Handbook hubPerformance index

Problema: O trabalho interativo no Opus 4.6 arrasta. Cada viagem de ida e volta parece lenta o suficiente para quebrar o ritmo. Baixar o nível de esforço reduz a latência mas sacrifica a qualidade, e queres a profundidade total a um ritmo mais rápido.

Solução rápida: Dentro da tua sessão do Claude Code, corre /fast e prime Tab. Um raio aparece ao lado do prompt. Mesmo modelo por baixo, respostas 2.5x mais rápidas.

O Que É Realmente o Modo Fast

Aqui está a coisa principal a entender: o modo fast não muda o modelo que estás a correr. O Opus 4.6 continua a ser o Opus 4.6. Mesmos pesos. Mesmas capacidades. Mesmo teto de qualidade. Não há troca silenciosa para o Haiku embrulhado como Opus. O que estás a obter é o Opus 4.6 numa via de infraestrutura prioritária.

O que muda de facto é a configuração de serviço. As tuas chamadas de API tomam uma rota mais rápida, e as respostas chegam cerca de 2.5x mais depressa do que no Opus 4.6 padrão. O preço por token sobe em troca da prioridade. O modelo fica igualmente inteligente. Sem raciocínio abreviado, sem output comprimido, nada saltado para atingir a latência mais baixa. Mesma resposta. Chegada mais rápida.

É por isso que a distinção importa. Antes do modo fast, a única forma de acelerar o Claude Code era baixar o nível de esforço, o que realmente reduz a quantidade de pensamento que vai para uma resposta. Menos tempo de raciocínio funciona em tarefas simples e falha em qualquer coisa complexa. O modo fast salta essa troca. Velocidade com a mesma qualidade.

O modo fast foi lançado como pré-visualização de investigação, por isso espera que a Anthropic refine os preços, os limites de taxa e a experiência geral ao longo do tempo.

Como Ativar o Modo Fast do Claude Code

Um comando ativa-o:

/fast

Prime Tab para confirmar. É isso. Um ícone de raio aparece ao lado do teu prompt, confirmando que o modo fast está ativo. Corre /fast novamente para desativar.

Também podes defini-lo permanentemente no teu ficheiro de definições de utilizador:

{
  "fastMode": true
}

Alguns comportamentos a saber:

  • Persiste entre sessões. O modo fast mantém-se ativo de uma sessão para a seguinte até o desativares tu mesmo.
  • Troca automaticamente para o Opus 4.6. No Haiku ou Sonnet quando ativas o modo fast? Passas automaticamente para o Opus 4.6.
  • Desativar mantém o teu modelo. Desliga o modo fast com /fast e o teu modelo fica no Opus 4.6. Para mudar para outro, corre /model.

Detalhamento de Preços

As taxas dependem do tamanho da tua janela de contexto. Tabela de preços completa:

ModoEntrada (por MTok)Saída (por MTok)
Modo fast Opus 4.6 (abaixo de 200K contexto)$30$150
Modo fast Opus 4.6 (acima de 200K contexto)$60$225

Alguns detalhes de custo a ter em mente:

  • Compatível com contexto expandido de 1M. A janela de contexto completa de 1M é suportada, embora as taxas aumentem acima dos 200K tokens.
  • Faturado apenas em uso extra. Os tokens do modo fast ficam fora do uso incluído no teu plano. Todos eles caem na linha de uso extra.
  • Mudar a meio da conversa é caro. Ativar o modo fast a meio de uma sessão volta a calcular o preço de todo o contexto existente à taxa de entrada não em cache. Para manter os custos baixos, ativa-o antes da tua primeira mensagem.

Quando Usar o Modo Fast

O trabalho interativo é onde a velocidade extra realmente se sente, porque a latência é o que te está a abrandar:

  • Ciclos de iteração rápida. Edita, corre, pede ao Claude para ajustar, repete. Ao longo de dezenas destas microinterações por sessão, o 2.5x acumula. Uma sessão de depuração com 25 viagens de ida e volta termina aproximadamente 15-20 minutos mais cedo no modo fast do que no Opus 4.6 padrão. Uma tarefa de 20 viagens de ida e volta parece fundamentalmente diferente a 2.5x de velocidade.
  • Depuração ao vivo. A perseguir um bug através de stack traces e output de logs, a espera por cada resposta é o que quebra a concentração. Respostas mais rápidas mantêm o estado de fluxo. Ficas focado no problema em vez de perder o fio enquanto o cursor pisca.
  • Prazos urgentes. Correções às 2 da manhã. Demos a uma hora. Nesses momentos, pagar mais por token é obviamente a escolha certa. O custo extra desaparece quando o medes contra o custo de entregar tarde.
  • Programação em par interativa. Qualquer momento onde a latência supera o custo, porque estás a pensar ao lado do Claude em tempo real e cada pausa quebra o ritmo. Discussões de design onde as ideias voam de um lado para o outro são o exemplo mais claro.

Quando Saltar o Modo Fast

O modo padrão ganha sempre que a latência não é o gargalo. Aqui está o teste rápido: estás ali a ver o cursor? Se não, as taxas normais dão-te o mesmo output por menos.

  • Tarefas autónomas longas. Inicia uma refatoração grande, vai-te embora, volta. O tempo de resposta é invisível para ti, por isso poupa o dinheiro.
  • Processamento em lote ou pipelines CI/CD. Os fluxos automatizados não beneficiam de menor latência. As taxas padrão são a escolha certa.
  • Cargas de trabalho sensíveis ao custo. A gastar tokens numa análise de codebase grande, obtens output idêntico à taxa normal. A qualidade não muda, por isso o custo extra não compra nada.
  • Tarefas onde te afastas. Diz ao Claude para reestruturar um módulo, vai buscar um café, e a diferença de velocidade literalmente não se nota. O modo fast só compensa enquanto estás a ver o cursor.

Modo Fast vs. Nível de Esforço

Duas definições, dois mecanismos diferentes para tornar as coisas mais rápidas:

DefiniçãoO Que Faz
Modo fastMesma qualidade de modelo, menor latência, custo mais elevado por token
Nível de esforço mais baixoMenos tempo de pensamento, respostas mais rápidas, potencialmente menor qualidade em tarefas complexas

Ambos podem correr juntos. Modo fast mais nível de esforço mais baixo combina a velocidade de infraestrutura com a menor sobrecarga de pensamento de uma vez. É uma boa escolha para trabalhos rápidos: formatação, refatorações simples, boilerplate, onde a análise profunda não se justifica. Em decisões arquiteturais complexas ou depuração complicada, mantém o nível de esforço alto e deixa o modo fast tratar da latência. Dois botões independentes. Cada tarefa é ajustada pelos seus próprios méritos em vez de ficar presa numa definição de compromisso.

Limites de Taxa e Comportamento de Fallback

O modo fast tem o seu próprio limite de taxa, independente do pool do Opus 4.6 padrão. Ativá-lo não afeta o teu limite normal, e vice-versa. Quando atinges o teto, o Claude Code passa por ele sem problemas:

  1. Fallback automático para o Opus 4.6 padrão. A sessão continua sem interrupção. Perdes a velocidade prioritária por um tempo, é tudo. Sem erro, sem fluxo de trabalho interrompido.
  2. O raio fica cinzento. O indicador muda para modo de arrefecimento, por isso um olhar ao prompt diz-te onde estás.
  3. Velocidade e preços padrão aplicam-se. A faturação cai para as taxas normais do Opus 4.6 durante a janela de fallback. Depois de uma explosão intensa de modo fast, isso é na verdade uma pausa no custo.
  4. Reativa automaticamente quando pronto. O arrefecimento termina, o modo fast volta a ligar-se sozinho. Nada para fazer da tua parte.

Não queres esperar o arrefecimento? Corre /fast para desligar o modo fast manualmente e continua às taxas padrão até decidires voltar.

Requisitos e Disponibilidade

A cobertura não é universal. Aqui está o que precisas:

  • Apenas Anthropic direto. O acesso corre pela Anthropic Console API e pelos planos de subscrição do Claude. O Amazon Bedrock, Google Vertex AI e Microsoft Azure Foundry não o suportam.
  • O uso extra tem de estar ativado. Como todos os tokens do modo fast são faturados em uso extra, a tua conta tem de ter o uso extra ativado.
  • Restrições para Equipas e Enterprise. Os administradores da organização têm de ativar o modo fast nas definições da Console ou nas definições de administração do Claude AI antes que qualquer membro da equipa o possa usar. Sem isso, /fast devolve: "Fast mode has been disabled by your organization."

Modo Fast com Equipas de Agentes

Nas equipas de agentes, o modo fast fica na sessão líder. Os agentes companheiros mantêm as suas próprias definições de velocidade, o que te dá controlo preciso sobre onde vai o custo num fluxo de trabalho multi-agente.

Uma configuração de equipa funcional tem este aspeto. O agente líder corre em modo fast para coordenação rápida e decisões. Os companheiros ficam em velocidade padrão para manter a conta razoável. As trocas interativas curtas ficam com o líder, como rever o output dos companheiros, fazer escolhas de encaminhamento e responder às tuas perguntas diretas. Os companheiros ficam com os trabalhos autónomos longos, como escrever testes, refatorar módulos ou gerar documentação, onde um speedup de 2.5x não mudaria realmente o que sentes.

Dicas de Otimização de Custos

Alguns movimentos práticos para evitar que o modo fast dispare a conta:

  • Ativa no início da sessão. Ligar o modo fast a meio da conversa volta a calcular o preço de todo o contexto à taxa de entrada não em cache. Com 50K tokens já em jogo, isso é um impacto real. Liga-o com a primeira mensagem e a penalidade nunca dispara.
  • Combina com níveis de esforço. Modo fast mais nível de esforço mais baixo dá às tarefas simples a maior velocidade. Aumenta o esforço de volta quando o trabalho fica complexo.
  • Alterna conforme o tipo de trabalho. Corre o modo fast durante a programação prática, depois desliga-o antes de iniciar qualquer coisa autónoma. Alguns segundos de alternância por dia poupa um gasto de tokens significativo.
  • Monitoriza pela Console. Rastreia o uso e a faturação dentro do painel da Anthropic Console para que possas ver como o modo fast muda o teu gasto. Uma ou duas semanas de dados mostram-te onde equilibrar velocidade e custo.

Pôr Tudo Junto

O modo fast preenche exatamente uma lacuna: qualidade do Opus 4.6 sem a espera do Opus 4.6. O que te custa é dinheiro, não inteligência. Para developers que passam horas por dia em sessões interativas do Claude Code, o custo extra paga-se através da concentração sustentada e ciclos de iteração mais apertados.

Pensa nisso como três botões independentes no desempenho do Claude Code. Um botão é a velocidade de infraestrutura, que é o que o modo fast controla. Outro é a profundidade de pensamento, que os níveis de esforço controlam. O terceiro é o nível de capacidade base, que a seleção de modelo define. Os botões funcionam sozinhos e combinam como quiseres.

Para o teu trabalho interativo de maior valor, tudo sobe: modo fast ativo, esforço alto, Opus 4.6. Formatação rápida ou boilerplate é boa combinação para modo fast com esforço baixo. Trabalho em segundo plano que ninguém observa fica em velocidade padrão e poupa dinheiro a custo de impacto zero. Ajusta a definição à tarefa à tua frente. Uma configuração fixa não serve.

Continue in Performance

  • Técnicas de Pensamento Profundo
    Frases de gatilho como think harder, ultrathink e think step by step empurram o Claude Code para raciocínio expandido e mais computação em tempo de inferência, no mesmo modelo.
  • Padrões de Eficiência
    Frameworks de permutação transformam 8 a 12 builds manuais numa template CLAUDE.md que o Claude Code usa para gerar as variações 11, 12 e 13 a pedido. Capturas uma vez.
  • Otimização da velocidade
    A seleção do modelo, o tamanho do contexto e a especificidade do pedido são as três alavancas que decidem a rapidez com que o Código Claude responde. /modelo de haiku, /compacto, e /claro coberto.

More from Handbook

  • Fundamentos do agente
    Cinco maneiras de criar agentes especializados no Código Claude: Sub-agentes de tarefas, .claude/agents YAML, comandos de barra personalizados, personas CLAUDE.md e prompts de perspetiva.
  • Padrões de Agentes
    Orchestrator, fan-out, cadeia de validação, routing especializado, refinamento progressivo e watchdog. Seis formas de orquestração para ligar sub-agentes no Claude Code.
  • Boas Práticas para Equipas de Agentes
    Padrões testados em produção para Equipas de Agentes Claude Code. Prompts de criação ricos em contexto, tarefas bem dimensionadas, posse de ficheiros, modo delegado, e correções das versões v2.1.33-v2.1.45.
  • Controlos de Equipas de Agentes
    Configura o modo delegado, modos de exibição, aprovação de planos, limites de ficheiros e regras CLAUDE.md para que o líder da tua equipa Claude Code coordene em vez de codificar.

Pare de configurar. Comece a construir.

Templates SaaS com orquestração de IA.

Otimização da velocidade

A seleção do modelo, o tamanho do contexto e a especificidade do pedido são as três alavancas que decidem a rapidez com que o Código Claude responde. /modelo de haiku, /compacto, e /claro coberto.

Padrões de Eficiência

Frameworks de permutação transformam 8 a 12 builds manuais numa template CLAUDE.md que o Claude Code usa para gerar as variações 11, 12 e 13 a pedido. Capturas uma vez.

On this page

O Que É Realmente o Modo Fast
Como Ativar o Modo Fast do Claude Code
Detalhamento de Preços
Quando Usar o Modo Fast
Quando Saltar o Modo Fast
Modo Fast vs. Nível de Esforço
Limites de Taxa e Comportamento de Fallback
Requisitos e Disponibilidade
Modo Fast com Equipas de Agentes
Dicas de Otimização de Custos
Pôr Tudo Junto

Pare de configurar. Comece a construir.

Templates SaaS com orquestração de IA.