Le mode rapide de Claude Code
Le mode rapide route tes requêtes Opus 4.6 sur un chemin de service prioritaire dans Claude Code. Mêmes poids, même plafond, réponses 2,5x plus vite à un tarif token plus élevé.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Problème : Le travail interactif sur Opus 4.6 traîne. Chaque aller-retour est assez lent pour casser le rythme. Baisser le niveau d'effort réduit la latence au prix de la qualité, et tu veux toute la profondeur à un rythme plus soutenu.
Gain rapide : Dans ta session Claude Code, tape /fast et appuie sur Tab. Un éclair apparaît à côté du prompt. Même modèle sous le capot, réponses 2,5x plus rapides.
Ce qu'est vraiment le mode rapide
Voilà l'essentiel à comprendre : le mode rapide ne change pas le modèle que tu utilises. Opus 4.6 reste Opus 4.6. Mêmes poids. Mêmes capacités. Même plafond de qualité. Pas de remplacement discret par Haiku déguisé en Opus. Ce que tu obtiens, c'est Opus 4.6 sur une voie d'infrastructure prioritaire.
Ce qui change vraiment, c'est la configuration de service. Tes appels API prennent un chemin plus rapide, et les réponses arrivent environ 2,5x plus tôt qu'avec Opus 4.6 standard. Le prix par token augmente en échange de la priorité. Le modèle reste aussi intelligent. Pas de raisonnement raccourci, pas de sortie compressée, rien de sauté pour atteindre la latence plus basse. Même réponse. Arrivée plus rapide.
C'est pourquoi la distinction compte. Avant le mode rapide, le seul moyen d'accélérer Claude Code était de baisser le niveau d'effort, ce qui réduit vraiment la quantité de réflexion mise dans une réponse. Moins de temps de raisonnement fonctionne sur les tâches simples et casse sur tout ce qui est complexe. Le mode rapide contourne ce compromis. Vitesse à la même qualité.
Le mode rapide a été lancé en avant-première recherche, donc attends-toi à ce qu'Anthropic affine la tarification, les limites de débit et l'expérience globale au fil du temps.
Comment activer le mode rapide de Claude Code
Une commande le bascule :
/fast
Appuie sur Tab pour confirmer. C'est tout. Une icône d'éclair apparaît à côté de ton prompt, confirmant que le mode rapide est actif. Tape /fast à nouveau pour le désactiver.
Tu peux aussi l'activer de façon permanente dans ton fichier de paramètres utilisateur :
{
"fastMode": true
}Quelques comportements à connaître :
- Persiste entre les sessions. Le mode rapide reste actif d'une session à l'autre jusqu'à ce que tu le désactives toi-même.
- Bascule automatiquement sur Opus 4.6. Tu es sur Haiku ou Sonnet quand tu actives le mode rapide ? Tu passes automatiquement sur Opus 4.6.
- La désactivation garde ton modèle. Désactive le mode rapide avec
/fastet ton modèle reste sur Opus 4.6. Pour passer à autre chose, tape/model.
Détail de la tarification
Les tarifs dépendent de la taille de ta fenêtre de contexte. Tableau complet des prix :
| Mode | Entrée (par MTok) | Sortie (par MTok) |
|---|---|---|
| Mode rapide Opus 4.6 (moins de 200K contexte) | $30 | $150 |
| Mode rapide Opus 4.6 (plus de 200K contexte) | $60 | $225 |
Quelques détails sur les coûts à garder en tête :
- Compatible avec le contexte étendu 1M. La fenêtre de contexte complète de 1M est supportée, mais les tarifs augmentent au-dessus de 200K tokens.
- Facturé uniquement sur l'usage extra. Les tokens du mode rapide restent hors de l'usage inclus dans ton forfait. Chacun atterrit sur la ligne d'usage extra.
- Changer en milieu de conversation coûte cher. Active le mode rapide en cours de session et tu retarifes tout ton contexte existant au tarif d'entrée non mis en cache. Pour garder les coûts bas, active-le avant ton premier message.
Quand utiliser le mode rapide
Le travail interactif est là où la vitesse supplémentaire porte vraiment, parce que c'est la latence qui te ralentit :
- Cycles d'itération rapides. Modifie, lance, demande à Claude d'ajuster, recommence. Sur des dizaines de ces micro-interactions par session, le 2,5x se cumule. Une session de débogage avec 25 allers-retours se termine environ 15 à 20 minutes plus tôt en mode rapide qu'avec Opus 4.6 standard. Une tâche de 20 allers-retours se ressent fondamentalement différente à 2,5x.
- Débogage en direct. Quand tu traces un bug à travers des stack traces et des logs, l'attente de chaque réponse, c'est ce qui brise ta concentration. Des réponses plus rapides maintiennent le flux. Tu restes focalisé sur le problème au lieu de perdre le fil pendant que le curseur clignote.
- Délais urgents. Des hotfixes à 2h du matin. Des démos dans une heure. Dans ces moments, payer plus par token est clairement rentable. La surprime disparaît dès que tu la mesures face au coût de livrer en retard.
- Pair programming interactif. Chaque moment où la latence bat le coût, parce que tu réfléchis aux côtés de Claude en temps réel et chaque pause casse le rythme. Les discussions de design où les idées fusent sont l'exemple le plus clair.
Quand passer le mode rapide
Le mode standard gagne chaque fois que la latence n'est pas le goulot d'étranglement. Test rapide : tu es assis à regarder le curseur ? Si non, les tarifs normaux te donnent le même résultat pour moins.
- Longues tâches autonomes. Lance un gros refactor, pars, reviens. Le temps de réponse t'est invisible, alors économise l'argent.
- Traitement batch ou pipelines CI/CD. Les flux automatisés ne voient aucun bénéfice de la latence réduite. Les tarifs standard sont le bon choix.
- Charges de travail sensibles au coût. Brûler des tokens sur une analyse de grande codebase, tu obtiens un résultat identique au tarif normal. La qualité ne change pas, donc la surprime n'achète rien.
- Tâches où tu t'éloignes. Dis à Claude de restructurer un module, va chercher un café, et la différence de vitesse est littéralement imperçue. Le mode rapide ne paie que quand tu regardes le curseur.
Mode rapide vs niveau d'effort
Deux réglages, deux mécanismes différents pour accélérer les choses :
| Réglage | Ce qu'il fait |
|---|---|
| Mode rapide | Même qualité de modèle, latence réduite, coût par token plus élevé |
| Niveau d'effort réduit | Moins de temps de réflexion, réponses plus rapides, qualité potentiellement moindre sur les tâches complexes |
Les deux peuvent tourner ensemble. Mode rapide plus niveau d'effort réduit combine la vitesse d'infrastructure avec la charge de réflexion réduite en une seule fois. C'est un excellent choix pour les petits boulots : formatage, refactors simples, boilerplate, partout où l'analyse profonde ne justifie pas son coût. Sur les choix architecturaux complexes ou le débogage difficile, garde le niveau d'effort élevé et laisse le mode rapide gérer la latence. Deux réglages indépendants. Chaque tâche se règle selon ses propres mérites au lieu d'être bloquée dans un compromis unique.
Limites de débit et comportement de repli
Le mode rapide a sa propre limite de débit, indépendante du pool Opus 4.6 standard. L'activer laisse ta limite normale intacte, et vice versa. Quand tu atteins le plafond, Claude Code gère ça proprement :
- Repli automatique sur Opus 4.6 standard. La session continue sans interruption. Tu perds la vitesse prioritaire un moment, c'est tout. Pas d'erreur, pas de workflow interrompu.
- L'éclair devient gris. L'indicateur passe en mode refroidissement, donc un coup d'œil au prompt te dit où tu en es.
- Vitesse et tarification standard s'appliquent. La facturation passe aux tarifs Opus 4.6 normaux pendant la fenêtre de repli. Après une grosse rafale en mode rapide, c'est en fait une pause sur les coûts.
- Réactivation automatique quand prêt. Le refroidissement se termine, le mode rapide se réactive tout seul. Tu n'as rien à faire.
Tu n'as pas envie d'attendre la fin du refroidissement ? Tape /fast pour désactiver le mode rapide manuellement et continue aux tarifs standard jusqu'à ce que tu décides de rebascule.
Prérequis et disponibilité
La couverture n'est pas universelle. Voilà ce qu'il faut :
- Anthropic direct uniquement. L'accès passe par l'API Anthropic Console et les forfaits d'abonnement Claude. Amazon Bedrock, Google Vertex AI et Microsoft Azure Foundry ne le proposent pas.
- L'usage extra doit être activé. Comme chaque token du mode rapide est facturé en usage extra, ton compte doit avoir l'usage extra activé.
- Restrictions Teams et Enterprise. Les admins d'organisation doivent activer le mode rapide dans les paramètres Console ou les paramètres admin Claude AI avant que quiconque dans l'équipe puisse l'utiliser. Sans ça,
/fastrenvoie : "Fast mode has been disabled by your organization."
Mode rapide avec les équipes d'agents
Sur les équipes d'agents, le mode rapide reste attaché à la session lead. Les agents coéquipiers gardent leurs propres réglages de vitesse, ce qui te donne un contrôle précis sur où va le coût dans un workflow multi-agent.
Une configuration d'équipe qui fonctionne bien ressemble à ça. L'agent lead tourne en mode rapide pour la coordination rapide et les décisions. Les coéquipiers restent à vitesse standard pour que la facture reste raisonnable. Les échanges interactifs courts restent avec le lead, comme réviser les sorties des coéquipiers, prendre des décisions de routage, et répondre à tes questions directes. Les coéquipiers prennent les longues tâches autonomes, comme écrire des tests, refactorer des modules, ou générer de la documentation, où un gain de 2,5x ne changerait pas vraiment ce que tu ressens.
Conseils d'optimisation des coûts
Quelques gestes pratiques pour éviter que le mode rapide fasse exploser la note :
- Active-le au début de la session. Activer le mode rapide en milieu de conversation retarifie tout ton contexte au tarif d'entrée non mis en cache. Avec 50K tokens déjà en jeu, c'est un vrai coup. Active-le avec le premier message et la pénalité ne se déclenche jamais.
- Associe avec les niveaux d'effort. Mode rapide plus niveau d'effort réduit donne aux tâches simples le maximum de vitesse. Monte l'effort quand le travail se complexifie.
- Bascule selon le type de travail. Lance le mode rapide pendant le code en direct, puis désactive-le avant de lancer quoi que ce soit d'autonome. Quelques secondes de bascule par jour économisent des tokens significatifs.
- Surveille via la Console. Suis l'usage et la facturation dans le tableau de bord Anthropic Console pour voir comment le mode rapide change tes dépenses. Une ou deux semaines de données te montrent où te stabiliser entre vitesse et coût.
Tout mettre ensemble
Un seul écart est exactement ce que le mode rapide comble : la qualité d'Opus 4.6 sans l'attente d'Opus 4.6. Ce qu'il te coûte, c'est des dollars, pas de l'intelligence. Pour les développeurs qui passent des heures par jour en sessions Claude Code interactives, la surprime se rembourse d'elle-même grâce au focus maintenu et aux boucles d'itération plus serrées.
Pense à ça comme trois réglages indépendants sur la performance de Claude Code. Un réglage est la vitesse d'infrastructure, c'est ce que le mode rapide contrôle. Un autre est la profondeur de réflexion, c'est ce que les niveaux d'effort contrôlent. Le troisième est le niveau de capacité de base, c'est ce que la sélection de modèle définit. Les réglages fonctionnent seuls et se combinent comme tu veux.
Pour ton travail interactif le plus précieux, tout monte : mode rapide activé, effort élevé, Opus 4.6. Le formatage rapide ou le boilerplate convient bien au mode rapide avec effort réduit. Le travail en arrière-plan que personne ne regarde a droit à la vitesse standard et économise de l'argent sans coût perceptible. Adapte le réglage à la tâche devant toi. Une configuration fixe ne suffit pas.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Optimisation de la vitesse
Le choix du modèle, la taille du contexte et la spécificité de l'invite sont les trois leviers qui décident de la rapidité des réponses de Claude Code. /model haiku, /compact, et /clear covered.
Modèles d'efficacité
Les frameworks de permutation transforment 8 à 12 builds manuels en un template CLAUDE.md que Claude Code utilise pour générer les variations 11, 12 et 13 à la demande. Capturé une seule fois.