Build This Now
Build This Now
Vrais BuildsLe build n'est plus le goulot d'étranglementLa distribution, c'est le nouveau fossé défensifPourquoi le vrai goulot d'étranglement de l'IA, c'est le QALes premiers principes à l'ère du MVP en 24 heuresLa courbe d'autonomie : combien de liberté peux-tu donner à un agent IA ?De l'idée au SaaSBoucle GANHooks Auto-ÉvolutifsDe la trace au skillQuatre agents de distribution qui tournent tout seulsUne équipe de sécurité IA pour ton SaaSEssaim IA autonome : comment construire un système qui livre des features pendant la nuitSéquences d'emails IAL'IA se nettoie elle-mêmeAgent Swarm OrchestrationConstruire une app complète avec Claude Code : exemples concretsClaude Code pour les non-développeurs : exemples concretsClaude Code for Freelancers: Ship 3x FasterA Security Update from Build This Now
speedy_devvkoen_salo
Blog/Real Builds/Why QA Is the Real Bottleneck in AI Development

Pourquoi le vrai goulot d'étranglement de l'IA, c'est le QA

Le problème le plus dur à résoudre dans le dev logiciel par IA, ce n'est pas de générer des features. C'est de les vérifier à grande échelle. Le QA ne se parallélise pas comme la génération.

Arrête de tout configurer. Place à la construction.

Des templates SaaS avec orchestration IA.

Published Jun 11, 20267 min readReal Builds hub

Aujourd'hui, le problème le plus dur du dev logiciel par IA, c'est l'assurance qualité, pas la génération. Construire des features avec une IA, ça coûte presque rien et c'est quasiment résolu. Le vrai défi, c'est de vérifier que ces features marchent vraiment, à la vitesse et au volume où tu peux maintenant les produire. Le QA, c'est le plafond actuel de l'autonomie des agents, parce que la vérification ne se parallélise pas comme la génération.

Ça fait à peu près 18 mois qu'on livre du SaaS construit par IA, de Claude Opus 4.1 jusqu'à Claude Fable 5. Sur cette période, le côté build est devenu radicalement plus rapide pendant que le côté vérification, lui, a à peine bougé. Tout est dans cet écart.


Arrête de tout configurer. Place à la construction.

Des templates SaaS avec orchestration IA.


Construire n'est plus la partie difficile

Build This Now est un build system de SaaS propulsé par l'IA : un codebase de production plus 18 agents IA spécialisés qui planifient, construisent, testent et livrent des features en langage courant. Avec un bon moteur d'agents et un vrai codebase de production en dessous, la génération n'est plus la contrainte.

Un MVP qui nous prenait un mois se boucle maintenant en une journée. Auth, paiements, sécurité de la base, e-mails, jobs en arrière-plan : la plupart est déjà branché, et l'IA construit les features sur mesure par-dessus. Le coût pour produire une feature qui marche a chuté d'un facteur dix.

Donc on a fait le truc évident. On a essayé d'en lancer plus en parallèle.

Et c'est là qu'on a heurté le mur.

Le mur : tu ne peux pas vérifier tout ce que tu construis

D'après notre expérience, impossible de dépasser de façon fiable environ quatre features en parallèle avant que ça vire au chaos. Les agents de build, eux, suivaient sans problème. La vérification, non.

Passé environ quatre features en même temps, trois choses partaient de travers :

  1. Les exécutions de tests commençaient à se télescoper. État partagé, lignes de base partagées, ports partagés. Le setup de test d'une feature écrasait le teardown d'une autre.
  2. L'état dérivait. L'environnement que les tests supposaient ne correspondait plus à celui qui existait, parce qu'un agent voisin l'avait modifié sous leur nez.
  3. Les agents de test partaient en boucle. Ils relançaient et revérifiaient les mêmes flows sans converger, brûlant du temps et des tokens, sans savoir si un échec était réel ou juste une collision.

Aucun de ces problèmes n'est un problème de génération. Ce sont des problèmes de vérification. Et ils empirent, au lieu de s'améliorer, à mesure que tu ajoutes du travail en parallèle.

La génération scale. La vérification non.

Voilà l'asymétrie au cœur du sujet. Générer une feature, c'est surtout une tâche indépendante : donne un spec et un codebase à un agent, et il bosse dans son coin. Vérifier une feature, c'est une tâche partagée : le test doit observer un vrai comportement dans un vrai environnement, et cet environnement, c'est justement ce que tous les autres agents touchent aussi.

PropriétéGénérationVérification
Unité de travailUn spec, plutôt isoléUn comportement, observé dans un environnement partagé
ParallélismeScale presque linéairementSe télescope quand la concurrence monte
Dépendance à l'étatFaible (écrit son propre code)Forte (dépend d'un environnement que d'autres modifient)
Mode d'échec à l'échellePlus lent, mais correctBoucles, faux échecs, pas de convergence
Tendance de coût quand tu ajoutes des agentsÀ peu près stable par featureGrimpe vite (coût de coordination)

Tu peux lancer dix agents sur dix features et récupérer dix features. Tu ne peux pas lancer dix agents sur dix suites de tests dans un seul environnement et récupérer dix verdicts propres. Les vérificateurs se disputent le même monde.

Voilà pourquoi le QA est le goulot d'étranglement. Ce n'est pas que tester soit dur dans l'absolu. C'est que tester résiste à la chose exacte qui a rendu la génération bon marché : faire tourner plein de copies d'un coup.

La fiabilité baisse quand le parallélisme monte

Voici l'allure de ce qu'on a observé, présenté comme « features en parallèle » contre « à quel point la vérification reste fiable ». Ce sont nos plages observées, pas des benchmarks.

Features en parallèleÀ quoi ressemblait la vérification
1 à 2Propre. Les tests tournaient, les échecs étaient réels, les résultats fiables.
3 à 4Globalement bien. Collisions occasionnelles, gérables avec de l'isolation.
5 à 6Dérive et faux échecs. Les agents de test se mettaient à relancer sans converger.
7 ou plusPas fiable. Boucles, contention, des résultats auxquels tu ne pouvais pas te fier sans revérifier à la main.

La ligne de build est restée plate sur toute cette plage. On pouvait générer sept features aussi facilement que deux. On ne pouvait juste pas croire les résultats de tests pour sept.

Pourquoi de meilleurs modèles aident, sans régler le problème

Des modèles plus costauds font vraiment bouger les choses. Plus de contexte, c'est un agent qui garde plus de système en tête et fait moins d'erreurs, donc moins de choses à rattraper en aval. Moins de bugs générés, c'est moins de bugs à vérifier.

Claude Fable 5, le tout dernier modèle d'Anthropic pour le travail complexe de longue haleine (à $10 par million de tokens en entrée et $50 par million en sortie), encaisse une partie du problème autrement. Il tient des chaînes plus longues sans dériver, donc un agent de vérification peut rester cohérent sur une longue boucle de test-et-correction, au lieu de perdre le fil à mi-chemin et de partir en vrille. Ça attaque directement le mode d'échec en boucle qu'on rencontrait sans arrêt.

Mais ça relève le plafond. Ça ne l'enlève pas. L'asymétrie est structurelle. Tant que la vérification doit observer un comportement dans un environnement partagé, ajouter des vérificateurs en parallèle ajoute de la contention. Un meilleur modèle converge plus vite et dérive moins, ce qui t'offre plus de features simultanées avant le mur. Ça ne repousse pas le mur à l'infini.

Le QA à grande échelle reste le défi du moment, et c'est le prochain vrai déblocage. L'équipe qui trouve comment paralléliser la vérification comme on parallélise déjà la génération décroche le prochain bond d'un facteur dix dans l'autonomie des agents. On a écrit, à partir des premiers principes, sur le fait que construire n'est pas le goulot d'étranglement, et tu retrouves la même limite en pratique dans notre façon de faire tourner un essaim d'IA autonome et dans la raison pour laquelle on s'appuie sur des évaluateurs adverses pour garder nos vérificateurs honnêtes.

FAQ

Pourquoi les agents IA n'arrivent-ils pas à tester du code à grande échelle ?

Les agents IA n'arrivent pas à tester du code à grande échelle parce que la vérification dépend d'un environnement partagé, contrairement à la génération. Chaque test doit observer un vrai comportement dans un vrai système, et quand plein d'agents testent en parallèle, ils se disputent la même base, le même état et les mêmes ressources. La génération est isolée et se parallélise bien. La vérification, elle, se télescope. D'après notre expérience, les exécutions de tests commencent à se gêner passé environ quatre features en concurrence.

Combien d'agents IA peut-on lancer en parallèle avant que la qualité s'effondre ?

D'après notre expérience à construire du SaaS IA depuis environ 18 mois, impossible de dépasser de façon fiable quatre features en parallèle avant que la vérification devienne incertaine. Au-delà, les agents de build scalaient très bien, mais les agents de test se mettaient à se télescoper, à dériver et à boucler sans converger. Le chiffre exact dépend de l'isolation de l'environnement, mais l'asymétrie entre génération et vérification reste constante : construire scale, vérifier non.

Quel est le vrai goulot d'étranglement du dev logiciel par IA ?

Le vrai goulot d'étranglement du dev logiciel par IA, c'est l'assurance qualité, pas la génération. Produire une feature qui marche avec un bon moteur d'agents prend désormais une journée au lieu d'un mois. Vérifier ces features à la vitesse où tu peux les générer reste non résolu, parce que la vérification ne se parallélise pas comme la génération. Le QA, c'est le vrai plafond de l'autonomie des agents aujourd'hui.

Est-ce que de meilleurs modèles règlent le goulot d'étranglement du QA ?

De meilleurs modèles aident, mais ne le règlent pas. Plus de contexte et moins d'erreurs, c'est moins de bugs à rattraper, et des modèles comme Claude Fable 5 tiennent des chaînes de vérification plus longues sans dériver, ce qui réduit le mode d'échec en boucle. Mais le goulot est structurel : la vérification observe un environnement partagé, donc ajouter des vérificateurs en parallèle ajoute de la contention. Des modèles plus costauds relèvent le plafond ; ils ne l'enlèvent pas.

La suite

La génération est assez bien résolue pour ne plus être intéressante. Le problème ouvert, c'est une vérification qui scale comme la génération. Celui qui craque le QA parallèle débloque le niveau d'autonomie suivant, et c'est ce travail qu'on surveille, et vers lequel on construit, avec Claude Fable 5 et le moteur autour.

More in Real Builds

  • L'IA se nettoie elle-même
    Trois workflows Claude Code overnight qui nettoient le bazar de l'IA : slop-cleaner supprime le code mort, /heal répare les branches cassées, /drift détecte la dérive des patterns.
  • Agent Swarm Orchestration
    Four infrastructure layers that stop agent swarms from double-claiming tasks, drifting on field names, and collapsing under merge chaos.
  • Boucle GAN
    Un agent génère, l'autre le démonte, ils bouclent jusqu'à ce que le score cesse de s'améliorer. Implémentation de la boucle GAN avec définitions d'agents et modèles de rubrique.
  • La courbe d'autonomie : combien de liberté peux-tu donner à un agent IA ?
    L'autonomie que tu peux donner à un agent IA dépend d'une seule chose : combien de temps un modèle tient une tâche sans dériver. Un bon moteur et un modèle fiable, c'est ça qui débloque le vrai travail d'agent.
  • Séquences d'emails IA
    Une commande Claude Code construit 17 emails de cycle de vie sur 6 séquences, câble les déclencheurs comportementaux Inngest, et livre un funnel d'emails à embranchements prêt à déployer.
  • Une équipe de sécurité IA pour ton SaaS
    Deux commandes Claude Code déploient huit sous-agents de sécurité : la phase 1 scanne ta logique SaaS pour détecter les failles RLS et les bugs d'auth, la phase 2 tente d'exploiter chaque résultat pour ne garder que les vrais bugs.

Arrête de tout configurer. Place à la construction.

Des templates SaaS avec orchestration IA.

La distribution, c'est le nouveau fossé défensif

Quand l'IA fait du dev un boulot de week-end, le fossé se déplace vers la distribution. Construire est devenu banal, se faire trouver est tout le jeu, et le bon move c'est un écosystème.

Les premiers principes à l'ère du MVP en 24 heures

Quand l'IA te laisse tout construire en une journée, ce n'est plus le code qui fait gagner. Ce sont la focalisation, les premiers principes et la vitesse pour atteindre le product-market fit.

On this page

Construire n'est plus la partie difficile
Le mur : tu ne peux pas vérifier tout ce que tu construis
La génération scale. La vérification non.
La fiabilité baisse quand le parallélisme monte
Pourquoi de meilleurs modèles aident, sans régler le problème
FAQ
Pourquoi les agents IA n'arrivent-ils pas à tester du code à grande échelle ?
Combien d'agents IA peut-on lancer en parallèle avant que la qualité s'effondre ?
Quel est le vrai goulot d'étranglement du dev logiciel par IA ?
Est-ce que de meilleurs modèles règlent le goulot d'étranglement du QA ?
La suite

Arrête de tout configurer. Place à la construction.

Des templates SaaS avec orchestration IA.