Claude 3.5 Sonnet
Claude 3.5 Sonnet lancé en juin 2024 à $3/$15, surpassant Claude 3 Opus sur MMLU, GPQA, HumanEval au cinquième du coût. Specs, benchmarks et gains en codage.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Claude 3.5 Sonnet est la version où les développeurs ont arrêté de toujours prendre le modèle le plus grand. Anthropic l'a sorti le 20 juin 2024, et dès le premier jour les calculs ont changé. Un modèle milieu de gamme à $3 en entrée scorait au niveau ou au-dessus du flagship à $15 en entrée sur la plupart des évaluations publiques. Plus grand ne voulait plus dire meilleur.
Spécifications clés
| Spec | Détails |
|---|---|
| API ID | claude-3-5-sonnet-20240620 |
| Fenêtre de contexte | 200K tokens |
| Tarif en entrée | $3 / 1M tokens |
| Tarif en sortie | $15 / 1M tokens |
| Date de sortie | 20 juin 2024 |
| Tokens de sortie max | 8 192 |
Ce que Claude 3.5 Sonnet a apporté
Intelligence haut de gamme à un prix milieu de gamme. Raisonnement au niveau d'un master, connaissances de premier cycle, génération de code. Sur GPQA, MMLU et HumanEval, cette version tenait bon face à Claude 3 Opus ou le surpassait. Et ça, avec un coût de $3 en entrée et $15 en sortie par million de tokens, contre les $15/$75 que le flagship facturait. Aucun modèle n'avait jamais combiné ces deux choses avant.
Force en codage. C'est la version qui a fait de Claude un vrai outil pour écrire du code. Le score principal en codage est passé de 55% sur le flagship à 64% ici. Beaucoup de développeurs encore sur GPT-4 pour leur code ont basculé pendant cette période. Le raisonnement combiné à la qualité de sortie en a fait le choix de référence pour le travail en ingénierie logicielle.
Vitesse. Le taux de réponse était environ 2x celui du flagship. Dans une session de codage interactive, une interface de chat, ou partout où la latence est le goulot d'étranglement, tu le sentais dès la première requête.
Le moment "Sonnet suffit". Pendant longtemps, la règle était simple : plus le problème est dur, plus le modèle est grand. Cette version a cassé ce réflexe. Les équipes qui payaient le prix Opus ont réalisé que Sonnet les amenait à la même réponse (ou une meilleure) pour un cinquième de la facture. À partir de là, choisir un modèle commençait par Sonnet, pas par le haut du menu.
Face à face avec Claude 3 Opus
| Benchmark | Claude 3 Opus | Claude 3.5 Sonnet |
|---|---|---|
| MMLU | 86.8% | 88.7% |
| GPQA | 50.4% | 59.4% |
| HumanEval | 55% | 64% |
| GSM8K | 95.0% | 96.4% |
Chaque ligne favorise le modèle moins cher. Le tableau se justifiait tout seul.
Le Claude 3.5 Opus manquant
Au lancement de Claude 3.5 Sonnet, Anthropic avait aussi annoncé un Claude 3.5 Opus sur la roadmap. Il n'est jamais arrivé. Claude 4 a absorbé toute la famille 3.5 avant qu'un 3.5 plus grand ne soit jugé nécessaire. Avec Sonnet qui affichait ces résultats, le marché n'a jamais vraiment poussé pour un niveau supérieur en 3.5.
Statut actuel
| Modèle | Statut |
|---|---|
| Claude 3.5 Sonnet (v1) | Remplacé par la v2 (octobre 2024) |
Une v2 a pris le relais en octobre 2024. Elle apportait de nouveaux gains par-dessus la v1 et introduisait Computer Use, une première pour tout modèle frontier.
Pages associées
- Tous les modèles Claude pour la chronologie complète des versions
- Claude 3, la génération précédente
- Claude 3.5 Sonnet v2, la mise à jour sortie en octobre 2024 avec Computer Use
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.