Claude 3.5 Sonnet
Claude 3.5 Sonnet lançado em junho de 2024 a $3/$15, superando Claude 3 Opus no MMLU, GPQA e HumanEval a um quinto do custo. Especificações, benchmarks e ganhos em programação.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
Claude 3.5 Sonnet é o lançamento onde os programadores pararam de usar sempre o modelo maior. Anthropic lançou-o a 20 de junho de 2024, e desde o primeiro dia a matemática dos preços inverteu-se. Um modelo de nível médio com entrada a $3 estava a pontuar igual ou acima do modelo flagship com entrada a $15 na maioria das avaliações públicas. Maior deixou de significar melhor.
Especificações Principais
| Especificação | Detalhes |
|---|---|
| API ID | claude-3-5-sonnet-20240620 |
| Janela de contexto | 200K tokens |
| Preço de entrada | $3 / 1M tokens |
| Preço de saída | $15 / 1M tokens |
| Data de lançamento | 20 de junho de 2024 |
| Máximo de tokens de saída | 8.192 |
O Que Trouxe Claude 3.5 Sonnet
Inteligência de topo a preço médio. Raciocínio de nível de pós-graduação, conhecimento de licenciatura, geração de código. No GPQA, MMLU e HumanEval, este lançamento aguentou o pé contra Claude 3 Opus ou pontuou acima. E fez isso com uma fatura de $3 de entrada e $15 de saída por milhão de tokens, contra os $15/$75 que o flagship cobrava. Nenhum modelo tinha combinado essas duas coisas antes.
Força na programação. Esta é a versão que transformou Claude numa ferramenta real para escrever código. A pontuação de código de destaque subiu de 55% no flagship para 64% aqui. Muitos programadores que ainda usavam GPT-4 para o seu código mudaram neste período. Raciocínio mais qualidade de saída tornaram esta a escolha preferida para trabalho de engenharia de software.
Velocidade. A taxa de resposta ficou em cerca de 2x do que o flagship entregava. Numa sessão de programação interativa, numa UI de chat, ou em qualquer lugar onde a latência é o gargalo, sentias na primeira pedido.
O momento "Sonnet chega". Durante muito tempo a regra era simples. Quanto mais difícil o problema, maior o modelo. Este lançamento quebrou esse reflexo. Equipas que pagavam preços de Opus perceberam que Sonnet os levava à mesma resposta (ou melhor) por um quinto da fatura. A partir daí, escolher um modelo começava com Sonnet, não no topo do menu.
Frente a Frente com Claude 3 Opus
| Benchmark | Claude 3 Opus | Claude 3.5 Sonnet |
|---|---|---|
| MMLU | 86.8% | 88.7% |
| GPQA | 50.4% | 59.4% |
| HumanEval | 55% | 64% |
| GSM8K | 95.0% | 96.4% |
Todas as linhas favorecem o modelo mais barato. A tabela fez o argumento por si mesma.
O Claude 3.5 Opus que Nunca Chegou
No lançamento do Claude 3.5 Sonnet, Anthropic também mencionou um Claude 3.5 Opus no roadmap. Nunca chegou. Claude 4 absorveu toda a família 3.5 antes de um 3.5 maior ser necessário. Com Sonnet a apresentar esses números, o mercado nunca pressionou muito por um 3.5 de topo.
Estado Atual
| Modelo | Estado |
|---|---|
| Claude 3.5 Sonnet (v1) | Substituído pelo v2 (outubro de 2024) |
Um v2 tomou o lugar em outubro de 2024. Trouxe novos ganhos sobre o v1 e introduziu Computer Use, uma primeira para qualquer modelo de fronteira.
Páginas Relacionadas
- Todos os Modelos Claude para a linha do tempo completa de versões
- Claude 3, a geração anterior
- Claude 3.5 Sonnet v2, a atualização lançada em outubro de 2024 que adicionou Computer Use
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.