Claude 3.5 Sonnet
Claude 3.5 Sonnetは2024年6月に $3/$15 でリリース。MMLU、GPQA、HumanEval でClaude 3 Opusを5分の1のコストで上回る。スペック、ベンチマーク、コード強化。
設定をやめて、構築を始めよう。
AIオーケストレーション付きSaaSビルダーテンプレート。
Claude 3.5 Sonnet は、開発者が最大のモデルをデフォルトで選ばなくなったリリースです。Anthropic は2024年6月20日にリリースし、初日から価格の計算式が逆転しました。入力 $3 のミドルレベルモデルが、ほとんどの公開評価で入力 $15 のフラッグシップ以上のスコアを記録。大きさはもはや優秀さを意味しなくなりました。
主要スペック
| スペック | 詳細 |
|---|---|
| API ID | claude-3-5-sonnet-20240620 |
| コンテキストウィンドウ | 200K トークン |
| 入力価格 | $3 / 100万トークン |
| 出力価格 | $15 / 100万トークン |
| リリース日 | 2024年6月20日 |
| 最大出力トークン数 | 8,192 |
Claude 3.5 Sonnet が持ち込んだもの
ミドル価格でトップクラスの賢さ。 大学院レベルの推論、学部レベルの知識、コード生成。GPQA、MMLU、HumanEval 全体で、このリリースは Claude 3 Opus と同等またはそれ以上のスコアを記録。フラッグシップが 100万トークンあたり $15/$75 を請求していたのに対し、入力 $3、出力 $15 で実現しました。以前、この2つを組み合わせたモデルはありませんでした。
コーディング力。 Claude を実際のコード記述ツールに変えたバージョンです。主要なコードスコアはフラッグシップの 55% からここでは 64% に上昇。コードのために GPT-4 を使い続けていた多くの開発者が、この時期に乗り換えました。推論と出力品質の組み合わせが、ソフトウェアエンジニアリング作業の定番の選択肢にしました。
速度。 レスポンスレートはフラッグシップの約2倍。インタラクティブなコーディングセッション、チャット UI、レイテンシがボトルネックになる場面では、最初のリクエストから実感できました。
「Sonnet で十分」という瞬間。 長い間、経験則はシンプルでした。問題が難しいほど、大きなモデルを使う。このリリースがそのリフレックスを打ち砕きました。Opus 価格を払っていたチームが、Sonnet で同じ(またはより良い)回答が5分の1のコストで得られると気づきました。それ以降、モデルの選択はメニューの上からではなく、Sonnet から始まるようになりました。
Claude 3 Opus との比較
| ベンチマーク | Claude 3 Opus | Claude 3.5 Sonnet |
|---|---|---|
| MMLU | 86.8% | 88.7% |
| GPQA | 50.4% | 59.4% |
| HumanEval | 55% | 64% |
| GSM8K | 95.0% | 96.4% |
すべての行で低価格モデルが上回っています。この表は自ら主張します。
幻のClaude 3.5 Opus
Claude 3.5 Sonnet のローンチ時、Anthropic はロードマップに Claude 3.5 Opus も発表しました。しかし実現しませんでした。大きな 3.5 が必要になる前に、Claude 4 が 3.5 ファミリー全体を吸収しました。Sonnet が出した数字を考えると、市場はより上位の 3.5 を強く求めませんでした。
現在のステータス
| モデル | ステータス |
|---|---|
| Claude 3.5 Sonnet(v1) | v2(2024年10月)に置き換えられた |
v2 が 2024年10月に引き継ぎました。v1 の上に新たな改善を加え、あらゆるフロンティアモデルで初となる Computer Use を導入しました。
関連ページ
- すべての Claude モデル(完全なバージョン年表)
- Claude 3(前世代)
- Claude 3.5 Sonnet v2(Computer Use を追加した2024年10月のアップグレード)
設定をやめて、構築を始めよう。
AIオーケストレーション付きSaaSビルダーテンプレート。