Claude 3.5 Sonnet

Claude 3.5 Sonnet は、開発者が最大のモデルをデフォルトで選ばなくなったリリースです。Anthropic は2024年6月20日にリリースし、初日から価格の計算式が逆転しました。入力 $3 のミドルレベルモデルが、ほとんどの公開評価で入力 $15 のフラッグシップ以上のスコアを記録。大きさはもはや優秀さを意味しなくなりました。

主要スペック

スペック	詳細
API ID	`claude-3-5-sonnet-20240620`
コンテキストウィンドウ	200K トークン
入力価格	$3 / 100万トークン
出力価格	$15 / 100万トークン
リリース日	2024年6月20日
最大出力トークン数	8,192

Claude 3.5 Sonnet が持ち込んだもの

ミドル価格でトップクラスの賢さ。 大学院レベルの推論、学部レベルの知識、コード生成。GPQA、MMLU、HumanEval 全体で、このリリースは Claude 3 Opus と同等またはそれ以上のスコアを記録。フラッグシップが 100万トークンあたり $15/$75 を請求していたのに対し、入力 $3、出力 $15 で実現しました。以前、この2つを組み合わせたモデルはありませんでした。

コーディング力。 Claude を実際のコード記述ツールに変えたバージョンです。主要なコードスコアはフラッグシップの 55% からここでは 64% に上昇。コードのために GPT-4 を使い続けていた多くの開発者が、この時期に乗り換えました。推論と出力品質の組み合わせが、ソフトウェアエンジニアリング作業の定番の選択肢にしました。

速度。 レスポンスレートはフラッグシップの約2倍。インタラクティブなコーディングセッション、チャット UI、レイテンシがボトルネックになる場面では、最初のリクエストから実感できました。

「Sonnet で十分」という瞬間。 長い間、経験則はシンプルでした。問題が難しいほど、大きなモデルを使う。このリリースがそのリフレックスを打ち砕きました。Opus 価格を払っていたチームが、Sonnet で同じ（またはより良い）回答が5分の1のコストで得られると気づきました。それ以降、モデルの選択はメニューの上からではなく、Sonnet から始まるようになりました。

Claude 3 Opus との比較

ベンチマーク	Claude 3 Opus	Claude 3.5 Sonnet
MMLU	86.8%	88.7%
GPQA	50.4%	59.4%
HumanEval	55%	64%
GSM8K	95.0%	96.4%

すべての行で低価格モデルが上回っています。この表は自ら主張します。

幻のClaude 3.5 Opus

Claude 3.5 Sonnet のローンチ時、Anthropic はロードマップに Claude 3.5 Opus も発表しました。しかし実現しませんでした。大きな 3.5 が必要になる前に、Claude 4 が 3.5 ファミリー全体を吸収しました。Sonnet が出した数字を考えると、市場はより上位の 3.5 を強く求めませんでした。

現在のステータス

モデル	ステータス
Claude 3.5 Sonnet（v1）	v2（2024年10月）に置き換えられた

v2 が 2024年10月に引き継ぎました。v1 の上に新たな改善を加え、あらゆるフロンティアモデルで初となる Computer Use を導入しました。