Claude Code ボイスモード
/voice と入力し、スペースバーを押したまま話し、離す。話した言葉がカーソルの位置にストリームされるため、モード切り替えなしで入力と音声入力を組み合わせられる。
設定をやめて、構築を始めよう。
AIオーケストレーション付きSaaSビルダーテンプレート。
問題: 複雑なバグを見ていて、Claude に何をしてほしいかは正確にわかっている。しかしそのメンタルモデルをタイプして伝えるには必要以上に時間がかかる。文脈、ニュアンス、「これはやってほしいけどあれはダメ」という条件付けをすべて入力するのは小さなエッセイを書くような作業になってしまい、リクエストを削ることになる。思っていることと実際に入力する内容のギャップが明確さと時間を奪う。
クイックウィン: /voice と入力してボイスモードをオンにする。スペースバーを押したまま考えを話し、スペースバーを離す。話した言葉がカーソル位置にテキストとしてストリームされる。プロンプトの前半を入力し、複雑な中間部分を音声で入力し、続きを入力する。モード切り替えなし。コンテキストの損失なし。
# Enable voice mode
/voice
# Then hold spacebar to talk, release to send
# Your transcript appears at cursor positionClaude Code のボイスモードは現在ロールアウト中で、まず約5%のユーザーから始まり、今後数週間かけて拡大される。Pro、Max、Team、Enterprise プランで利用可能。アクセスできる場合は、次に Claude Code を起動したときにウェルカム画面に通知が表示される。ターミナルに不慣れな方は、ターミナルファーストな開発モデルから始めて Claude Code の実行モデルを理解してほしい。
Claude Code ボイスモードの仕組み
Claude Code のボイスモードはプッシュトゥトークで動作する。常時リスニングモードなし。ウェイクワードなし。周囲の音声転写なし。マイクが有効になるタイミングを完全に自分でコントロールできる。
仕組みはシンプルだ:
| アクション | 動作 |
|---|---|
/voice | ボイスモードのオン/オフを切り替え |
| スペースバーを押し続ける | マイクが有効になり、リスニング開始 |
| スペースバーを離す | 転写が実行されカーソル位置にテキストが表示 |
| 入力を続ける | テキストと音声入力が1つのプロンプトにまとめられる |
スペースバーを離すと、話した言葉が転写されて入力フィールドのカーソル位置に挿入される。ここが重要な点だ: 音声は現在の入力を置き換えない。挿入される。プロンプトの前半を入力し、スペースバーを押して残りを話すと、転写はタイプしたテキストの直後に入る。
転写は自然なタイピングの延長のように感じるほど速い。話して、離すと、テキストがそこにある。別のUI、ポップアップ、確認ダイアログなし。
転写とレート制限
知っておくべき実用的な詳細: 転写トークンはレート制限にカウントされない。ボイスモードはどのプランでも追加費用なし。転写は Claude がレスポンスに使うモデルトークンとは別に実行される。使用量クォータを速く消費することなく、長く詳細なプロンプトを音声入力できる。
ハイブリッド入力: 本当に重要な機能
ボイスモードのメインの機能は音声ではない。どちらかが干渉することなく、1つのプロンプトで入力と音声入力を混在させられる能力だ。
実際の使用例:
[入力]: "Refactor the auth middleware in src/middleware/auth.ts to "
[音声]: "handle the edge case where the JWT token is expired but
the refresh token is still valid, and make sure we're not
hitting the database twice during that flow"
[入力]: " -- keep the existing error codes"このシーケンス全体が1つのプロンプトになる。入力部分はファイルパス、変数名、特定の制約に正確さをもたらす。音声部分は文章の構造を考えずに複雑なロジックをストリームアウトできる。
このハイブリッドモデルは実際の問題を解決する。Claude のためのエンジニアリングコンテキストとは、正確な技術的詳細とファジーな意図を同じメッセージに含めることが多い。タイプするのは正確な部分に向いている。話すのはファジーな部分に向いている。もう選ばなくていい。
ハイブリッド入力が輝く場面
見えているけど入力しにくいバグの説明: 「ドロップダウンは最初のロードで正しくレンダリングされるが [音声] 別の場所に移動して戻ってくると、URLパラメータに正しい値がまだあるのに状態がリセットされて選択されたアイテムがデフォルトに戻る [/音声] -- FilterPanel.tsx の useEffect クリーンアップを確認してほしい」
アーキテクチャの決定説明: ファイルパスと関数名を入力し、アプローチの理由を音声で話す。技術的な詳細は正確なまま。理由は自然に流れる。
テストシナリオの口述: テストフレームワークのボイラープレートを入力し、カバーしてほしいエッジケースを音声で話す。「こういう場合も処理してほしい [音声] ユーザーが複数のセッションを開いていて、別のタブでセッションが更新された後に古いタブからフォームを送信する場合 [/音声]」
ボイスモードの実用的なユースケース
ボイスモードは一部のワークフローに特によく合う。話すことがタイプするより確実に優れる場面を紹介する。
素早いプロトタイピングセッション
アイデア間を飛び回りながら速く繰り返しているとき、タイプするとまだ考えが固まっていない段階で構造にコミットすることを強いられる。音声なら、まだ形成されながらアプローチを話し通せる。「まずこれを React コンポーネントとして構築してみて、でも状態管理が複雑になったら、シンプルなpub-subパターンを持つバニラJSアプローチに切り替えて。」そういった探索的な指示は入力するより話す方が速く出てくる。
長いコンテキストのバグレポート
何かをデバッグして Claude に全体像を伝えたい? ボイスモードで見ていること、試したこと、疑っていることをすべて一息で語れる。分析フェーズにプランニングモードと組み合わせれば、徹底的なバグレポートを音声口述して、1行もコードが変わる前に Claude に修正計画を立ててもらえる。
コードレビューフィードバック
差分を確認して Claude に特定の問題を対処させたいとき: ファイルパスを入力し、フィードバックを音声で話す。「この関数では [音声] エラー処理が例外を静かに飲み込んでいて、すべての catch ブロックでリクエストコンテキストと共にエラーをログに記録してから続行してほしい [/音声] -- すべてのルートハンドラー全体にこれを適用して。」
アクセシビリティ
長時間のタイピングが不快な開発者や、口頭の方が考えをまとめやすい開発者にとって、ボイスモードは Claude Code セッションをより身体的に負担の少ないものにする。プッシュトゥトークなのでペースを自分でコントロールできる。プロンプトの各部分に合わせてタイピングと話すことを切り替えられる。
現在の制限事項
ボイスモードは新しい機能だ。日常のワークフローに組み込む前に知っておくべき制約がいくつかある。
段階的なロールアウト中。 現在アクセスできるのは約5%のユーザーのみ。Anthropic はPro、Max、Team、Enterprise全体で今後数週間かけてアクセスを拡大している。ウェルカム画面が表示されない場合や /voice が応答しない場合は、まだロールアウトグループに入っていない。
プッシュトゥトークのみ。 ハンズフリーモードなし。常時リスニングモードなし。話すにはスペースバーを押し続け、止めるには離す。これは、音声が誤ってトリガーされると困るターミナルにおける意図的な設計上の決断だ。
Agent SDK のサポートなし。 Claude Code SDK でプログラム的なワークフローを構築している場合、ボイスモードはそこにはない。今のところターミナル専用のインタラクティブ機能だ。
英語を前提。 Anthropic は CLI ボイス機能の言語制限を明確に確認していないが、最初のロールアウトは英語の転写に焦点を当てているようだ。
Claude Code のボイスモードと Claude.ai のボイスモードの違い
注記すべき点: Claude には claude.ai のウェブおよびモバイルアプリにも別のボイスモードがある。それは別の機能だ。ウェブ/モバイル版にはハンズフリー会話モード、プリセットの音声選択、継続的な双方向の対話が含まれる。Claude Code のボイスモードはターミナル向けに構築されている: テキストを生成するプッシュトゥトーク入力であり、会話型音声インターフェースではない。それぞれ異なるコンテキストで異なる問題を解決する。
効果的な音声入力のヒント
ファイルパスや名前は入力し、音声にしない。 音声転写は src/components/AuthProvider.tsx のようなパスをうまく処理できない。正確な部分は入力し、指示は音声にする。
アクションを最初に言う。 音声入力は何をしてほしいかから始めて、それからコンテキストを追加する。「この関数をasync/awaitを使うようにリファクタリングして」の方が、「ということで、asyncにして」で終わる2分間の意識の流れより Claude には解析しやすい。
高速モードと組み合わせて素早く繰り返す。 より速いレスポンスのために高速モードに切り替えて、入力コストなしにプロンプトを送るためにボイスを使う。速いアウトプットと速いインプットでフィードバックループが大幅に短縮される。
「なぜ」には音声を、「何を」には入力を使う。 入力: update src/api/routes.ts。音声: 「現在のエラー処理が認証失敗とネットワークタイムアウトを区別していなくて、ダウンストリームのコンシューマーがそれぞれに異なるリトライ動作を必要としているから。」このパターンで Claude に正確さと意図の両方が伝わる。
次のステップ
- キーボードショートカット、/btw サイドクエスチョン、vim モード、すべてのスラッシュコマンドを網羅したインタラクティブモードリファレンスを参照する
- 入力が音声でも文字でも効果的なプロンプトを構成するためにコンテキストエンジニアリングを学ぶ
- 複雑な分析を実装前に行うためにボイスとプランニングモードを併用する
- ボイスの高速入力とペアにするために高速モードを試す
- ボイスモードが基づくターミナルファーストな開発モデルを読む
- 最近のリリースに追加されたその他のバンドルワークフローは /simplify と /batch コマンドを確認する
ボイスモードは、1日使ってみるまでは小さな機能に見えるが、使い始めると戻れなくなる種類の機能だ。入力の精度と話す流暢さが出会うハイブリッド入力モデルは、開発者が実際にコードについて考える方法と一致している。純粋なテキストでも純粋な音声でも思考するわけではない。具体的なことと意図が混ざった形で考える。これからはターミナルの入力も同じように機能する。
設定をやめて、構築を始めよう。
AIオーケストレーション付きSaaSビルダーテンプレート。