自律 Claude Code

エンジニアが AI エージェントを動かす方法を再構成している二つのアイデアがある: Ralph Wiggum ループとスレッドベースエンジニアリングだ。

Ralph はエージェントを自分自身で動かし続ける方法だ。スレッドはその自律性をスケールして測定する方法だ。組み合わせると、人間が席にいなくてもソフトウェアを構築する実際のシステムになる。

この投稿はその組み合わせだ。

統合モデル

各パーツがどう収まるか:

スレッドベースエンジニアリングがスケルトンを提供する。メンタルモデルはスレッドだ: ベース、並列、チェーン、フュージョン、ビッグ、長期間。各スレッドタイプに固有の役割がある。

Ralph ループが L スレッドを駆動する。ストップフックパターン、完了プロミス、検証ファーストな開発が、長い自律的な実行を実際に信頼できるものに変える。

検証が全体を維持する。それなしでは、スレッドは早期に終了し、ループは永遠に回り続ける。

Thread Types × Verification → Reliable Autonomous Work
     ↓
Ralph Loops = Implementation of L-Threads
     ↓
Result: Features shipping while you sleep

検証スタック

Boris Cherny のルールは一文だ: 常に Claude に自分の作業を検証する方法を与えよ。

それは統合モデルのすべての層に現れる:

スレッドタイプ	検証方法
ベース	手動レビュー
P スレッド	並列レビュー、コンセンサス
C スレッド	フェーズごとの検証
F スレッド	複数の出力を比較
B スレッド	サブエージェント検証
L スレッド	自動テスト + ストップフック

他よりも重要なことが一つある。スレッドが長く実行されるほど、その検証も自律的に実行される必要がある。26時間の L スレッドを誰も手動でレビューしない。システムが自己チェックしなければならない。

完全なスタックの構築

すべての概念を組み合わせた実際のセットアップを示す:

レイヤー 1: 仕様 (ピン)

すべての自律的な実行は仕様から始まる。その仕様がピンだ。エージェントが問題を発明するのを防ぐ。

## Feature: User Dashboard
 
### Scope
 
- Display user metrics
- Show recent activity
- Add export functionality
 
### Out of Scope
 
- Real-time updates (Phase 2)
- Mobile responsiveness (Phase 2)
 
### Acceptance Criteria
 
- [ ] Metrics load in under 2 seconds
- [ ] Activity shows last 30 days
- [ ] Export generates valid CSV

可能な場合は既存のコードを参照する。エージェントがすべきでないことを明記する。「完了」が何を意味するかを平易な言葉で固定する。

レイヤー 2: テスト駆動検証

先にテストを書く。そのテストが L スレッドを信頼できるものにする検証レイヤーだ。

// For each acceptance criterion, create a test
tests/
  dashboard/
    metrics.test.ts      # Verifies metrics load time
    activity.test.ts     # Verifies activity display
    export.test.ts       # Verifies CSV generation

実行中のエージェントはテストを繰り返し実行する。テストが緑になるまでループは閉じられない。曖昧さなし。早期終了なし。

レイヤー 3: ストップフック

検証を強制するためにストップフックを設定する:

// stop-hook.js
module.exports = async function (context) {
  // Run test suite
  const testResult = await runTests();
 
  if (testResult.failed > 0) {
    return {
      decision: "block",
      reason: `${testResult.failed} tests failing. Continue work.`,
    };
  }
 
  // Check for completion promise
  if (!context.output.includes("complete")) {
    return {
      decision: "block",
      reason: "Completion promise not found. Verify all work is done.",
    };
  }
 
  return { decision: "allow" };
};

ストップフックはバウンサーだ。Claude が何を考えているかは無視する。テストが通過しているかどうかだけを気にする。

レイヤー 4: スレッド選択

次に、作業に合ったスレッドタイプを選ぶ:

小さなフィーチャー、一つのファイル: ベーススレッド。プロンプト、エージェントが作業、レビュー。

5つの独立したフィーチャー: P スレッド。5つのターミナルを起動し、それぞれに一つのフィーチャーを割り当てる。

3フェーズのデータベースマイグレーション: C スレッド。続行前に各フェーズ後に検証する。

重要なアーキテクチャ決定: F スレッド。3つのエージェントの意見を取得し、結果を比較する。

一晩のフィーチャービルド: Ralph ループ付き L スレッド。就寝前に実行を開始する。

サブタスクを含むマルチファイルリファクタリング: B スレッド。オーケストレーターが各ファイルのワーカーを生成する。

レイヤー 5: チェックポイント状態

エージェントの外に状態を保持する。これは L スレッドに特に重要だ:

## Progress: User Dashboard
 
### Completed
 
- [x] Set up test infrastructure
- [x] Implement metrics API endpoint
- [x] Create metrics display component
 
### In Progress
 
- [ ] Implement activity feed
 
### Remaining
 
- [ ] Add export functionality
- [ ] Performance optimization

エージェントは作業中にこのファイルを書き直す。コンテキストウィンドウがいっぱいになってエージェントが再起動しても、進捗ファイルを読んで停止したところから再開する。

UI 検証: 見落とされがちな部分

テストが通過しても画面が壊れていることがある。

UI に触れるスレッドには、テストスイートに加えてスクリーンショットベースの検証が必要だ:

Workflow extension for UI work:

1. Complete implementation
2. Take screenshots of affected components
3. Review each screenshot for visual issues
4. Rename verified screenshots with "verified_" prefix
5. Do NOT output completion promise yet
6. Run one more loop to confirm all screenshots verified
7. Only then output "complete"

これが視覚的レビューを強制する。Claude はスクリーンショットチェックをスキップして作業を完了と呼ぶ方法がない。

Loom でのスケーリング

次のレベルは Loom スタイルのオーケストレーションだ。

Loom は人間ではなくエージェントのために構築された環境だ。Ralph ループをリアクティブシステムに接続する。

レベル 1: 単一の Ralph ループ (L スレッド) レベル 2: 複数の並列 Ralph ループ (L スレッドの P スレッド) レベル 3: オーケストレートされたループのチェーン (L スレッドを含む B スレッド) レベル 4: 自律的なプロダクトシステム (リリース、観察、イテレーションを行うエージェント)

レベル4では、エージェントが:

フィーチャーフラグの後ろにリリース
コードレビューなしでデプロイ
アナリティクスを観察
変更が機能したかどうかを判断
自動的にイテレーション

これが Z スレッドのエンドポイントだ。人間の入力ゼロ。完全な自律性。

自律ループの経済性

エージェントを実行し続けるコストは Sonnet で約 $10.42 USD/時間だ。

それが計算を変える。

アプローチ	コスト	出力
人間の開発者	~$100/時間	8時間/日
単一エージェント	~$10/時間	24時間/日
5つの並列エージェント	~$50/時間	120エージェント時間/日

コストは上限ではない。上限は定義できる信頼できる作業量だ。

検証ファーストのループを正しく実装したチームは、そうでないチームとは異なるペースでリリースする。少し違うのではない。全く異なるペースだ。