Die Autonomie-Kurve: Wie viel Freiheit darfst du einem KI-Agenten geben?

Wie viel Autonomie du einem KI-Agenten geben kannst, läuft auf eine Variable hinaus: wie lange ein Modell eine Aufgabe hält, ohne abzudriften. Je weiter ein Modell eine Kette aus Überlegungen und Tool-Aufrufen zuverlässig durchzieht, desto mehr Leine kannst du ihm in einem einzigen Durchlauf geben. Wir betreiben seit fast zwei Jahren ein Agenten-Gerüst, von Claude 3.5 Sonnet über die Sonnet- und Opus-Reihe bis zu Claude Fable 5, und jedes Release hat diese Grenze ein Stück weitergeschoben. Ein gutes Gerüst plus ein Modell, das lange Ketten zuverlässig durchhält, macht aus "KI, die Code schreibt" eine "KI, die die Arbeit erledigt".

Was "Autonomie" bei einem Agenten wirklich bedeutet

Autonomie ist kein Schalter, den du umlegst. Es geht darum, wie viel Arbeit du in einem Durchlauf abgeben kannst, bevor du wieder eingreifen und korrigieren musst.

Ein Agent mit wenig Autonomie kriegt eine kleine, klar abgesteckte Anweisung, führt sie aus und stoppt. Du prüfst, du formulierst neu, du machst es nochmal. Ein Agent mit hoher Autonomie kriegt ein Ziel, plant die Schritte selbst, ruft die Tools auf, korrigiert seine eigenen Fehler und meldet sich erst zurück, wenn alles fertig ist. Der Unterschied zwischen den beiden liegt nicht nur am Gerüst. Er liegt daran, ob das Modell über eine lange Kette von Entscheidungen auf Kurs bleibt.

Das ist die eine Variable. Alles andere folgt daraus.

Zwei Definitionen, bevor wir weitermachen, weil der Rest des Posts darauf aufbaut:

Claude Fable 5 ist Anthropics neuestes Modell, gebaut für komplexe, langlaufende, autonome Arbeit. Es läuft mit $10 pro 1M Input-Tokens und $50 pro 1M Output-Tokens, bei einem Kontextfenster von 1M Tokens.
Claude Opus 4.8 (erschienen im Mai 2026) ist Anthropics fähigstes Modell auf Opus-Niveau für alltägliches Coding und Agentenarbeit. Es läuft mit $5 pro 1M Input-Tokens und $25 pro 1M Output-Tokens.

Die Kurve, die wir wirklich klettern sahen

Das ist keine Theorie. Wir haben es erlebt. Unser Gerüst läuft seit Claude 3.5 Sonnet ohne Unterbrechung, und mit jedem Modell-Release konnten wir ein Stück Babysitting-Code löschen und dem Agenten ein Stück mehr Leine geben.

Hier ist die Kurve, qualitativ, Ära für Ära. Keine erfundenen Benchmarks. Nur, was uns jeder Schritt erlaubt hat.

Modell-Ära	Wie viel Leine wir geben konnten	Wie das in der Praxis aussah
Claude 3.5 Sonnet	Kurze, eng abgesteckte Aufgaben	Eine Datei nach der anderen. Viel menschliche Prüfung zwischen den Schritten. Das Gerüst hat den Großteil zusammengehalten.
Sonnet- / Opus-4.x-Reihe	Mittlere Aufgaben, weniger Rückfragen	Änderungen über mehrere Dateien in einem Durchlauf. Das Modell hielt einen Plan über mehrere Tool-Aufrufe, bevor es abdriftete.
Claude Opus 4.8	Lange Agentenaufgaben, Alltags-Standard	Spitzenklasse bei Arbeit über lange Strecken, zu einem Preis, der es zum täglichen Begleiter fürs Coding macht.
Claude Fable 5	Aufgaben zum Abgeben und Weggehen	Die längsten, härtesten Durchläufe. Mehr Freiheit in einem Durchlauf, und es hält zusammen, ohne abzudriften.

Die Form ist der Punkt. Jede Ära wurde nicht einfach abstrakt "schlauer". Sie wurde besser in der einen Eigenschaft, die über Autonomie entscheidet: eine lange Kette zuverlässig durchzuziehen.

Warum ein gutes Gerüst trotzdem zählt

Mehr Autonomie ist nicht nur eine Eigenschaft des Modells. Sie ist auch eine Eigenschaft des Gerüsts.

Ein Modell, das lange Ketten zuverlässig durchhält, ist verschwendet, wenn das Gerüst drumherum ihm keinen Raum lässt. Und ein großartiges Gerüst um ein Modell, das nach drei Schritten abdriftet, scheitert nur schneller. Erst beide zusammen entscheiden, wie weit du kommst.

Konkret ist das Gerüst das, was:

Dem Agenten die richtigen Tools gibt, abgestimmt auf das, was die Aufgabe braucht.
Fehler abfängt und zurückspielt, damit das Modell sich selbst korrigiert, statt stehenzubleiben.
Das Ziel stabil hält, damit das Modell nicht in jeder Runde neu herleitet, was es tun soll.
Die Grenze setzt, damit ein langer autonomer Durchlauf nicht irgendwohin abdriftet, wo es teuer oder zerstörerisch wird.

Wenn das Modell über lange Ketten zuverlässiger wird, kannst du Arbeit aus dem Gerüst ins Modell verlagern. Genau das hat uns jedes Release auf der Kurve erlaubt. Weniger Code, der an die Hand nimmt. Mehr Vertrauen pro Durchlauf.

Das ist dieselbe Idee, über die wir in Building is not the bottleneck geschrieben haben: Der Code ist selten der schwere Teil. Der schwere Teil ist alles drumherum, das entscheidet, ob die Arbeit am Ende live geht.

Was sich mit Claude Fable 5 ändert

Der praktische Unterschied bei Claude Fable 5 ist keine Zahl auf einem Diagramm. Es ist, wie viel Raum du ihm geben kannst.

Du kannst ihm eine längere Aufgabe geben, mehr Freiheit in einem einzigen Durchlauf, und es hält zusammen, ohne abzudriften. Für ein Agenten-Gerüst macht diese eine Eigenschaft mehr, als nur die Decke höher zu legen. Zuverlässigkeit über lange Ketten nimmt einen Teil der QA-Last ab, denn ein Durchlauf, der nicht abdriftet, ist ein Durchlauf, den du nicht Schritt für Schritt babysitten und nachprüfen musst.

Das zählt, weil sich in der QA der meiste Aufwand versteckt. Den ganzen Fall haben wir in QA is the real AI bottleneck ausgebreitet, erschienen am selben Tag wie dieser Post. Ein Modell, das länger auf Kurs bleibt, ist nicht nur fähiger. Es schrumpft still und leise den teuersten Teil der Schleife.

Der Trade-off: wann du zu Fable 5 greifst

Fable 5 ist nicht der Standard. Es ist das Werkzeug, zu dem du greifst, wenn die Aufgabe es verdient.

Mit $10 Input und $50 Output pro 1M Tokens ist es für lange, harte, autonome Durchläufe gebaut, nicht für jede kleine Änderung. Fürs alltägliche Coding ist Claude Opus 4.8 mit $5 Input und $25 Output pro 1M Tokens immer noch das bessere Preis-Leistungs-Verhältnis, und es ist bei Agentenarbeit wirklich stark.

Hier ist die Regel, die wir nutzen:

Nimm Claude Opus 4.8, wenn du mitten drin bist. Interaktives Coding, schnelles Iterieren, der tägliche Begleiter.
Nimm Claude Fable 5, wenn du eine lange Aufgabe abgeben und weggehen willst. Die Durchläufe, bei denen Zuverlässigkeit über eine lange Kette das Geld wert ist.

Die ehrliche Version: Wähl das Modell nach Länge und Einsatz des Durchlaufs, nicht nach der Schlagzeile. Der Großteil deiner Arbeit braucht kein Fable 5. Die Arbeit, die es braucht, braucht es dringend.

FAQ

Wie viel Autonomie kannst du einem KI-Coding-Agenten geben?

So viel, wie das Modell halten kann, ohne abzudriften. Die eine Variable, die über die Autonomie eines Agenten entscheidet, ist, wie zuverlässig ein Modell in einem Durchlauf eine lange Kette aus Überlegungen und Tool-Aufrufen durchzieht. Ein gutes Gerüst setzt die Grenzen und spielt Fehler zurück, aber die Zuverlässigkeit des Modells über lange Ketten bestimmt, wie viel Arbeit du abgeben kannst, bevor du wieder eingreifen musst.

Ist Claude Fable 5 für Agenten besser als Claude Opus 4.8?

Für lange, harte, autonome Durchläufe ja. Claude Fable 5 ist Anthropics neuestes Modell für komplexe, langlaufende Arbeit ($10 Input / $50 Output pro 1M Tokens) und es hält eine längere Aufgabe zusammen, ohne abzudriften. Fürs alltägliche interaktive Coding ist Claude Opus 4.8 ($5 Input / $25 Output pro 1M Tokens, Mai 2026) das bessere Preis-Leistungs-Verhältnis und immer noch stark bei Agentenarbeit. Nimm Fable 5, wenn du abgeben und weggehen willst.

Was ist der Unterschied zwischen einem Modell und einem Gerüst bei der Agenten-Autonomie?

Das Modell entscheidet, wie lang eine Aufgabe sein darf, die es zuverlässig durchzieht. Das Gerüst entscheidet, wie viel Raum das Modell zum Laufen bekommt. Ein zuverlässiges Modell in einem schwachen Gerüst hungert nach Raum. Ein großartiges Gerüst um ein Modell, das abdriftet, scheitert nur schneller. Autonomie ist das Produkt aus beidem, und deshalb kannst du mehr Arbeit abgeben, sobald du eins von beiden verbesserst.

Senkt mehr Autonomie die QA-Last?

Ja, indirekt. Ein Modell, das eine lange Kette ohne Abdriften durchzieht, liefert einen Durchlauf, den du nicht Schritt für Schritt prüfen musst, also nimmt Zuverlässigkeit über lange Ketten einen Teil der QA-Kosten ab. Deshalb zählt Zuverlässigkeit über lange Strecken für ein Agenten-Gerüst mehr als rohe Fähigkeit im einzelnen Schritt.

Wir haben die Autonomie-Kurve von Claude 3.5 Sonnet bis Claude Fable 5 klettern sehen, und der nächste Schritt wird sie wieder weiterschieben. Wenn du sehen willst, wie die Modellwahl ins Gesamtbild passt, fang mit the best AI coding model for 2026 an, oder lies die Details zu Claude Fable 5 und Claude Opus 4.8. Die ganze Reihe findest du unter all models.

Die Autonomie-Kurve: Wie viel Freiheit darfst du einem KI-Agenten geben?

On this page