Reasoning-Modelle & Inferenz-Zeit-Rechenleistung

Modelle darauf trainieren, vor der Antwort Tokens fürs Nachdenken aufzuwenden. Inferenz-Rechenzeit als eigene Skalierungsachse neben dem Vortraining.

Als Nächstes empfohlen → Zwei-System-Theorie · GEIST

Der Beitrag

Bis 2023 entschied über die Fähigkeit der Frontier-Modelle vor allem der Pre-Training-Maßstab — größere Modelle, mehr Daten, mehr Rechenleistung vorab, dann ein einziger Vorwärtsdurchlauf bei der Anfrage. Den Keim der Wende legte ein alter, fast peinlich einfacher Kniff: Lässt man ein Modell seine Gedankenkette ausschreiben — Zwischenschritte, Nebenrechnungen, Sackgassen —, ehe es sich auf eine Antwort festlegt, springt seine Leistung beim schweren Schlussfolgern nach oben. Im Jahr 2024 brachte OpenAI o1 heraus, ein LLM, das darauf trainiert war, vor der Antwort Tokens fürs Nachdenken zu verbrauchen — mit langen internen Gedankenketten, die der Nutzer meist gar nicht zu sehen bekommt. Der Fähigkeitszuwachs bei schwierigen mathematischen, naturwissenschaftlichen und Programmieraufgaben fiel so deutlich aus, dass die übrigen großen Labore — Anthropic, Google und das Open-Weights-R1 von DeepSeek — binnen Monaten Reasoning-Varianten desselben Rezepts auslieferten.

Das Trainingsmuster, grob skizziert: Man nimmt ein starkes vortrainiertes LLM und belohnt es dafür, dass es Gedankenketten produziert, die zu korrekten Antworten auf schwere Probleme führen; das Modell lernt, mehr Tokens — manchmal Tausende — auf Erkunden, Zurückgehen und Eigenprüfung zu verwenden, ehe es sich festlegt. Das ist Inference-Time Compute als eigene Skalierungsachse, getrennt von den Pre-Training-Skalierungsgesetzen (Kaplan 2020, Chinchilla 2022), die die vorige Ära bestimmt hatten. Das übergeordnete Prinzip lautet: Genauigkeit bei einem schweren Problem lässt sich erkaufen, indem man mehr Rechenleistung im Moment der Antwort aufwendet statt allein während des Trainings — und dafür gibt es mehr als einen Weg: längeres, bedachtes Schlussfolgern, das Ziehen vieler Lösungskandidaten und Auswählen des besten oder explizite Suche und Verifikation über einen Raum von Teilantworten. Was das Training hinzufügt, ist die Disziplin, dieses Budget gut zu nutzen, statt es bloß zu verbrennen. Die Fähigkeitsgewinne auf den schwersten Benchmarks — Naturwissenschaft auf Promotionsniveau, Olympiade-Mathematik, kompetitives Programmieren — sind steil. Der Mechanismus liegt nur teilweise offen: Die Gedankenketten sehen aus wie Schlussfolgern, doch ob sie tatsächlich die Berechnung des Modells abbilden oder eher eine nachträgliche Rationalisierung sind, ist offen — mit Folgen für Vertrauen, Bewertung und Sicherheit. Es gibt Grenzen — Latenz und Kosten steigen mit jedem zusätzlichen Token, und mehr Tokens sind nicht immer besser; jenseits eines gewissen Punktes redet sich ein Modell aus einer korrekten Antwort heraus. Emergente Fähigkeiten — abrupte Sprünge bei wachsendem Maßstab (Wei et al. 2022; angefochten von Schaeffer et al. 2023, die argumentierten, ein Teil der Emergenz sei ein Artefakt der Metrikwahl) — bekommen unter diesem Paradigma ein zweites Leben: bei festem Modell erzeugt mehr Denkzeit qualitativ anderes Verhalten.

Warum jetztDie tiefere Umdeutung ist ein Wechsel von das Pre-Training skalieren zu auch das Denken zur Antwortzeit skalieren — zwei einander ergänzende Achsen statt einer. Die sichtbarsten jüngeren Gewinne kamen überwiegend aus der zweiten; ob weitere Pre-Training-Skalierung weiter liefert und wie die beiden Achsen zusammenspielen, wird gerade erarbeitet. Die Frontier-Debatte — Fähigkeitsobergrenzen, der Weg zur AGI, was Reasoning Models über Kognition aussagen — ist heute teils empirisch, teils philosophisch. Die ehrliche Position: die Bahn ist unsicher, und der intellektuell vertretbare Korridor möglicher Prognosen ist breit.