Bis 2023 entschied über die Fähigkeit der Frontier-Modelle vor allem der Pre-Training-Maßstab — größere Modelle, mehr Daten, mehr Rechenleistung vorab, dann ein einziger Vorwärtsdurchlauf bei der Anfrage. Im September 2024 brachte OpenAI o1 heraus: ein LLM, das darauf trainiert war, vor der Antwort Tokens fürs Nachdenken zu verbrauchen, mit langen internen Gedankenketten, die der Nutzer meist gar nicht zu sehen bekommt. Der empirische Fähigkeitszuwachs bei schwierigen mathematischen, naturwissenschaftlichen und Programmieraufgaben fiel so deutlich aus, dass binnen Monaten Anthropics Claude mit Extended Thinking, Googles Gemini 2.5 und DeepSeeks Open-Weights-R1 Varianten desselben Rezepts ausgeliefert hatten.
Das Trainingsmuster, grob skizziert: Man nimmt ein starkes vortrainiertes LLM und belohnt es dafür, dass es Gedankenketten produziert, die zu korrekten Antworten auf schwere Probleme führen; das Modell lernt, mehr Tokens — manchmal Tausende — auf Erkunden, Zurückgehen und Eigenprüfung zu verwenden, ehe es sich festlegt. Das ist Inference-Time Compute als eigene Skalierungsachse, getrennt von den Pre-Training-Skalierungsgesetzen (Kaplan 2020, Chinchilla 2022), die die vorige Ära bestimmt hatten. Die Fähigkeitsgewinne auf Benchmarks wie GPQA (Naturwissenschaft auf Promotionsniveau), AIME (Mathematik-Olympiade) und Codeforces sind steil. Der Mechanismus liegt nur teilweise offen: Die Gedankenketten sehen aus wie Schlussfolgern, doch ob sie tatsächlich die Berechnung des Modells abbilden oder eher eine nachträgliche Rationalisierung sind, ist offen — mit Folgen für Vertrauen, Bewertung und Sicherheit. Emergente Fähigkeiten — abrupte Sprünge bei wachsendem Maßstab (Wei et al. 2022; angefochten von Schaeffer et al. 2023, die argumentierten, ein Teil der Emergenz sei ein Artefakt der Metrikwahl) — bekommen unter diesem Paradigma ein zweites Leben: bei festem Modell erzeugt mehr Denkzeit qualitativ anderes Verhalten.
Pre-Training-Compute und Inference-Time Compute gelten heute als einander ergänzende Achsen. Die Fähigkeitsgewinne der Frontier-Modelle 2024–2025 kamen überwiegend aus der zweiten; ob weitere Pre-Training-Skalierung weiter liefert und wie die beiden Achsen zusammenspielen, wird gerade erarbeitet. Die Frontier-Debatte — Fähigkeitsobergrenzen, der Weg zur AGI, was Reasoning Models über Kognition aussagen — ist heute teils empirisch, teils philosophisch. Die ehrliche Position: die Bahn ist unsicher, und der intellektuell vertretbare Korridor möglicher Prognosen ist breit.