Skalierungsgesetze

KI-Fähigkeit ist ein Potenzgesetz in Rechenleistung, Daten und Parametern.

Als Nächstes empfohlen → Reasoning-Modelle & Inferenz-Zeit-Rechenleistung · CS·KI

Der Beitrag

Im Januar 2020 veröffentlichten Jared Kaplan und Kollegen bei OpenAI Scaling Laws for Neural Language Models — eine sorgfältige empirische Studie, die zeigte, dass der Testverlust von Transformer-Sprachmodellen vorhersagbar als Potenzgesetz in drei Größen fällt: der Anzahl der Parameter (N), der Trainingsdatenmenge (D) und der Rechenmenge (C). Die Beziehung hielt über sieben Größenordnungen und zeigte auf keiner getesteten Skala offensichtlich abnehmende Erträge. Zwei Jahre später folgte bei DeepMind die Arbeit von Hoffmann et al., Training Compute-Optimal Large Language Models (das Chinchilla-Paper), die Kaplans Vorgabe zur Rechenzuteilung korrigierte: optimales N und D sollten gemeinsam wachsen, etwa im gleichen Verhältnis. Zusammen verwandelten diese Arbeiten die KI-Forschung von einer Kunst, deren Fortschritt sich schwer vorhersagen ließ, in eine industrielle Pipeline, deren Erträge auf Rechenleistung sich prognostizieren ließen.

Was Kaplan berichtete, war eine empirische Regelmäßigkeit, kein theoretisches Resultat: über sieben Größenordnungen fiel der Testverlust von Transformer-Sprachmodellen als Potenzgesetz in drei Größen — Anzahl der Parameter, Trainingsdatenmenge, Rechenmenge —, mit glatten Kurven und ohne Wendepunkte, an denen abnehmende Erträge sichtbar geworden wären. Dieselben Exponenten zeigten sich bei verschiedenen Modellfamilien, die dasselbe Gesamtrezept fuhren — was das Ergebnis weniger nach architektonischer Eigenheit und mehr nach Eigenschaft der Verlustlandschaft selbst aussehen ließ. Für eine Branche, die im Jahrzehnt davor von zufälligen Durchbrüchen abhängig gewesen war, war die praktische Folge enorm: Fähigkeitserträge auf Rechenleistung waren nun planbar. Das Chinchilla-Paper von DeepMind 2022 korrigierte das ursprüngliche Rezept an einer Stelle, die ins Gewicht fiel. Kaplans Experimente waren durch suboptimale Lernraten-Pläne verzerrt gewesen; unter ordentlich abgestimmten Bedingungen sollten Parameter und Daten gemeinsam wachsen, etwa im gleichen Verhältnis. Das Chinchilla-Modell — 70 Milliarden Parameter, trainiert auf 1,4 Billionen Tokens — übertraf zeitgenössische Modelle mit 175 bis 280 Milliarden Parametern, die auf weniger Daten trainiert worden waren, und die daraus folgende Faustregel von rund zwanzig Tokens pro Parameter wurde zum Betriebsrezept der Frontier nach 2022. Die Inferenzzeit-Skalierung, in der Test-Time-Rechenleistung — längere Gedankenketten, mehr Stichproben, Suche über Schlussfolgerungspfaden — gegen Pre-Training-Rechenleistung getauscht wird, eröffnete ein zweites Skalierungsregime, das OpenAIs o1- und o3-Reihen nutzten. Emergente Fähigkeiten sind hundertfach katalogisiert; Schaeffers Arbeit von 2023 argumentierte allerdings, dass viele Emergenzen Artefakte binärer Genauigkeitsmaße sind und auf kontinuierlichen Maßen die zugrundeliegende Fähigkeit glatt anwächst. Bis 2024 deuteten mehrere Anzeichen darauf hin, dass die rohen Pre-Training-Zugewinne nachließen: hochwertige Textdaten sind zunehmend ausgeschöpft, synthetische Daten füllen einen Teil der Lücke mit gemischten Ergebnissen. Die DeepSeek-Veröffentlichungen Ende 2024 und Anfang 2025 erreichten Frontier-Fähigkeiten zu deutlich geringeren Trainingskosten, als US-Labore dafür aufgewandt hatten.

Warum jetztSkalierungsgesetze sind heute das Planungsinstrument der KI-Branche. Investitionen in Rechenzentren, GPU-Cluster und Energieverträge, Entscheidungen über Modellarchitekturen und Datenkuratierung, Talentzuweisung quer durch die Labore — alles entscheidet sich mit ausdrücklichem Bezug auf prognostizierte Skalierungskurven. Frontier-Trainingscluster mit Hunderttausend GPUs der H100-Klasse sind Routine, und Cluster nahe an einer Million GPUs werden bei OpenAI, xAI, Anthropic, Meta und Google gebaut — als direkte Folge der aus den Skalierungsgesetzen abgeleiteten Prognosen. Das Training eines Frontier-Modells verbraucht heute Strom im Gigawatt-Bereich; Rechenzentren entstehen zunehmend an neuen Atomkraft- und Erneuerbare-Anlagen. Auch die US-Exportkontrollen für moderne GPUs nach China sind aus Skalierungsgesetz-Argumenten zum strategischen Wert konzentrierter Rechenleistung heraus motiviert.