PolymathicAlle Ideen →
Informatik & KI

Große Sprachmodelle

Transformer auf dem öffentlichen Internet, skaliert über die Schwelle neuer Fähigkeiten — die Technologie dieses Zyklus.

Im Juni 2017 veröffentlichten acht Forscher bei Google „Attention Is All You Need“ — einen Aufsatz, der die Transformer-Architektur einführte, präsentiert als gezielter Beitrag zur maschinellen Übersetzung. Binnen fünf Jahren hatte er die rekurrenten neuronalen Netze, die bis dahin die Sprachverarbeitung beherrschten, verdrängt; binnen sieben hatte er auch Bild, Video, Code, Audio und Proteinstrukturvorhersage in seinen Einflussbereich gezogen. Der Weg von einem einzigen Aufsatz über ChatGPT (November 2022, 100 Millionen Nutzer in zwei Monaten) bis zu den Frontier-Modellen von 2025 ist eine der dichtesten technologischen Beschleunigungen der Menschheitsgeschichte — und in ihrer Deutung eine der am stärksten umstrittenen.

Die zentrale Neuerung heißt Self-Attention: jede Position in einer Sequenz bildet einen gewichteten Mittelwert aus den Repräsentationen aller anderen Positionen, und die Gewichte werden aus dem Inhalt dynamisch gelernt. Damit verschwand die Token-für-Token-Verarbeitung der RNNs zugunsten einer parallelen Berechnung über die ganze Sequenz — auf modernen GPUs ein enormer praktischer Vorteil. Der ursprüngliche Aufsatz bündelte drei Bausteine: Multi-Head-Attention (mehrere Attention-Berechnungen parallel, die je nach Kopf auf andere Aspekte des Kontexts achten), Positionskodierungen (weil Attention die Reihenfolge ignoriert, muss die Position eigens hinzugefügt werden) und Layer-Normalisierung mit Residualverbindungen (die machen sehr tiefe Stapel erst trainierbar). Über die Architektur hinaus erwies sich das Vortrainings-Rezept — den Transformer einfach darauf trainieren, das nächste Token eines großen Textkorpus vorherzusagen — bei genügend Parametern und Daten als Quelle erstaunlich breiter Fähigkeiten, weit jenseits des Trainingsziels. Diese zweite Beobachtung, mehr noch als die Architektur, machte den Transformer zum tragenden Element der modernen KI.

Warum es jetzt zählt

Die heutigen Frontier-Modelle — von OpenAI, Anthropic, Google, Meta und DeepSeek u. a. — sind sämtlich transformerbasiert, mit Hunderten Milliarden bis Billionen Parametern. Open-Weights-Modelle (Llama, Mistral, DeepSeek, Qwen) haben den Abstand zu den geschlossenen Frontier-Laboren weitgehend aufgeholt und verschieben die politische Ökonomie der KI. Die Inferenzkosten pro vergleichbarer Fähigkeit sind seit 2022 um etwa den Faktor 100 gefallen — schneller als das Mooresche Gesetz. Der Transformer ist das Substrat; was damit anzufangen ist (Skalierung, Reasoning-Modelle, Alignment, Werkzeugnutzung durch Agenten), ist längst zu einem eigenen Themenkomplex geworden.

In Polymathic lesen →Den Katalog durchstöbern
Polymathic — ein kuratierter Katalog der Ideen, die es wert sind, behalten zu werden, quer durch zwölf Disziplinen. polymathic.app