PolymathicAlle Ideen →
Informatik & KI

Attention-Mechanismus

Kontext ist ein gewichteter Durchschnitt aller bisherigen Tokens.

Im Jahr 2017 veröffentlichten acht Forscher von Google Brain eine Arbeit mit einer Titel-Behauptung, die sich als annähernd richtig erwies: Attention Is All You Need. Die Arbeit führte die Transformer-Architektur ein, die mit den rekurrenten und konvolutionalen Netzen aufräumte, die ein Jahrzehnt lang die Sequenzmodellierung beherrscht hatten, und sie durch ein einziges Primitiv ersetzte: Attention. Innerhalb von fünf Jahren war jedes große Sprachmodell ein Transformer. ChatGPT, Claude, Gemini, das Proteinfaltungs-AlphaFold, die Bildgeneratoren Stable Diffusion und DALL·E, die Musikgenerierungssysteme, die Code-Generierungssysteme — allesamt Transformer, allesamt auf Attention laufend.

Selbst-Attention lässt jedes Token einer Sequenz auf jedes andere Token blicken und eine gewichtete Summe ihrer Repräsentationen bilden — die Gewichte werden gelernt. Die Intuition lautet, dass Kontext ein gewichteter Durchschnitt aller bislang relevanten Tokens ist. Der Mechanismus hat drei schöne Eigenschaften, die den rekurrenten Netzen abgingen: er ist hochgradig parallelisierbar (jedes Token darf gleichzeitig auf jedes andere achten), er hat direkte Verbindungen zwischen weit entfernten Tokens (kein Informationsengpass durch versteckten Zustand), und er skaliert geschmeidig sowohl mit den Daten als auch mit den Parametern. Die Transformer-Architektur stapelt Schichten aus Selbst-Attention mit Feedforward-Schichten, Residualverbindungen und Layer-Normalisierung und trainiert das Ganze mit Backpropagation auf riesigen Textkorpora. Die Skalierungsgesetze — Kaplan u. a. 2020, Hoffmann u. a. 2022 — zeigten empirisch, dass der Verlust vorhersagbar fällt, sobald Modellgröße, Datenmenge und Rechenleistung wachsen; aus Skalierung wurde damit ein Programm statt einer Vermutung. GPT-3 (2020) machte sichtbar, dass hinreichend große Transformer emergente Fähigkeiten zeigen — In-Context-Learning, Few-Shot-Reasoning, Code-Generierung —, die kleineren Versionen verschlossen blieben. GPT-4 (2023), Claude 3 und seine Nachfolger, Gemini und die Open-Source-Familie Llama haben dieselbe Architektur mit Verfeinerungen weitergetragen (RLHF, Mixture-of-Experts, längere Kontextfenster).

Warum es jetzt zählt

Der Transformer ist das beherrschende Berechnungsprimitiv der modernen KI, und die Frage, ob er für AGI hinreichend oder lediglich eine sehr leistungsfähige spezialisierte Architektur sei, beherrscht die lauteste gegenwärtige Debatte des Felds. Mixture-of-Experts, State-Space-Modelle (Mamba, RWKV) und retrieval-augmentierte Ansätze gelten als die meistbeobachteten Spielarten der Architektur. Die Transformer-Arbeit wurde über 130 000-mal zitiert und gehört damit zu den einflussreichsten Einzelarbeiten in der Geschichte der Informatik. Die wirtschaftliche Infrastruktur, die sich auf ihr erhob — die GPU-Knappheiten, der Ausbau der Rechenzentren, die API-Wirtschaft — ist in Tempo und Maßstab wahrhaft beispiellos.

In Polymathic lesen →Den Katalog durchstöbern
Polymathic — ein kuratierter Katalog der Ideen, die es wert sind, behalten zu werden, quer durch zwölf Disziplinen. polymathic.app