Attention-Mechanismus

Kontext ist ein gewichteter Durchschnitt aller bisherigen Tokens.

Als Nächstes empfohlen → Große Sprachmodelle · CS·KI · T4

Der Beitrag

Im Jahr 2017 veröffentlichten acht Forscher bei Google eine Arbeit mit einer Titel-Behauptung, die sich als annähernd richtig erwies: Attention Is All You Need. Die Arbeit führte die Transformer-Architektur ein, die mit den rekurrenten und konvolutionalen Netzen aufräumte, die ein Jahrzehnt lang die Sequenzmodellierung beherrscht hatten, und sie durch ein einziges Primitiv ersetzte: Attention. Der Einfall ist fast schon peinlich schlicht. Jedes Token einer Sequenz sendet eine query aus — wonach suche ich? —, und jedes andere Token hält einen key bereit, der ankündigt, was es zu bieten hat; wo immer query und key zusammenpassen, fließt der value des passenden Tokens ein. Kontext wird zu einer Suche, die jedes Wort gegen jedes andere führt. Innerhalb von fünf Jahren war jedes große Sprachmodell ein Transformer. ChatGPT, Claude, Gemini, das Proteinfaltungs-AlphaFold, die Bildgeneratoren Stable Diffusion und DALL·E, die Musikgenerierungssysteme, die Code-Generierungssysteme — allesamt Transformer, allesamt auf Attention laufend.

Selbst-Attention lässt jedes Token einer Sequenz auf jedes andere Token blicken und eine gewichtete Summe ihrer Repräsentationen bilden — die Gewichte werden gelernt. Konkret bestimmt die Übereinstimmung zwischen der query eines Tokens und dem key eines anderen das Gewicht, und dieses Gewicht entscheidet, wie viel vom value des zweiten Tokens in das erste einfließt; tut man dies für jedes Token gegen jedes andere, wird jedes Wort am Ende als Mischung der Wörter neu geschrieben, die es für relevant befand. Die Intuition lautet, dass Kontext ein gewichteter Durchschnitt aller bislang relevanten Tokens ist. Der Mechanismus hat drei schöne Eigenschaften, die den rekurrenten Netzen abgingen. Er ist hochgradig parallelisierbar: wo ein rekurrentes Netz die Information Schritt für Schritt durch die Sequenz reichen musste, vergleicht Attention die gesamte Sequenz auf einmal. Er hat direkte Verbindungen zwischen weit entfernten Tokens — ein Wort am Ende kann unmittelbar auf ein Wort am Anfang achten, ohne Informationsengpass durch einen einzigen versteckten Zustand. Und er skaliert geschmeidig sowohl mit den Daten als auch mit den Parametern. Genau diese Verbindung ist es, warum Attention die Rekurrenz verdrängte: parallele Hardware ließ sich auslasten, und Fernabhängigkeiten verfielen nicht länger mit der Distanz. Der Transformer stapelt Schichten aus Selbst-Attention mit Feedforward-Schichten, Residualverbindungen und Layer-Normalisierung und trainiert das Ganze mit Backpropagation auf riesigen Textkorpora. Die Skalierungsgesetze — Kaplan u. a. 2020, Hoffmann u. a. 2022 — zeigten empirisch, dass der Verlust vorhersagbar fällt, sobald Modellgröße, Datenmenge und Rechenleistung wachsen; aus Skalierung wurde damit ein Programm statt einer Vermutung. GPT-3 (2020) machte sichtbar, dass hinreichend große Transformer emergente Fähigkeiten zeigen — In-Context-Learning, Few-Shot-Reasoning, Code-Generierung —, die kleineren Versionen verschlossen blieben, und GPT-4, Claude, Gemini und die offene Llama-Familie trugen dasselbe Skelett weiter. Es gibt einen Haken: weil jedes Token auf jedes andere achtet, wächst der Aufwand quadratisch mit der Sequenzlänge — und genau deshalb ist die Arbeit mit langem Kontext so schwer.

Warum jetztDer Transformer ist das beherrschende Berechnungsprimitiv der modernen KI — der Motor unter jedem heute gebräuchlichen großen Sprachmodell —, und die Frage, ob er für AGI hinreichend oder lediglich eine sehr leistungsfähige spezialisierte Architektur sei, beherrscht die lauteste gegenwärtige Debatte des Felds. Der quadratische Aufwand der Attention ist die lebendige Ingenieursfront: Mixture-of-Experts, State-Space-Modelle (Mamba, RWKV), Flash Attention und retrieval-augmentierte Ansätze gelten als die meistbeobachteten Spielarten, die meisten davon darauf gerichtet, längeren Kontext bezahlbar zu machen, ohne die volle quadratische Rechnung zu begleichen. Die Transformer-Arbeit zählt bereits zu den meistzitierten Arbeiten in der Geschichte der Informatik — ein bemerkenswerter Rang für ein so junges Resultat. Die wirtschaftliche Infrastruktur, die sich auf ihr erhob — die GPU-Knappheiten, der Ausbau der Rechenzentren, die Billionenbewertungen, die API-Wirtschaft — ist in Tempo und Maßstab wahrhaft beispiellos.