Dopamin & Belohnung

Nicht die Lust selbst, sondern ihre Überraschung — der Abstand zwischen Erhaltenem und Erwartetem.

Als Nächstes empfohlen → Synaptische Übertragung · GEIST

Der Beitrag

Dopamin gilt im Alltagsgespräch als Synonym für Lust. Diese Lesart bekommt die Neurowissenschaft genau falsch. Dopamin codiert keine Lust; es codiert Vorhersagefehler — den Abstand zwischen der erhaltenen Belohnung und der erwarteten. Übertrifft die Wirklichkeit die Erwartung, schießt Dopamin nach oben; passt sie zur Erwartung, bleibt es still; bleibt sie zurück, fällt es unter die Grundlinie. Der Durchbruch kam aus Wolfram Schultz' Affenexperimenten der 1990er, in denen er an Dopaminneuronen ableitete, während die Affen lernten, einen Ton mit einer Saftbelohnung zu verknüpfen. Das Muster, das Schultz fand, deckte sich exakt mit der Temporal-Difference-Lernregel, die Richard Sutton und Andrew Barto in den 1980ern in der künstlichen Intelligenz entwickelt hatten — unabhängig hergeleitet, aus rein rechnerischen Überlegungen. Verstärkungslernen läuft auf derselben Gleichung wie das Belohnungssystem des Gehirns.

Dopamin ist ein Neurotransmitter, hergestellt aus Tyrosin über L-DOPA. Das Gehirn besitzt nur rund 400 000 Dopaminneuronen, gebündelt in zwei Mittelhirnkernen: dem ventralen Tegmentum (VTA) und der Substantia nigra pars compacta. Die mesolimbische Bahn (VTA → Nucleus accumbens, präfrontaler Cortex) ist der Schaltkreis für Belohnung und Motivation; die nigrostriatale Bahn ist der Schaltkreis für motorisches Lernen, dessen Degeneration die Parkinson-Krankheit erzeugt. Der Schultz-Befund (1997): Dopaminneuronen feuern phasisch, sobald eine unerwartete Belohnung eintritt. Mit dem Lernen wandert das Feuern auf den frühesten verlässlichen Vorboten — einen Ton, ein Licht, den Anblick von Futter — und bleibt zum Zeitpunkt der Belohnung selbst stumm. Bleibt die vorhergesagte Belohnung aus, pausiert das Dopamin genau dann, wenn sie hätte kommen sollen. Das Signal ist also keine Lust, sondern ein Vorhersagefehler im Temporal-Difference-Sinn. Suttons und Bartos TD-Lernen nutzt genau dieses δ-Signal, um Wertschätzungen zu aktualisieren; der Schaltkreis aus Cortex und Basalganglien scheint einen analogen Algorithmus im lebenden Gehirn umzusetzen. Mögen versus Wollen (Kent Berridge, 1996): Dopamin treibt das Wollen (Motivation, das Hingezogenwerden), nicht das Mögen (das hedonische Genießen, das an Opioidsystemen hängt). Tiere, deren Dopamin ausgeschaltet ist, verhungern vor Futter, das sie weiterhin angenehm finden. Alle Suchtmittel laufen am Dopamin zusammen — Kokain und Amphetamine blockieren die Wiederaufnahme, Opioide enthemmen die VTA, Alkohol erhöht die Feuerrate —, und die so erzeugten überphysiologischen Signale trainieren das Gehirn, die Droge über alles zu stellen. Die Wollen-Mögen-Trennung erklärt das klinische Paradox: Süchtige berichten, die Droge gar nicht mehr zu genießen, sie aber nicht mehr suchen lassen zu können. Parkinson: das langsame Absterben der nigrostriatalen Dopaminneuronen erzeugt Tremor, Rigor, Bradykinese; L-DOPA ist die Standardtherapie.

Warum jetztVerstärkungslernen in der KI läuft auf demselben Algorithmus wie das Gehirn. AlphaGo (2016), AlphaStar (2019) und die spielenden Systeme insgesamt nutzen Temporal-Difference-Varianten. Verstärkungslernen aus menschlichem Feedback (RLHF) ist die Art, wie Claude, ChatGPT und Gemini auf Nutzerpräferenzen ausgerichtet werden; das Belohnungsmodell sind die menschlichen Bewertungen, die Strategie ist das Sprachmodell. Diese technologische Konvergenz — Neurowissenschaft und KI mit demselben Prinzip — gehört zu den auffälligsten Ergebnissen der letzten drei Jahrzehnte. Verhaltenssüchte (Glücksspiel, soziale Medien, Computerspiele) werden zunehmend als Ausnutzung dopaminergen Lernens gelesen: variable Verstärkungspläne machen besonders süchtig, weil sie den Vorhersagefehler maximieren. Ketamin und Psychedelika zeigen rasch antidepressive Wirkung, plausibel über ein Zurücksetzen dysfunktionalen Belohnungslernens.