PolymathicAlle Ideen →
Informatik & KI

Neuronale Netze

Schichten gewichteter Summen und Nichtlinearitäten, trainiert durch Gradientenabstieg. Ursprünglich von Neuronen inspiriert, heute dominant in der KI.

1943 modellierten Warren McCulloch und Walter Pitts das Neuron als binäre Schwelleneinheit — feuere, wenn die gewichtete Summe der Eingaben einen Schwellenwert übersteigt — und zeigten, dass Netze solcher Einheiten jede logische Funktion berechnen können. 1958 baute Frank Rosenblatt das Perzeptron, ein einschichtiges Netz mit Lernregel, und die New York Times beschrieb es als den Embryo einer Maschine, die einst gehen, sprechen und bewusst sein werde. Elf Jahre später bewiesen Minsky und Papert, dass einschichtige Netze nicht einmal XOR lernen können, das mediale Interesse brach ein, und das Feld trat in seinen ersten langen Winter. Die Reparatur — mehrschichtige Netze, mit Backpropagation trainiert — wurde mehrfach neu entdeckt, bis Rumelhart, Hinton und Williams ihr 1986 die kanonische Form gaben. Ein zweiter Winter folgte in den 1990ern. Die Deep-Learning-Revolution kam 2012, als AlexNet ImageNet mit einem Vorsprung gewann, der die Diskussion beendete.

Ein neuronales Netz ist ein Stapel linearer Transformationen — mit einer Gewichtsmatrix multiplizieren, einen Bias addieren —, durchsetzt mit nichtlinearen Aktivierungen (historisch Sigmoid, heute ReLU/GELU). Der universelle Approximationssatz (Cybenko 1989, Hornik 1991) garantiert, dass ein solches Netz mit hinreichend vielen versteckten Einheiten jede stetige Funktion annähern kann — er sagt aber nichts darüber, wie viele es braucht oder wie man die Gewichte findet. Die praktische Antwort ist die Backpropagation: definiere einen Verlust, der misst, wie falsch das Netz liegt, propagiere mit der Kettenregel den Gradienten des Verlusts durch jedes Gewicht zurück, und stoße jedes Gewicht in die Richtung, die den Verlust verkleinert. Iterieren. Varianten (Momentum, Adam, Lernraten-Pläne) und der stochastische Gradientenabstieg auf Mini-Batches machen aus dem mathematisch Geradlinigen etwas, das auf Netze mit Hunderten Milliarden Parametern skaliert. Die tiefe Überraschung des vergangenen Jahrzehnts ist, dass dieses sehr einfache Rezept, im großen Maßstab angewandt, immer weiter Fähigkeiten hervorbringt, die die Theorie nicht vorhersagt.

Warum es jetzt zählt

Backpropagation ist der wirtschaftlich folgenreichste Algorithmus des einundzwanzigsten Jahrhunderts. Jedes moderne KI-System — Bilderkennung, Sprache, Übersetzung, Empfehlungssysteme, autonomes Fahren, AlphaFold, ChatGPT, Claude, Gemini — ist ein vorwärtsgerichtetes Netz, das mit Gradientenabstieg auf einem Verlust trainiert wurde. Die Kritik der biologischen Plausibilität — echte Neuronen führen wahrscheinlich keine Backpropagation aus — bleibt für die theoretische Neurowissenschaft eine offene Frage und fürs praktische Tun ein Nicht-Thema. Die Architekturlinie (CNNs, Transformer, Diffusion) und die Interpretierbarkeitslinie (was eigentlich in einem trainierten Netz steckt) sind zu eigenen Themen herangewachsen; dieser Beitrag ist das Fundament, auf dem sie sitzen.

In Polymathic lesen →Den Katalog durchstöbern
Polymathic — ein kuratierter Katalog der Ideen, die es wert sind, behalten zu werden, quer durch zwölf Disziplinen. polymathic.app