Backpropagation

Die Verantwortung fließt rückwärts entlang der Kettenregel.

Als Nächstes empfohlen → Dopamin & Belohnung · GEIST

Der Beitrag

Im Jahr 1986 lieferte eine Arbeit von Rumelhart, Hinton und Williams in Nature die einflussreichste Behandlung eines Algorithmus namens Backpropagation — eine Methode, effizient zu berechnen, wie sich die Gewichte eines neuronalen Netzes ändern müssen, um seinen Fehler zu verringern. Der Kerngedanke ist älter: eng verwandte Verfahren waren in den 1960er und 70er Jahren bereits mehrfach unabhängig ausgearbeitet worden, und Seppo Linnainmaa hatte die zugrunde liegende Rückwärtsdifferenziation schon 1970 beschrieben. Was die Arbeit von 1986 beisteuerte, war der kulturelle Moment, in dem das Feld erkannte, dass das Trainieren mehrschichtiger Netze im Prinzip gelöst war — dass sich der Fehler am Ausgang gerecht jedem Gewicht zuweisen ließ, das ihn miterzeugt hatte. Vierzig Jahre später läuft jedes moderne KI-System auf Backpropagation, und die Folgen haben Industrien neu geordnet.

Backpropagation ist die im industriellen Maßstab angewandte Kettenregel. Ein neuronales Netz ist eine Kette differenzierbarer Transformationen, die von der Eingabe über die Ausgabe bis zu einer Verlustfunktion führen (die misst, wie falsch das Netz liegt). Jeder Trainingsschritt führt einen Vorwärtslauf aus — die Daten fließen durch die Schichten bis zu einer Vorhersage — und danach einen Rückwärtslauf, in dem der Fehler am Ausgang rückwärts durch das Netz getragen wird, Schicht für Schicht, sodass jedes Gewicht lernt, wie viel es beigetragen hat zum Irrtum. Die Kettenregel erlaubt es, den Gradienten des Verlusts bezüglich jedes einzelnen Parameters zu berechnen, indem man unterwegs lokale Jacobi-Matrizen miteinander multipliziert. Liegt der Gradient vor, schiebt der Gradientenabstieg (oder eine stochastische Variante) jeden Parameter einen kleinen Schritt bergab, in Richtung kleineren Verlusts; das wiederholt man für Milliarden Beispiele. Der Geniestreich des Verfahrens ist seine Recheneffizienz: ein Vorwärts- und ein Rückwärtslauf kosten je O(Netzgröße), und genau das machte tiefe Netze überhaupt trainierbar statt zu einer theoretischen Kuriosität. Die frühen Hindernisse waren real — das Problem verschwindender und explodierender Gradienten, bei dem Fehlersignale über viele Schichten hinweg auf null schrumpfen oder ins Unermessliche wachsen, hielt die Tiefe lange außer Reichweite. Gezähmt wurde es durch ein Bündel von Neuerungen: ReLU-Aktivierungen, Normalisierungs-Schichten und Residualverbindungen, die den Gradienten einen sauberen Weg zurück geben. Das AlexNet-Resultat von 2012 auf ImageNet, das die von Hand entworfenen Pipelines der Computer Vision zermalmte, war der empirische Beleg, dass das Rezept im großen Maßstab trägt. Alles seither — Bildgenerierung, Sprachassistenten, AlphaGo, GPT, Claude, AlphaFold — ist Anwendung oder Erweiterung desselben Paradigmas.

Warum jetztBackpropagation ist um Größenordnungen der wirtschaftlich folgenreichste Algorithmus des einundzwanzigsten Jahrhunderts. Die gegenwärtige Front — große Sprachmodelle, Diffusionsmodelle, multimodale Systeme, Robotik-Policies — ist Backpropagation in stets wachsendem Maßstab. Der Einwand mangelnder biologischer Plausibilität (echte Neuronen implementieren Backprop wahrscheinlich nicht) bleibt eine offene Frage für die theoretische Neurowissenschaft; die pragmatische KI-Gemeinde wischt ihn als unerheblich beiseite: was auch immer das Gehirn tut, Backprop funktioniert.