PolymathicAlle Ideen →
Informatik & KI

Backpropagation

Die Verantwortung fließt rückwärts entlang der Kettenregel.

Im Jahr 1986 lieferte eine Arbeit von Rumelhart, Hinton und Williams in Nature die einflussreichste Behandlung eines Algorithmus namens Backpropagation — eine Methode, effizient zu berechnen, wie sich die Gewichte eines neuronalen Netzes ändern müssen, um seinen Fehler zu verringern. Der Algorithmus selbst war in den 1960er und 70er Jahren bereits mehrfach unabhängig ausgearbeitet worden; die Arbeit von 1986 war der kulturelle Moment, in dem die Deep-Learning-Gemeinde erkannte, dass das Problem, mehrschichtige Netze zu trainieren, im Prinzip gelöst war. Vierzig Jahre später läuft jedes moderne KI-System auf Backpropagation, und die Folgen haben Industrien neu geordnet.

Backpropagation ist die im industriellen Maßstab angewandte Kettenregel. Ein neuronales Netz ist eine Kette differenzierbarer Transformationen, die von der Eingabe über die Ausgabe bis zu einer Verlustfunktion führen (die misst, wie falsch das Netz liegt). Die Kettenregel erlaubt es, den Gradienten des Verlusts bezüglich jedes einzelnen Parameters zu berechnen, indem man Fehlersignale rückwärts durch das Netz trägt, Schicht für Schicht, und dabei lokale Jacobi-Matrizen miteinander multipliziert. Liegt der Gradient vor, verschiebt der Gradientenabstieg (oder eine stochastische Variante) die Parameter ein Stück in Richtung kleineren Verlusts. Wiederhole das für Milliarden Trainingsbeispiele. Der Geniestreich des Verfahrens ist seine Recheneffizienz: ein Vorwärtslauf und ein Rückwärtslauf kosten je O(Netzgröße), was das Training von Netzen mit Hunderten Milliarden Parametern überhaupt erst möglich macht. Die frühen neuronalen Winter der 1970er und 1990er Jahre lagen an verwandten, aber anderen Problemen — verschwindenden Gradienten, zu wenig Daten, zu wenig Rechenleistung —, deren Lösung Jahrzehnte beanspruchte. Das AlexNet-Resultat von 2012 auf ImageNet, das die von Hand entworfenen Pipelines der Computer Vision drastisch übertraf, war der empirische Beleg, dass tiefe Netze, mit Backpropagation trainiert, klassische Methoden auch auf schweren realen Problemen schlagen können. Alles seither — Bildgenerierung, Sprachassistenten, AlphaGo, GPT, Claude, AlphaFold — ist Anwendung oder Erweiterung desselben Paradigmas.

Warum es jetzt zählt

Backpropagation ist um Größenordnungen der wirtschaftlich folgenreichste Algorithmus des einundzwanzigsten Jahrhunderts. Die gegenwärtige Front — große Sprachmodelle, Diffusionsmodelle, multimodale Systeme, Robotik-Policies — ist Backpropagation in stets wachsendem Maßstab. Der Einwand mangelnder biologischer Plausibilität (echte Neuronen implementieren Backprop wahrscheinlich nicht) bleibt eine offene Forschungsfrage für die theoretische Neurowissenschaft; die pragmatische KI-Gemeinde wischt ihn als unerheblich beiseite: was auch immer das Gehirn tut, Backprop funktioniert.

In Polymathic lesen →Den Katalog durchstöbern
Polymathic — ein kuratierter Katalog der Ideen, die es wert sind, behalten zu werden, quer durch zwölf Disziplinen. polymathic.app