Convolutional- & Recurrent-Netze

CNNs setzen Lokalität und Translationsinvarianz voraus; RNNs setzen Sequenz voraus. Die Vor-Transformer-Architekturen des Deep-Learning-Booms 2012–2017; Annahmen leben in Transformern fort.

Als Nächstes empfohlen → Visuelle Wahrnehmung · GEIST

Der Beitrag

Schon Ende der 1980er las Yann LeCun in den Bell Labs handgeschriebene Postleitzahlen für die US-Post mit einem Convolutional Neural Network — ein echtes Produkt, das echte Arbeit verrichtete und außerhalb des Labors kaum jemand wahrnahm. Die Architektur trug sogar einen Namen, LeNet, und eine klare Ahnenlinie bis zum visuellen Kortex, doch zwei Jahrzehnte lang blieben CNNs am Rand der Computer Vision, ausgehungert von den Daten und der Rechenleistung, die sie zum Glänzen gebraucht hätten. Dann gewann 2012 AlexNet (Krizhevsky, Sutskever, Hinton) den ImageNet-Wettbewerb mit einem Abstand, der so groß war, dass die handgebauten Computer-Vision-Pipelines, das gesammelte Handwerk einer Forschergeneration, über Nacht aufgegeben wurden; den Unterschied machte keine neue Idee, sondern genügend beschriftete Bilder und ein Weg, auf Grafikhardware zu trainieren. Das Recurrent Neural Network, mit seinen LSTM- und GRU-Verfeinerungen, erzählte die parallele Geschichte für Sequenzen — Übersetzung, Sprache, Sprachmodellierung — bis 2017 die Transformer es in fast jeder Anwendung ablösten.

Beide Architekturen sind induktive Vorannahmen: Vermutungen über die Struktur der Daten, fest ins Netz eingebaut, damit weniger der Struktur von Grund auf gelernt werden muss. Ein CNN nimmt an, dass bedeutsame Merkmale lokal sind (die Beziehung eines Pixels zu seinen Nachbarn zählt mehr als die zu einem Pixel am anderen Bildrand) und translationsinvariant (eine Katze ist eine Katze, egal wo im Bild). Umgesetzt wird das durch Convolution — ein kleiner Filter, ein rezeptives Feld, der übers Bild gleitet und an jeder Position dieselben Gewichte wiederverwendet, sodass ein einmal gelerntes Muster sein Merkmal überall zugleich erkennt. Dieses Weight Sharing hält das Netz zugleich kompakt: eine Handvoll Filter leistet, wofür eine vollverbundene Schicht Millionen Parameter bräuchte. Anschließendes Pooling fasst jede Region zusammen und gibt die genaue Position preis, um robuster gegen kleine Verschiebungen zu werden. Stapelt man solche Schichten, entsteht von selbst eine Hierarchie: frühe Filter sprechen auf Kanten und Texturen an, mittlere Schichten auf Motive und Formen, spätere auf Teile und ganze Objekte — ein grobes Echo dessen, wie auch das Sehsystem selbst Wahrnehmung aufzubauen scheint. Ein RNN nimmt die entgegengesetzte Gestalt der Daten als gegeben hin — es nimmt an, die Eingabe sei eine Sequenz, und arbeitet sie Schritt für Schritt ab, einen verborgenen Zustand als laufendes Gedächtnis des Vorherigen mitführend, wie geschaffen für Sprache und Zeitreihen. LSTMs und GRUs fügten Gating-Mechanismen hinzu, um gegen vanishing gradients anzugehen — die Tendenz von Fehlersignalen, beim Zurückfließen durch lange Sequenzen exponentiell zu verblassen, sodass weit entfernter Kontext praktisch unlernbar wird; die Tore lassen das Netz entscheiden, was es behält, was es vergisst und was es unverändert durchlässt. In der Computer Vision dominieren CNNs weiter (medizinische Bildgebung, Satellitenbilder, Video). RNNs sind weitgehend zugunsten von Transformern abgeschrieben, die ganze Sequenzen parallel statt Schritt für Schritt verarbeiten.

Warum jetztDie tiefe Lehre: die passende induktive Vorannahme — Lokalität für Bilder, Sequentialität für Text — ließ Deep Learning auf jeder Domäne überhaupt erst funktionieren, ehe genügend Daten und Rechenleistung verfügbar waren, um die Vorannahme entbehrlich zu machen. Transformer sind die allgemeinere Architektur, die die Struktur lernt, statt sie vorauszusetzen; sie brauchen dafür mehr Daten und Rechenleistung, das Ergebnis verallgemeinert dafür weiter — weshalb sie zuerst die Sprache und dann das Sehen erfassten. Die moderne Bildverarbeitung läuft zunehmend über Vision Transformer (ViT, 2020) statt über CNNs — Hybride und reine CNNs (ConvNeXt, 2022) bleiben jedoch voll konkurrenzfähig, eine Erinnerung daran, dass keine einzelne Architektur das letzte Wort hat, und die Grenzen zwischen beiden Familien verwischen zusehends. Die begrifflichen Erben von Convolution und Rekurrenz leben in Transformer-Varianten weiter, oft unerkannt: Lokalität kehrt als fensterbasierte Attention zurück, Rekurrenz als der zwischengespeicherte Zustand eines Modells, das Token für Token erzeugt.