PolymathicAlle Ideen →
Informatik & KI

Convolutional- & Recurrent-Netze

CNNs setzen Lokalität und Translationsinvarianz voraus; RNNs setzen Sequenz voraus. Die Vor-Transformer-Architekturen des Deep-Learning-Booms 2012–2017; Annahmen leben in Transformern fort.

Schon Ende der 1980er las Yann LeCun in den Bell Labs handgeschriebene Postleitzahlen für die US-Post mit einem Convolutional Neural Network — ein echtes Produkt, das echte Arbeit verrichtete und außerhalb des Labors kaum jemand wahrnahm. Zwei Jahrzehnte lang blieben CNNs am Rand der Computer Vision. Dann gewann 2012 AlexNet (Krizhevsky, Sutskever, Hinton) den ImageNet-Wettbewerb mit einem Abstand, der so groß war, dass die handgebauten Computer-Vision-Pipelines über Nacht aufgegeben wurden. Das Recurrent Neural Network, mit seinen LSTM- und GRU-Verfeinerungen, erzählte die parallele Geschichte für Sequenzen — Übersetzung, Sprache, Sprachmodellierung — bis 2017 die Transformer es in fast jeder Anwendung ablösten.

Beide Architekturen sind induktive Vorannahmen: Vermutungen über die Struktur der Daten, fest ins Netz eingebaut, damit weniger der Struktur von Grund auf gelernt werden muss. Ein CNN nimmt an, dass bedeutsame Merkmale lokal sind (die Beziehung eines Pixels zu seinen Nachbarn zählt mehr als die zu einem Pixel am anderen Bildrand) und translationsinvariant (eine Katze ist eine Katze, egal wo im Bild). Umgesetzt wird das durch Convolution — ein kleiner Filter, der übers Bild gleitet — und anschließendes Pooling, das Regionen zusammenfasst. Ein RNN nimmt an, die Daten seien eine Sequenz, und arbeitet sie Schritt für Schritt ab, einen verborgenen Zustand mitführend. LSTMs und GRUs fügten Gating-Mechanismen hinzu, um gegen vanishing gradients anzugehen — die Tendenz von Fehlersignalen, beim Zurückfließen durch lange Sequenzen exponentiell zu verblassen. In der Computer Vision dominieren CNNs weiter (medizinische Bildgebung, Satellitenbilder, Video). RNNs sind weitgehend zugunsten von Transformern abgeschrieben, die Sequenzen parallel statt Schritt für Schritt verarbeiten.

Warum es jetzt zählt

Die tiefe Lehre: die passende induktive Vorannahme — Lokalität für Bilder, Sequentialität für Text — ließ Deep Learning auf jeder Domäne überhaupt erst funktionieren, ehe genügend Daten und Rechenleistung verfügbar waren, um die Vorannahme entbehrlich zu machen. Transformer sind die allgemeinere Architektur, die die Struktur lernt, statt sie vorauszusetzen; sie brauchen dafür mehr Daten und Rechenleistung, das Ergebnis verallgemeinert dafür weiter. Die moderne Bildverarbeitung läuft zunehmend über Vision Transformer (ViT, 2020) statt über CNNs — Hybride und reine CNNs (ConvNeXt, 2022) bleiben jedoch konkurrenzfähig. Die begrifflichen Erben von Convolution und Rekurrenz leben in Transformer-Varianten weiter, oft unerkannt.

In Polymathic lesen →Den Katalog durchstöbern
Polymathic — ein kuratierter Katalog der Ideen, die es wert sind, behalten zu werden, quer durch zwölf Disziplinen. polymathic.app