PolymathicAlle Ideen →
Geist & Gehirn

Visuelle Wahrnehmung

V1 feuert bei Kanten bestimmter Orientierung; die kortikale Hierarchie setzt aus einfachen Merkmalen komplexe zusammen.

Im Jahr 1959 schoben zwei Postdocs an der Johns Hopkins University — David Hubel und Torsten Wiesel — eine Mikroelektrode in den primären visuellen Cortex (Areal V1) einer narkotisierten Katze. Sie probierten Punkte, Flecken, komplexe Muster; nichts Nennenswertes. Beim Wechsel der Dias rutschte zufällig die Kante eines Dias durch den Projektor — und ein Neuron explodierte vor Aktivität, selektiv für eine bewegte Kante in einer bestimmten Orientierung. In einer Reihe von Aufsätzen über das folgende Jahrzehnt kartierten Hubel und Wiesel die kortikale Hierarchie — einfache Zellen sprechen auf orientierte Kanten an, komplexe Zellen fügen sie zusammen, hyperkomplexe Zellen reagieren auf bestimmte Konfigurationen — und erhielten dafür den Nobelpreis 1981. Die Hierarchie, die sie entdeckten, erwies sich später als Architekturvorlage für Convolutional Neural Networks.

Visuelle Wahrnehmung beginnt an den Photorezeptoren der Netzhaut — ~120 Millionen Stäbchen (hohe Empfindlichkeit, geringe Auflösung, achromatisch, peripher) und ~6 Millionen Zapfen (geringe Empfindlichkeit, hohe Auflösung, Farbe, zentral); schon die Netzhaut verarbeitet das Signal über Bipolar- und Ganglienzellen, die Zentrum-Umfeld-Differenzen bilden und so Kanten schärfen. Der Sehnerv führt rund 1 Million Axone pro Auge zum Corpus geniculatum laterale des Thalamus, von dort geht es weiter zum primären visuellen Cortex (V1); V1 ist retinotop kartiert (die zentrale Fovea bekommt überproportional viel kortikales Land) und enthält Hubel-Wiesel-Orientierungssäulen. Ab V1 verzweigen zwei große Verarbeitungsströme — der dorsale Strom (V1 → MT → posteriorer Parietalcortex) ist der Wo/Wie-Weg für Bewegung, räumlichen Ort und Handlungssteuerung, der ventrale Strom (V1 → V4 → inferiorer Temporalcortex) ist der Was-Weg für Form, Farbe und Objekterkennung —, und höhere Areale werden zunehmend invariant: der inferotemporale Cortex gegenüber Größe und Drehung, das fusiforme Gesichtsareal gegenüber Gesichtern, das parahippocampale Ortsareal gegenüber Szenen, und ganz spät in der Hierarchie Konzeptzellen (Quian Quiroga 2005) wie die Tom-Cruise-Zelle, die auf Bilder von ihm aus vielen Blickwinkeln anspringt. Die Hierarchie läuft nicht streng vorwärts — kräftige Rückkopplungen, die prädiktive Verarbeitung tragen, ziehen von höheren zu niedrigeren Arealen, der Cortex sagt ständig voraus, was er zu sehen erwartet, und reicht Vorhersagefehler nach oben weiter. Visuelle Täuschungen (die Müller-Lyer-Täuschung, das Kanizsa-Dreieck, das Kleid) zeigen, wo die kräftigen Vorannahmen des Cortex bei der Rekonstruktion einer 3D-Welt aus 2D-Bildern danebengreifen.

Warum es jetzt zählt

Convolutional Neural Networks (CNNs, die Technik hinter jedem kommerziellen Vision-System von AlexNet 2012 bis zu den heutigen Foundation-Modellen) sind biologisch an die Hubel-Wiesel-Hierarchie angelehnt: frühe Schichten lernen Filter für orientierte Kanten, mittlere Schichten Textur- und Teilmerkmale, späte Schichten Merkmale auf Objektebene — und die mittleren Schichten trainierter CNNs sagen die Feuermuster inferotemporaler Neuronen bei Makaken besser voraus als jedes von Hand gebaute Modell. Vision Transformers (ab ~2020) sind eine teilweise Alternative, arbeiten aber weiterhin hierarchisch. Diffusionsmodelle (Stable Diffusion, DALL-E, Midjourney) erzeugen Bilder aus Text, indem sie die visuelle Hierarchie umkehren; ihre Schwachstellen (Hände, Text im Bild, Mehrobjektszenen) zeigen, wo die Hierarchie noch an Grenzen stößt. Die Hierarchie, die Hubel und Wiesel im Katzen-V1 kartiert haben, ist sechs Jahrzehnte später über Arten, Methoden und sogar künstliche Systeme hinweg als Grundlogik dafür bestätigt, wie das Gehirn — und die nach ihm modellierte Maschine — sieht.

In Polymathic lesen →Den Katalog durchstöbern
Polymathic — ein kuratierter Katalog der Ideen, die es wert sind, behalten zu werden, quer durch zwölf Disziplinen. polymathic.app