Im Jahr 1872 hielt der deutsche Mathematiker Felix Klein — dreiundzwanzig Jahre alt und gerade auf einen Lehrstuhl in Erlangen berufen — eine Antrittsvorlesung, die eine radikale Neuordnung der Geometrie vorschlug. Geometrie, so Klein, ist die Lehre davon, welche Eigenschaften unter welchen Transformationen invariant bleiben. Die euklidische Geometrie ist das, was Drehungen, Spiegelungen und Verschiebungen überdauert. Die affine Geometrie überdauert lineare Abbildungen, die parallele Geraden erhalten. Die projektive Geometrie überdauert beliebige Projektionen. Die Transformationen kommen zuerst; die Geometrie ist, was übrig bleibt. Das Erlanger Programm ordnete fast die gesamte Geometrie des neunzehnten Jahrhunderts neu und hob die Transformationen selbst — besonders die linearen — zum zentralen Untersuchungsgegenstand.
Eine lineare Abbildung T: V → W ist eine Funktion zwischen Vektorräumen, die die Vektorraumoperationen erhält: T(au + bv) = a·T(u) + b·T(v) für beliebige Vektoren u, v und Skalare a, b. Die Bedingung ist mild, aber durchschlagend: sie verlangt, dass die Abbildung Addition und Skalierung gemeinsam respektiert, und das genügt, um Ts Verhalten auf dem ganzen Raum aus ihrem Verhalten auf einer Basis festzulegen. Weiß man, was T mit jedem Basisvektor tut, weiß man, was sie mit allem tut — per Linearität nimmt man einfach die passende Kombination. Das ist die tiefe Verbindung zwischen linearen Abbildungen und Matrizen: wählt man eine Basis für V und W, so ist jede lineare Abbildung zwischen ihnen exakt durch eine m×n-Matrix gegeben, deren Spalten die Bilder der Basisvektoren von V sind. Matrix und Abbildung sind zwei Sichten desselben Dings. Die Verkettung von Abbildungen entspricht der Multiplikation von Matrizen — daher rührt die Regel der Matrix-Multiplikation, darum sieht sie so aus, wie sie aussieht. Geometrische Beispiele in 2D sind leicht vor Augen: Drehung um einen Winkel θ, Spiegelung an einer Geraden, Projektion auf eine Achse, Skalierung mit verschiedenen Faktoren in verschiedenen Richtungen, Scherung (eine Achse gegen die andere geneigt). Jede ist eine eigene Matrix, und ihre Verknüpfung verknüpft die Matrizen. Der Kern von T ist die Menge der Vektoren, die auf null abgebildet werden — die Richtungen, die T vernichtet. Das Bild ist die Menge der Vektoren, die T erzeugen kann. Der Rangsatz sagt, dass diese beiden Stücke ganz V ausschöpfen: dim(V) = dim(Kern) + dim(Bild) — eine der saubersten Bilanzgleichungen der Mathematik.
Die moderne Bildverarbeitung — jede Unschärfe, jede Schärfung, jede Drehung, jede Farbkorrektur — ist eine lineare Abbildung, Pixel für Pixel. 3D-Rendering-Pipelines verketten lineare Abbildungen, um von Weltkoordinaten über Kamerakoordinaten zu Bildschirmpixeln zu kommen. Die Hauptkomponentenanalyse in der Statistik ist eine lineare Abbildung, die hochdimensionale Daten auf ihre informativsten Richtungen projiziert. Die Quantenmechanik beschreibt physikalische Observable als lineare Operatoren auf einem Hilbert-Raum — deren Eigenwerte sind die tatsächlich messbaren Werte. Schichten neuronaler Netze sind, klammert man ihre nichtlinearen Aktivierungen aus, lineare Abbildungen von Merkmalsvektoren; das ganze Feld des Deep Learning ist, sehr lose gefasst, die Kunst, lineare Abbildungen mit einfachen Nichtlinearitäten zu verketten — und so beliebige Funktionen lernen zu lassen.