Die Ableitung wurde zweimal entdeckt, beinahe gleichzeitig, von Männern, die einander den Rest ihres Lebens des Diebstahls beschuldigen sollten. Isaac Newton arbeitete sie um 1666 im Pestjahr aus und nannte sie Fluxion — die Rate, mit der sich eine fließende Größe ändert. Gottfried Wilhelm Leibniz arbeitete sie in den 1670er Jahren unabhängig aus, nannte sie Differential und gab ihr die Notation dy/dx und das Integralzeichen ∫, die wir heute noch verwenden. Der anschließende Prioritätsstreit vergiftete die englische Mathematik für über ein Jahrhundert — Newtons Notation benutzten seine Loyalisten, Leibnizens alle auf dem Kontinent, und die kontinentalen Mathematiker zogen den Engländern davon. Die Notation gewann den Streit, auch wenn Newton die Politik gewann.
Die Ableitung einer Funktion ƒ an einer Stelle x misst, wie schnell sich ƒ an x ändert — geometrisch die Steigung der Tangente an den Graphen an dieser Stelle. Formal ist sie der Grenzwert des Differenzenquotienten: ƒ′(x) = lim h→0 [ƒ(x+h) − ƒ(x)] / h, sofern dieser Grenzwert existiert. Eine Funktion, die an x eine Ableitung besitzt, heißt dort differenzierbar; Differenzierbarkeit zieht Stetigkeit nach sich, aber nicht umgekehrt (eine stetige Funktion kann Ecken oder Spitzen tragen, an denen keine Tangente existiert). Das Handwerk des Ableitens wird mit der Übung mechanisch: die Potenzregel (d/dx von xⁿ ist n·xⁿ⁻¹), die Produktregel, die Quotientenregel und — am folgenreichsten — die Kettenregel, nach der die Ableitung einer Komposition ƒ(g(x)) gleich ƒ′(g(x)) · g′(x) ist. Die Kettenregel ist das Zugpferd jeder späteren Anwendung: sie ist buchstäblich der Algorithmus, den die Backpropagation durch neuronale Netze ausführt. Die Ableitung liefert auch die lineare Näherung: nahe jeder Stelle, an der ƒ differenzierbar ist, gilt ƒ(x + h) ≈ ƒ(x) + ƒ′(x)·h — das billigste Modell der Funktion und die Grundlage des Newton-Verfahrens, des Gradientenabstiegs und der Taylorreihe. Die zweite Ableitung misst die Krümmung; höhere Ableitungen fassen feinere lokale Struktur. Der tiefe Grund dafür, dass jedes Naturgesetz eine Differentialgleichung ist: Physik ist überwiegend lokal — Kräfte, Felder, Flüsse und Reaktionsraten wirken auf infinitesimalen Umgebungen, und die Ableitung ist genau die Sprache dafür, was in infinitesimalen Umgebungen geschieht.
Ableitungen sind die Grundlage der Optimierung: jeder Gradientenabstiegs-Algorithmus, jede Trainingsschleife eines neuronalen Netzes, jeder Solver im Operations Research berechnet Ableitungen und folgt ihnen bergab. Backpropagation — der Algorithmus, der moderne KI-Modelle trainiert — ist die Kettenregel, rekursiv über einen Berechnungsgraphen angewandt. Die automatische Differenzierung (die Technologie hinter PyTorch, TensorFlow, JAX) ist industrialisiertes Ableiten, schnell genug, um auf Milliarden-Parameter-Modellen zu laufen. Alles Marginale in der Wirtschaft ist eine Ableitung. Die Regelungstheorie formt physikalische Systeme, indem sie an ihren Ableitungen ansetzt. Der kleine Grenzwert, den Newton und Leibniz in den 1670ern erfanden, ist dreieinhalb Jahrhunderte später die Maschine, die den größten Teil der quantitativen Zivilisation antreibt.