Im Jahr 1718 veröffentlichte Abraham de Moivre The Doctrine of Chances, ein Lehrbuch für englische Gentlemen, die beim Spiel gewinnen wollten. Das Buch führte — neben vielen anderen Neuerungen — die systematische Berechnung dessen ein, was de Moivre den Erwartungswert einer Wette nannte: den langfristigen Durchschnitt, mit dem ein Spieler pro Spiel zu gewinnen oder zu verlieren rechnen kann, wenn das Experiment unbegrenzt wiederholt wird. Die Arithmetik war nicht neu, neu war hingegen, den Erwartungswert als die zentrale Kennzahl einer Zufallsvariablen zu behandeln. Drei Jahrhunderte später ist jede entscheidungstheoretische Berechnung in Wirtschaft, Statistik, maschinellem Lernen und Operations Research im Kern ein Erwartungswert — und die Übung, einen korrekt zu berechnen, ist der größte Teil dessen, was probabilistisches Denken ausmacht.
Für eine diskrete Zufallsvariable X, die Werte xᵢ mit Wahrscheinlichkeiten pᵢ annimmt, ist der Erwartungswert E[X] = Σ xᵢ · pᵢ — der wahrscheinlichkeitsgewichtete Durchschnitt der möglichen Ausgänge. Für eine stetige Variable mit Dichte ƒ(x) wird die Summe zum Integral: E[X] = ∫ x · ƒ(x) dx. Die Zahl heißt mitunter der Mittelwert der Verteilung. Zwei Eigenschaften machen den Erwartungswert mächtiger, als seine Definition vermuten lässt. Erstens die Linearität: E[aX + bY] = a·E[X] + b·E[Y], und zwar unabhängig davon, ob X und Y unabhängig sind. Das ist wirklich überraschend — der Mittelwert einer Summe ist die Summe der Mittelwerte, selbst wenn die Variablen miteinander verflochten sind — und es ist das Zugpferd praktischer Wahrscheinlichkeitsrechnungen. Zweitens überträgt sich der Erwartungswert ungezwungen auf Funktionen von Zufallsvariablen: E[g(X)] = Σ g(xᵢ) · pᵢ, womit sich Momente (E[X²], E[X³]), die Varianz (E[(X − μ)²]) und jede andere Verteilungskennzahl berechnen lassen. Das Gesetz der großen Zahlen (Jacob Bernoulli, 1713; im zwanzigsten Jahrhundert von Chintschin und Kolmogorow in Strenge gegossen) ist die exakte Aussage, dass mit wachsender Zahl unabhängiger Stichproben der Stichprobenmittelwert gegen den Erwartungswert konvergiert — die formale Rechtfertigung des Bankvorteils, die mathematische Garantie des Spielcasinos und die ganze frequentistische Deutung der Wahrscheinlichkeit. Der bedingte Erwartungswert — E[X | Y] — ist eine Verfeinerung, die selbst eine Zufallsvariable ist (eine Funktion von Y), und sie liegt dem größten Teil der modernen stochastischen Analysis zugrunde: Martingale, Filtrierungen, der Theorie der optimalen Vorhersage.
Erwartungsnutzen ist das Grundobjekt der ökonomischen Entscheidungstheorie. Erwarteter Verlust ist, was jede Trainingsschleife des maschinellen Lernens minimiert. Risikoneutraler Erwartungswert ist, als was die Preise finanzieller Derivate berechnet werden. Versicherungsprämien sind Erwartungswerte zuzüglich einer Marge. Das Reinforcement Learning wählt Handlungen so, dass der erwartete Langzeitertrag maximiert wird. Markov-Ketten werden über ihre Übergangs-Erwartungswerte charakterisiert. Die kleine Formel de Moivres ist heute in nahezu jeder quantitativen Praxis fest verankert, die mit Ungewissheit umgeht — und die Kluft zwischen Intuition über Durchschnitte und korrekt berechneten Erwartungswerten ist eine der verlässlichsten Quellen vermeidbarer Fehler im Urteil von Fachleuten.