Um 1922 behauptete an der Versuchsstation Rothamsted in England eine Kollegin von Ronald Fisher, sie könne am Geschmack erkennen, ob die Milch vor oder nach dem Tee in die Tasse gegeben worden sei. Fisher — bald darauf der einflussreichste Statistiker des zwanzigsten Jahrhunderts — entwarf das Experiment, das die Sache klären sollte. Acht Tassen: vier mit Milch zuerst, vier mit Tee zuerst, in zufälliger Reihenfolge serviert. Er fragte: wenn sie tatsächlich nichts schmecken könnte und nur riete, wie oft würde sie alle acht korrekt zuordnen? Die Antwort: einmal in siebzig Versuchen — ein p-Wert von rund 0,014. Sie ordnete alle acht richtig zu. Aus der Episode wurde the lady tasting tea, und der Rahmen, den Fisher um sie herum baute — das Signifikanztesten der Nullhypothese — wurde zur Standardmethode der empirischen Wissenschaft.
Ein Hypothesentest ist ein Verfahren, anhand von Daten zu entscheiden, ob eine vorgegebene Nullhypothese H₀ zu verwerfen ist (typisch: „kein Effekt“, „kein Unterschied“, „die Münze ist fair“). Das Rezept: wähle eine Teststatistik, deren Verteilung unter H₀ bekannt ist; sammle Daten und berechne die Statistik; bestimme den p-Wert — die Wahrscheinlichkeit, unter H₀, eine Statistik mindestens so extrem wie die beobachtete zu sehen; ist p < α (ein vorab gewähltes Signifikanzniveau, üblicherweise 0,05), verwirf H₀, sonst nicht. Den Rahmen systematisierte Fisher in den 1920er Jahren; Jerzy Neyman und Egon Pearson gaben ihm die entscheidungstheoretische Fassung mit Alternativhypothesen und Trennschärfe. Fehler erster Art: eine wahre H₀ verwerfen (Falsch-Positiv); die Rate ist α. Fehler zweiter Art: eine falsche H₀ nicht verwerfen (Falsch-Negativ); die Rate ist β. Trennschärfe = 1 − β. Mehrfaches Testen — viele Tests gleichzeitig laufen lassen — treibt die Falsch-Positiv-Rate hoch; Abhilfe schaffen unter anderem die Bonferroni-Korrektur und die Kontrolle der False-Discovery-Rate. Der p-Wert, die meistgenutzte und meistmissverstandene Zahl der Wissenschaft, ist nicht die Wahrscheinlichkeit, dass H₀ wahr ist; er ist die Wahrscheinlichkeit der Daten gegeben H₀ — eine andere, häufig verwechselte Größe. Seit den 2010ern steht der Rahmen unter Dauerbeschuss. p-Hacking — viele Tests laufen lassen und nur die signifikanten berichten — hat einen großen Teil der Replikationskrise in Psychologie und Biomedizin verursacht; die geschätzten Reproduzierbarkeitsraten liegen in manchen Teilgebieten unter 50 %. Antworten sind Voranmeldung der Analysen, größere Stichproben, Verzicht auf die starre 0,05-Schwelle und bayessche Alternativen, die Posteriorwahrscheinlichkeiten direkt ausweisen.
Pharmazeutische klinische Studien sind formal Hypothesentests gegen Placebo, mit regulatorischen Rahmen, die um α und β herum gebaut sind. Das A/B-Testen in Technologieunternehmen — die Grundlage jeder „dieser Knopf ist jetzt blau“-Entscheidung im großen Maßstab — ist Hypothesentesten auf Nutzermetriken, mit täglich Millionen von Mikroexperimenten. Die Teilchenphysik arbeitet mit harten Schwellen (dem 5-Sigma-Standard — p ≈ 3 × 10⁻⁷), um eine Entdeckung zu beanspruchen; das Higgs-Boson wurde 2012 verkündet, als ein Peak in den CERN-Daten diese Linie überschritt. Die Schwächen des Rahmens sind in der Wissenschaft heute weithin anerkannt, doch sein Ersatz bleibt umstritten — bayessche Methoden, das Berichten von Effektgrößen und Voranmeldungen gewinnen Boden, ohne die zentrale Rolle des p-Werts schon verdrängt zu haben.