2015 veröffentlichten Sohl-Dickstein und Kollegen in Stanford eine kuriose Arbeit, Deep Unsupervised Learning Using Nonequilibrium Thermodynamics, mit dem Vorschlag, ein generatives Modell zu trainieren, indem man einen langsamen zufälligen Verrauschungsprozess umkehrt: man nimmt ein Bild, fügt Schritt für Schritt Gauß'sches Rauschen hinzu, bis nur noch reines Rauschen übrig ist, und trainiert dann ein neuronales Netz darauf, die Verfälschung in Einzelschritten rückgängig zu machen. Um ein neues Bild zu erzeugen, startet man bei reinem Rauschen und führt den Rückwärtsprozess vorwärts aus. Fünf Jahre blieb die Arbeit weitgehend unbeachtet, bis Ho et al. (2020) die Formulierung als Denoising Diffusion Probabilistic Models aufräumten und Song und Ermon sie mit Score Matching verknüpften. Bis 2022 waren Stable Diffusion, DALL·E 2 und Midjourney auf dem Markt, und die Landschaft der Bildgenerierung war nicht wiederzuerkennen.
Diffusionsmodelle sind generative Modelle, die die Umkehrung eines festen Rauschinjektionsprozesses lernen. Der Vorwärtsprozess nimmt eine saubere Datenprobe x₀ und fügt schrittweise Gauß'sches Rauschen über T Schritte hinzu (typischerweise T = 1000); am Ende steht x_T, näherungsweise reines Rauschen. Dieser Prozess liegt fest und hat keine lernbaren Parameter. Der Rückwärtsprozess — was das Modell lernen muss — sagt x_{t−1} aus x_t voraus, mit einem neuronalen Netz ε_θ(x_t, t), das darauf trainiert wird, das in Schritt t hinzugefügte Rauschen zu schätzen. Das Training ist bemerkenswert schlicht: ein sauberes Bild ziehen, einen Zeitschritt ziehen, das passende Rauschen draufgeben, das Netz das Rauschen vorhersagen lassen, MSE minimieren. Kein adversariales Training, keine Mode-Collapse-Pathologien, kein gegenseitiges Austarieren zweier Netze wie bei GANs. Beim Sampling startet man bei reinem Rauschen und wendet den Rückwärtsprozess wiederholt an, bis am Ende eine Probe aus der Datenverteilung steht. Die scorebasierte Interpretation zeigt, dass das Netz äquivalent ∇_x log p(x_t) lernt, den Gradienten der Log-Wahrscheinlichkeit; Sampling wird zur Langevin-Dynamik auf dem gelernten Score. Die Konditionierung auf Text ergänzt einen Text-Encoder (CLIP oder T5), der Cross-Attention-Schichten speist; Classifier-Free Guidance tauscht Stichprobenvielfalt gegen Detailtreue; Latent Diffusion arbeitet in einem komprimierten VAE-Latentraum statt im Pixelraum und senkt den Rechenaufwand um rund den Faktor 10. Das Entrauschungsnetz ist bei Bildern meist ein U-Net, bei Video ein Transformer (DiT, Sora). Die Verwandtschaft zur statistischen Physik des Nichtgleichgewichts ist nicht metaphorisch — der Rauschplan entspricht einer Fokker-Planck-Gleichung, die Score-Funktion thermodynamischen Kräften — und die Technik treibt heute Audio (MusicLM), Video (Sora, Veo), Proteinstruktur-Vorhersage (AlphaFold 3) und molekulares Design.
Die Branche der Bildgenerierung läuft fast vollständig auf Diffusion (Midjourney, Stable Diffusion, DALL·E, Imagen, Firefly, Flux); Videogenerierung (Sora, Veo, Kling, Runway) ist diffusionsbasiert; Musikgenerierung (Suno, Udio) ist diffusionsbasiert; AlphaFold 3 (2024) bekam einen diffusionsbasierten Kopf, der die Vorhersage von Protein-Ligand-Komplexen erlaubt. Offene Forschungsfronten sind Flow Matching und Rectified Flow als vereinfachte Nachfolger, die mit weniger Sampling-Schritten vergleichbare Ergebnisse erzielen, und Consistency Models, die in 1 bis 4 statt 50 bis 1000 Schritten samplen. Urheber- und arbeitsrechtliche Klagen rund um Bildgenerierungsmodelle laufen aktiv (Getty Images gegen Stability AI, NYT gegen OpenAI), und Deepfake-Sorgen haben Standards zur Inhaltsauthentifizierung (C2PA, Wasserzeichen) angestoßen. Eine thermodynamische Arbeit von 2015 ist heute das generative Substrat nahezu jedes kommerziellen kreativen KI-Produkts.