Diffusionsmodelle

Erzeuge, indem du den langsamen Zufallsgang umkehrst, der das Signal in Rauschen verwandelt hat.

Als Nächstes empfohlen → Neuronale Netze · CS·KI

Der Beitrag

2015 veröffentlichte ein Stanford-Team eine Arbeit, die fast niemand las, mit einem unwahrscheinlichen Vorschlag, der Physik entlehnt war: Um ein Modell zu bauen, das Bilder erschafft, zerstöre zuerst eines. Man nimmt eine Fotografie und fügt ein wenig zufälliges Rauschen hinzu, dann etwas mehr, und wieder, tausendfach, bis nichts bleibt als Rauschen — und trainiert dann ein neuronales Netz darauf, den Vorgang rückwärts laufen zu lassen und bei jedem Schritt ein wenig Rauschen zu entfernen. Gelingt das gut genug, kann man bei reinem Rauschen beginnen und zusehen, wie sich ein stimmiges Bild aus dem Nebel löst, als entwickle es sich rückwärts. Fünf Jahre lag die Idee unbeachtet. Bis 2022, verfeinert und hochskaliert, trieb sie Stable Diffusion, DALL·E und Midjourney, und die Welt des Bildermachens war mit einem Schlag nicht wiederzuerkennen.

Das Elegante liegt darin, wie wenig das Modell je zu lernen hat. Die vordere Hälfte — Schritt für Schritt Rauschen hinzuzufügen, bis ein Bild in Rauschen zerfällt — steht im Voraus fest, mit nichts zu trainieren; sie ist bloß ein gesteuertes Abgleiten ins Zufällige. Alles, was das Netz lernt, ist die Umkehrung eines einzigen kleinen Schritts: Zu einem leicht verrauschten Bild soll es raten, welches Rauschen gerade hinzukam, damit es sich abziehen lässt. Das Training könnte kaum schlichter sein — man verfälscht ein Bild um einen zufälligen Betrag, lässt das Netz das Rauschen benennen, stupst es zur richtigen Antwort und wiederholt das über Millionen Bilder. Es gibt keinen Gegenspieler auszutarieren, nichts von der Instabilität, die die vorige Generation der Bildmodelle so launisch machte; die Aufgabe ist bloß geduldiges Entrauschen. Um etwas Neues zu erzeugen, verkettet man diese kleinen Rückwärtsschritte von reinem Rauschen ganz hinunter zu einem sauberen Bild. Steuern lässt es sich, indem man eine Textbeschreibung einspeist, die jeden Entrauschungsschritt hin zu Bildern kippt, die zu den Worten passen — so wird aus einem getippten Prompt eine Szene. Bemerkenswert ist, dass nichts davon eine lose Analogie zur Physik ist — es ist dieselbe Mathematik. Die vordere Verfälschung ist buchstäblich ein Diffusionsprozess, ebenjene Gleichungen, die einen Tropfen Tinte beschreiben, der sich in Wasser ausbreitet, oder Wärme, die durch Metall sickert, und das Netz lernt, diese Diffusion rückwärts laufen zu lassen. Eine Technik, die geradewegs der Thermodynamik des neunzehnten Jahrhunderts entnommen ist, hat sich als das mächtigste bislang gefundene Mittel erwiesen, um Bilder — und zunehmend Video, Klang und sogar die gefalteten Gestalten von Proteinen — aus nichts als Rauschen heraufzubeschwören.

Warum jetztFast die gesamte generative Medienbranche läuft nun auf dieser einen Idee: Die führenden Bild-, Video- und Musikgeneratoren sind allesamt im Kern Diffusion, und AlphaFold 3 hat der Proteinvorhersage sogar einen Diffusionsschritt aufgesetzt, um Atome im Raum zu platzieren. Die Forschung wetteifert darum, sie schneller zu machen, denn das ursprüngliche Verfahren braucht Hunderte Entrauschungsschritte je Bild, und neuere Varianten senken das auf eine Handvoll. Um sie herum wirbeln die prägenden Kämpfe der generativen KI — Klagen über das Training an urheberrechtlich geschützten Bildern und Standards zur Inhaltsauthentifizierung, die kennzeichnen sollen, was synthetisch ist. Eine stille Physikarbeit von 2015 ist zum Motor unter nahezu jedem kreativen KI-Produkt geworden, das heute im Einsatz ist.

Zur VertiefungSong & Ermon, Generative Modeling by Estimating Gradients of the Data Distribution (2019). Ho, Jain & Abbeel, Denoising Diffusion Probabilistic Models (2020). Sohl-Dickstein et al., Deep Unsupervised Learning Using Nonequilibrium Thermodynamics (2015). Lilian Wengs Blogpost What Are Diffusion Models? (2021).