Reinforcement Learning aus menschlichem Feedback

Belohnungsmodell auf menschlichen Präferenzen trainieren, Sprachmodell daran ausrichten — die Technik, die GPT dialogfähig und verweigerungsbereit machte.

Als Nächstes empfohlen → KI-Alignment & -Evaluation · CS·KI

Der Beitrag

Vortrainierte große Sprachmodelle können vieles. Sie können auch vieles tun, das man lieber nicht hätte: selbstbewusst falsch antworten, schädlichen Anweisungen folgen, in zusammenhanglose Monologe abdriften, Unsicherheit nicht zugeben, Trainingsdaten wörtlich nachsprechen. Das Basismodell ist rohe Fähigkeit; daraus etwas Nützliches, Ehrliches und sicher genug zum Ausliefern zu machen, verlangt eine zweite Trainingsstufe, die in klassischen ML-Lehrbüchern fehlt. Reinforcement Learning from Human Feedback (RLHF) — formalisiert von Christiano et al. 2017 und berühmt geworden mit OpenAIs InstructGPT (2022) und ChatGPT (November 2022) — ist die Technik, die GPT-artige Modelle dialogfähig, hilfsbereit und zur Verweigerung bereit machte: eine kleine Maschinerie auf einer großen, die nahezu jede Verhaltenseigenschaft des ausgelieferten Systems bestimmt.

RLHF trainiert ein Sprachmodell darauf, ein aus menschlichen Präferenz-Rankings gelerntes Belohnungssignal zu optimieren, in drei Phasen. Phase 1 — Supervised Fine-Tuning (SFT): menschliche Auftragnehmer schreiben Demonstrationen des erwünschten Verhaltens, und das vortrainierte Basismodell wird per gewöhnlichem überwachtem Lernen feinjustiert. Phase 2 — Reward Modeling: das SFT-Modell erzeugt mehrere Kandidatenantworten pro Eingabe, menschliche Bewerter ordnen sie paarweise, und ein eigenes Reward-Modell wird darauf trainiert, menschliche Präferenzen vorherzusagen. Phase 3 — RL-Fine-Tuning: das SFT-Modell wird gegen das Reward-Modell mit Proximal Policy Optimization (PPO) optimiert, plus KL-Strafe gegenüber dem SFT-Modell — die Strafe ist unverzichtbar, denn ohne sie trickst die Policy das Reward-Modell aus und produziert unsinnige Ausgaben, die hoch bewertet werden. Was RLHF tatsächlich verschiebt, ist Verweigerungsverhalten, Gesprächston, die Bereitschaft, Unsicherheit zuzugeben, Formatierung, Schmeichelei und Hilfsbereitschaft; die Fähigkeitsobergrenze setzt weitgehend das Pre-Training. Die bekannten Fehlermodi sind charakteristisch — Reward Hacking, Sycophancy, Überverweigerung, Längen-Bias, Mode Collapse — und Alternativen sind entstanden: Direct Preference Optimization (DPO; Rafailov et al. 2023) verzichtet ganz aufs Reward-Modell und trainiert direkt auf Präferenzdaten; Constitutional AI (Anthropic 2022) ersetzt einen Teil der menschlichen Labels durch KI-Kritik gegen eine geschriebene Verfassung (RLAIF); Reward Shaping mit Ausführungs-Feedback in Code-Generierungs-Modellen ersetzt das Reward-Modell durch automatische Korrektheitsprüfungen; und Process Reward Models bewerten einzelne Schlussfolgerungsschritte statt nur den Endausgang.

Warum jetztJedes kommerzielle Allzweck-LLM — Claude, ChatGPT, Gemini, Llama-Instruct, Grok, Mistral, DeepSeek-Chat, Qwen — wird mit einer Variante von RLHF oder DPO nachtrainiert. RLHF-Datenlabeling ist zu einer eigenen Branche herangewachsen, mit Surge AI, Scale AI, Invisible Technologies und Outlier, die Tausende Auftragnehmer beschäftigen, während Constitutional AI und RLAIF die Kosten menschlicher Labels drücken — um den Preis, dass KI-Bewerter ihre eigenen Verzerrungen einkodieren. Reasoning-Modelle (OpenAI o1/o3, DeepSeek-R1, Claude mit Extended Thinking) führen Test-Time-Chain-of-Thought-Scaling und ergebnisbasierte Belohnungen auf langen Schlussfolgerungstrajektorien ein — eine substanzielle Verschiebung in der RL-Pipeline. Ob das von Menschen gelabelte Präferenzsignal grundsätzlich reicht für Fähigkeiten, die Menschen selbst nicht mehr bewerten können, ist das Problem der Scalable Oversight.