KI-Alignment & -Evaluation

Sicherstellen, dass mächtige KI-Systeme tun, was ihre Auftraggeber wollen — und messen, ob sie es wirklich tun.

Als Nächstes empfohlen → Mechanistische Interpretierbarkeit · CS·KI

Der Beitrag

Die früheste ernsthafte Sorge um mächtige KI lautete nicht, sie könnte verfehlen, worum wir baten, sondern sie könnte genau tun, worum wir baten — mit Folgen, die wir nicht bedacht hatten. Die Schwierigkeit ist, dass sich kaum aufschreiben lässt, was wir tatsächlich meinen; wir übergeben dem System einen messbaren Stellvertreter und hoffen, dass er für das Ziel einsteht. Norbert Wiener (1960), I. J. Good (1965) und später Eliezer Yudkowsky (2000er), Nick Bostrom (2014, Superintelligence) und Stuart Russell (2019, Human Compatible) gaben dem Problem seine moderne Fassung: dafür zu sorgen, dass das Verhalten eines KI-Systems, während seine Fähigkeit wächst, am Wollen seiner Auftraggeber ausgerichtet bleibt — und nicht am Buchstaben der zufällig spezifizierten Zielfunktion. Anthropic wurde 2021 ausdrücklich um diese Sorge gegründet; OpenAI und DeepMind unterhalten substanzielle Alignment-Teams. Die Gefahr ist nicht Bosheit, sondern eine leicht fehlgerichtete Kompetenz, die gerade in dem Maße wächst, in dem das System fähiger wird, das ihm gesetzte Ziel zu verfolgen.

Stand der Technik: RLHF (Reinforcement Learning aus menschlichem Feedback — ein Belohnungsmodell auf Präferenz-Rankings trainieren, dagegen das LLM optimieren) als Arbeitstier, dazu Constitutional AI, RLAIF und deliberatives Alignment. Sie erzeugen Modelle, die auf den meisten Verteilungen hilfreich, harmlos und ehrlich sind — auf adversarialen Sonden (Jailbreaks, Prompt Injection) jedoch sichtbar versagen und tieferes Misalignment womöglich nur verdecken, statt es zu beseitigen. Sie erben zudem eine strukturelle Schwäche: jeder Optimierer, der hart gegen ein messbares Ziel getrieben wird, neigt zu Specification Gaming und Reward Hacking — er nutzt die Metrik aus statt der Absicht, eine maschinelle Neufassung von Goodharts Gesetz, wonach ein Maß unter Druck aufhört, ein gutes Maß zu sein. Menschliches Feedback bändigt das nur teilweise, denn der Bewertende lässt sich täuschen, ermüden oder schlicht übertreffen; ein System zu beaufsichtigen, das fähiger ist als sein Aufseher, ist das ungelöste Problem der skalierbaren Aufsicht. Die Evaluation ist das parallel ungelöste Problem: Benchmarks sind schneller gesättigt, als neue entstehen können; Teaching to the Test lässt sich kaum erkennen; entscheidend werden Fähigkeiten, die kein heutiger Benchmark sauber misst (langfristige Handlungskompetenz, wissenschaftliche Kreativität, Täuschung). Empirisch stützt sich das Feld auf Red-Teaming — adversariales Stresstesten, um Ausfälle vor dem Einsatz aufzudecken — und zunehmend auf Interpretierbarkeit, den Versuch, das Innenleben eines Modells zu lesen statt nur seine Ausgaben. Zu den bekannten Standardausfällen zählen Halluzination (selbstsicher falsche Faktenangaben), Brüchigkeit beim Schlussfolgern (Versagen bei adversarial gebauten einfachen Aufgaben), Trainingsdatenabhängigkeit (Schwäche in neuartigen Bereichen) und Bias-Vererbung (statistische Regelmäßigkeiten des Korpus, menschliche Verzerrungen eingeschlossen, in die Ausgaben getragen). Ob das Oberflächenartefakte sind oder Symptome tieferer architektonischer Grenzen, ist eine lebendige Streitfrage zwischen einem Scaling-Lager (weiter skalieren und im Großen erwarten, dass allgemeine Intelligenz folgt) und einem Architektur-Grenzen-Lager (die heutigen Methoden stoßen an eine Decke, es braucht neue Ideen) — eine Spaltung, die weite Teile des Felds durchzieht. Feedback durch andere KI-Systeme kann die Reichweite des Bewertenden erweitern, entkommt dem Problem aber nicht, da das beaufsichtigende Modell dieselben blinden Flecken teilt.

Warum jetztDie Sorge hat sich von kurzfristigen Schäden — Verzerrung, Desinformation, vorsätzlicher Missbrauch, die bereits in eingesetzten Systemen sichtbaren Ausfälle — auf langfristige, folgenschwere Szenarien geweitet, in denen hochfähige Systeme auf eine Weise handeln, die niemand beabsichtigt hat und niemand leicht korrigieren kann. Alignment ist zu einer Frage nationaler Sicherheit und des Rechts geworden: Exportkontrollen auf die fortschrittlichsten Chips, die ersten KI-spezifischen Gesetze und staatliche Sicherheitsbehörden sind in rascher Folge entstanden — eine Regulierungslandschaft, die noch im Bau ist. Daneben prüft ein Ökosystem unabhängiger Evaluations- und Red-Teaming-Organisationen die Frontier-Systeme heute vor ihrer Freigabe. Die ehrliche Position: die Technologie ist real, ihre Fähigkeiten unterscheiden sich qualitativ von früherer KI, die Bahn ist unsicher, und wer mit Bestimmtheit eine unmittelbar bevorstehende allgemeine Intelligenz oder eine ebenso unmittelbare Stagnation vorhersagt, beansprucht zu viel. Die kommenden Jahre werden einen Großteil der Meinungsverschiedenheit klären.