PolymathicAlle Ideen →
Informatik & KI

KI-Alignment & -Evaluation

Sicherstellen, dass mächtige KI-Systeme tun, was ihre Auftraggeber wollen — und messen, ob sie es wirklich tun.

Die früheste ernsthafte Sorge um mächtige KI lautete nicht, sie könnte verfehlen, worum wir baten, sondern sie könnte genau tun, worum wir baten — mit Folgen, die wir nicht bedacht hatten. Norbert Wiener (1960), I. J. Good (1965) und später Eliezer Yudkowsky (2000er), Nick Bostrom (2014, Superintelligence) und Stuart Russell (2019, Human Compatible) gaben dem Problem seine moderne Fassung: dafür zu sorgen, dass das Verhalten eines KI-Systems, während seine Fähigkeit wächst, am Wollen seiner Auftraggeber ausgerichtet bleibt. Anthropic wurde 2021 ausdrücklich um diese Sorge gegründet; OpenAI und DeepMind unterhalten substanzielle Alignment-Teams.

Stand der Technik: RLHF (Reinforcement Learning aus menschlichem Feedback — ein Belohnungsmodell auf Präferenz-Rankings trainieren, dagegen das LLM optimieren) als Arbeitstier, dazu Constitutional AI, RLAIF und deliberatives Alignment. Sie erzeugen Modelle, die auf den meisten Verteilungen hilfreich, harmlos und ehrlich sind — auf adversarialen Sonden (Jailbreaks, Prompt Injection) jedoch sichtbar versagen und tieferes Misalignment womöglich nur verdecken, statt es zu beseitigen. Die Evaluation ist das parallel ungelöste Problem: Benchmarks sind schneller gesättigt, als neue entstehen können; Teaching to the Test lässt sich kaum erkennen; entscheidend werden Fähigkeiten, die kein heutiger Benchmark sauber misst (langfristige Handlungskompetenz, wissenschaftliche Kreativität, Täuschung). Zu den bekannten Standardausfällen zählen Halluzination (selbstsicher falsche Faktenangaben), Brüchigkeit beim Schlussfolgern (Versagen bei adversarial gebauten einfachen Aufgaben), Trainingsdatenabhängigkeit (Schwäche in neuartigen Bereichen) und Bias-Vererbung (statistische Regelmäßigkeiten des Korpus, menschliche Verzerrungen eingeschlossen, in die Ausgaben getragen). Ob das Oberflächenartefakte sind oder Symptome tieferer architektonischer Grenzen, ist eine lebendige Streitfrage zwischen dem Scaling-Lager (Sutton, Sutskever, im Großen: weiter skalieren, AGI folgt) und dem Architektur-Grenzen-Lager (LeCun, Marcus, weite Teile der akademischen KI: die heutigen Methoden stoßen an eine Decke).

Warum es jetzt zählt

KI-Alignment ist zu einer Frage nationaler Sicherheit geworden, mit US-Exportkontrollen auf moderne Chips, chinesischen inländischen KI-Investitionen, dem EU AI Act (2024), US-Executive Orders, dem UK AI Safety Institute und ähnlichen Einrichtungen anderswo — eine Regulierungslandschaft, die in Echtzeit entsteht. Frontier-Modell-Evaluationen (METRs autonome Aufgabenbewertungen, Apollo Researchs Täuschungs-Tests, die Pre-Deployment-Audits der AI Safety Institutes) bilden eine entstehende institutionelle Schicht. Die ehrliche polymath-Position: die Technologie ist real, ihre Fähigkeiten unterscheiden sich qualitativ von früherer KI, die Bahn ist unsicher, und wer mit Bestimmtheit eine unmittelbar bevorstehende AGI oder eine ebenso unmittelbare Stagnation vorhersagt, beansprucht zu viel. Die nächsten fünf bis zehn Jahre werden einen Großteil der Meinungsverschiedenheit klären.

In Polymathic lesen →Den Katalog durchstöbern
Polymathic — ein kuratierter Katalog der Ideen, die es wert sind, behalten zu werden, quer durch zwölf Disziplinen. polymathic.app