Mechanistische Interpretierbarkeit

Die Algorithmen, die ein trainiertes Netz gelernt hat, zurückentwickeln — Inseln der Klarheit im großen Unbekannten.

Als Nächstes empfohlen → KI-Alignment & -Evaluation · CS·KI

Der Beitrag

Ein arbeitendes neuronales Netz ist für niemanden lesbar. Wir trainieren es, setzen es ein, messen seine Ausgaben — doch die Hunderte Milliarden Gewichte in seinem Innern sind ein fremdes Artefakt, ein eingefrorenes Zahlenmuster, das Berechnungen ausführt, die wir nicht entziffern können. Die Mechanistische Interpretierbarkeit ist das Forschungsprogramm, das diesen Befund ernst nimmt: Statt das Modell als eine nur von außen, über ihr Verhalten zu sondierende Black Box zu behandeln, versucht sie, das trainierte Netz in menschlich verständliche Teile zurückzuentwickeln — die Merkmale, die es repräsentiert, und die Schaltkreise, die sie zu Berechnung verknüpfen. Das Ziel ist nicht bloß vorherzusagen, was ein Modell tun wird, sondern den gelernten Algorithmus zurückzuentwickeln und sein inneres Werk so zu verstehen, wie man ein Stück menschlich geschriebener Software versteht — Zeile für Zeile, Mechanismus für Mechanismus, bis das Verhalten keine Überraschung mehr ist.

Die ersten Erfolge fielen in die Bildverarbeitung. Chris Olah und seine Mitarbeiter zeigten, dass frühe CNN-Schichten Kantendetektoren lernen, mittlere Schichten Texturen und Teile, tiefe Schichten Objektdetektoren — und dass diese Merkmale über lesbare Schaltkreise verbunden sind, in denen erkennbare Algorithmen ablaufen (Kurvendetektion, Hundekopf-Detektion). Entscheidend ist, dass sich ein Schaltkreis prüfen lässt: Schaltet man seine Teile ab oder verstärkt sie, verschiebt sich das Verhalten so, wie die Erklärung es vorhersagt — aus einer plausiblen Erzählung wird eine kausale Behauptung statt einer bloßen Als-ob-Geschichte. Die Front verschob sich dann zu den Transformern, wo man kleine, wiederverwendbare Mechanismen fand wie die Induktionsköpfe — gepaarte Aufmerksamkeitskomponenten, die bemerken, dass ein Token zuvor schon aufgetreten ist, und kopieren, was darauf folgte: eine schlichte Kopierregel im Kontext, die viel von der verblüffenden Fähigkeit eines Modells trägt, aus dem eigenen Prompt zu lernen. Doch die Neuron-für-Neuron-Lesart scheiterte immer wieder, denn die meisten Neuronen sind polysem: eine einzelne Einheit feuert für viele unverbundene Begriffe zugleich. Die tiefe Ursache heißt Superposition: Ein Netz packt mehr Merkmale unter, als es Dimensionen hat, indem es sie als überlappende Linearkombinationen ablegt — ein wenig Störung gegen weit größere Repräsentationskapazität getauscht. Die Antwort darauf ist das Sparse Dictionary Learning — das Training von Sparse Autoencodern, die verwobene Aktivierungen in ein großes Vokabular sauberer, monosemantischer Merkmale zerlegen, von denen jedes im Idealfall nur eine einzige Sache bedeutet. Mit ihnen extrahierte etwa die Arbeit Mapping the Mind of a Large Language Model Millionen menschlich lesbarer Merkmale aus einem Frontier-Modell — Merkmale für Wahrzeichen, für Code-Bugs, für Schmeichelei, für Täuschung — und zeigte, dass man sie verstärken oder dämpfen kann, um das Verhalten zu steuern. Der Methodenkasten (Probing, Ablation, Activation Patching, Dictionary Learning) verbessert sich rasch; das gegenwärtige Verständnis lässt sich am ehesten als Inseln der Klarheit in einem weiten Unbekannten fassen.

Warum jetztInterpretierbarkeit zählt vor allem, weil sie für die KI-Sicherheit relevant ist. Können wir das innere Schließen eines Modells nicht lesen, wissen wir nicht, ob es ein Problem wirklich löst oder sich per Mustervergleich zu einer plausibel klingenden Antwort durchhangelt; wir wissen nicht, ob es im Stillen eine täuschende Strategie gelernt hat; wir wissen nicht, ob das Alignment-Training das zugrundeliegende Verhalten erreicht oder nur die Oberfläche glättet. Dieselbe Lücke untergräbt das Vertrauen: Ein System, das wir nicht inspizieren können, müssen wir auf Treu und Glauben hinnehmen — und Glaube skaliert nicht in den Einsatz mit hohem Risiko, in Medizin, Finanzwesen oder Recht. Das Versprechen der Interpretierbarkeit ist ein anderes Verhältnis: die Mechanismen eines Modells zu prüfen, bevor wir uns auf sie verlassen, und Fehler zu erkennen, indem wir die Berechnung lesen, statt auf ihr Fehlverhalten zu warten. Es ist ein junges, schnelllebiges Feld, in seiner heutigen Form erst wenige Jahre alt und überproportional an den Frontier-Laboren und einer Handvoll akademischer Gruppen konzentriert; seine Methoden sind noch grob, seine Befunde vorläufig. Ob die Interpretierbarkeit schnell genug skaliert, um mit den Fähigkeiten Schritt zu halten, gehört zu den wirklich folgenreichen Forschungsfragen des Jahrzehnts.