Ein arbeitendes neuronales Netz ist für niemanden lesbar. Wir trainieren es, setzen es ein, messen seine Ausgaben — doch die Hunderte Milliarden Gewichte in seinem Innern sind ein fremdes Artefakt, ein eingefrorenes Zahlenmuster, das Berechnungen ausführt, die wir nicht entziffern können. Die Mechanistische Interpretierbarkeit ist das Forschungsprogramm, das diesen Befund ernst nimmt: das Ziel ist nicht bloß vorherzusagen, was ein Modell tun wird, sondern den gelernten Algorithmus zurückzuentwickeln und seine inneren Berechnungen so zu lesen, wie man ein Stück menschlich geschriebener Software lesen würde.
Die ersten Erfolge fielen in die Bildverarbeitung. Chris Olah und seine Mitarbeiter (zuerst bei Google, dann OpenAI, dann Anthropic) zeigten, dass frühe CNN-Schichten Kantendetektoren lernen, mittlere Schichten Texturen und Teile, tiefe Schichten Objektdetektoren — und dass diese Merkmale über lesbare Schaltkreise verbunden sind, in denen erkennbare Algorithmen ablaufen (Kurvendetektion, Hundekopf-Detektion). Die Front verschob sich zu den Transformern. Anthropics Mapping the Mind of a Large Language Model (2024) extrahierte mit Sparse Autoencodern Millionen menschlich lesbarer Merkmale aus einem Frontier-LLM — Merkmale für die Golden Gate Bridge, für Code-Bugs, für Schmeichelei, für Täuschung. Die tiefe Schwierigkeit heißt Superposition: Netze packen mehr Merkmale unter, als sie Neuronen haben, indem sie überlappende Linearkombinationen nutzen, weshalb naive Neuron-für-Neuron-Interpretation scheitert. Der Methodenkasten (Probing, Ablation, Activation Patching, Sparse Autoencoder, Dictionary Learning) verbessert sich rasch; das gegenwärtige Verständnis lässt sich am ehesten als Inseln der Klarheit in einem weiten Unbekannten fassen.
Interpretierbarkeit zählt vor allem, weil sie für die KI-Sicherheit relevant ist. Können wir das innere Schließen eines Modells nicht lesen, wissen wir nicht, ob es ein Problem wirklich löst oder sich per Mustervergleich zu einer plausibel klingenden Antwort durchhangelt; wir wissen nicht, ob es eine täuschende Strategie gelernt hat; wir wissen nicht, ob das Alignment-Training das zugrundeliegende Verhalten erreicht oder bloß die Oberfläche. Das Feld ist klein, schnelllebig und überproportional an den Frontier-Laboren (Anthropic, OpenAI, DeepMind) und einer Handvoll akademischer Gruppen konzentriert. Ob die Interpretierbarkeit schnell genug skaliert, um mit den Fähigkeiten Schritt zu halten, gehört zu den wirklich folgenreichen Forschungsfragen des Jahrzehnts.