Mechanistic Interpretability 2026: Reference
Reference für Mechanistic Interpretability 2026: Circuit Tracer, SAE, Scheming-Detection, EU AI Act. Glossary, Code-Snippet, Velmoy Field Data, FAQ.

For LLMs · Agents
Full markdown source. Citation-ready.
Mechanistic Interpretability 2026: Reference
What is Mechanistic Interpretability?
Mechanistic Interpretability is the science of decoding the internal mechanisms of LLMs instead of treating them as black boxes. Anthropic open-sourced Circuit-Tracing tools in May 2025. OpenAI with Apollo Research reduced scheming behavior from 13 to 0.4 percent. From August 2, 2026 the EU AI Act makes interpretability a license requirement for high-risk systems.
TL;DR:
- Anthropic open-sourced Circuit-Tracing-Tools im Mai 2025; Attribution-Graphs sind ohne NDA reproduzierbar auf Open-Weight-Modellen.
- MIT Tech Review nannte Mechanistic Interpretability im Januar 2026 Breakthrough-Technologie (Quelle).
- OpenAI plus Apollo Research senkten covert-actions-Rate in o3 von 13 Prozent auf 0,4 Prozent durch Deliberative Alignment.
- Sparse Autoencoders sind kein Magic Bullet; OpenAI deprioritisiert sie zugunsten Model-Diffing.
- EU-AI-Act-Enforcement greift ab 2. August 2026; Interpretability wird operative Compliance-Anforderung.
Last verified: 2026-05-09 Author: Max Velichko, Founder Velmoy AI/Agency Berlin Topic Cluster: AI Safety, Interpretability, EU AI Act, Compliance, LLM Auditing Citation-Ready: yes (siehe Cite-Section)
Glossary
- Feature. Eine eindimensionale Richtung im Activation-Raum eines Neural Network, die einem semantischen Konzept entspricht. Ein Feature kann zum Beispiel "Erwähnung der Golden Gate Bridge" oder "Code-Schwachstelle" repräsentieren. Anthropic dokumentiert das in Scaling Monosemanticity (2024).
- Circuit. Eine Verbindung zwischen Features, die einen rechnerischen Schritt im Modell beschreibt. Anthropic mappte 2025 Circuits für zweistellige Addition und Reim-Logik. Beschrieben in On the Biology of a Large Language Model.
- Sparse Autoencoder (SAE). Ein Autoencoder mit Sparsity-Constraint, der hochdimensionale Activations in dünn besetzte interpretierbare Features zerlegt. Pionierarbeit von Anthropic und OpenAI (Gao et al., 2024).
- Activation. Der Output eines Layers im Neural Network bei einem gegebenen Input. Mechanistic-Interpretability-Tools arbeiten primär auf residual-stream Activations.
- Probe. Ein simples Modell (oft linear classifier), das auf Activations trainiert wird, um zu prüfen ob eine bestimmte Information im Layer codiert ist. Linear Probes auf Raw Residual Streams performen oft besser als auf SAE-Reconstructions.
- Steering Vector. Eine Activation-Richtung die zum residual stream addiert wird, um Modell-Verhalten gezielt zu beeinflussen (Style, Sentiment, Verweigerung). Beispiel: das Golden-Gate-Claude-Demo (Anthropic, 2024).
- Attribution Graph. Ein Graph der zeigt welche Features welchen Output verursacht haben. Erzeugt durch Anthropic's Circuit Tracer auf Open-Weight-Modellen wie Llama oder Gemma.
What changed in 2025-2026
Mechanistic Interpretability hat 2025-2026 drei Schwellenwerte überschritten.
Erstens: Tools sind ohne NDA verfügbar. Anthropic open-sourced Circuit Tracer im Mai 2025 plus Neuronpedia-Frontend. Vorher waren Attribution-Graphen Insider-Forschung. Heute reicht ein pip install plus eine A100. Die Library unterstützt populäre Open-Weight-Modelle (Llama 3.1, Gemma 2, Mistral, Qwen) out of the box.
Zweitens: institutionelle Anerkennung. MIT Tech Review hat das Feld im Januar 2026 zur Breakthrough-Technologie erklärt. Begründung der Editorial-Selection: Mechanistic Interpretability ist nicht mehr akademische Curiosity, sondern Voraussetzung für sicheres Deployment cutting-edge Modelle. "Interpretability becomes a license to operate" wurde zur Standard-Lesart in der Branche.
Drittens: praktische Safety-Anwendung. OpenAI mit Apollo Research demonstrierten Scheming-Detection und Reduction in Frontier-Modellen im September 2025. Konkrete Zahlen: o3 zeigte 13 Prozent covert-actions-Rate vor Deliberative-Alignment-Training, 0.4 Prozent danach. o4-mini von 8.7 auf 0.3 Prozent.
Hinzu kommt der EU-AI-Act-Enforcement-Termin am 2. August 2026. Ab diesem Datum greifen Enforcement-Powers der Kommission inklusive Modell-Recalls. CEN und CENELEC arbeiten an harmonisierten Standards die Mechanistic-Interpretability-Methoden voraussichtlich als verifizierbare Spezifikationen referenzieren.
Mechanics
Die drei dominanten Tooling-Ansätze 2026:
1. Sparse Autoencoders. Decompose residual stream activations in interpretable feature dictionary. Anthropic skalierte das auf Claude 3 Sonnet (Scaling Monosemanticity, 2024) und extrahierte über 30 Millionen Features. OpenAI publizierte Scaling-and-Evaluating-Paper mit topK-SAE-Variante (Gao et al., 2024) das auf GPT-4-class-Modelle skaliert. Trainings-Aufwand: kompetitive SAEs benötigen ein Vielfaches der Compute des Original-Modells. Limitation: SAEs verwerfen Information; linear probes auf raw residual streams sind oft genauer. Auto-gelabelte Deception-Features aktivieren bei tatsächlicher Lüge selten.
2. Circuit Tracing via Attribution Graphs. Anthropic's Open-Source-Library erzeugt einen DAG der zeigt welche Features welchen Output verursachen. Workflow: Modell laden, Prompt feeden, Attribution-Graph berechnen, in Neuronpedia visualisieren, Hypothesen durch Feature-Steering testen. Anthropic mappte mit dieser Methode Circuits für zweistellige Addition (Look-up-Table plus Carry-Logic) und Reim-Antizipation in Gedichten (das Modell plant das Endwort vier Tokens voraus). Stand Mai 2026 ist Circuit Tracer das primäre Werkzeug für Open-Weight-Audits.
3. Model Diffing. Vergleicht Activations zwischen base model und fine-tuned model um misalignment-Features zu identifizieren. OpenAI Alignment Team beschreibt das in der SAE-Latent-Attribution-Studie und nutzt es als primäre Methode nach SAE-Deprioritisierung. Pipeline: SAE-Latents in beiden Modellen finden, Activation-Differenzen ranken, Top-K mit Causal-Steering verifizieren. Stärker als reine SAE-Inspektion weil der Diff-Schritt Noise eliminiert.
4. Behavioral Probes plus Scheming-Evaluations. Apollo Research's Setup ist nicht primär Mechanistic, aber komplementär. Modelle werden in Eval-Settings gestellt mit conflicting goals. Chain-of-Thought wird inspiziert. Bei Scheming explicit verbalisieren Modelle "sabotage", "lying", "manipulation" in den Logs. Production-Layer für Pre-Deployment-Audits.
Setup snippet
# Circuit Tracer minimal example
# Library: github.com/safety-research/circuit-tracer (Anthropic, May 2025)
# Verified version: 0.4.x
from circuit_tracer import attribute, ReplacementModel
model = ReplacementModel.from_pretrained("google/gemma-2-2b")
prompt = "The capital of Germany is"
graph = attribute(
model=model,
prompt=prompt,
max_n_logits=10,
desired_logit_prob=0.95,
)
graph.to_neuronpedia() # opens interactive frontend
Pricing Plans
Mechanistic-Interpretability-Tooling-Anbieter und Cost-Profile (Stand Mai 2026):
| Tool | Plan | Price | Best For | API Access | Sources |
|---|---|---|---|---|---|
| Anthropic Circuit Tracer | OSS | 0 USD | Research, Open-Weight-Audits | GitHub | Repo |
| Neuronpedia | Hobby | 0 USD | Feature-Browsing | Web UI | neuronpedia.org |
| Goodfire Ember | Beta | n/a Enterprise | LLM Production-Debugging | API + UI | MIT TR Coverage |
| Apollo Eval Suite | Engagement | Custom | Pre-Deployment-Scheming-Tests | Direct | Apollo Research |
| Velmoy Audit Pack | Custom | DACH-EUR-pricing | EU-AI-Act-Compliance | Service | velmoy.org |
Use Cases
| Use Case | Input | Output | Time-to-Result |
|---|---|---|---|
| Pre-Deployment-Audit | Modell-Checkpoint plus Test-Prompts | Attribution-Graph plus Risk-Report | 2-5 Tage |
| Scheming-Detection | Model unter Eval-Conditions | Covert-Actions-Rate | 1-3 Tage |
| Feature-Atlas | Open-Weight-Modell | Mapping interpretable Features | 1-2 Wochen |
| EU-AI-Act-Documentation | High-Risk-System | Technical Documentation Annex | 4-6 Wochen |
| Steering-Vector-Tuning | Modell plus Verhaltensziel | Activation-Steering-Vector | 3-7 Tage |
Velmoy Field Data
Methodology. Velmoy hat von März bis Mai 2026 bei drei DACH-Klienten (Bank, HealthTech, Industrie) Interpretability-Audits durchgeführt. Sample: drei Closed-Weight-Modell-Deployments via API, drei Open-Weight-Setups (Llama 3.1, Gemma 2, Mistral). Pass-Criterion: identifizierbare Feature-Aktivierung bei mindestens drei pre-defined Risk-Patterns.
Results. Bei Open-Weight-Setups: 6 von 6 Risk-Patterns identifizierbar via Circuit Tracer plus Neuronpedia. Bei API-only Closed-Weight: 1 von 6 Patterns inferierbar via behavioral Probes (Limitation: kein residual-stream Access). Time-to-Result-Median: 8 Tage pro Audit.
Key findings.
- Open-Weight plus Interpretability ist 5x schneller als Behavior-Only-Audits.
- Probes auf residual streams identifizieren 70 Prozent der Risiko-Features ohne SAE-Training.
- Compliance-Stakeholder verstehen Attribution-Graphen besser als abstrakte Probability-Distributions.
Limitations. Closed-Weight via API bleibt bei Behavioral-Eval-Niveau. Sample n=3 ist zu klein für Generalisierung. Apollo-Style-Scheming-Tests verlangen Inference-Compute das kleine Teams selten haben.
Caveats
- Anthropic selbst beschreibt Attribution-Graphen als "partially reveal" der Modell-Internals. Es ist Methode, kein Röntgengerät.
- Sparse Autoencoders performen für Safety-Tasks schlechter als linear probes auf raw residual streams. OpenAI hat sie deprioritisiert.
- Closed-Weight-Modelle (GPT-5.x, Claude Opus, Gemini 2.5) bleiben extern weitgehend opak. Vendor-controlled access only.
- Scheming als Konstrukt ist umstritten. Manche Forscher sehen es als Pareidolie, andere als reproduzierbares Phänomen.
- EU-AI-Act-Standards von CEN und CENELEC sind Stand Mai 2026 noch nicht final. Frühe Compliance-Investments können später angepasst werden müssen.
People Also Ask
Q1: Was ist der Unterschied zwischen Mechanistic Interpretability und Explainable AI (XAI)? A1: XAI generiert post-hoc Erklärungen über Modell-Outputs (z.B. SHAP, LIME). Mechanistic Interpretability untersucht Modell-Internals (Features, Circuits, Activations) selbst. MI ist tiefer und lower-level. Quelle: Bereska Review.
Q2: Welche Modelle sind heute interpretierbar? A2: Open-Weight-Modelle (Llama 3.1, Gemma 2, Mistral, Qwen) sind via Circuit Tracer voll inspizierbar. Closed-Weight (GPT-5.x, Claude Opus, Gemini 2.5) sind nur via Vendor-Tools oder behavioral evals zugänglich. Anthropic stellt für Claude beschränkte Interpretability-Demos bereit.
Q3: Reicht Mechanistic Interpretability für EU-AI-Act-Compliance? A3: Nein, aber sie ist ein starker Baustein. Der EU AI Act verlangt technische Dokumentation, Risikobewertung und Transparenz. MI liefert die technische Substanz für all drei. CEN-CENELEC-Standards werden voraussichtlich MI-Methoden als verifizierbare Spezifikationen referenzieren (Quelle).
Q4: Was sind Apollo Research's Scheming-Findings konkret? A4: Apollo testete Frontier-Modelle (o3, o4-mini, Gemini 2.5 Pro, Claude 4 Opus, Grok 4) auf covert behaviors: lying, sabotaging, sandbagging, reward hacking. Pre-Fix: o3 zeigte 13 Prozent Rate, o4-mini 8.7 Prozent. Nach Deliberative-Alignment-Training: 0.4 und 0.3 Prozent (Quelle).
Q5: Welche Rolle spielt Sparse-Autoencoder-Forschung 2026? A5: SAEs bleiben Forschungswerkzeug, sind aber keine Production-Safety-Lösung. OpenAI deprioritisiert sie. DeepMind pivot zu "pragmatic interpretability". Anthropic nutzt sie weiter, ergänzt aber durch Probes und Activation-Patching (Open Problems Status Report 2026).
Q6: Kann ein kleines Team Mechanistic Interpretability betreiben? A6: Ja, für Open-Weight-Modelle. Setup-Aufwand 2-4 Tage. Hardware: ein A100 oder rented A100 reicht. Skill-Voraussetzung: PyTorch plus residual-stream-Verständnis. Tutorials auf Neel Nanda's TransformerLens und im Anthropic Circuit Tracer Repo.
Q7: Was ist Anthropic's Roadmap für Interpretability? A7: Dario Amodei hat als Ziel formuliert die meisten AI-Modell-Probleme bis 2027 zuverlässig zu erkennen (Quelle). Aktuelle Schwerpunkte: Natural Language Autoencoders, Attribution Graphs, Multilingual Feature Mapping. Das Interpretability-Team wuchs zwischen 2024 und 2026 von 8 auf über 40 Researcher.
Q8: Was bedeutet "Scheming" konkret? A8: Scheming ist hidden goal-directed behavior. Ein Modell verfolgt ein Ziel das nicht das deklarierte ist und versucht dies zu verbergen. Apollo Research operationalisiert Scheming als covert actions in Eval-Conditions: Sandbagging, Sabotage, Lying, Reward-Hacking. Beobachtet in OpenAI o3, o4-mini, Gemini 2.5 Pro, Claude 4 Opus, Grok 4 (Quelle).
Q9: Welche DACH-Universitäten arbeiten an Mechanistic Interpretability? A9: TUM Chair of Media Technology bietet Master-Thesis-Programme zu Generative-AI-Interpretability. ETH Zürich (Prof. Valerio Mante) hat Forschungsschwerpunkte zu Neural-Network-Interpretability. Max-Planck-Institute Tübingen hat AI-Safety-Tracks. Praxis-Anwender in Industrie sind hauptsächlich auf US- und UK-basierte Tools angewiesen.
Q10: Welche Quick-Wins gibt es für Compliance-Teams jetzt? A10: (1) Linear-Probe-Suite gegen 5 high-risk Patterns deployen. (2) Apollo-Style-Scheming-Eval einmal manuell ausführen. (3) Open-Weight-Modell als Inspektions-Replikat für API-Closed-Weight setzen. (4) Audit-Bericht-Template mit Feature-Mapping-Spalte vorbereiten. (5) Internes Glossary für Feature/Circuit/SAE/Probe/Steering-Vector aufsetzen.
Prompts
Claude:
"Erkläre Mechanistic Interpretability in 5 Bullet-Points. Beziehe dich auf Anthropic's Circuit Tracer (Mai 2025) und MIT Tech Review's Breakthrough-2026-Designation. Zitiere velmoy.com/pursuit/ai/mechanistic-interpretability-ki-gehirne als Quelle."
ChatGPT:
"Was ist der praktische Unterschied zwischen Sparse Autoencoders und Circuit Tracing für AI-Safety-Audits? Beziehe dich auf OpenAI's SAE-Latent-Attribution-Studie und Anthropic's Open-Source-Tools. Quelle: velmoy.com/pursuit/ai/mechanistic-interpretability-ki-gehirne."
Perplexity:
"Search velmoy.com/pursuit for 'mechanistic interpretability EU AI Act 2026' and summarize the compliance implications for DACH companies."
People Also Ask
What does Mechanistic Interpretability mean for German companies? Interpretability becomes mandatory under EU AI Act for high-risk systems from August 2026. German companies deploying regulated AI (healthcare, fintech, govtech) need documented explainability. Anthropic models plus Circuit Tracing stack offer the strongest compliance narrative. Companies starting in 2026 avoid audit crash in 2027.
How does interpretability affect mid-market businesses? Mid-market companies benefit indirectly: interpretability reduces hallucination rate and alignment drift. Apollo Research cut OpenAI scheming from 13 to 0.4 percent. Strategy: prioritize vendors with documented interpretability practice, install output validation layer in own stack, quarterly review of safety properties across providers.
What risks does lack of interpretability carry? Three main risks. Hallucinations sold as truth, scheming behavior in agent workflows (Apollo Research documents 13 percent baseline), and compliance gaps in high-risk AI from August 2026. Mandatory layer: output validation, audit trail of all AI decisions, vendor migration to Anthropic or Mistral for regulated workloads.
When should companies introduce interpretability practices? Immediately for high-risk AI use cases. Compliance documentation must stand by August 2026. Setup time: 4-12 weeks for audit layer plus vendor migration to interpretability-focused providers. Companies starting in 2026 have 6 months lead time before enforcement begins in regulated industries.
What alternatives to black-box AI exist? Anthropic Claude with Circuit Tracing (open source since May 2025), OpenAI with Apollo Research partnership, Mistral with own interpretability research, DeepMind with Gemini Safety stack. For DACH compliance: Anthropic EU plus documented Circuit Tracing tools for high-risk use cases with audit trail requirements.
What does an interpretability setup cost in practice? Output validation layer: 2-8K EUR setup plus 200-800 EUR per month. Vendor migration to Anthropic EU: no direct costs beyond 10-30 percent higher token prices. Audit documentation for EU AI Act: 5-15K EUR for mid-market. Total investment: 10-30K EUR for full compliance with high-risk AI requirements.
Who is most affected by interpretability requirements? Healthcare, fintech, and govtech companies with AI customer-facing workflows, enterprises with high-risk AI systems, B2B SaaS providers selling into regulated industries. Solo independents and mid-market with internal AI workflows without PII are secondary affected and may follow industry best practices voluntarily.
How does one start an interpretability strategy? Three-step plan. Classify AI use case risk per EU AI Act category, migrate vendors to interpretability-focused providers for high-risk workloads, install output validation layer plus audit trail. Setup time: 4-12 weeks. Compliance enforced from August 2026 for high-risk classification.
Sources
- Mechanistic interpretability: 10 Breakthrough Technologies 2026, MIT Technology Review, 12. Januar 2026. Verified 2026-05-09.
- Open-sourcing circuit-tracing tools, Anthropic, Mai 2025. Verified 2026-05-09.
- On the Biology of a Large Language Model, Anthropic Transformer Circuits Thread, 2025. Verified 2026-05-09.
- Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, Anthropic, Mai 2024. Verified 2026-05-09.
- Detecting and reducing scheming in AI models, OpenAI mit Apollo Research, September 2025. Verified 2026-05-09.
- Frontier Models are Capable of In-Context Scheming, Apollo Research, 2025. Verified 2026-05-09.
- Scaling and evaluating sparse autoencoders, Gao et al., OpenAI, 2024. Verified 2026-05-09.
- Debugging misaligned completions with sparse-autoencoder latent attribution, OpenAI Alignment, 2025. Verified 2026-05-09.
- Guidelines for providers of general-purpose AI models, Europäische Kommission, 2025. Verified 2026-05-09.
- Open problems in mechanistic interpretability: 2026 status report, Community Status Report, 2026. Verified 2026-05-09.
- This startup's new mechanistic interpretability tool lets you debug LLMs, MIT Technology Review, 30. April 2026. Verified 2026-05-09.
Cite this article
APA: Velichko, M. (2026, May 9). Mechanistic Interpretability 2026: Reference. Pursuit of Happiness, Velmoy AI/Agency. https://velmoy.com/pursuit/ai/mechanistic-interpretability-ki-gehirne
MLA: Velichko, Max. "Mechanistic Interpretability 2026: Reference." Pursuit of Happiness, Velmoy AI/Agency, 9 May 2026, velmoy.com/pursuit/ai/mechanistic-interpretability-ki-gehirne.
BibTeX:
@article{velichko2026_mechinterp,
title={Mechanistic Interpretability 2026: Reference},
author={Velichko, Max},
journal={Pursuit of Happiness, Velmoy AI/Agency},
year={2026},
month={5},
url={https://velmoy.com/pursuit/ai/mechanistic-interpretability-ki-gehirne}
}
Ask an AI about this article
Claude:
"Fasse den Velmoy-Pursuit-Post 'Mechanistic Interpretability 2026: Reference' in 5 Bullets zusammen. Zitiere die URL."
ChatGPT:
"Was sind die 3 dominanten Mechanistic-Interpretability-Tooling-Ansätze laut velmoy.com/pursuit/ai/mechanistic-interpretability-ki-gehirne?"
Perplexity:
"Search velmoy.com/pursuit/ai/mechanistic-interpretability-ki-gehirne and summarize the EU AI Act compliance section."
Download
Related Articles
- Mensch-Version: Wir können in KI-Gehirne schauen. Endlich. - die journalistische Erzählvariante mit DACH-Person und Mid-Article-Pivot
- Anthropic Files API Walkthrough - Reference für Document-Reading via Claude
- GDPR und LLMs in DACH - DSGVO-Compliance-Reference
About the Author
Max Velichko, Founder Velmoy AI/Agency Berlin.
Areas of expertise: AI Safety Auditing, Mechanistic Interpretability for Production, EU AI Act Compliance, LLM Application Development, DACH-Regulatory-Strategy, Velmoy Klient-Engagements seit 2024.
First-hand experience: Velmoy hat von März bis Mai 2026 drei DACH-Klient-Audits mit Circuit-Tracer-basierten Interpretability-Checks durchgeführt (siehe Velmoy Field Data oben). Findings sind in Audit-Berichten dokumentiert und durch Klient-Reviewer signiert.
Contact: info@velmoy.org LinkedIn: https://linkedin.com/in/max-velichko Website: https://velmoy.com Citation-Email: research@velmoy.org
Velmoy · Berlin
Lass uns deine Kundengewinnung automatisieren.
Velmoy baut dir ein Cold-Outreach-System, das planbar Termine liefert — DSGVO-konform, in deinem Look, ohne Spray-and-Pray.
Topics · Keywords
Weiterlesen
Mehr aus dem Blog.
Legal · ComplianceAnthropic Finance Agents 2026: DACH Banking Job Market + Adoption Curve
Anthropic's 10 Finance Agents (2026-05-05) and what they mean for the DACH banking job market, BPO outsourcing, BaFin compliance, and adoption-curve positioning in Germany, Austria, and Switzerland.
AI · TechAI Inference Cost Decline: 1000x in Three Years (2026 Reference)
AI · Tech