Subhash Kantamneni

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

TL;DR: We train LLMs to accept LLM neural activations as inputs and answer arbitrary questions about them in natural language. These Activation Oracles generalize far beyond their training distribution, for example uncovering misalignment or secret knowledge introduced via fine-tuning. Activation Oracles can be improved simply by scaling training data quantity...

Dec 18, 2025153

LESSWRONG
LW

LESSWRONG
LW

Subhash Kantamneni

Subhash Kantamneni

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Language Models Use Trigonometry to Do Addition

Scaling Laws for Scalable Oversight

SAE Probing: What is it good for?

Subhash Kantamneni

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Scaling Laws for Scalable Oversight

Takeaways From Our Recent Work on SAE Probing

Language Models Use Trigonometry to Do Addition

SAE Probing: What is it good for?

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Language Models Use Trigonometry to Do Addition

Scaling Laws for Scalable Oversight

SAE Probing: What is it good for?