Causation Does Not Imply Correlation: A Study of Circuit Mechanisms and Model Behaviors

Jan 1, 2024·

Jenny Kaufmann

,

Victoria R. Li

,

Martin Wattenberg

,

David Alvarez-Melis

Naomi Saphra

Naomi Saphra

· 0 min read

Type

Publication

NeurIPS Workshop on Scientific Methods for Understanding Deep Learning

Last updated on Jan 1, 2024

Training Dynamics Interpretability Science of Deep Learning Random Variation

Naomi Saphra

Authors

Research Fellow

← Benchmarks as Microscopes: A Call for Model Metrology Jan 1, 2024

ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context Jan 1, 2024 →