Publications

Sara Kangaslahti, Elan Rosenfeld, Naomi Saphra (2024). Loss in the Crowd: Hidden Breakthroughs in Language Model Training. ICML Workshop on Mechanistic Interpretability.

PDF Cite

Naomi Saphra, Eve Fleisig, Kyunghyun Cho, Adam Lopez (2024). First Tragedy, then Parse: History Repeats Itself in the New Era of Large Language Models. North American Association for Computational Linguistics (NAACL).

Cite URL

Adir Rahamim, Naomi Saphra, Sara Kangaslahti, Yonatan Belinkov (2024). Fast Forwarding Low-Rank Training. Empirical Methods in Natural Language Processing (EMNLP).

Cite URL

Zachary Ankner, Naomi Saphra, Davis Blalock, Jonathan Frankle, Matthew L. Leavitt (2024). Dynamic Masking Rate Schedules for MLM Pretraining. European Association for Computational Linguistics (EACL).

Cite URL

Victoria R. Li, Yida Chen, Naomi Saphra (2024). ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context. Empirical Methods in Natural Language Processing (EMNLP).

Cite URL

Jenny Kaufmann, Victoria R. Li, Martin Wattenberg, David Alvarez-Melis, Naomi Saphra (2024). Causation Does Not Imply Correlation: A Study of Circuit Mechanisms and Model Behaviors. NeurIPS Workshop on Scientific Methods for Understanding Deep Learning.

Cite URL

Michael Saxon, Ari Holtzman, Peter West, William Yang Wang, Naomi Saphra (2024). Benchmarks as Microscopes: A Call for Model Metrology. Conference on Language Modeling (COLM).

Cite URL

Ian Berlot-Attwell, Kumar Krishna Agrawal, A. Michael Carrell, Yash Sharma, Naomi Saphra (2024). Attribute Diversity Determines the Systematicity Gap in VQA. Empirical Methods in Natural Language Processing (EMNLP).

PDF Cite

Yash Gondhalekar, Sultan Hassan, Naomi Saphra, Sambatra Andrianomena (2023). Towards out-of-distribution generalization in large-scale astronomical surveys: robust networks learn similar representations. NeurIPS workshop on Machine Learning and the Physical Sciences.

Cite URL

Dieuwke Hupkes, Mario Giulianelli, Verna Dankers, Mikel Artetxe, Yanai Elazar, Tiago Pimentel, Christos Christodoulopoulos, Karim Lasri, Naomi Saphra, Arabella Sinclair, Dennis Ulmer, Florian Schottmann, Khuyagbaatar Batsuren, Kaiser Sun, Koustuv Sinha, Leila Khalatbari, Maria Ryskina, Rita Frieske, Ryan Cotterell, Zhijing Jin (2023). State-of-the-art generalisation research in NLP: a taxonomy and review. Nature Machine Intelligence.

Cite URL