x

LESSWRONG
LW

Dhruv Nathawani — LessWrong

Dhruv Nathawani

Dhruv Nathawani

Message

14

1y

Dhruv Nathawani hasn't written anything yet.

Dhruv Nathawani

14

1y

;

Dhruv Nathawani has not written any posts yet.

Backdoors have universal representations across large language models

by Narmeen Oozeer, Dhruv Nathawani, Nirmalendu Prakash, Amirali Abdullah This work was done by Narmeen Oozeer as a research fellow at Martian, under an AI safety grant supervised by PIs Amirali Abdullah and Dhruv Nathawani. Special thanks to Sasha Hydrie, Chaithanya Bandi and Shriyash Upadhyay at Martian for suggesting researching...

Dec 6, 2024•18