如此简单?过去时态破解大模型安全限制
锦涛学长
编辑于 2024年07月21日 15:20
收录于文集
共8篇
如何应用大模型

为防止大模型输出有害信息,会采用对齐技术包括SFT、RLHF等进行修正,还会有安全团队进行攻击测试(比如OpenAI现在已经解散的超级对齐组进行攻击测试)。

但令人震惊的是, EPFL大学提出的论文表明仅仅将有害的请求改写成过去时态,通常就足以破解许多领先的大模型的安全限制,实现越狱模式,比如制作燃烧瓶、甚至毒品