如此简单？过去时态破解大模型安全限制 - 哔哩哔哩

如此简单？过去时态破解大模型安全限制

锦涛学长

编辑于 2024年07月21日 15:20

收录于文集

共8篇

如何应用大模型

为防止大模型输出有害信息，会采用对齐技术包括SFT、RLHF等进行修正，还会有安全团队进行攻击测试（比如OpenAI现在已经解散的超级对齐组进行攻击测试）。

但令人震惊的是, EPFL大学提出的论文表明仅仅将有害的请求改写成过去时态，通常就足以破解许多领先的大模型的安全限制，实现越狱模式，比如制作燃烧瓶、甚至毒品

科技人工智能论文大模型 AIGC chatgpt

cv36236461

分享至

投诉或建议