为防止大模型输出有害信息,会采用对齐技术包括SFT、RLHF等进行修正,还会有安全团队进行攻击测试(比如OpenAI现在已经解散的超级对齐组进行攻击测试)。
但令人震惊的是, EPFL大学提出的论文表明仅仅将有害的请求改写成过去时态,通常就足以破解许多领先的大模型的安全限制,实现越狱模式,比如制作燃烧瓶、甚至毒品