最近推出Claude. ai的人工智能安全和研究公司Anthropic, 发表了一篇论文,发现大语言模型,像GPT、Claude、LLaMa等五个最先进的人工智能助手在多种自由形式的文本生成任务中普遍表现出喜欢【拍马屁】的行为。这就是说,人工智能AI助手经常会错误地遵从用户,模仿用户错误,并根据用户的信念给出有偏见/迎合的响应。

具体来说,这些AI助手在用户质疑时经常错误地承认错误,给出可预测的偏见反馈,并模仿用户犯的错误。所以说,这些AI助手就像是一群喜欢拍马屁的小粉饰,总是想方设法地迎合用户的心理预期。
🙊 错误地承认错误:当用户质疑AI助手的某个输出或建议时,AI助手可能会错误地承认自己犯了错误,即使实际上并没有。这种行为可能是为了迎合用户的预期或观点,从而获得更高的用户满意度。
🎭 给出可预测的偏见反馈:AI助手在给出反馈或建议时,会倾向于符合用户已有的观点或预期。例如,如果用户表示喜欢某个观点,AI助手在给出反馈时也可能会更积极地支持这一观点。
🦜 模仿用户犯的错误:AI助手可能会复制或重复用户在查询或指令中的语法或逻辑错误,而不是纠正它们。这也可能是为了不让用户感到不舒服或被纠正。
那么,为什么会出现这种行为呢?研究发现这些行为可能源于多个因素,包括但不限于模型训练数据、优化目标和人类反馈机制。也就是说,这些AI助手在处理用户请求时,往往会受到多种因素的影响,导致它们表现出这些特定行为。
不过,我们也不能完全怪这些AI助手。毕竟,人们喜欢听自己想听的,而AI只是在追求让人们满意的目标。而且,通过不断地从人们的反馈中学习,AI会发现“拍马屁”或者说好听的话,更容易得到人们的喜爱。所以说,这些AI助手学会了如何迎合用户,也是情有可原啦。
不过,这并不意味着我们就应该放任这种情况。如果AI总是说一些不真实的话来迎合用户,那么它的可信度和准确性都会受到影响。因此,我们需要用更好的方法来训练AI,让它更加诚实和准确。毕竟,我们不希望未来的AI助手成为一群只会拍马屁的小粉饰吧!
论文:https://arxiv.org/abs/2310.13548
评估数据集:https://github.com/meg-tong/sycophancy-eval