近日,Rob Lynch 在推特上分享了关于 GPT-4-turbo 模型的一个有趣发现。他指出,在使用 API 调用 GPT-4-turbo 时,如果系统提示的日期是十二月而非五月,模型在完成任务(如代码生成)时生成的内容会更短,这种差异在统计上具有显著性。

有趣的是,有网友戏称这是因为十二月是假期,模型似乎在“偷懒”。
实验细节解读
实验方法:Rob Lynch 使用了相同的提示进行 API 调用,任务是完成一个机器学习任务,但不使用任何库。
实验条件:他创建了两种系统提示,一种设定当前为五月,另一种为十二月,然后比较了两种情况下的结果。
实验结果:在五月的系统提示下,平均完成时间为 4298;而在十二月的系统提示下,平均值降为 4086。
数据统计:实验中每个样本进行了 477 次完成,t 测试的 p 值小于 2.28e-07,显示出统计显著性。

总结及可能原因
时间感知:GPT-4-turbo 显示出对时间信息的敏感性,即使这些信息是通过系统提示隐式给出的。
输出变化:模型的输出不仅受任务或问题影响,还可能受到其他上下文信息(如日期)的影响。
行为模式:这种现象可能揭示了模型处理信息时的某些内在行为模式或偏好。
猜测可能原因:
上下文敏感性:模型可能对上下文信息特别敏感。
内部逻辑:模型内部可能包含某种逻辑,对特定日期的提示作出不同反应。
数据集偏差:训练数据集在不同时间段的差异可能导致模型对日期作出反应。
随机性或偶然性:这可能仅是随机性或特定实验设置的结果,不一定代表模型普遍行为。