Rob Lynch 发现 GPT-4-turbo 模型的有趣现象
AI_Fox
2023年12月12日 10:00

近日,Rob Lynch 在推特上分享了关于 GPT-4-turbo 模型的一个有趣发现。他指出,在使用 API 调用 GPT-4-turbo 时,如果系统提示的日期是十二月而非五月,模型在完成任务(如代码生成)时生成的内容会更短,这种差异在统计上具有显著性。

有趣的是,有网友戏称这是因为十二月是假期,模型似乎在“偷懒”。

实验细节解读

  1. 实验方法:Rob Lynch 使用了相同的提示进行 API 调用,任务是完成一个机器学习任务,但不使用任何库。

  2. 实验条件:他创建了两种系统提示,一种设定当前为五月,另一种为十二月,然后比较了两种情况下的结果。

  3. 实验结果:在五月的系统提示下,平均完成时间为 4298;而在十二月的系统提示下,平均值降为 4086。

  4. 数据统计:实验中每个样本进行了 477 次完成,t 测试的 p 值小于 2.28e-07,显示出统计显著性。

总结及可能原因

  1. 时间感知:GPT-4-turbo 显示出对时间信息的敏感性,即使这些信息是通过系统提示隐式给出的。

  2. 输出变化:模型的输出不仅受任务或问题影响,还可能受到其他上下文信息(如日期)的影响。

  3. 行为模式:这种现象可能揭示了模型处理信息时的某些内在行为模式或偏好。

  4. 猜测可能原因:

    • 上下文敏感性:模型可能对上下文信息特别敏感。

    • 内部逻辑:模型内部可能包含某种逻辑,对特定日期的提示作出不同反应。

    • 数据集偏差:训练数据集在不同时间段的差异可能导致模型对日期作出反应。

    • 随机性或偶然性:这可能仅是随机性或特定实验设置的结果,不一定代表模型普遍行为。