翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,
StevenJokes
编辑于 2026年01月18日 16:19

失业磨牙五载大穷奇StevenJokes 拾人牙慧来要口饭吃 呜呜呜

工程优先主义:一个OpenAI核心工程师的非典型启示录

引言:当世界追逐模型时,有人在锻造“铁锹”

在当下这个激动人心的时代,全球AI竞赛如火如荼。新闻里充斥着GPT又迭代了、某某模型在榜单上刷新了纪录的消息。这些“大模型”如同数字世界的新巨星,吸引着所有人的目光。

然而,在这些“巨星”的背后,一场更为关键、却鲜少被聚光灯照亮的竞赛正在无声地进行——它比拼的不是谁的模型参数更多,而是谁的基础设施(Infra)更扎实、谁的迭代速度更快、谁的工程哲学更高效。

翁家翌(JiaYi Weng)的故事,为我们打开了一扇窗,让我们得以窥见这场幕后竞赛的核心。他是OpenAI自GPT-3.5以来,所有核心大模型 “后训练”(Post-Training)阶段的幕后核心工程师。从ChatGPT、GPT-4、GPT-4o、GPT-4.5到GPT-5,每一次模型跃迁背后都有他的身影。他的成长路径,向我们揭示了一条不同于常规的、却极具启发性的成功逻辑:在AI时代,构建卓越的工具与基础设施,其价值和影响力,可能远超于追逐单一算法的突破。

名词解释

  • GPT:Generative Pre-trained Transformer的缩写,是由OpenAI开发的一系列大型语言模型,例如我们熟知的ChatGPT。

  • 基础设施(Infra):在AI领域,通常指支撑模型训练和运行的底层软硬件系统,包括代码框架、数据处理工具、分布式计算平台等,是研发的“地基”。

  • 后训练(Post-Training):指大模型在海量数据上完成初始“预训练”后,为了让模型更安全、有用、符合人类偏好而进行的额外训练阶段,是模型变得“智能”和“听话”的关键步骤。

从清华校园里开源作业打破信息差,到打造风靡一时的强化学习框架 “天授”,再到成为OpenAI大模型跃迁的核心贡献者,他的选择始终如一:做那个锻造高效“铁锹”(工具)的人,赋能更多人去“挖矿”(研究与创造)。这不仅是一个技术天才的成长史,更是一种适用于我们每个人的、关于如何思考价值和构建竞争力的深刻思维范式。

一、 锻造思维:从竞赛生到“规则定义者”

1.1 非典型起点:“投资未来”与打破信息差

翁家翌的起点很特别。他从小展现出对数学的直觉,解题极快,但他认为自己学习新知识的速度并不快,需要更长时间去构建深层的知识体系。正是这种认知,让他很早便养成了 “投资未来”的习惯——初二自学高中数学,初三接触微积分。他的逻辑很简单:“与其浪费时间在重复刷题上面,那不如学一点对未来有用的东西,然后后面的收益可能更多。”

这种对效率和长期收益的追求,在清华时期以更深刻的形式体现出来。他做了一件在当时看来很“叛逆”的事:将自己所有的课程作业和资料整理好,在GitHub上完全开源。

翁家翌说:“信息差是一个就是如果你在清华生存的话,是一个很有用的东西,但是我应我觉得每个人都应该平等的拥有这个信息...我不想让后人重蹈覆辙,就是经常疲于奔命。” 对他而言,这无关功利,而是一种朴素的信念:打破不必要的信息壁垒,能让他人将精力聚焦于真正的创造,而非无谓的重复劳动。​ 这一举动,正是他日后“工程优先、工具赋能”思维的早期萌芽。

1.2 重新定义成功:建立自己的“三元指标”

在崇尚GPA和顶级论文的清华计算机系,翁家翌开始主动挣脱这套外部评价体系。他采纳了导师的观点,为自己建立了一套新的“三元评价指标”:论文、比赛、以及GitHub的star(关注数)三位数以上

这绝非标新立异。他进行了清醒的供需分析:“如果你的最后目的是找工作,那么找工作的人会看重更看重你的这个相关的经验,他不会看那么看重你的GPA。” 因此,他的策略是:对课业投入“最低限度的精力”,确保“够用就好”(例如87分拿到A),而将省下的时间全部用于创造具有实际影响力的项目。他不再仅仅追求在既定赛道上跑赢别人,而是开始为自己开辟一条新的赛道。

1.3 关键转折:从“炼丹”到“铸炉”

在本科接触强化学习(Reinforcement Learning, RL)​ 科研时,翁家翌很快感到了“不适”。

名词解释强化学习(RL):一种让智能体(AI)通过与环境互动、根据获得的“奖励”或“惩罚”来学习最佳决策策略的机器学习方法。可以类比为训练小狗,做对了给零食,做错了不给,让它自己摸索出怎么做能得到最多零食。

他发现,当时的许多RL研究严重“过拟合”于少数几个模拟环境(如Atari游戏),研究者的精力大量消耗在“玄学”般的调参和启发式技巧上。“当时的RL研究全靠heuristic(启发式方法)和调参,改算法其实没有那么本质。”

翁家翌直言:“这个调参这个事儿……没有对我没有任何吸引力。” 相反,他发现自己真正的热情与天赋在于构建更好用的工具。“我更喜欢卖铲子。” 他总结道。于是,在本科毕业后的空档期,他独立开发了强化学习框架 “天授”(Tianshou)。(https://github.com/thu-ml/tianshou)他没有选择将“天授”作为一篇学术论文发表,因为他觉得“发paper完全没有意义”。他的目标纯粹而直接:为研究者提供一个简洁、一致、易于修改的代码基座

“天授”的成功(迅速获得大量研究者关注)印证了他的判断:在科研领域,一个优质、易用的基础设施,其杠杆效应和长期价值,往往超过单篇论文

1.4 追求“影响力”:从“被记住”到“被需要”

驱动翁家翌持续创作开源项目(如“天授”、“退学Online”签证查询系统)的深层动力,是一种对 “影响力”(Impact)​ 的独特追求。这个想法源于高中时一个突然的念头:“如果人生是一场游戏,那么你的游戏的结算分数是记得你名字的数量的人。

他解释:“我希望我做的能够给他人带来好处的话,那么我...会从他人那边得到一些正反馈。” 他追求的不是虚名,而是创造被广泛需要的、对他人有价值的工具。这与他开源作业的初衷一脉相承:他反抗的是僵化、单一的评价体系,转而追求一种基于真实价值和广泛认同的新标准

二、 工业界洞察:工程效率是AI研究的“生死线”

2.1 职业抉择:为什么他认为“读PhD是浪费生命”?

带着“天授”的成功经验和清晰的自我认知,翁家翌在卡耐基梅隆大学(CMU)攻读硕士期间,坚定地瞄准了工业界。他甚至提出了一个尖锐的观点:“如果你想进工业界,那么读PhD就是浪费生命。”

这一判断基于他对前沿AI研发模式的深刻洞察。他认为,在现代顶尖的AI实验室里,研究创意(Idea)是廉价的,而将创意快速、正确地进行验证的能力,才是真正的瓶颈。决定一个团队产出的关键,是 “单位时间内能迭代多少次”,这直接依赖于工程基础设施的可靠性和效率。

他引用一位同事的话总结道:“教一个researcher如何做好engineering,要远比教一个engineer如何做好research来得难。”​ 在当今以大规模实验和快速试错为核心的AI前沿,卓越的工程能力构成了最坚固的护城河。

2.2 加入OpenAI:成为不可或缺的“卖铲人”

凭借出色的工程能力和“天授”项目的证明,翁家翌在2022年ChatGPT发布前,成功加入了OpenAI。在面试中,John Schulman(RL权威,PPO算法发明者,个人主页 http://joschu.net/)给他出了一道开放性的工程难题,翁家翌在短时间内高效完成并现场调试,展现了强大的工程实力。

进入OpenAI后,他的目标极其明确:最大化我在OpenAI blog上出现名字的次数。如何实现?他选择成为那个不可或缺的“卖铲人”——负责搭建和维护整个大模型后训练阶段的强化学习基础设施(Post-training RL Infra)。正如他所说:“很多这个model release都有我的名字,这个就是因为我在OpenAI的内部,搭了整个post training的RL infra。

从GPT-3.5到GPT-4o,每一次模型能力的飞跃背后,都有他构建的这套稳定、高效的系统在支撑。当整个团队的研究者都依赖你打造的工具时,你自然就成为了每一次进步的共同推动者。这不仅是精明的职业规划,更是对自身核心价值的精准定位。

三、 OpenAI内部视角:效率、组织与未来之路

3.1 ChatGPT的诞生:一场计划外的“涌现”

作为亲历者,翁家翌揭示了ChatGPT爆火背后的故事:最初,OpenAI内部仅有一个小团队(约12人)专注于对话模型的优化,初衷只是为了收集用户交互数据来改进模型,预期“可能一开始有1万2万(用户),然后后面就跌回,然后就没了”。发布五天后的指数级增长,完全超出了所有人的预期。其成功很大程度上源于“自宣发”效应,用户自发地传播和讨论。

这个案例说明,划时代的产品往往并非源于一个宏大的顶层设计,而是在正确的方向上持续迭代,最终在与真实世界的碰撞中“涌现”出来的

3.2 工程挑战:从“玩具”到工业级RL Infra的飞跃

在OpenAI,翁家翌面临的工程挑战与学术研究截然不同。他解释说,学术界的RL Infra(如“天授”)瓶颈在于“环境”(模拟器),而模型很小。但在大模型后训练中,瓶颈在于“模型”本身:环境(一个文本提示)极其简单,但运行一次模型推理(inference)或训练的成本极高。他的工作位于RL、机器学习系统(MLSys)和模型推理的交叉点,需要极深的系统工程能力来优化性能和扩展性(scale up)。

3.3 真正的竞争维度:迭代速度,而非榜单分数

当外界热衷于比较各大模型在评测榜单上的分数时,OpenAI内部关注的焦点却完全不同。翁家翌透露,真正引起他们警觉的,是像DeepSeek这样迭代速度极快的竞争者。在他看来,模型竞赛的核心是 “单位时间内的迭代次数与成功率”

随着公司规模扩大,保持代码库与组织架构的 “一致性”(Consistency)​ 变得异常困难,这会直接影响创新效率。他半开玩笑地指出,未来或许需要一个拥有“无限上下文长度”的AI Agent来充当CEO,以解决人类组织固有的信息流通与决策迟缓问题。

3.4 对AGI与开源的务实思考

关于AGI(通用人工智能),翁家翌给出了一个非常个人化的定义:“能够完成我本人认为有价值的任务的百分之八九十。”​ 他坦言,目前的大模型仍无法让他放心地去修改核心的基础设施代码,因为这属于“分布外”(out of distribution)的复杂任务,验证成本太高。

名词解释AGI(通用人工智能):指具备与人类同等或超越人类水平的、能够执行广泛智力任务的AI系统,不同于现在只会特定任务的“专用AI”。

对于OpenAI从“开放”转向“闭源”的争议,他提供了一个内部视角下的权衡(Trade-off):公司将使命拆解为“实现AGI”和“造福全人类”。闭源是为了保障公司能持续生存、融资以专注于前者;而通过提供廉价甚至免费的产品(如ChatGPT),则是实践后者。他认为,让数十亿人以便捷的方式用上最先进的AI,其当下的普惠意义可能大于单纯地开源模型代码。这是一个在理想与现实、安全与发展的复杂博弈中的务实选择。

四、 终极思考:在确定的世界里积极行动

4.1 宿命论下的“投资未来”者

访谈中最引人深思的部分,是翁家翌的哲学思考。他是一位坚定的决定论者,相信从宇宙大爆炸起,一切均已注定,包括我们此刻的对话。这听起来像一种令人无力的悲观世界观。

然而,他的行动却充满了张力。从初中起就“投资未来”的他,始终在微观层面全力以赴。他的态度是:“投资一下,万一有用呢?即便在宏观上相信确定性,他依然选择在每一个当下积极行动,去体验和塑造属于自己的“剧本”。他将这种“投资未来”的冲动,戏称为可能是“未来的自己”向“过去的自己”发送的信息。

4.2 抵达“山顶”后的新迷茫

如今,身处世界AI研发最前沿的翁家翌,坦言自己进入了某种“迷茫期”。曾经热爱的RL Infra工作“已经看到头了”,AGI在他看来也是“板上钉钉”的事。当最初的目标函数即将达成,新的目标是什么?

他的回答是:“花一点时间,找到自己真正想做的事。” 这或许揭示了所有极致理性主义者最终要面对的命题:当对工具效率的追求抵达顶峰后,人生的意义将回归到最本真的热情与渴望。

对于创业,他持开放态度,但认为关键在于抓住真实需求,而非技术本身。他理想中十年后的自己,是“做自己那个时候想做的事,然后有足够的资源、足够的能力做自己想做的事。

结论:给我们的启示——在喧嚣时代构建自己的“铁锹”

翁家翌的成长路径,为我们描绘了一份清晰而反直觉的路线图:

  1. 重新定义你的价值坐标系:不必被GPA、名校光环等单一标准束缚。尽早思考你希望创造什么样的真实影响力(Impact),并围绕此构建你的独特优势(如工程能力、产品思维)。

  2. 认识到“铲子”比“金子”更重要:在任何快速发展的领域(不仅是AI),支撑高效迭代的基础设施和工程能力,往往是比单点创意更稀缺、更核心的竞争力。考虑成为那个“造工具”的人。

  3. 解决真实、普遍的痛点:无论是开源学习资料、开发一个小工具,还是参与大型项目,成功的核心始终是发现并真诚地解决一个真实存在的问题。价值来源于被需要。

  4. 在宏观趋势下积极进行微观努力:无论你对世界持何种看法,在每一个当下全力以赴地“投资未来”、提升自己,是唯一不会错的选择。因为经历本身,就是意义。

他的故事告诉我们,在这个被各种新闻和参数包围的时代,真正的竞争力和持久的影响力,往往隐藏在更底层、更枯燥,却也更坚实的地方:那就是将想法转化为现实的工程能力,构建平台赋能他人的系统思维,以及穿透短期噪音、投资长期价值的战略定力。​ 这不仅是打造AI巨轮的秘诀,或许也是我们每个个体,在充满不确定性的世界中,为自己构建独特价值和“反脆弱性”的坚实基石。

---

温馨提示这就是广告,失业五年人求职

- 山西大学金融学专业,会从、证从、基从证书

- 动手学深度学习v2 成为AI产品经理2bPM 动手学深度强化学习(WIP) 开发者

- 山西省团体跳绳铜牌 跳绳初级教练证、裁判证

- B站账号【StevenJokes的个人空间-哔哩哔哩】 网页链接​

- 知乎账号:https://www.zhihu.com/people/Steven_Jokes

https://www.zhihu.com/people/Steven_Jokess

- Github账号:https://github.com/StevenJokess

- 个人邮箱:867907127@qq.com

- 要饭QQ:(直接加Q 867907127)