翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，

StevenJokes

编辑于 2026年01月18日 16:19

失业磨牙五载大穷奇StevenJokes 拾人牙慧来要口饭吃呜呜呜

工程优先主义：一个OpenAI核心工程师的非典型启示录

引言：当世界追逐模型时，有人在锻造“铁锹”

在当下这个激动人心的时代，全球AI竞赛如火如荼。新闻里充斥着GPT又迭代了、某某模型在榜单上刷新了纪录的消息。这些“大模型”如同数字世界的新巨星，吸引着所有人的目光。

然而，在这些“巨星”的背后，一场更为关键、却鲜少被聚光灯照亮的竞赛正在无声地进行——它比拼的不是谁的模型参数更多，而是谁的基础设施（Infra）更扎实、谁的迭代速度更快、谁的工程哲学更高效。

翁家翌（JiaYi Weng）的故事，为我们打开了一扇窗，让我们得以窥见这场幕后竞赛的核心。他是OpenAI自GPT-3.5以来，所有核心大模型 “后训练”（Post-Training）阶段的幕后核心工程师。从ChatGPT、GPT-4、GPT-4o、GPT-4.5到GPT-5，每一次模型跃迁背后都有他的身影。他的成长路径，向我们揭示了一条不同于常规的、却极具启发性的成功逻辑：在AI时代，构建卓越的工具与基础设施，其价值和影响力，可能远超于追逐单一算法的突破。

名词解释：

GPT：Generative Pre-trained Transformer的缩写，是由OpenAI开发的一系列大型语言模型，例如我们熟知的ChatGPT。
基础设施（Infra）：在AI领域，通常指支撑模型训练和运行的底层软硬件系统，包括代码框架、数据处理工具、分布式计算平台等，是研发的“地基”。
后训练（Post-Training）：指大模型在海量数据上完成初始“预训练”后，为了让模型更安全、有用、符合人类偏好而进行的额外训练阶段，是模型变得“智能”和“听话”的关键步骤。

从清华校园里开源作业打破信息差，到打造风靡一时的强化学习框架 “天授”，再到成为OpenAI大模型跃迁的核心贡献者，他的选择始终如一：做那个锻造高效“铁锹”（工具）的人，赋能更多人去“挖矿”（研究与创造）。这不仅是一个技术天才的成长史，更是一种适用于我们每个人的、关于如何思考价值和构建竞争力的深刻思维范式。

一、锻造思维：从竞赛生到“规则定义者”

1.1 非典型起点：“投资未来”与打破信息差

翁家翌的起点很特别。他从小展现出对数学的直觉，解题极快，但他认为自己学习新知识的速度并不快，需要更长时间去构建深层的知识体系。正是这种认知，让他很早便养成了 “投资未来”的习惯——初二自学高中数学，初三接触微积分。他的逻辑很简单：“与其浪费时间在重复刷题上面，那不如学一点对未来有用的东西，然后后面的收益可能更多。”

这种对效率和长期收益的追求，在清华时期以更深刻的形式体现出来。他做了一件在当时看来很“叛逆”的事：将自己所有的课程作业和资料整理好，在GitHub上完全开源。

翁家翌说：“信息差是一个就是如果你在清华生存的话，是一个很有用的东西，但是我应我觉得每个人都应该平等的拥有这个信息...我不想让后人重蹈覆辙，就是经常疲于奔命。” 对他而言，这无关功利，而是一种朴素的信念：打破不必要的信息壁垒，能让他人将精力聚焦于真正的创造，而非无谓的重复劳动。 这一举动，正是他日后“工程优先、工具赋能”思维的早期萌芽。

1.2 重新定义成功：建立自己的“三元指标”

在崇尚GPA和顶级论文的清华计算机系，翁家翌开始主动挣脱这套外部评价体系。他采纳了导师的观点，为自己建立了一套新的“三元评价指标”：论文、比赛、以及GitHub的star（关注数）三位数以上。

这绝非标新立异。他进行了清醒的供需分析：“如果你的最后目的是找工作，那么找工作的人会看重更看重你的这个相关的经验，他不会看那么看重你的GPA。” 因此，他的策略是：对课业投入“最低限度的精力”，确保“够用就好”（例如87分拿到A），而将省下的时间全部用于创造具有实际影响力的项目。他不再仅仅追求在既定赛道上跑赢别人，而是开始为自己开辟一条新的赛道。

1.3 关键转折：从“炼丹”到“铸炉”

在本科接触强化学习（Reinforcement Learning, RL） 科研时，翁家翌很快感到了“不适”。

名词解释：强化学习（RL）：一种让智能体（AI）通过与环境互动、根据获得的“奖励”或“惩罚”来学习最佳决策策略的机器学习方法。可以类比为训练小狗，做对了给零食，做错了不给，让它自己摸索出怎么做能得到最多零食。

他发现，当时的许多RL研究严重“过拟合”于少数几个模拟环境（如Atari游戏），研究者的精力大量消耗在“玄学”般的调参和启发式技巧上。“当时的RL研究全靠heuristic（启发式方法）和调参，改算法其实没有那么本质。”

翁家翌直言：“这个调参这个事儿……没有对我没有任何吸引力。” 相反，他发现自己真正的热情与天赋在于构建更好用的工具。“我更喜欢卖铲子。” 他总结道。于是，在本科毕业后的空档期，他独立开发了强化学习框架 “天授”（Tianshou）。（https://github.com/thu-ml/tianshou）他没有选择将“天授”作为一篇学术论文发表，因为他觉得“发paper完全没有意义”。他的目标纯粹而直接：为研究者提供一个简洁、一致、易于修改的代码基座。

“天授”的成功（迅速获得大量研究者关注）印证了他的判断：在科研领域，一个优质、易用的基础设施，其杠杆效应和长期价值，往往超过单篇论文。

1.4 追求“影响力”：从“被记住”到“被需要”

驱动翁家翌持续创作开源项目（如“天授”、“退学Online”签证查询系统）的深层动力，是一种对 “影响力”（Impact） 的独特追求。这个想法源于高中时一个突然的念头：“如果人生是一场游戏，那么你的游戏的结算分数是记得你名字的数量的人。”

他解释：“我希望我做的能够给他人带来好处的话，那么我...会从他人那边得到一些正反馈。” 他追求的不是虚名，而是创造被广泛需要的、对他人有价值的工具。这与他开源作业的初衷一脉相承：他反抗的是僵化、单一的评价体系，转而追求一种基于真实价值和广泛认同的新标准。

二、工业界洞察：工程效率是AI研究的“生死线”

2.1 职业抉择：为什么他认为“读PhD是浪费生命”？

带着“天授”的成功经验和清晰的自我认知，翁家翌在卡耐基梅隆大学（CMU）攻读硕士期间，坚定地瞄准了工业界。他甚至提出了一个尖锐的观点：“如果你想进工业界，那么读PhD就是浪费生命。”

这一判断基于他对前沿AI研发模式的深刻洞察。他认为，在现代顶尖的AI实验室里，研究创意（Idea）是廉价的，而将创意快速、正确地进行验证的能力，才是真正的瓶颈。决定一个团队产出的关键，是 “单位时间内能迭代多少次”，这直接依赖于工程基础设施的可靠性和效率。

他引用一位同事的话总结道：“教一个researcher如何做好engineering，要远比教一个engineer如何做好research来得难。” 在当今以大规模实验和快速试错为核心的AI前沿，卓越的工程能力构成了最坚固的护城河。

2.2 加入OpenAI：成为不可或缺的“卖铲人”

凭借出色的工程能力和“天授”项目的证明，翁家翌在2022年ChatGPT发布前，成功加入了OpenAI。在面试中，John Schulman（RL权威，PPO算法发明者，个人主页 http://joschu.net/）给他出了一道开放性的工程难题，翁家翌在短时间内高效完成并现场调试，展现了强大的工程实力。

进入OpenAI后，他的目标极其明确：最大化我在OpenAI blog上出现名字的次数。如何实现？他选择成为那个不可或缺的“卖铲人”——负责搭建和维护整个大模型后训练阶段的强化学习基础设施（Post-training RL Infra）。正如他所说：“很多这个model release都有我的名字，这个就是因为我在OpenAI的内部，搭了整个post training的RL infra。”

从GPT-3.5到GPT-4o，每一次模型能力的飞跃背后，都有他构建的这套稳定、高效的系统在支撑。当整个团队的研究者都依赖你打造的工具时，你自然就成为了每一次进步的共同推动者。这不仅是精明的职业规划，更是对自身核心价值的精准定位。

三、 OpenAI内部视角：效率、组织与未来之路

3.1 ChatGPT的诞生：一场计划外的“涌现”

作为亲历者，翁家翌揭示了ChatGPT爆火背后的故事：最初，OpenAI内部仅有一个小团队（约12人）专注于对话模型的优化，初衷只是为了收集用户交互数据来改进模型，预期“可能一开始有1万2万（用户），然后后面就跌回，然后就没了”。发布五天后的指数级增长，完全超出了所有人的预期。其成功很大程度上源于“自宣发”效应，用户自发地传播和讨论。

这个案例说明，划时代的产品往往并非源于一个宏大的顶层设计，而是在正确的方向上持续迭代，最终在与真实世界的碰撞中“涌现”出来的。

3.2 工程挑战：从“玩具”到工业级RL Infra的飞跃

在OpenAI，翁家翌面临的工程挑战与学术研究截然不同。他解释说，学术界的RL Infra（如“天授”）瓶颈在于“环境”（模拟器），而模型很小。但在大模型后训练中，瓶颈在于“模型”本身：环境（一个文本提示）极其简单，但运行一次模型推理（inference）或训练的成本极高。他的工作位于RL、机器学习系统（MLSys）和模型推理的交叉点，需要极深的系统工程能力来优化性能和扩展性（scale up）。

3.3 真正的竞争维度：迭代速度，而非榜单分数

当外界热衷于比较各大模型在评测榜单上的分数时，OpenAI内部关注的焦点却完全不同。翁家翌透露，真正引起他们警觉的，是像DeepSeek这样迭代速度极快的竞争者。在他看来，模型竞赛的核心是 “单位时间内的迭代次数与成功率”。

随着公司规模扩大，保持代码库与组织架构的 “一致性”（Consistency） 变得异常困难，这会直接影响创新效率。他半开玩笑地指出，未来或许需要一个拥有“无限上下文长度”的AI Agent来充当CEO，以解决人类组织固有的信息流通与决策迟缓问题。

3.4 对AGI与开源的务实思考

关于AGI（通用人工智能），翁家翌给出了一个非常个人化的定义：“能够完成我本人认为有价值的任务的百分之八九十。” 他坦言，目前的大模型仍无法让他放心地去修改核心的基础设施代码，因为这属于“分布外”（out of distribution）的复杂任务，验证成本太高。

名词解释：AGI（通用人工智能）：指具备与人类同等或超越人类水平的、能够执行广泛智力任务的AI系统，不同于现在只会特定任务的“专用AI”。

对于OpenAI从“开放”转向“闭源”的争议，他提供了一个内部视角下的权衡（Trade-off）：公司将使命拆解为“实现AGI”和“造福全人类”。闭源是为了保障公司能持续生存、融资以专注于前者；而通过提供廉价甚至免费的产品（如ChatGPT），则是实践后者。他认为，让数十亿人以便捷的方式用上最先进的AI，其当下的普惠意义可能大于单纯地开源模型代码。这是一个在理想与现实、安全与发展的复杂博弈中的务实选择。

四、终极思考：在确定的世界里积极行动

4.1 宿命论下的“投资未来”者

访谈中最引人深思的部分，是翁家翌的哲学思考。他是一位坚定的决定论者，相信从宇宙大爆炸起，一切均已注定，包括我们此刻的对话。这听起来像一种令人无力的悲观世界观。

然而，他的行动却充满了张力。从初中起就“投资未来”的他，始终在微观层面全力以赴。他的态度是：“投资一下，万一有用呢？” 即便在宏观上相信确定性，他依然选择在每一个当下积极行动，去体验和塑造属于自己的“剧本”。他将这种“投资未来”的冲动，戏称为可能是“未来的自己”向“过去的自己”发送的信息。

4.2 抵达“山顶”后的新迷茫

如今，身处世界AI研发最前沿的翁家翌，坦言自己进入了某种“迷茫期”。曾经热爱的RL Infra工作“已经看到头了”，AGI在他看来也是“板上钉钉”的事。当最初的目标函数即将达成，新的目标是什么？

他的回答是：“花一点时间，找到自己真正想做的事。” 这或许揭示了所有极致理性主义者最终要面对的命题：当对工具效率的追求抵达顶峰后，人生的意义将回归到最本真的热情与渴望。

对于创业，他持开放态度，但认为关键在于抓住真实需求，而非技术本身。他理想中十年后的自己，是“做自己那个时候想做的事，然后有足够的资源、足够的能力做自己想做的事。”

结论：给我们的启示——在喧嚣时代构建自己的“铁锹”

翁家翌的成长路径，为我们描绘了一份清晰而反直觉的路线图：

重新定义你的价值坐标系：不必被GPA、名校光环等单一标准束缚。尽早思考你希望创造什么样的真实影响力（Impact），并围绕此构建你的独特优势（如工程能力、产品思维）。
认识到“铲子”比“金子”更重要：在任何快速发展的领域（不仅是AI），支撑高效迭代的基础设施和工程能力，往往是比单点创意更稀缺、更核心的竞争力。考虑成为那个“造工具”的人。
解决真实、普遍的痛点：无论是开源学习资料、开发一个小工具，还是参与大型项目，成功的核心始终是发现并真诚地解决一个真实存在的问题。价值来源于被需要。
在宏观趋势下积极进行微观努力：无论你对世界持何种看法，在每一个当下全力以赴地“投资未来”、提升自己，是唯一不会错的选择。因为经历本身，就是意义。

他的故事告诉我们，在这个被各种新闻和参数包围的时代，真正的竞争力和持久的影响力，往往隐藏在更底层、更枯燥，却也更坚实的地方：那就是将想法转化为现实的工程能力，构建平台赋能他人的系统思维，以及穿透短期噪音、投资长期价值的战略定力。 这不仅是打造AI巨轮的秘诀，或许也是我们每个个体，在充满不确定性的世界中，为自己构建独特价值和“反脆弱性”的坚实基石。

---

温馨提示这就是广告，失业五年人求职

- 山西大学金融学专业，会从、证从、基从证书

- 动手学深度学习v2 成为AI产品经理2bPM 动手学深度强化学习(WIP) 开发者

- 山西省团体跳绳铜牌跳绳初级教练证、裁判证

- B站账号【StevenJokes的个人空间-哔哩哔哩】网页链接

- 知乎账号：https://www.zhihu.com/people/Steven_Jokes

https://www.zhihu.com/people/Steven_Jokess

- Github账号：https://github.com/StevenJokess

- 个人邮箱：867907127@qq.com

- 要饭QQ：(直接加Q 867907127)

cv44882456

分享至

投诉或建议