verl 是字节跳动豆包大模型团队与香港大学联合提出的一个灵活且高效的 RL/RLHF 框架,是当前最为流行的大型语言模型强化学习训练框架之一,其基于 HybridFlow 编程范式,兼顾了灵活性和效率。
该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,可更好实现和执行多种RL算法,显著提升训练吞吐量,降低开发和维护复杂度。实验结果表明,HybridFlow 在运行各种 RL(HF) 算法时,吞吐量相较 SOTA 基线提升了 1.5-20 倍。
5月19晚8点,verl core contributor 童雨轩,直播分享《verl 源码解读 与 HybridFlow 编程范式讲解》。
本次 Talk 从entrypoint(例如 main_ppo.py)入手,按程序执行顺序讲解 verl 的主要逻辑(类似 debugger 视角,但经过整理总结),穿插介绍 HybridFlow 编程范式的主要内容与设计动机。希望能让大家获得对 verl 的行为与设计思想较为全面的理解。
分享嘉宾
童雨轩,清华大学计算机系本科生,曾于清华大学知识工程实验(THUKEG)、香港科技大学自然语言处理实验室(HKUST-NLP)、卡耐基梅隆大学语言技术研究所(CMU-LTI)、字节跳动 Seed 等机构实习。在 NeurIPS、ICLR、ICML 等国际会议发表论文 3 篇,谷歌学术引用量达 650。研究兴趣集中在自然语言处理、机器学习、强化学习等领域,致力于构建具备长上下文推理能力的人工智能系统。
主题提纲
verl 源码解读 与 HybridFlow 编程范式讲解
1、Debugger 视角源码讲解:verl 执行逻辑
2、HybridFlow 编程范式的主要内容与设计动机
3、verl Programming Guide