[veRL] 性能优化 use_remove_padding (flash attn varlen)变长序列处理

3145
2
2025-04-12 19:51:13
正在缓冲...
86
55
91
6
本期 code:https://github.com/chunhuizhang/llm_rl/blob/main/tutorials/infra/verl/verl_packing.ipynb https://verl.readthedocs.io/en/latest/perf/perf_tuning.html
数学,计算机科学,现代人工智能。bridge the gap。
RL4LLM
(13/20)
自动连播
16.3万播放
简介
[LLM+RL] 合成数据与model collapse,nature 正刊封面
16:11
[LLM+RL] 基于开源 LLM 实现 O1-like step by step 慢思考(slow thinking),ollama,streamlit
12:33
[LLM+RL] model.generate 之 beam search decoding strategy
11:47
[LLM + RL] kimi 1.5 论文导读与 highlights
42:54
[LLM+RL] R1 论文导读,SFT vs. RL,RL 基础以及 GRPO 细节,以及一系列复现工作讨论
57:59
[LLM+RL] 理解 GRPO 公式原理及 TRL GrpoTrainer 代码实现(advantage 与 loss 计算)
48:42
[LLM+RL] GRPO 中的 KL div(散度),reverse vs. forward,以及无偏估计(Schulman)
12:06
[RL4LLM] 理解 reasoning model Tokenizer 的 chat template,vllm inference
23:44
[RL4LLM] PPO workflow 及 OpenRLHF、veRL 初步介绍,ray distributed debugger
24:13
[RL4LLM] 深入 PPO-clip 目标函数细节(及重要性采样)
24:23
[RL4LLM] GRPO loss/objective 分析 及可能的 biases 分析(DAPO,Dr. GRPO)
19:05
[RL4LLM] deepseek v3 工具调用的 bug 以及理解 chat_template 的 function calling
14:17
[veRL] 性能优化 use_remove_padding (flash attn varlen)变长序列处理
24:00
[veRL] log probs from logits 与 entropy from logits 的高效计算
10:18
[RL4LLM] base vs. instruct model,个性化(custom)chat template(make prefix)
21:38
[veRL] 从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy
25:16
[veRL] FSDP SFT trainer,SFT vs. RL,交叉熵损失 | loss mask | learning rate scheduler
23:14
[veRL] fsdp sft trainer 补充,teacher forcing、shift labels shift logits、loss mask
19:00
[RL insights] 深入理解 Policy Gradient 算法(REINFORCE, Actor-Critic, A2C),打开强化学习算法的总钥匙
35:14
[RL insights] 推导和理解 Policy Gradient 算法,PG vs. MLE/SFT,采样及训练过程
17:21
客服
顶部
赛事库 课堂 2021拜年纪