[veRL] 从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy
[Pytorch 分布式] DeepSpeed Ulysses 分布式序列并行算法,尤利西斯,Ring attention
[RL4LLM] PPO workflow 及 OpenRLHF、veRL 初步介绍,ray distributed debugger
[veRL] fsdp sft trainer 补充,teacher forcing、shift labels shift logits、loss mask
[veRL] log probs from logits 与 entropy from logits 的高效计算
[veRL] FSDP SFT trainer,SFT vs. RL,交叉熵损失 | loss mask | learning rate scheduler
【计算机视觉】cnn/maxpool 输入输出 shape 的变化与kernel size、pool size、stride size,padding=same
【python 运筹优化】scipy.optimize.minimize 使用
[personal chatgpt] peft LoRA merge pipeline(lora inject,svd)
[动手写神经网络] pytorch 高维张量 Tensor 维度操作与处理,einops
[mcts] 02 mcts from scartch(UCTNode,uct_search, pUCT,树的可视化)
[RL4LLM] 深入 PPO-clip 目标函数细节(及重要性采样)
[LLM+RL] 合成数据与model collapse,nature 正刊封面
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[LangGraph] 实现 Building Effective Agents,各种 workflows 及 Agent
【统计学】p-value(p值) 与 z-score(标准分/z得分/z分数)定义,计算以及适用场景
[RL4LLM] GRPO loss/objective 分析 及可能的 biases 分析(DAPO,Dr. GRPO)
[纳什荐书][强化学习] chap2 MDP(马尔可夫决策过程),最优策略与最优状态价值
【矩阵分析】矩阵奇异值与谱范数(spectral norm),F范数(Frobenius norm),核范数(nuclear norm)