[Pytorch 分布式] ring-allreduce 算法(scatter-reduce、allgather)以及 FSDP
[veRL] FSDP SFT trainer,SFT vs. RL,交叉熵损失 | loss mask | learning rate scheduler
[veRL] 从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy
[LLM + RL] kimi 1.5 论文导读与 highlights
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[LLM+RL] 合成数据与model collapse,nature 正刊封面
[veRL] 性能优化 use_remove_padding (flash attn varlen)变长序列处理
[RL4LLM] base vs. instruct model,个性化(custom)chat template(make prefix)
[veRL] log probs from logits 与 entropy from logits 的高效计算
[纳什荐书][强化学习] chap2 MDP(马尔可夫决策过程),最优策略与最优状态价值
[veRL] fsdp sft trainer 补充,teacher forcing、shift labels shift logits、loss mask
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[LLMs inference] hf transformers 中的 KV cache
[RL4LLM] PPO workflow 及 OpenRLHF、veRL 初步介绍,ray distributed debugger
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[动手写神经网络] 手动实现 Transformer Encoder
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
颠覆性突破!SGLang引爆AI推理革命:3倍vLLM性能、千亿模型单机部署、零开销调度的技术内幕全解析!
[RL4LLM] 理解 reasoning model Tokenizer 的 chat template,vllm inference