第二课:BERT
第十五课:LLaMA
第二十一课:PEFT
第二十课:MoE
吴恩达《从人类反馈中进行强化学习RLHF, Reinforcement Learning from Human Feedback》(中英字幕)
第七课:Prompt Tuning
SFT和RLHF的区别是什么?
清华大模型公开课第二季回归!全球顶级开源社区梦幻联动
第九课:Instruct Tuning
全网最通俗易懂,大模型偏好对齐RLHF从PPO推导DPO再推导simPO
第一课:Transformer
第二十二课:Prompt Engineering
第十三课:ChatGLM2
【中文语音】Umar Jamil 讲解RLHF和PPO
RLHF之ppo基础
PPO@RLHF ChatGPT原理解析
第十九课:RWKV1-4
第十一课:ChatGLM
第十六课:LLaMA2
第六课:代码预训练