零基础学习强化学习算法:ppo

10.5万
478
2024-06-10 11:49:55
正在缓冲...
3765
3858
6164
827
零基础学习强化学习算法:ppo
原IBM人工智能产品Tech Lead,Data Scientist
自动连播
21.8万播放
简介
第一集:大模型预训练
14:56
第二集:大模型监督微调SFT
13:23
第三集:PPO算法原理
31:01
第四集:大模型强化学习PPO
23:59
客服
顶部
赛事库 课堂 2021拜年纪