5.3万
已完结 · 共61课时
有效期3年
强化学习前沿技术实战
5.3万
已完结 · 共61课时
有效期3年
强化学习前沿技术实战

梗直哥丶
主讲人瞿炜,博士毕业于美国伊利诺伊大学,曾在中美顶尖大学和科研机构任教,先后于多家上市公司担任高管、研究院院长等职。
课程概述










【减400.0】【限时特惠】哔哩哔哩课堂满3288减400优惠券
附赠课件
课程群
第一章 欢迎来到强化学习的世界
全集试看
01.课程内容和理念
视频课
6分8秒
全集试看
02.认识强化学习
视频课
20分39秒
03.课程使用的技术栈
视频课
5分23秒
第二章 数学知识回顾:凡事预则立,不预则废
01.线性代数
视频课
12分42秒
02.微积分
视频课
13分11秒
03.概率
视频课
19分29秒
第三章 环境安装和工具使用:工欲善其事,必先利其器
01.CUDA+Anaconda深度学习环境配置
视频课
7分7秒
02.conda实用命令
视频课
5分32秒
03.Jupyter Notebook快速上手
视频课
5分40秒
04.仿真环境Gym安装
视频课
6分49秒
05.深度学习库Pytorch安装
视频课
3分36秒
第四章 马尔可夫随机过程:憧憬和行动中追寻生命的意义
01.序列建模与概率图模型
视频课
16分6秒
02.马尔可夫观测过程:学会“看”
视频课
16分38秒
03.马尔可夫决策过程:试着“干”
视频课
12分9秒
04.马尔可夫奖励过程:懂得“想”
视频课
19分4秒
05.贝尔曼方程:迭代求解价值函数
视频课
12分24秒
06.模型分类与选择
视频课
11分18秒
07.常见问题解析
视频课
8分28秒
08.马尔科夫随机过程代码实现
视频课
12分12秒
第五章 动态规划方法:理想国中的完美人生
01.动态规划方法核心思想和原理
视频课
11分26秒
02.策略迭代
视频课
15分22秒
03.价值迭代
视频课
7分48秒
04.动态规划代码实现
视频课
12分13秒
第六章 经典无模型方法:离散世界的价值最大化
01.蒙特卡洛方法
视频课
11分10秒
02.时序差分方法
视频课
12分51秒
03.蒙特卡洛方法和时序差分代码实现
视频课
8分7秒
04.广义策略迭代:统一的框架
视频课
7分55秒
05.Q-Learning算法(Off-Policy)
视频课
12分49秒
06.SARSA算法(On-Policy)
视频课
8分3秒
07.Q-Learning & SARSA代码实现
视频课
7分5秒
第七章 深度Q网络:他山之石,可以攻玉
01.核心思想和原理
视频课
16分42秒
02.DQN代码实现
视频课
10分29秒
03.常用改进和扩展
视频课
10分52秒
04.改进算法的代码实现
视频课
8分55秒
第八章 深度策略梯度方法:行胜于言,止于至善
01.深度策略梯度方法核心思想和原理
视频课
16分6秒
02.蒙特卡洛策略梯度(REINFORCE)
视频课
9分42秒
03.策略梯度的代码实现
视频课
6分28秒
04.近端策略优化算法(PPO)
视频课
14分25秒
05.近端策略优化的代码实现
视频课
10分22秒
第九章 演员-评论家算法:戏为兄弟,共荣共生
01.核心思想和原理(AC)
视频课
8分57秒
02.改进型演员评论家算法(A2C、A3C)
视频课
9分1秒
03.演员评论家算法的代码实现
视频课
6分21秒
04.深度确定性策略梯度(DDPG)
视频课
12分22秒
05.DDPG的代码实现
视频课
7分37秒
06.软性演员评论家算法(SAC)
视频课
16分41秒
07.SAC的代码实现
视频课
10分26秒
第十章 基于模型的强化学习:看不见的上帝之手
01.基于模型的强化学习核心思想和原理
视频课
19分37秒
02.Dyna-Q算法
视频课
16分33秒
03.Dyna-Q的代码实现
视频课
5分57秒
04.基于模型的策略优化(MBPO)
视频课
8分31秒
05.MBPO的代码实现
视频课
14分48秒
第十一章 进阶强化学习:欲穷千里目,更上一层楼
01.模仿学习三剑客
视频课
17分34秒
02.博弈论与强化学习
视频课
17分44秒
03.多智能体强化学习
视频课
16分14秒
04.多智能体强化学习的代码实现
视频课
12分13秒
05.AlphaStar网络
视频课
23分50秒
06.基于人类反馈的强化学习(RLHF)
视频课
16分21秒
第十二章强化学习实战:绝知此事要躬行
01.项目实战:OpenAI Gym游戏
视频课
17分37秒
02.项目实战:大模型训练
视频课
11分53秒
03.最新发展趋势分析
视频课
20分52秒
04.下一步学习建议
视频课
14分57秒

人工智能/机器学习必修课:经典AI算法与编程实战
集齐人工智能十大经典算法、百张知识脑图,带你轻松上手实战。
20.2万播放/共120课时

人工智能/深度学习必修课:进击AI算法工程师
囊括深度学习几乎所有主流模型和生成式AI等前沿科技
22.9万播放/共100课时

GPT Image 2 从入门到出图实战
掌握AI视觉创作全流程,解锁高效创意生成技能,从零到视觉大师
2743播放/共42课时

大鹏 Claude Code 二开 AI PPT
用 Claude Code 二开开源 AI PPT 实战
95播放/共23课时

小白都能学的AI编程实战:从0带你做出产品
主流 AI 编程工具 + 实战项目教程,从想法到变现一条龙
12.9万播放/共85课时

于红博AI写作教程(女频年代文)
重磅上线|用学院派思维,玩转AI写作
6播放/共2课时

AI Agent智能体的基础技术原理
学习大模型Agent的技术框架
281播放/共12课时

飞书多维表格搭建一人公司记账管理系统
飞书多维表格搭建,详细讲解如何通过多维表格搭建一人公司记账
240播放/共6课时

Codex智能体实战:从零系统学习智能体应用
从零开始系统学习Codex智能体,纯实战教学,有辅导群答疑
431播放/共91课时

Codex APP入门与实战|AI随风
零基础学会用Codex APP做项目、办公与自动化
6063播放/共11课时

驾驭AI系统:构建稳定可控Agent
深入理解AI模型外的系统设计,掌握关键技巧以提升Agent的
63播放/共7课时

【1对1】Python数据分析AI科研+就业班
系统全面,班级群/答疑/辅导/作业任务批改点评等服务
41.7万播放/共189课时

掌握大模型必备知识:上下文工程速览
AI产品经理入门系列课
54播放/共4课时

智能办公助手:AI赋能的高效工作术
AI技术在工作场景中的应用探索
153播放/共20课时

【驾驭AI】Python数据分析+人工智能直播课
3天真实教学直播+1周全程答疑辅导
842播放/共9课时
评论(0)