收藏

稿件投诉

记笔记

  • 用手机看
人工智能/强化学习必修课:引领人工智能新时代

5.3万

已完结 · 共61课时

有效期3年

强化学习前沿技术实战

发布者
关注
up

梗直哥丶

主讲人瞿炜,博士毕业于美国伊利诺伊大学,曾在中美顶尖大学和科研机构任教,先后于多家上市公司担任高管、研究院院长等职。

课程概述

评论(0)

课程介绍
课程介绍
课程介绍
课程介绍
课程介绍
课程介绍
课程介绍
课程介绍
课程介绍
课程介绍
常见问题
Q:课程在什么时间更新?
A:课程更新频次以页面前端展示为准。购买成功后,课程更新将通过账号动态提示,方便及时观看。
Q:课程购买后有收看时间限制吗?
A:本课程购买后有效期3年,请知悉。
Q:原价购买课程后,如遇到优惠折扣,是否可以退还差价或重新购买?
A:虚拟商品付款后无法返还,请您随时留意各类课程折扣信息,按需购买。
Q:购买课程后是否可以加入老师的粉丝群或者用户群?
A:如老师设置用户群,我们将邀您加入,但我们无法承诺所有老师均提供用户群服务,感谢理解。

查看更多

购买须知

1. 本内容为付费内容,购买成功后方可观看。

2. 本内容为虚拟服务,已购买内容不支持退款,敬请谅解。

3. 实际购买价格以页面展示的价格及订单结算页显示价格为准。

券后 2888 元起/61课时 立即购买
优惠活动

【减400.0】【限时特惠】哔哩哔哩课堂满3288减400优惠券

领取
课程目录

附赠课件

课程群

第一章 欢迎来到强化学习的世界

1

全集试看

01.课程内容和理念

视频课

6分8秒

2

全集试看

02.认识强化学习

视频课

20分39秒

3

03.课程使用的技术栈

视频课

5分23秒

第二章 数学知识回顾:凡事预则立,不预则废

4

01.线性代数

视频课

12分42秒

5

02.微积分

视频课

13分11秒

6

03.概率

视频课

19分29秒

第三章 环境安装和工具使用:工欲善其事,必先利其器

7

01.CUDA+Anaconda深度学习环境配置

视频课

7分7秒

8

02.conda实用命令

视频课

5分32秒

9

03.Jupyter Notebook快速上手

视频课

5分40秒

10

04.仿真环境Gym安装

视频课

6分49秒

11

05.深度学习库Pytorch安装

视频课

3分36秒

第四章 马尔可夫随机过程:憧憬和行动中追寻生命的意义

12

01.序列建模与概率图模型

视频课

16分6秒

13

02.马尔可夫观测过程:学会“看”

视频课

16分38秒

14

03.马尔可夫决策过程:试着“干”

视频课

12分9秒

15

04.马尔可夫奖励过程:懂得“想”

视频课

19分4秒

16

05.贝尔曼方程:迭代求解价值函数

视频课

12分24秒

17

06.模型分类与选择

视频课

11分18秒

18

07.常见问题解析

视频课

8分28秒

19

08.马尔科夫随机过程代码实现

视频课

12分12秒

第五章 动态规划方法:理想国中的完美人生

20

01.动态规划方法核心思想和原理

视频课

11分26秒

21

02.策略迭代

视频课

15分22秒

22

03.价值迭代

视频课

7分48秒

23

04.动态规划代码实现

视频课

12分13秒

第六章 经典无模型方法:离散世界的价值最大化

24

01.蒙特卡洛方法

视频课

11分10秒

25

02.时序差分方法

视频课

12分51秒

26

03.蒙特卡洛方法和时序差分代码实现

视频课

8分7秒

27

04.广义策略迭代:统一的框架

视频课

7分55秒

28

05.Q-Learning算法(Off-Policy)

视频课

12分49秒

29

06.SARSA算法(On-Policy)

视频课

8分3秒

30

07.Q-Learning & SARSA代码实现

视频课

7分5秒

第七章 深度Q网络:他山之石,可以攻玉

31

01.核心思想和原理

视频课

16分42秒

32

02.DQN代码实现

视频课

10分29秒

33

03.常用改进和扩展

视频课

10分52秒

34

04.改进算法的代码实现

视频课

8分55秒

第八章 深度策略梯度方法:行胜于言,止于至善

35

01.深度策略梯度方法核心思想和原理

视频课

16分6秒

36

02.蒙特卡洛策略梯度(REINFORCE)

视频课

9分42秒

37

03.策略梯度的代码实现

视频课

6分28秒

38

04.近端策略优化算法(PPO)

视频课

14分25秒

39

05.近端策略优化的代码实现

视频课

10分22秒

第九章 演员-评论家算法:戏为兄弟,共荣共生

40

01.核心思想和原理(AC)

视频课

8分57秒

41

02.改进型演员评论家算法(A2C、A3C)

视频课

9分1秒

42

03.演员评论家算法的代码实现

视频课

6分21秒

43

04.深度确定性策略梯度(DDPG)

视频课

12分22秒

44

05.DDPG的代码实现

视频课

7分37秒

45

06.软性演员评论家算法(SAC)

视频课

16分41秒

46

07.SAC的代码实现

视频课

10分26秒

第十章 基于模型的强化学习:看不见的上帝之手

47

01.基于模型的强化学习核心思想和原理

视频课

19分37秒

48

02.Dyna-Q算法

视频课

16分33秒

49

03.Dyna-Q的代码实现

视频课

5分57秒

50

04.基于模型的策略优化(MBPO)

视频课

8分31秒

51

05.MBPO的代码实现

视频课

14分48秒

第十一章 进阶强化学习:欲穷千里目,更上一层楼

52

01.模仿学习三剑客

视频课

17分34秒

53

02.博弈论与强化学习

视频课

17分44秒

54

03.多智能体强化学习

视频课

16分14秒

55

04.多智能体强化学习的代码实现

视频课

12分13秒

56

05.AlphaStar网络

视频课

23分50秒

57

06.基于人类反馈的强化学习(RLHF)

视频课

16分21秒

第十二章强化学习实战:绝知此事要躬行

58

01.项目实战:OpenAI Gym游戏

视频课

17分37秒

59

02.项目实战:大模型训练

视频课

11分53秒

60

03.最新发展趋势分析

视频课

20分52秒

61

04.下一步学习建议

视频课

14分57秒

相关推荐
课程封面

人工智能/机器学习必修课:经典AI算法与编程实战

集齐人工智能十大经典算法、百张知识脑图,带你轻松上手实战。

20.2万播放/共120课时

课程封面

人工智能/深度学习必修课:进击AI算法工程师

囊括深度学习几乎所有主流模型和生成式AI等前沿科技

22.9万播放/共100课时

课程封面

GPT Image 2 从入门到出图实战

掌握AI视觉创作全流程,解锁高效创意生成技能,从零到视觉大师

2743播放/共42课时

课程封面

大鹏 Claude Code 二开 AI PPT

用 Claude Code 二开开源 AI PPT 实战

95播放/共23课时

课程封面

小白都能学的AI编程实战:从0带你做出产品

主流 AI 编程工具 + 实战项目教程,从想法到变现一条龙

12.9万播放/共85课时

课程封面

于红博AI写作教程(女频年代文)

重磅上线|用学院派思维,玩转AI写作

6播放/共2课时

课程封面

AI Agent智能体的基础技术原理

学习大模型Agent的技术框架

281播放/共12课时

课程封面

飞书多维表格搭建一人公司记账管理系统

飞书多维表格搭建,详细讲解如何通过多维表格搭建一人公司记账

240播放/共6课时

课程封面

Codex智能体实战:从零系统学习智能体应用

从零开始系统学习Codex智能体,纯实战教学,有辅导群答疑

431播放/共91课时

课程封面

Codex APP入门与实战|AI随风

零基础学会用Codex APP做项目、办公与自动化

6063播放/共11课时

课程封面

驾驭AI系统:构建稳定可控Agent

深入理解AI模型外的系统设计,掌握关键技巧以提升Agent的

63播放/共7课时

课程封面

【1对1】Python数据分析AI科研+就业班

系统全面,班级群/答疑/辅导/作业任务批改点评等服务

41.7万播放/共189课时

课程封面

掌握大模型必备知识:上下文工程速览

AI产品经理入门系列课

54播放/共4课时

课程封面

智能办公助手:AI赋能的高效工作术

AI技术在工作场景中的应用探索

153播放/共20课时

课程封面

【驾驭AI】Python数据分析+人工智能直播课

3天真实教学直播+1周全程答疑辅导

842播放/共9课时