我竟然半天就学会了强化学习(PPO、Q-learning、DQN、A3C)算法原理及实战玩转超级马里奥

4.5万
149
2023-11-29 14:42:48
正在缓冲...
502
342
2154
187
强化学习(PPO、Q-learning、DQN、A3C)算法原理及实战
不定期分享优质课程与配套学习资料,领取公-众-号:AI技术星球 发送:965
视频选集
(1/45)
自动连播
第1章:强化学习简介及其应用:1.一张图通俗解释强化学习
04:52
2. 强化学习的指导依据
07:08
3. 强化学习AI游戏DEMO
04:49
5. 应用领域简介
06:29
6. 强化学习工作流程
05:49
7. 计算机眼中的状态与行为
07:26
第2章:PPO算法与公式推导:1-基本情况介绍
11:18
2-与环境交互得到所需数据
08:31
3-要完成的目标分析
10:41
4-策略梯度推导
09:02
5-baseline方法
06:12
6-OnPolicy与OffPolicy策略
07:45
7-importance sampling的作用
08:32
8-PPO算法整体思路解析
09:21
第3章:PPO实战-月球登陆器训练实例:1-Critic的作用与效果
10:40
2-PPO2版本公式解读
11:47
3-参数与网络结构定义
08:05
4-得到动作结果
07:18
5-奖励获得与计算
08:09
6-参数迭代与更新
11:04
第4章:Q-learning与DQN算法:1-算法原理通俗解读
07:13
2-目标函数与公式解析
10:08
3-Qlearning算法实例解读
07:46
4-Q值迭代求解
09:00
5-DQN简介
05:08
第5章:DQN算法实例演示:1-整体任务流程演示
05:22
2-探索与action获取
07:00
3-计算target值
05:18
4-训练与更新
08:13
第6章:DQN改进与应用技巧:1-DoubleDqn要解决的问题
06:48
2-DuelingDqn改进方法
06:27
3-Dueling整体网络架构分析
08:28
4-MultiSetp策略
03:46
5-连续动作处理方法
08:24
第7章:Actor-Critic算法分析(A3C):1-AC算法回顾与知识点总结
07:19
2-优势函数解读与分析
07:14
3-计算流程实例
05:51
4-A3C整体架构分析
06:02
5-损失函数整理
08:33
第8章:用A3C玩转超级马里奥:1-整体流程与环境配置
05:39
2-启动游戏环境
07:01
3-要计算的指标回顾
09:02
4-初始化局部模型并加载参数
08:06
5-与环境交互得到训练数据
09:32
6-训练网络模型
09:40
客服
顶部
赛事库 课堂 2021拜年纪