一口气学完强化学习算法,大佬手把手教你Q-Learning、DQN、PPO、DPO等算法的原理+实操,比看书好太多了!

1.4万
80
2025-04-17 17:42:02
正在缓冲...
300
96
360
149
从零基础出发,系统讲解强化学习的核心原理与实践应用,涵盖Q-Learning、DQN、PPO、DPO等算法的原理+实操,并结合Python编程实现游戏AI、机器人控制等个实战项目。通过本系列学习,你将具备独立开发智能决策系统的能力,并能将强化学习应用于金融交易、资源调度、推荐系统等实际场景。
视频选集
(1/48)
自动连播
强化学习快速入门
01:34
AI算法工程师成长路径
11:23
1.1-一张图通俗解释强化学习1
04:48
2.2-强化学习的指导依据2
07:08
3.3-强化学习AI游戏DEMO3
04:49
4.4-应用领域简介4
06:29
5.5-强化学习工作流程5
05:49
6.6-计算机眼中的状态与行为6
07:26
7.1-基本情况介绍7
11:18
8.2-与环境交互得到所需数据8
08:31
9.3-要完成的目标分析9
10:41
10.4-策略梯度推导10
09:02
11.5-baseline方法11
06:11
12.6-OnPolicy与OffPolicy策略12
07:45
13.7-importance sampling的作用13
08:32
14.8-PPO算法整体思路解析14
09:20
15.1-整体任务流程演示15
05:22
16.2-探索与action获取16
06:59
17.3-计算target值17
05:18
18.4-训练与更新18
08:13
19.5-算法原理通俗解读19
07:12
20.6-目标函数与公式解析20
10:08
21.7-Qlearning算法实例解读21
07:46
22.8-Q值迭代求解22
09:00
23.9-DQN简介23
05:08
24.1-DoubleDqn要解决的问题24
06:48
25.2-DuelingDqn改进方法25
06:27
26.3-Dueling整体网络架构分析26
08:28
27.4-MultiSetp策略27
03:46
28.5-连续动作处理方法28
08:23
29.1-AC算法回顾与知识点总结29
07:19
30.2-优势函数解读与分析30
07:13
31.3-计算流程实例31
05:51
32.4-A3C整体架构分析32
06:02
33.5-损失函数整理33
08:33
34.1-GPT系列34
02:17:43
35.1-生成模型可以完成的任务概述
07:47
36.2-数据样本生成方法
14:11
37.3-训练所需参数解读)
13:41
38.4-模型训练过程
12:40
39.5-部署与网页预测展示
19:12
40.1-CLIP系列
02:14:08
41.【练手项目】-整体流程与环境配置
05:39
42.【练手项目】-启动游戏环境
07:00
43.【练手项目】-要计算的指标回顾
09:02
44.【练手项目】初始化局部模型并加载参数
08:06
45.【练手项目】与环境交互得到训练数据
09:32
46.【练手项目】-训练网络模型
09:40
客服
顶部
赛事库 课堂 2021拜年纪