理解大模型推理能力从强化学习开始(七):Q-Learning

1555
0
2025-05-05 12:49:45
正在缓冲...
39
11
90
分享
本序列聚焦于强化学习和大语言模型,探索大语言模型背后的推理能力和强化学习之间的关联关系。通过从最基础的强化学习开始,本视频讲解,Q-Learning。
自动连播
1.4万播放
简介
理解大模型推理能力从强化学习开始
09:40
理解大模型推理能力从强化学习开始(一):马尔可夫奖励过程(代码仿真)
01:01:35
理解大模型推理能力从强化学习开始(二):马尔可夫奖励过程(前向推理)
14:46
理解大模型推理能力从强化学习开始(三):马尔可夫奖励过程(方差大的原因)
19:43
理解大模型推理能力从强化学习开始(三):蒙特卡洛增量更新(状态价值函数)
28:48
理解大模型推理能力从强化学习开始(五):Temporal Difference Learning
17:51
理解大模型推理能力从强化学习开始(六):Exploitation and Exploration
12:31
理解大模型推理能力从强化学习开始(七):Q-Learning
21:50
客服
顶部
赛事库 课堂 2021拜年纪