投稿

理解大模型推理能力从强化学习开始(七)：Q-Learning

1555

0

2025-05-05 12:49:45

未经作者授权，禁止转载

正在缓冲...

本序列聚焦于强化学习和大语言模型，探索大语言模型背后的推理能力和强化学习之间的关联关系。通过从最基础的强化学习开始，本视频讲解，Q-Learning。

大语言模型

Markov Reward Proces

Bin_Nong 发消息

理解大模型推理能力从强化学习开始

09:40

理解大模型推理能力从强化学习开始(一)：马尔可夫奖励过程（代码仿真）

01:01:35

理解大模型推理能力从强化学习开始(二)：马尔可夫奖励过程（前向推理）

14:46

理解大模型推理能力从强化学习开始(三)：马尔可夫奖励过程（方差大的原因）

19:43

理解大模型推理能力从强化学习开始(三)：蒙特卡洛增量更新（状态价值函数）

28:48

理解大模型推理能力从强化学习开始(五)：Temporal Difference Learning

17:51

理解大模型推理能力从强化学习开始(六)：Exploitation and Exploration

12:31

理解大模型推理能力从强化学习开始(七)：Q-Learning

21:50

顶部