投稿

【官方双语】直观解释注意力机制，Transformer的核心 | 【深度学习第6章】

Name: %E3%80%90%E5%AE%98%E6%96%B9%E5%8F%8C%E8%AF%AD%E3%80%91%E7%9B%B4%E8%A7%82%E8%A7%A3%E9%87%8A%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%EF%BC%8CTransformer%E7%9A%84%E6%A0%B8%E5%BF%83%20%7C%20%E3%80%90%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%AC%AC6%E7%AB%A0%E3%80%91
Uploaded: 2025-05-22T20:03:02.862Z

58.4万

898

2024-05-04 10:09:00

未经作者授权，禁止转载

正在缓冲...

“塔”是什么？“Harry”是谁？怎么想象“一个毛茸茸的蓝色生物漫步于葱郁的森林”？怎样用12288个数字表示出一个细微复杂具体的含义？大语言模型中的注意力机制并没有那么神秘。本视频重点介绍什么是多头/自/交叉注意力。 0:00 - 前情提要：词嵌入 1:39 - 注意力是什么? Mole是什么？Tower又是什么? 4:29 - 注意力模式：“一个毛茸茸的蓝色生物漫步于葱郁的森林”，名词与形容词，查询与键 11:08 - 掩码：看前不看后 12:42 - 上下文窗口大小 13:10 - 值矩阵：“蓝色”如何修饰“生物”？ 15:44 - 参数有多少 18:21 - 交叉注意力 19:19 - 多头 22:16 - 输出矩阵 23:19 - 加深网络 24:54 - 结语 YouTube: eMlx5fFNoYc ---- 其他资源： Andrej Karpathy，从零开始手搓 GPT：YouTube: kCc8FmEb1nY vcubingx 新开的系列视频：从底层开始理解语言模型的概念：YouTube: 1il-s4mgNdI 想真正弄清楚Transformer内部的大网络在做什么，推荐Anthropic的网页博文 transformer-circuits.pub/2021/framework/index.html 我就是读了他的一篇文章后开始想，输出矩阵乘以值矩阵，其实就是嵌入空间到自身的一个低秩映射。这样想之后，至少我的概念变得更清晰了。机器学习编程、GPT相关的教程、在线编程练习、解答：www.gptandchill.ai/codingproblems Brit Cruise @ArtOfTheProblem，语言模型的历史：YouTube OFS90-FX6pg 关于嵌入空间中方向含义的论文：arxiv: 1301.3781