【官方双语】直观解释注意力机制,Transformer的核心 | 【深度学习第6章】

58.4万
898
2024-05-04 10:09:00
正在缓冲...
2.1万
1.3万
3.1万
5918
“塔”是什么?“Harry”是谁?怎么想象“一个毛茸茸的蓝色生物漫步于葱郁的森林”?怎样用12288个数字表示出一个细微复杂具体的含义? 大语言模型中的注意力机制并没有那么神秘。本视频重点介绍什么是多头/自/交叉注意力。 0:00 - 前情提要:词嵌入 1:39 - 注意力是什么? Mole是什么?Tower又是什么? 4:29 - 注意力模式:“一个毛茸茸的蓝色生物漫步于葱郁的森林”,名词与形容词,查询与键 11:08 - 掩码:看前不看后 12:42 - 上下文窗口大小 13:10 - 值矩阵:“蓝色”如何修饰“生物”? 15:44 - 参数有多少 18:21 - 交叉注意力 19:19 - 多头 22:16 - 输出矩阵 23:19 - 加深网络 24:54 - 结语 YouTube: eMlx5fFNoYc ---- 其他资源: Andrej Karpathy,从零开始手搓 GPT:YouTube: kCc8FmEb1nY vcubingx 新开的系列视频:从底层开始理解语言模型的概念:YouTube: 1il-s4mgNdI 想真正弄清楚Transformer内部的大网络在做什么,推荐Anthropic的网页博文 transformer-circuits.pub/2021/framework/index.html 我就是读了他的一篇文章后开始想,输出矩阵乘以值矩阵,其实就是嵌入空间到自身的一个低秩映射。这样想之后,至少我的概念变得更清晰了。 机器学习编程、GPT相关的教程、在线编程练习、解答:www.gptandchill.ai/codingproblems Brit Cruise @ArtOfTheProblem,语言模型的历史:YouTube OFS90-FX6pg 关于嵌入空间中方向含义的论文:arxiv: 1301.3781
中国官方账号。深入浅出、直观明了地分享数学之美。资助页面:www.patreon.com/3blue1brown
客服
顶部
赛事库 课堂 2021拜年纪