“塔”是什么?“Harry”是谁?怎么想象“一个毛茸茸的蓝色生物漫步于葱郁的森林”?怎样用12288个数字表示出一个细微复杂具体的含义?
大语言模型中的注意力机制并没有那么神秘。本视频重点介绍什么是多头/自/交叉注意力。
0:00 - 前情提要:词嵌入
1:39 - 注意力是什么? Mole是什么?Tower又是什么?
4:29 - 注意力模式:“一个毛茸茸的蓝色生物漫步于葱郁的森林”,名词与形容词,查询与键
11:08 - 掩码:看前不看后
12:42 - 上下文窗口大小
13:10 - 值矩阵:“蓝色”如何修饰“生物”?
15:44 - 参数有多少
18:21 - 交叉注意力
19:19 - 多头
22:16 - 输出矩阵
23:19 - 加深网络
24:54 - 结语
YouTube: eMlx5fFNoYc
----
其他资源:
Andrej Karpathy,从零开始手搓 GPT:YouTube: kCc8FmEb1nY
vcubingx 新开的系列视频:从底层开始理解语言模型的概念:YouTube: 1il-s4mgNdI
想真正弄清楚Transformer内部的大网络在做什么,推荐Anthropic的网页博文
transformer-circuits.pub/2021/framework/index.html
我就是读了他的一篇文章后开始想,输出矩阵乘以值矩阵,其实就是嵌入空间到自身的一个低秩映射。这样想之后,至少我的概念变得更清晰了。
机器学习编程、GPT相关的教程、在线编程练习、解答:www.gptandchill.ai/codingproblems
Brit Cruise @ArtOfTheProblem,语言模型的历史:YouTube OFS90-FX6pg
关于嵌入空间中方向含义的论文:arxiv: 1301.3781