14 Transformer之位置编码Positional Encoding (为什么 Self-Attention 需要位置编码)

4.9万
540
2022-07-01 23:28:23
正在缓冲...
4613
2992
1228
134
上次说到了 Self-Attention 的缺点和优点,但是还有一个关键性的缺点我们没有指出,那就是……,而这个缺点正好可以使用这个Postional Encodin(位置编码)进行弥补。 博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看 配套 github 链接:https://github.com/nickchen121/Pre-training-language-model 配套博客链接:https://www.cnblogs.com/nickchen121/p/15105048.html
B站含水量最高的导。私信关键字“粉丝群”,自动回复你入群方式,能看到就是还有坑位~
133.4万播放
简介
Trm理论详解
Trm分块实战
GPT和BERT
01+02 (Transformer、BERT 发展史) 预训练语言模型课程导论
15:12
03 什么是预训练(Transformer 前奏)
17:01
04 统计语言模型(n元语言模型)
21:57
05 神经网络语言模型(独热编码+词向量 Word Embedding 的起源)
32:27
06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram)
24:24
07 预训练语言模型的下游任务改造简介(如何使用词向量)_batch
09:53
08 ELMo模型(双向LSTM模型解决词向量多义问题)
28:28
09 什么是注意力机制(Attention)
23:45
10 Self-Attention(自注意力机制)
19:38
1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)
12:22
11 Self-Attention 相比较 RNN 和 LSTM 的优缺点
10:05
12 Masked Self-Attention(掩码自注意力机制)
11:38
13 Multi-Head Self-Attention(从空间角度解释为什么做多头)
20:20
14 Positional Encoding (为什么 Self-Attention 需要位置编码)
18:35
1401 位置编码公式详细理解补充
14:07
15 Transformer 框架概述
16:51
16 Transformer的编码器(Encodes)——我在做更优秀的词向量
23:58
17 Transformer 的解码器(Decoders)——我要生成一个又一个单词
14:33
18 Transformer 的动态流程
06:42
19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)
17:54
20 Transformer 的输出和输入是什么
15:48
客服
顶部
赛事库 课堂 2021拜年纪