投稿

14 Transformer之位置编码Positional Encoding （为什么 Self-Attention 需要位置编码）

4.9万

540

2022-07-01 23:28:23

未经作者授权，禁止转载

正在缓冲...

上次说到了 Self-Attention 的缺点和优点，但是还有一个关键性的缺点我们没有指出，那就是……，而这个缺点正好可以使用这个Postional Encodin（位置编码）进行弥补。博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看配套 github 链接：https://github.com/nickchen121/Pre-training-language-model 配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.html

技术宅的夏天

科技猎手计划2022第二季

水论文的程序猿发消息

B站含水量最高的导。私信关键字“粉丝群”，自动回复你入群方式，能看到就是还有坑位~

国内名企招聘中，本科以上留学生即可！

留学生求职

Trm理论详解

Trm分块实战

GPT和BERT

01+02 (Transformer、BERT 发展史) 预训练语言模型课程导论

15:12

03 什么是预训练（Transformer 前奏）

17:01

04 统计语言模型（n元语言模型）

21:57

05 神经网络语言模型（独热编码+词向量 Word Embedding 的起源）

32:27

06 Word2Vec模型（第一个专门做词向量的模型，CBOW和Skip-gram）

24:24

07 预训练语言模型的下游任务改造简介（如何使用词向量）_batch

09:53

08 ELMo模型（双向LSTM模型解决词向量多义问题）

28:28

09 什么是注意力机制（Attention）

23:45

10 Self-Attention（自注意力机制）

19:38

1001 Attention 和 Self-Attention 的区别（还不能区分我就真的无能为力了）

12:22

11 Self-Attention 相比较 RNN 和 LSTM 的优缺点

10:05

12 Masked Self-Attention（掩码自注意力机制）

11:38

13 Multi-Head Self-Attention（从空间角度解释为什么做多头）

20:20

14 Positional Encoding （为什么 Self-Attention 需要位置编码）

18:35

1401 位置编码公式详细理解补充

14:07

15 Transformer 框架概述

16:51

16 Transformer的编码器（Encodes）——我在做更优秀的词向量

23:58

17 Transformer 的解码器（Decoders）——我要生成一个又一个单词

14:33

18 Transformer 的动态流程

06:42

19 Transformer 解码器的两个为什么（为什么做掩码、为什么用编码器-解码器注意力）

17:54

20 Transformer 的输出和输入是什么

15:48

顶部