投稿

【官方双语】GPT是什么？直观解释Transformer | 深度学习第5章

56.5万

1187

2024-04-30 19:00:00

未经作者授权，禁止转载

正在缓冲...

解析GPT-3等大语言模型背后的机制和原理。GPT是什么？深度学习的范式是什么？如何在词和向量之间切换？想继续深入了解注意力机制，有哪些需要扫盲的基础知识？德国 - 日本 + 寿司 = ？ https://www.youtube.com/watch?v=wjZofJX0v4M 翻译: 贰鼠校对: 蛋卷 ksyx ZSC 时间轴: 贰鼠笔记本: https://3b1b.co/store 感谢观众的支持: https://3b1b.co/support 一键三联与分享，也是最大的支持！ 0:00 - 预测，采样，重复：预训练/生成式/Transformer模型 3:03 - Transformer 的内部结构 6:36 - 本期总述 7:20 - 深度学习的大框架 12:27 - GPT的第一层：词嵌入为向量(embedding) 18:25 - 嵌入空间不仅代表词，还能包含上下文信息 20:22 - GPT的最后一层：向量解码为词(Unembedding) 22:22 - 带温度的 Softmax 函数 26:03 - 下期预告：深入注意力机制

知识一起学

3Blue1Brown 发消息

中国官方账号。深入浅出、直观明了地分享数学之美。资助页面：www.patreon.com/3blue1brown

顶部