【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章

56.5万
1187
2024-04-30 19:00:00
正在缓冲...
2.3万
1.4万
2.7万
8766
解析GPT-3等大语言模型背后的机制和原理。GPT是什么?深度学习的范式是什么?如何在词和向量之间切换?想继续深入了解注意力机制,有哪些需要扫盲的基础知识?德国 - 日本 + 寿司 = ? https://www.youtube.com/watch?v=wjZofJX0v4M 翻译: 贰鼠 校对: 蛋卷   ksyx  ZSC 时间轴: 贰鼠 笔记本: https://3b1b.co/store 感谢观众的支持: https://3b1b.co/support 一键三联与分享,也是最大的支持! 0:00 - 预测,采样,重复:预训练/生成式/Transformer模型 3:03 - Transformer 的内部结构 6:36 - 本期总述 7:20 - 深度学习的大框架 12:27 - GPT的第一层:词嵌入为向量(embedding) 18:25 - 嵌入空间不仅代表词,还能包含上下文信息 20:22 - GPT的最后一层:向量解码为词(Unembedding) 22:22 - 带温度的 Softmax 函数 26:03 - 下期预告:深入注意力机制
中国官方账号。深入浅出、直观明了地分享数学之美。资助页面:www.patreon.com/3blue1brown
客服
顶部
赛事库 课堂 2021拜年纪