解析GPT-3等大语言模型背后的机制和原理。GPT是什么?深度学习的范式是什么?如何在词和向量之间切换?想继续深入了解注意力机制,有哪些需要扫盲的基础知识?德国 - 日本 + 寿司 = ?
https://www.youtube.com/watch?v=wjZofJX0v4M
翻译: 贰鼠 校对: 蛋卷 ksyx ZSC 时间轴: 贰鼠
笔记本: https://3b1b.co/store
感谢观众的支持: https://3b1b.co/support
一键三联与分享,也是最大的支持!
0:00 - 预测,采样,重复:预训练/生成式/Transformer模型
3:03 - Transformer 的内部结构
6:36 - 本期总述
7:20 - 深度学习的大框架
12:27 - GPT的第一层:词嵌入为向量(embedding)
18:25 - 嵌入空间不仅代表词,还能包含上下文信息
20:22 - GPT的最后一层:向量解码为词(Unembedding)
22:22 - 带温度的 Softmax 函数
26:03 - 下期预告:深入注意力机制