完全从零实现DeepSeek MLA算法(MultiHead Latent Attention)-(无矩阵吸收版),DeepSeek V2/3 的核心组件之一

3.6万
119
2025-02-05 23:02:17
作者声明:个人观点,仅供参考
正在缓冲...
1382
584
3581
241
完全从零实现 DeepSeek MLA 算法(MultiHead Latent Attention)-(无矩阵吸收),DeepSeek V2/3 的核心组件之一 文字稿位于: https://bruceyuan.com/post/hands-on-deepseek-mla.html 代码位于 GitHub 欢迎 star: https://github.com/bbruceyuan/LLMs-Zero-to-Hero 欢迎大家用我的邀请码注册 aistackdc 获取更多优惠券:https://aistackdc.com/phone-register?invite_code=D872A9 相关的视频从零手写Dense/MOE Model: BV1qWwke5E3K BV1ZbFpeHEYr MLA 可以理解为效果更好的 GQA。
前腾讯,视频文字见 yuanchaofa.com和 github.com/bbruceyuan,可加 v bbruceyuan 交流(笑)
动手学习AI-LLM
(9/24)
自动连播
64.5万播放
简介
手撕代码
ZeroHero
动手学习大模型1
动手学Agent
paper 阅读
开源代码阅读
LLMs-Zero-to-Hero,完全从零手写大模型,从数据处理到模型训练,细节拉满,一小时学会。 build a nanoGPT from scratch
56:52
完全从零手写MOE大模型,复现 DeepSeek MOE 算法,彻底 MOE 算法进化之路,build a nano MOE LLM from scratch
01:08:03
完全从零实现DeepSeek MLA算法(MultiHead Latent Attention)-(无矩阵吸收版),DeepSeek V2/3 的核心组件之一
58:21
从零手撕DeepSeek MLA矩阵吸收算法(MultiHead Latent Attention)-(矩阵吸收版),DeepSeek V2/3 的核心组件之一
37:13
客服
顶部
赛事库 课堂 2021拜年纪