重置版剪切掉了视频冗余,保留了精华部分。
圣诞假期,静下心来思考本科内容,曾经神秘的transfomer已经不再望而生畏,经典的论文往往只有一个关键的公式,正如DMT算法核心公式只有一行,transfomer模型核心公式也只有一行。分享自己对transfomer的理解,我对于mask部分的理解有限,如有疏漏,还请指正。
代码见:https://szdyzq.lanzoum.com/ivoV11iz2puh
up个人博客: https://bkdzq.github.io
源项目地址:https://github.com/aladdinpersson/Machine-Learning-Collection