入选CVPR 2025！何恺明联手LeCun改进Transformer！新思路学到就赚到~

深度之眼官方账号

编辑于 2025年03月18日 17:46

收录于文集

共352篇

何恺明大佬这几天又整了个大的，和LeCun联手提出了一种没有归一化层的Transformer，性能比传统Transformer更强！而且他们甚至只用了9行代码...大家感兴趣可以复现了试试。

这波属实是Transformer的大突破！目前也已拿下CVPR 2025。加上前不久清华微软的爆火成果Diff Transformer，近期关于Transformer的改进又迎来了新热潮！大家没idea的快冲！

改进Transformer方法思路很多的，关键在于结合具体问题提出创新。比如针对计算复杂度问题，研究线性注意力或混合架构；针对视觉任务，研究分块策略优化或位置编码...而根据现状，跨模态融合、轻量化设计、动态机制等是未来热点，相关成果在顶会中接受度也比较高，推荐关注。

我这回整理了12种Transformer最新改进思路，基本都有代码，需要参考的同学可无偿获取~

扫码添加小享，回复“T创新”

免费获取全部论文+开源代码

Transformers without Normalization

方法：论文提出了一种名为Dynamic Tanh（DyT）的方法，通过用简单的tanh函数替换Transformer中的归一化层，显著提升了Transformer的性能和效率，同时证明了在现代神经网络中无需归一化层也能实现稳定训练。

创新点：

Differential transformer

方法：论文提出了一种改进的Transformer架构——DIFF Transformer，通过计算两个softmax注意力图的差值来消除注意力噪声，增强对关键信息的关注，从而提升模型在语言建模、长文本处理和幻觉缓解等任务中的性能。

创新点：

扫码添加小享，回复“T创新”

免费获取全部论文+开源代码

方法：论文提出Point Transformer V3，通过改进Transformer架构，采用点云序列化和高效的Patch Attention机制，避免了KNN查询和复杂的位置编码，显著提升了模型的效率和可扩展性，同时在多种3D任务中实现了更高的性能和更低的内存消耗。

创新点：

方法：论文提出了一种改进Transformer的方法，用KAN替换传统的MLP模块。通过有理函数、分组参数共享和方差保持初始化等改进，KAT在计算效率和性能上显著优于传统Transformer，适用于多种视觉任务。

创新点：

扫码添加小享，回复“T创新”

免费获取全部论文+开源代码

cv41045912

分享至

投诉或建议