首个SSM-Transformer混合模型「重塑LLM格局」Jamba基于Mamba架构的开源大语言模型

人工智能-研究所

编辑于 2024年04月01日 01:26

收录于文集

共54篇

52B的生产级Mamba大模型来了！这个超强变体Jamba刚刚打破世界纪录，它能正面硬刚Transformer，256K超长上下文窗口，吞吐量提升3倍，权重免费下载。

之前引爆了AI圈的Mamba架构，今天又推出了一版超强变体！

人工智能独角兽AI21 Labs刚刚开源了Jamba，世界上第一个生产级的Mamba大模型！

Jamba在多项基准测试中表现亮眼，与目前最强的几个开源Transformer平起平坐。

特别是对比性能最好的、同为MoE架构的Mixtral 8x7B，也互有胜负。

具体来说它——

是基于全新SSM-Transformer混合架构的首个生产级Mamba模型
与Mixtral 8x7B相比，长文本处理吞吐量提高了3倍
实现了256K超长上下文窗口
是同等规模中，唯一一个能在单张GPU上处理140K上下文的模型
以Apache 2.0开源许可协议发布，开放权重

AI21 Labs推出Jamba，一种结合SSM与transformers的新AI模型，旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型，尽管在多任务语言理解上尚未领先。该公司计划提供beta版本，展现其在AI领域的创新潜力。

自2017年《注意力是你所需要》的研究论文发表以来，transformers技术便在人工智能领域占据了主导地位。然而，AI21 Labs最近提出的Jamba技术，展示了一种超越传统transformers的新路径。

Transformer的局限性

尽管transformers至今在AI领域占据主导地位，但它仍有不足之处。最显著的问题是，随着上下文窗口的扩大，推理过程会相应变慢。AI21 Labs的研究人员指出，transformer的注意力机制随着序列长度的增加而变得复杂，导致吞吐量下降，因为每个token的处理都依赖于它之前的所有序列。这使得处理长上下文的任务难以高效完成。

另一个问题是，transformers在扩展过程中需要大量的内存资源。随着上下文长度的增加，transformers的内存占用也随之增加，这使得在没有充足硬件资源的情况下，难以处理长上下文或大量并行任务。

Mamba SSM架构最初由卡内基梅隆大学和普林斯顿大学的研究人员提出，其内存需求较低，采用了一种新的注意力机制来处理长上下文。但Mamba方法在输出水平上难以与transformer模型相媲美。

Jamba：融合Mamba模型和Transformer架构

为了充分发挥 Mamba 和 Transformer 架构的优点，AI21 Labs开发了相应的联合注意力和 Mamba (Jamba) 架构。Jamba 由 Transformer、Mamba 和专家混合 (MoE) 层组成，可同时优化内存、吞吐量和性能。

Jamba的名称代表了联合注意力与Mamba（Joint Attention and Mamba）架构，其目标是融合SSM与transformers的优势，并将以Apache 2.0许可协议的形式开源发布。

要成功扩展 Jamba 的混合结构，需要进行多项核心架构创新。

如下图所示，AI21 的 Jamba 架构采用块和层方法，使 Jamba 能够成功集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后跟一个多层感知器 (MLP)，从而产生每八层中一个 Transformer 层的总体比例。

第二个功能是利用 MoE 来增加模型参数的总数，同时简化推理中使用的活动参数的数量，从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量，我们优化了所使用的 MoE 层和专家的数量，为常见推理工作负载留下了足够的可用内存。

Jamba：特定场景内优于Transformer

Jamba 在吞吐量和效率等关键衡量指标上表现出色。其初步性能已经达到了令人印象深刻的里程碑。

AI21 Labs的Jamba模型提供了一个256K的上下文窗口，与Mixtral 8x7B相比，在处理长上下文时的吞吐量提高了3倍。

AI21 Labs还声称，Jamba是同类模型中唯一一个能在单个GPU上处理高达140K上下文的模型。

尽管Jamba短期内不太可能取代现有的基于transformer的大型语言模型（LLM），但它可能在特定领域成为有益的补充。

AI21 Labs表示，Jamba在生成型推理任务上，如HellaSwag基准测试所显示的，能够超越传统的基于transformer的模型。然而，在其他重要基准测试，比如大规模多任务语言理解（MMLU）上，Jamba目前还未能超越基于transformer的模型。

迄今为止，AI21 Labs的大型语言模型（LLM）技术一直基于transformer架构，与业界其他LLM技术无异。就在一年多前，公司推出了Jurassic-2 LLM系列，这是AI21 Studio自然语言处理（NLP）服务的一部分，同时也可通过API供企业集成使用。Jamba并非Jurassic的进阶版本，而是一种结合了SSM和transformer的全新混合模型。

值得一提的是，Jamba与Mixtral一样，采用了专家混合（MoE）模型。不过，Jamba将MoE作为其混合SSM Transformer方法的一部分，实现了极高的优化水平。具体来说，Jamba的MoE层使其在推理过程中仅激活了52B参数中的12B，据AI21 Labs称，这使得这些活跃参数的效率超过了同等规模的纯transformer模型。

尽管Jamba仍处于早期阶段，尚未成为AI21 Labs企业产品的一部分，但公司计划不久后在AI21平台上提供beta版本的指令。这一新模型的开发，不仅是AI21 Labs在技术创新上的一次尝试，也可能为AI领域带来新的发展方向。随着AI技术的不断进步，Jamba或许能在特定领域内提供更高效、更优化的解决方案，为AI的未来开辟新的可能性。

AI21 Labs专注于开发适用于企业场景的生成型AI。该公司在2023年8月成功筹集了1.55亿美元资金，以推动其业务的扩展。AI21 Labs提供的企业工具之一是Wordtune，这项服务旨在帮助企业生成与其品牌语调相匹配的内容。AI21 Labs在2023年向媒体透露，公司在与生成型AI领域的巨头OpenAI竞争企业客户时，经常能够取得胜利。

https://huggingface.co/ai21labs/Jamba-v0.1

为帮助大家节省时间,如果对开题选题,或者相关的技术有不理解,不知道毕设如何下手,需要论文指导发刊的【AI交叉学科、SCI、CCF-ABC、期刊、会议、本硕博论文、在职论文指导、大佬Kaggle带队拿牌、润色发刊等】都可以加下方威信,我们特聘了TOP级高校教授、AI导师在线科研辅导

论文指导、kaggle带队、白嫖AI资料包

在【咕泡AI】VX公众号后台回复：211 获取Mamba论文资料，赶快学起来！白嫖100G入门到进阶AI资源包+kaggle带队拿牌+就业指导+技术问题答疑 1、超详细的人工智能学习路 2、OpenCV、Pytorch、YOLO等教程 3、人工智能快速入门教程（Python基础、数学基础、NLP）附源码课件数据 4、机器学习算法+深度学习神经网络基础教程 5、人工智能必看书籍（花书、西瓜书、蜥蜴书等） 6、顶刊论文及行业报告 7、SCI论文攻略及润色等

技术宅程序员人工智能计算机视觉机器学习深度学习 transformer Mamba Jamba Mamba模型

cv33510233

分享至

投诉或建议