首个SSM-Transformer混合模型「重塑LLM格局」Jamba基于Mamba架构的开源大语言模型
人工智能-研究所
编辑于 2024年04月01日 01:26
收录于文集
共54篇

52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞吐量提升3倍,权重免费下载。

之前引爆了AI圈的Mamba架构,今天又推出了一版超强变体!

人工智能独角兽AI21 Labs刚刚开源了Jamba,世界上第一个生产级的Mamba大模型!

Jamba在多项基准测试中表现亮眼,与目前最强的几个开源Transformer平起平坐。

特别是对比性能最好的、同为MoE架构的Mixtral 8x7B,也互有胜负。

具体来说它——

  • 是基于全新SSM-Transformer混合架构的首个生产级Mamba模型

  • 与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍

  • 实现了256K超长上下文窗口

  • 是同等规模中,唯一一个能在单张GPU上处理140K上下文的模型

  • 以Apache 2.0开源许可协议发布,开放权重

AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在多任务语言理解上尚未领先。该公司计划提供beta版本,展现其在AI领域的创新潜力。

自2017年《注意力是你所需要》的研究论文发表以来,transformers技术便在人工智能领域占据了主导地位。然而,AI21 Labs最近提出的Jamba技术,展示了一种超越传统transformers的新路径。

Transformer的局限性

尽管transformers至今在AI领域占据主导地位,但它仍有不足之处。最显著的问题是,随着上下文窗口的扩大,推理过程会相应变慢。AI21 Labs的研究人员指出,transformer的注意力机制随着序列长度的增加而变得复杂,导致吞吐量下降,因为每个token的处理都依赖于它之前的所有序列。这使得处理长上下文的任务难以高效完成。

另一个问题是,transformers在扩展过程中需要大量的内存资源。随着上下文长度的增加,transformers的内存占用也随之增加,这使得在没有充足硬件资源的情况下,难以处理长上下文或大量并行任务。

Mamba SSM架构最初由卡内基梅隆大学和普林斯顿大学的研究人员提出,其内存需求较低,采用了一种新的注意力机制来处理长上下文。但Mamba方法在输出水平上难以与transformer模型相媲美。

Jamba:融合Mamba模型和Transformer架构

为了充分发挥 Mamba 和 Transformer 架构的优点,AI21 Labs开发了相应的联合注意力和 Mamba (Jamba) 架构。Jamba 由 Transformer、Mamba 和专家混合 (MoE) 层组成,可同时优化内存、吞吐量和性能。

Jamba的名称代表了联合注意力与Mamba(Joint Attention and Mamba)架构,其目标是融合SSM与transformers的优势,并将以Apache 2.0许可协议的形式开源发布。

要成功扩展 Jamba 的混合结构,需要进行多项核心架构创新。

如下图所示,AI21 的 Jamba 架构采用块和层方法,使 Jamba 能够成功集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层,后跟一个多层感知器 (MLP),从而产生每八层中一个 Transformer 层的总体比例。

第二个功能是利用 MoE 来增加模型参数的总数,同时简化推理中使用的活动参数的数量,从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量,我们优化了所使用的 MoE 层和专家的数量,为常见推理工作负载留下了足够的可用内存。

Jamba:特定场景内优于Transformer

Jamba 在吞吐量和效率等关键衡量指标上表现出色。其初步性能已经达到了令人印象深刻的里程碑。

AI21 Labs的Jamba模型提供了一个256K的上下文窗口,与Mixtral 8x7B相比,在处理长上下文时的吞吐量提高了3倍。

AI21 Labs还声称,Jamba是同类模型中唯一一个能在单个GPU上处理高达140K上下文的模型。

尽管Jamba短期内不太可能取代现有的基于transformer的大型语言模型(LLM),但它可能在特定领域成为有益的补充。

AI21 Labs表示,Jamba在生成型推理任务上,如HellaSwag基准测试所显示的,能够超越传统的基于transformer的模型。然而,在其他重要基准测试,比如大规模多任务语言理解(MMLU)上,Jamba目前还未能超越基于transformer的模型。

迄今为止,AI21 Labs的大型语言模型(LLM)技术一直基于transformer架构,与业界其他LLM技术无异。就在一年多前,公司推出了Jurassic-2 LLM系列,这是AI21 Studio自然语言处理(NLP)服务的一部分,同时也可通过API供企业集成使用。Jamba并非Jurassic的进阶版本,而是一种结合了SSM和transformer的全新混合模型。

值得一提的是,Jamba与Mixtral一样,采用了专家混合(MoE)模型。不过,Jamba将MoE作为其混合SSM Transformer方法的一部分,实现了极高的优化水平。具体来说,Jamba的MoE层使其在推理过程中仅激活了52B参数中的12B,据AI21 Labs称,这使得这些活跃参数的效率超过了同等规模的纯transformer模型。

尽管Jamba仍处于早期阶段,尚未成为AI21 Labs企业产品的一部分,但公司计划不久后在AI21平台上提供beta版本的指令。这一新模型的开发,不仅是AI21 Labs在技术创新上的一次尝试,也可能为AI领域带来新的发展方向。随着AI技术的不断进步,Jamba或许能在特定领域内提供更高效、更优化的解决方案,为AI的未来开辟新的可能性。

AI21 Labs专注于开发适用于企业场景的生成型AI。该公司在2023年8月成功筹集了1.55亿美元资金,以推动其业务的扩展。AI21 Labs提供的企业工具之一是Wordtune,这项服务旨在帮助企业生成与其品牌语调相匹配的内容。AI21 Labs在2023年向媒体透露,公司在与生成型AI领域的巨头OpenAI竞争企业客户时,经常能够取得胜利。

https://huggingface.co/ai21labs/Jamba-v0.1


为帮助大家节省时间,如果对开题选题,或者相关的技术有不理解,不知道毕设如何下手,需要论文指导发刊的 【AI交叉学科、SCI、CCF-ABC、期刊、会议、本硕博论文、在职论文指导、大佬Kaggle带队拿牌、 润色发刊等 】 都可以加下方威信,我们特聘了TOP级高校教授、AI导师在线科研辅导

论文指导、kaggle带队、白嫖AI资料包

在【咕泡AI】VX公众号后台回复:211 获取Mamba论文资料,赶快学起来! 白嫖100G入门到进阶AI资源包+kaggle带队拿牌+就业指导+技术问题答疑 1、超详细的人工智能学习路 2、OpenCV、Pytorch、YOLO等教程 3、人工智能快速入门教程(Python基础、数学基础、NLP)附源码课件数据 4、机器学习算法+深度学习神经网络基础教程 5、人工智能必看书籍(花书、西瓜书、蜥蜴书等) 6、顶刊论文及行业报告 7、SCI论文攻略 及润色等