面向自动驾驶的多模态大语言模型研究综述

_Atlan

编辑于 2024年05月16日 21:41

原文：

A Survey on Multimodal Large Language Models for Autonomous Driving

原文链接：https://arxiv.org/abs/2311.12320v1

本文为翻译，引用部分做了简化

摘要：随着大型语言模型（LLM）和视觉基础模型（VFM）的出现，受益于大模型的多模态人工智能系统有可能能够像人类一样感知现实世界、做出决策和控制工具。近一年来，LLM在自动驾驶和地图系统中受到广泛关注。尽管 LLM 潜力巨大，但人们对其应用于自动驾驶系统的关键挑战、机遇和未来方向仍缺乏全面了解。本文将对这一领域进行系统研究，首先介绍了多模态大语言模型（MLLMs）的背景、使用 LLMs 开发多模态模型以及自动驾驶的历史。然后，概述了用于驾驶、交通和地图系统的现有 MLLM 工具以及现有数据集和基准。此外，本文还总结了第一届 WACV 自动驾驶大型语言和视觉模型研讨会（LLVM-AD）的工作，这是首个关于自动驾驶中 LLM 的同类研讨会[1]。为了进一步探索这一领域的发展前景，本文还分析了目前学术界和工业界正在努力解决的在自动驾驶系统中使用 MLLMs 的几个重要问题。

关键词：深度学习；人工智能；智能交通系统；自然语言处理；大语言模型

1 引言

近年来，大型语言模型( large language model，LLM )受到了广泛关注，在模拟类人智能方面表现出了巨大的潜力。多模态大型语言模型( Multimodal Large Language Models，MLLMs ) [2]将LLMs的复杂推理能力与图像、视频和音频数据相结合，引起了研究人员的广泛关注。模态对齐使它们能够更熟练地执行各种任务，包括图像分类、文本视频匹配以及语音检测。此外，文献[3]还证明，LLMs 可以处理机器人领域的简单任务，包括基本的逻辑、几何和数学推理，以及复杂的任务，如空中导航、操控和嵌入式代理。然而，将 LLMs 融入交通和自动驾驶汽车领域尚处于起步阶段。将语言交流与全景图像、激光雷达点云和驾驶动作等多模态感官输入相结合，可以彻底改变当前自动驾驶系统的基础模型。

最近，能力更强的基础模型的出现使 SAE L3 自动驾驶成为现实[4]。然而，多模态 LLM 在自动驾驶中的整合并没有跟上这些进步，一个自然的问题是，GPT-4、PaLM-2 和 LLaMA-2 等基于 LLM 的模型是否具有增强自动驾驶的潜力？图 2 向我们展示了一个很好的例子。不可否认的是，将 LLM 融入自动驾驶汽车行业，可以在车辆智能、决策和乘客交互方面带来重大的模式转变[5]，提供一个更加以用户为中心、适应性更强、更值得信赖的未来交通模式。

在自动驾驶方面，LLM 将对感知、运动规划和运动控制等关键模块产生变革性影响[6]。在感知方面，LLM 可利用外部 API 访问基于文本的实时信息源，如高清地图、交通报告和天气更新，使车辆能够更全面地了解周围环境。改善车载地图的导航功能就是一个很好的例子。LLMs 可以处理实时交通数据，识别拥堵路线并推荐替代路径，最终优化导航的效率和安全性[7]。在运动规划方面，LLM 可利用其自然语言理解和推理能力发挥作用[8]。它们促进了以用户为中心的交流，使乘客能够使用日常语言表达自己的意图和偏好。此外，LLMs 还能处理文本数据源，如地图、交通报告和实时信息，然后为优化路线规划做出高级决策[9]。在运动控制方面，LLMs 首先可以根据驾驶员的偏好定制控制器参数，实现驾驶体验的个性化[10]；此外，LLMs 还能解释运动控制过程的每个步骤，从而提供透明度。

图1 与多模态大语言模型相关的各个方面

MLLM 代表了 LLM 的下一个层次，它将语言理解能力与处理和整合各种数据模式的能力结合在一起[11]。在自动驾驶领域，MLLMs 具有巨大的变革意义。配备了 MLLMs 的车辆可以处理来自文

图2 使用GPT - 4V来理解驾驶场景和制定驾驶行为

本输入的信息以及车载摄像头和其他传感器捕捉到的其他特征，从而更轻松地学习复杂的交通场景和驾驶行为。除自动驾驶外，MLLM 还能通过语音交流和用户偏好分析，显著增强个性化的人车互动。在未来的 SAE L4-L5 自动驾驶汽车中，乘客可以在驾驶过程中使用语言、手势甚至目光来传达自己的要求，而 MLLM 可以通过集成视觉显示或语音响应来提供实时的车内反馈。

本文的主要工作如下：

·对当前MLLMs和自动驾驶技术的背景进行了简要概述。

·概述了在自动驾驶中使用 LLM 和 MLLM 的益处，重点介绍了它们在感知、运动规划、运动控制以及最近宣布的行业应用中的作用和当前工作。

·总结了与自动驾驶相关的数据集，重点介绍了面向交通场景的驾驶语言数据集。

·回顾了 WACV LLVM-AD 研讨会的录用论文，对 LLM 和 MLLM 在自动驾驶领域的未来发展方向提出了见解。

如图 1 所示，本文旨在全面概述用于自动驾驶的 MLLM，并讨论其发展趋势和未来方向。以下两节分别简要介绍了自动驾驶和 MLLM 的发展历史。第 4 节介绍了目前已发表的有关用于自动驾驶的 MLLM 在感知、运动规划和运动控制方面的研究成果。第 5 节介绍了利用 MLLMs 的相关自动驾驶行业应用。在最后三节中，我们总结了第一届 WACV LLVM-AD 研讨会的论文，并讨论了用于自动驾驶的 LLM 和 MLLM 的潜在研究方向。

2 自动驾驶的发展历史

对自动驾驶的探索是一个循序渐进的过程，其特点是远大理想与技术能力之间的不断相互作用。关于自动驾驶的第一波全面研究始于 20 世纪末。例如，卡内基梅隆大学发起的自主陆地车辆（ALV）项目利用立体相机、声纳和 ERIM 激光扫描仪的传感器读数来执行车道保持和避障等任务[12, 13]。然而，这些研究在当时受到传感器精度和计算能力的限制。

在过去二十年里，自动驾驶系统得到了快速发展。2014 年，美国汽车工程师学会（SAE）发布了一个分类系统，定义了六个级别的自动驾驶系统[4]。目前，该分类方法已得到广泛认可，并为研发进展树立了重要的里程碑。深度神经网络（DNN）的引入也发挥了重要作用[14, 15]。在深度学习的支持下，计算机视觉已成为解读复杂驾驶环境的关键，为物体检测、场景理解和车辆定位等问题提供了最先进的解决方案[16,17,18]。此外，深度强化学习（DRL）在增强自动驾驶车辆的控制策略、完善运动规划和决策过程以适应动态和不确定的驾驶条件方面也发挥了关键作用[19,20]。此外，传感器精度和计算能力的提高使得车辆可以运行更大的模型，并获得更精确的结果。有了这些改进，更多 L1 到 L2 级别的高级驾驶辅助系统（ADAS），如车道居中和自适应巡航控制，现在已经可以在日常车辆上使用[21, 22]。Waymo、Zoox、Cruise 和百度等公司也在推出具有 3 级或更高级别自动驾驶功能的 Robotaxis。尽管如此，此类自动驾驶系统在许多驾驶边缘情况下仍会失灵，如极端天气、恶劣照明条件或罕见情况[23]。

受当前局限性的启发，有关自动驾驶的部分研究目前正专注于解决自动驾驶系统的安全问题和提高自动驾驶系统的安全性[24]。由于深度神经网络通常被认为是黑盒子，可信人工智能旨在使系统更加可靠、可解释和可验证。例如，生成用于训练自动驾驶系统的对抗性安全关键场景，使系统更有能力处理概率较低的情况[25, 26]。提高整体安全性的另一种方法是通过车辆与基础设施以及车辆与车辆之间的通信。有了来自附近实例的信息，系统的鲁棒性将得到改善，并能接收早期预警[27, 28]。同时，随着大型语言模型显示出强大的推理和场景理解能力，人们正在研究如何利用这些模型来提高自动驾驶系统的安全性和整体性能。

图3 自动驾驶技术发展概览

图4 多模态大语言模型(MLLMs)近期进展的时间线

3 自动驾驶的发展历史

3.1 语言模型的发展

语言模型的发展历程充满了重大突破。自20世纪 60 年代初以来，许多语言学家，其中最著名的是诺姆-乔姆斯基（Noam Chomsky），都在尝试建立自然语言模型[29]。早期的努力主要集中在基于规则的方法上[30, 31]。然而，在 20 世纪 80 年代末和 90 年代初，焦点转向了统计模型，如 N-gram 模型[32]、隐马尔可夫模型[33]，这些模型依赖于计算文本数据中单词和序列的频率。2000 年代，神经网络被引入自然语言建模。递归神经网络（RNN）[34] 和长短期记忆（LSTM）网络[35] 被用于各种 NLP 任务。

尽管具有潜力，早期的神经模型在捕获远程依赖性方面存在局限性，并且难以处理复杂的语言任务。 2013 年，Tomas Mikolov 和他在 Google 的团队推出了 Word2Vec [36]，这是一种将单词表示为密集向量的突破性技术，可以更好地理解单词之间的语义关系。这为深度学习的兴起奠定了基础[37, 38]，最终出现了关键工作《Attention is all you need》[39]，开启了大型语言模型的新时代[40]。

3.2 大型语言模型的研究进展

LLM 是一类基于Transformer的语言模型，以参数数量庞大而著称，通常高达数千亿个。这些模型是在大量互联网数据的基础上训练而成的，这使它们能够执行广泛的语言任务，主要是通过文本生成。一些著名的 LLM 例子包括 GPT-3 [40]、PaLM [41]、LLaMA [42] 和 GPT-4 [43]。LLMs 最显著的特点之一是其新兴能力，如语境中学习（ICL）[40]、指令遵循[44]和思维链推理（CoT）[45]。

利用 LLMs 开发具有类人能力的自主代理的研究领域正在不断扩大。这些代理利用预先训练好的 LLM 中存储的大量知识来创建连贯的行动计划和可执行策略[46]。嵌入式语言模型[47]直接将真实世界的传感器数据与语言模型整合在一起，在词语与感知信息之间建立了直接联系。Voyager [48]通过整合三个主要组件引入了终身学习：促进探索的自动课程、用于存储和检索复杂行为的技能库，以及用于生成可执行代码以进行嵌入式控制的迭代提示机制。Voxposer[49] 利用 LLM 生成机器人轨迹，在开放式指令和对象的引导下完成各种操作任务。

在取得这些进步的同时，LLMs 在自动驾驶领域的应用也在不断发展。最近的研究[50, 51]调查了将 LLMs 应用于理解驾驶环境的情况。这些研究表明，通过将视觉信息转换为文本表示，LLMs 能够解释周围的世界，从而在处理复杂场景方面表现出令人印象深刻的能力。同样，在 RRR [52] 中，作者提出了一个以人为中心的自动驾驶框架，该框架将用户指令分解为一系列中间推理步骤，并附有完成目标的详细行动描述列表。

3.3 模态融合的早期研究

过去几十年来，融合视觉、语言、视频和音频等各种模式一直是人工智能（AI）的一个关键目标。这一领域最初的工作主要集中在简单的任务上，如图像或视频字幕和基于文本的图像检索，这些任务大多基于规则并依赖于手工创建的特征。20 世纪 70 年代和 80 年代早期人工智能问题的一个经典例子是 “积木世界”[53]，其目标是根据文字指令在桌子上重新排列彩色积木。这一早期尝试将视觉（理解积木配置）与语言（解释和执行指令）结合起来，尽管它并非基于深度学习。

3.4 视觉-语言模型的发展

随后几年，多模态模型领域取得了重大进展。过去十年间，深度学习的出现彻底改变了视觉语言任务的处理方法。卷积神经网络（CNN）[54] 成为图像和视频处理的事实标准，而递归神经网络（RNN）[55, 34] 则成为处理自然语言等序列数据的首选模型。在此期间，流行的任务包括图像和视频字幕（为图像和视频生成描述性句子）和视觉问题解答（VQA）（模型回答与视觉数据相关的问题）。典型的视觉语言模型采用联合嵌入，将图像特征（由 CNNs 处理）和文本特征（由 RNNs 或 Transformers 处理 [39]）映射到共享语义空间，以促进多模态学习[55、56、57、58]。除了视觉和语言，研究人员还提出了其他模态的模型，如音频、语音和三维数据。例如，Mroueh 等人（2015 年）开发了一种用于视听语音识别的深度多模态学习模型，利用 CNNs 处理视觉数据，利用 RNNs 处理音频数据[59]。Arandjelovi ́ c 和 Zisserman（2017 年）通过开发一种从无标记视频中学习共享表征的模型，探索了视觉和听觉数据之间的关系，该模型使用 CNNs 进行图像和音频处理[60]。此外，Qi 等人（2016 年）引入了处理三维数据（包括点云）的模型，用于物体分类任务，采用 CNN 从体积数据和三维物体的多个二维视图中学习表征[61]。这些工作凸显了多模态学习在捕捉不同类型数据之间复杂关系方面的潜力，从而获得更丰富、更准确的表征。

3.5 预训练和多模态Transformer

在这一势头的推动下，多模态模型领域不断发展，研究人员探索了在大量数据集上预训练多模态模型的潜力，然后再根据具体任务对其进行微调。这种方法使一系列应用的性能显著提高。受 BERT [62]、T5 [63] 和 GPTs [64, 65] 等预训练 NLP 模型成功的启发，研究人员开发了多模态Transformer，可以处理文本、图像、音频和点云等跨模态输入[66,67]。视觉语言模型的著名例子包括 CLIP [68]、ViLBERT [69]、VisualBERT [70]、SimVLM [71]、BLIP2 [72] 和 Flamingo [73]，这些模型都是在由图像和语言组成的大规模跨模态数据集上预先训练的。其他研究还探索了在视频理解[74]、视听场景理解[75]甚至三维数据处理[76]等任务中使用多模态模型。预训练可使模型与不同模态保持一致，并增强模型编码器的表征学习能力。通过这样做，这些模型旨在创建可跨任务泛化的系统，而无需特定任务的训练数据。此外，多模态模型的发展也带来了新的令人兴奋的可能性。例如，DALL-E [77] 扩展了 GPT3 架构，可根据文本描述生成图像；Stable Diffusion[78] 和 ControlNet[79] 利用基于 CLIP 和 UNet 的扩散模型生成由文本提示控制的图像。它们展示了在许多应用场景中使用多模态模型的潜力，如医疗保健、土木工程、机器人和艺术领域。

3.6 多模态大型语言模型的出现

最近，MLLM 成为一个重要的研究领域。这些模型利用 LLM 的强大功能，如 ChatGPT、InstructGPT、FLAN和 OPT-IML，来执行跨文本和图像等多种模式的任务。它们表现出了令人欣喜的新颖能力，例如根据图像编写故事和进行无 OCR 数学推理，而这些能力在传统方法中是罕见的。这为人工通用智能提供了一条潜在的道路。MLLM 的关键技术和应用包括：多模态指令调整（Multimodal Instruction Tuning），它可以调整模型以遵循不同模态的指令[80]；多模态上下文学习（Multimodal In-Context Learning），它允许模型从多模态数据的上下文中学习[81]；多模态思维链（Multimodal Chain of Thought），它能让模型在不同模态之间保持思维链[82]；以及 LLM 辅助视觉推理（LAVR），它使用 LLM 来辅助视觉推理任务[83]。与 LLMs 相比，MLLMs 更符合人类感知世界的方式，能提供更友好的用户界面，支持更广泛的任务。GPT-4V [84]的开发激发了 MLLMs 的最新进展，尽管 GPT-4V 没有开放多模态界面，但却展现出了惊人的能力。研究界在开发功能强大且开源的 MLLM 方面做出了巨大努力，展现出了令人惊讶的实用能力。

4 面向自动驾驶的多模态语言模型

在自动驾驶行业，MLLMs 有可能理解交通场景，改进驾驶决策过程，并彻底改变人车之间的互动。这些模型经过大量交通场景数据的训练，能够从地图、视频和交通法规等不同来源中提取有价值的信息。因此，它们可以增强车辆的导航和规划能力，确保安全和效率。此外，它们还能适应不断变化的路况，其理解能力与人类的直觉非常接近。

4.1 面向感知的多模态语言模型

传统的感知系统通常只能识别一组特定的预定义物体类别。这就限制了它们的适应性，需要收集和注释新数据来识别不同的视觉概念，过程十分繁琐。因此，它们的通用性和实用性受到了削弱。与此相反，一种新的模式正在出现，即从原始文本描述和各种模式中学习，从而提供更丰富的监督来源。

多模态大语言模型（MLLMs）由于能够通过文本分析熟练地分析图像和点云等非文本数据而备受关注[73]。这些进步极大地改进了零样本和少样本图像分类、分割和物体检测。

CLIP[85]等开创性模型表明，通过训练将图像与字幕进行匹配，可以有效地从头开始创建图像表征。在此基础上，Liu 等人推出了 LLaMa [80]，它将视觉编码器与 LLM 相结合，增强了对视觉和语言概念的理解。Zhang 等人通过 Video-LaMa [86]进一步扩展了这项工作，使 MLLM 能够处理视频中的视觉和听觉信息。通过整合语言和视觉模式，这代表了机器感知领域的一大进步。

此外，研究人员还探索了如何利用矢量化视觉嵌入来使 MLLM 具备环境感知能力，特别是在自动驾驶场景中。DriveGPT4 [87]可解释视频输入，生成与驾驶相关的文字反应。HiLMD [88] 的重点是将高分辨率细节纳入 MLLM，从而改进危险识别和意图预测。同样，Talk2BEV [89] 利用预先训练好的图像语言模型，将鸟瞰图 (BEV) 与语言上下文结合起来，从而在自动驾驶汽车中实现视觉语言推理。

与此同时，自动驾驶领域的进展并不局限于判别感知模型，生成模型也越来越受欢迎。其中一个例子是自动驾驶人工智能生成模型（GAIA-1），它通过整合视频、文本和动作输入生成逼真的驾驶场景。这个生成世界模型可以根据车辆的操纵预测各种潜在结果，展示了生成模型在适应真实世界动态变化方面的复杂性[90]。同样，UniSim[91]旨在通过将不同的数据集（包括物体、场景、动作、运动、语言和电机控制）整合到一个统一的视频生成框架中来复制现实世界中的交互。此外，Waymo 开放模拟代理挑战赛（WOSAC）是首个公开挑战赛，旨在开发具有现实和交互代理的模拟。

表1 自动驾驶用MLLMs近期研究综述

4.2 规划与控制的多模态语言模型

在规划和控制任务中使用语言在机器人领域由来已久，最早可以追溯到在早期的人机交互演示中使用自然语言的词法解析。目前已有关于这一主题的全面综述[92]。语言作为非专业人员与机器人交流的重要界面，已得到广泛认可。此外，机器人系统通过基于语言的控制来适应新任务的能力已在各种研究中得到证实。实现特定的规划或控制任务或策略，包括基于模型、模仿学习和强化学习等方面已得到广泛探索。

由于在零样本学习、上下文学习和推理方面的显著能力，许多工作表明，LLMs 可以实现规划推理和用文本描述感知环境，从而开发出用户在环的机器人技术。[93]通过结合文本补全和语义翻译，将自然语言命令分解为可执行的动作序列，从而控制机器人。SayCan [46] 利用加权 LLMs 生成合理的动作并控制机器人，而 [94] 则利用环境反馈，LLMs 可以形成内心独白，增强其在机器人控制场景中进行更全面处理的能力。苏格拉底模型[95]采用视觉语言模型取代机器人动作生成语言提示中的感知信息。[96]介绍了一种使用 LLMs 直接生成机器人策略代码的方法，以完成控制任务、指定反馈回路和编写低级控制原语。

在自动驾驶中，LLM 可作为支持人机交互的桥梁。在一般情况下，LLMs 可以成为与任务无关的规划器。在文献[97]中，作者发现预先训练过的 LLMs 包含可操作知识，无需额外训练即可制定连贯、可执行的行动计划。Huang 等人[98]提出使用 LLMs 将任意自然语言命令或任务描述转换为具体和详细列出的目标和约束。[99]建议将 LLMs 集成为决策解码器，以便在自动驾驶车辆中根据思维链提示生成行动序列。在文献[100]中，作者展示了 LLMs 可将驾驶员的任意指令分解为一系列中间阶段，并附有实现目标的详细行动描述列表。

同时，提高自动驾驶的安全性和可解释性也至关重要。多模态语言模型为理解周围环境和决策过程的透明度提供了可能。[101]的研究表明，视频到文本模型可以帮助生成与下游控制器一致的环境文本解释。Deruyttere 等人[102]对基线模型进行了比较，结果表明 LLM 可以识别周围环境中与自然语言命令或描述相关的特定对象。为了提高模型的可解释性，Xu 等人[103]建议将 LLMs 与计划行动结合起来生成解释。在文献[100]中，作者提出了一个框架，让 LLMs 描述它们如何感知和应对环境因素，如天气和交通状况。

此外，自动驾驶中的LLMs还可以方便地对控制器参数进行微调，使其与驾驶员的偏好保持一致，从而获得更好的驾驶体验。[104]通过引导参数矩阵自适应将LLM集成到低层控制器中。

除了 LLM 的发展，MLLM 也取得了长足进步。MLLMs 有潜力成为自动驾驶的通用安全规划模型。处理和融合视觉信号（如图像）的能力通过结合视觉线索和语言指令增强了导航任务。互操作性挑战历来是自主规划过程中的一个问题。不过，最近在解决自主规划中的互操作性挑战方面取得了进展，在自主驾驶的规划阶段利用了 MLLM 令人印象深刻的推理能力。在一种值得注意的方法中，Chen 等人[105]将矢量化的对象级二维场景表示集成到带有适配器的预训练 LLM 中，实现了对各种驾驶场景的直接解释和综合推理。此外，Fu 等人[106] 利用 LLM 进行推理，并将推理转化为可操作的驾驶行为，显示了 LLM 在增强自动驾驶规划方面的多功能性。此外，GPT-Driver [8] 将运动规划重新表述为语言建模问题，并在运动规划中利用 LLM 以自然语言描述高度精确的轨迹坐标及其内部决策过程。SurrealDriver [51] 模拟了基于 MLLM 的生成式驾驶代理，这些代理可以感知复杂的交通场景并生成相应的驾驶操作。[107]研究了在自动驾驶中利用文本描述和预训练语言编码器进行运动预测。

4.3 工业应用

在自动驾驶行业中，MLLMs的集成已经通过几个重要的举措得到了发展。Wayve引入了LINGO - 1，通过整合视觉、语言和动作来增强基础驱动模型的学习和可解释性。他们还开发了GAIA - 1，一个用于真实驾驶场景生成的生成世界模型，提供了对车辆行为和场景特征的细粒度控制。

腾讯T-Lab从其高清地图AI系统中生成了交通、地图和驾驶相关的上下文，创建了MAPLM，一个用于场景理解的大型地图和交通场景数据集。

Waymo的工作MotionLM改进了多智能体环境下的运动预测。通过将连续轨迹概念化为离散的运动标记，它将多智能体运动预测转化为语言建模任务。该方法将道路智能体的动态交互转化为一个可管理的序列到序列的预测问题。

Bosch中心的研究集中于使用自然语言来增强场景理解和预测周围交通的未来行为。同时，香港科技大学和华为诺亚方舟实验室的研究人员已经利用MLLMs集成了各种自动驾驶任务，包括风险对象定位和从视频中预测意图和建议。

这些行业的发展表明，MLLMs在增强自动驾驶系统的能力和功能方面的作用正在扩大，标志着车辆智能和态势感知能力的显著提高。

5 数据集和基准

5.1 面向自动驾驶的视觉数据集

公开可用的数据集在推进自动驾驶技术方面发挥了至关重要的作用。表 3全面概述了最新的自动驾驶代表性数据集。过去，数据集主要侧重于二维注释，如边界框和遮罩，主要用于 RGB 摄像头图像。然而，要实现与人类表现相媲美的自动驾驶能力，需要在三维环境中进行精确的感知和定位。遗憾的是，从纯 2D 图像中提取深度信息面临着巨大挑战。

表2 代表性自动驾驶数据集的比较

为了实现强大的三维感知或绘图功能，研究人员创建了许多多模态数据集。这些数据集不仅包括相机图像，还包括雷达和激光雷达等 3D 传感器的数据。KITTI 数据集是这一领域颇具影响力的一个例子，它提供了多模态传感器数据，包括前置立体摄像头和激光雷达。KITTI 还包括三维方框注释，涵盖三维物体检测、跟踪、立体和光流等任务。随后，NuScenes 和 Waymo Open 数据集成为具有代表性的多模态数据集。这些数据集通过提供大量场景设定了新标准。这些数据集代表了在提供大型数据以推进自动驾驶研究方面的重大进步。

5.2 面向交通场景的多模态语言数据集

一些开创性的研究探索了驾驶场景中的语言引导视觉理解。这些研究要么用额外的文本信息增强现有数据集，要么独立创建新的数据集。前一类研究包括 Talk2Car、nuScenes-QA、DriveLM和 NuPrompt等作品。其中，Talk2Car是第一个包含自动驾驶汽车自然语言指令的对象推荐数据集。另一方面，BDD-X和 DRAMA等数据集也是独立创建的。DRAMA特别关注有关驾驶危险和相关物体的视频和物体级查询。该数据集旨在通过自由形式的语言描述实现可视化字幕，并使用封闭式和开放式回答多层次问题。通过该数据集，可对驾驶环境中的各种视觉字幕能力进行评估。

尽管 MLLMs 在交通场景语言理解方面取得了进步，但其能力仍远低于人类水平。这是因为交通数据-文本对包含多种模式，如三维点云、全景二维图像、高清地图数据和交通法规。这些元素与传统的领域语境和问答对有很大不同，凸显了在自动驾驶语境中部署 MLLMs 所面临的独特挑战。上述数据集的规模和质量都很有限，这阻碍了全面应对这些新挑战的努力。

6 LLVM-AD研讨会总结

LLVM – AD研讨会推出了两个开源的真实世界交通语言理解数据集。该研讨会在该数据集的基础上举办两个挑战，以评估语言和计算机视觉模型在应对自动驾驶挑战方面的能力。

表3 用于自动驾驶的多模态语言数据集

6.1 面向自动驾驶挑战的多模态大语言模型

MAPLM 数据集。腾讯的 THMA 高清地图 AI 标签系统利用高清地图标签创建描述性段落，对交通场景进行细致入微的描绘。参与者使用各种数据模式，包括二维摄像头图像、三维点云和鸟瞰图 (BEV)，增强了对环境的理解。

UCU 数据集。这项挑战的主要目标是开发能够熟练理解以自然语言输入形式表示的驾驶员命令和指示的算法。这些命令和指令可以包含多种命令类型，从 “启动紧急制动 ”或 “调节前大灯亮度 ”等安全导向型指令，到 “切换到驻车模式 ”或 “将巡航控制设置为每小时 70 英里 ”等驾驶操作型指令，以及 “调高空调温度 ”或 “关闭座椅加热 ”等舒适型请求。命令的范围甚至可以扩展到 “打开天窗 ”或 “启用自我模式 ”等特定车辆指令。

6.2 会议总结

在 2024 年 IEEE/CVF 计算机视觉应用冬季会议（WACV）上，首届自动驾驶大型语言和视觉模型研讨会（LLVM-AD）录用了九篇论文。这些论文涉及自动驾驶中的大型语言和视觉模型，重点是将大型语言和视觉模型集成到用户-车辆交互、运动规划和车辆控制中。多篇论文探讨了如何以新颖的方式使用 LLMs 来增强自动驾驶汽车中的类人交互和决策。例如，《Drive as You Speak》[100] 和《Drive Like a Human》[50] 提出了一个框架，让 LLM 在复杂的驾驶场景中模仿人类行为进行解释和推理。《Human-Centric Autonomous Systems With LLMs》[108] 强调了以用户为中心的设计的重要性，利用 LLMs 来解释用户命令。这种方法代表了向更直观和以人为本的自主系统的重大转变。

除了LLM集成，研讨会还在基于视觉的系统和数据处理方面提供了方法。《A Safer Vision-based Autonomous Planning System for Quadrotor UAVs 》[109]和' VLAAD ' [110]展示了先进的目标检测和轨迹规划方法，提高了无人机和自主车辆的安全性和效率。

优化技术流程也是一个重点。例如，《A Game of Bundle Adjustment》[111] 引入了一种提高三维重建效率的新方法，而《Latency Driven Spatially Sparse Optimization》[112] 和 “LIP-Loc”[113] 则分别探索了 CNN 优化和跨模态定位的进步。这些贡献代表了自主系统在建立更高效、更精确的计算模型方面取得的显著进展。

此外，研讨会还介绍了数据处理和评估的创新方法。例如，NuScenes-MQA [114] 为自动驾驶引入了一种数据集注释技术。这些论文共同表明，在将语言模型和先进技术集成到自动驾驶系统方面取得了重大进展，为更直观、高效和以人为本的自动驾驶汽车铺平了道路。

7 讨论

自动驾驶中多模态大语言模型的新数据集。尽管大型语言模型在语言理解方面取得了成功，但将其应用于自动驾驶仍是一项独特的挑战。这是因为这些模型必须整合和解释来自不同模式的输入，如全景图像、三维点云和高清地图注释。目前在数据规模和质量方面的限制意味着现有数据集难以全面应对所有这些挑战。此外，几乎所有多模态 LLM（如 GPT4V）都已在大量开源数据集（包括交通和驾驶场景）上进行了预训练，而 nuScenes 注释的视觉语言数据集可能无法为驾驶场景中的视觉语言理解提供可靠的基准。因此，迫切需要新的、大规模的数据集来涵盖广泛的交通和驾驶场景，包括大量的拐角案例，以便在自动驾驶应用中有效地测试和增强这些模型。

为自动驾驶中的大型语言模型提供硬件支持。在使用 LLMs 作为自动驾驶规划器的情况下，LLMs 的感知推理和随后的控制决策应在低延迟的情况下实时生成，以满足自动驾驶的安全要求。LLM 的（每秒浮点运算）FLOP 数量与延迟和功耗呈正相关，如果 LLM 位于车内，则应考虑到这一点。对于远程部署的 LLM，感知信息和控制决策传输的带宽将是一个巨大的挑战。LLM 在自动驾驶中的另一个用例是导航规划器。与驾驶规划器不同，LLM 对响应时间的容忍度要高得多，而且导航规划器的查询次数一般要少得多。因此，硬件性能需求更容易满足，甚至将主机移至远程服务器也是一个合理的建议。用户与车辆的交互也是 LLM 在自动驾驶中的一个用例。LLM 可以将驾驶员的意图解释为给车辆下达的控制指令。对于与驾驶无关的意图，例如娱乐控制，LLM 响应的高延迟是可以接受的。但是，如果意图涉及接管自动驾驶，那么对硬件的要求将与使用 LLMs 作为自动驾驶规划器的要求类似，LLMs 应能以较低的延迟做出响应。自动驾驶应用中的 LLM 有可能被压缩，从而降低计算能力要求和延迟，减少硬件限制。然而，目前在这一领域的内容仍处于未开发阶段。

使用大语言模型理解高清地图。高清地图在自动驾驶汽车技术中发挥着至关重要的作用，因为它提供了有关汽车运行物理环境的基本信息。高清地图的语义图层至关重要，因为它捕捉到了物理环境的意义和背景。为了将这些宝贵的信息有效地编码到由语言模型驱动的下一代自动驾驶技术中，必须找到一种方法来表示和理解语言空间中的环境细节。受基于变换器的语言模型的启发，特斯拉提出了一种特殊语言，用于编码车道及其连接性。在这种车道语言中，单词和标记代表三维空间中的车道位置。标记的排序和标记中的预测修饰词编码了这些车道之间的连接关系。与解析分割掩码或热图相比，从模型输出句子生成车道图所需的后处理更少。预训练模型（PTM）已成为自然语言处理和计算机视觉下游任务的基本支柱。百度地图开发了一个名为 ERNIEGeoL 的系统，并已投入使用。自 2021 年 4 月起，该系统将通用 PTM 应用于百度地图的地理相关任务，从而显著提高了各种下游任务的性能。腾讯开发了名为 THMA 的高清地图 AI 系统，这是一个创新的端到端、基于 AI 的主动学习高清地图标注系统，能够制作和标注数十万公里规模的高清地图。为了推动这一领域的发展，他们提出了包含 200 多万帧全景二维图像、三维激光雷达点云和基于上下文的高清地图标注的 MAPLM 数据集，以及新的问答基准 MAPLM-QA。

具有大型语言模型的用户车辆交互。非语言解释也是用户自主团队需要考虑的一个重要方面。驾驶员分心构成了严峻的道路安全挑战，包括使用智能手机、饮食以及与乘客互动等分散驾驶注意力的所有活动。根据美国国家公路交通安全管理局 (NHTSA) 的数据，2020 年美国 38,824 起与车辆相关的死亡事件中，分心是造成 8.1% 的一个因素。随着半自动驾驶系统（尤其是 SAE 3 级系统）的日益突出，这个问题变得更加紧迫，要求驾驶员在出现提示时做好接管控制的准备。为了检测和减轻驾驶员分心，通常采用驾驶员动作识别策略。这些策略涉及使用 RGB 和红外摄像头等传感器进行持续监控，并结合深度学习算法来识别和分类驾驶员的行为，该领域已取得重大进展。评估驾驶员的认知状态也至关重要，因为它很大程度上表明了分心程度。生理监测（例如通过脑电图信号）可以深入了解驾驶员的认知状态，但必须考虑此类传感器的侵入性及其对常规驾驶模式的影响。此外，通过面部分析、注视、人体姿势和运动等行为监控工作也可以用来分析驾驶员的驾驶状态。此外，当前的驾驶员动作识别数据集通常缺乏训练模型从感官数据识别这些状态所需的心理状态注释，这凸显了需要半监督学习方法来解决这一相对未经探索的挑战。

个性化自动驾驶。LLMs与自动驾驶汽车的融合标志着以持续学习和个性化参与为特征的范式转变。LLMs可以不断地从新的数据和交互中学习，以适应不断变化的驾驶模式、用户偏好和不断变化的路况。这种适应性导致了随着时间的推移，性能越来越精致，越来越娴熟。此外，LLMs具有精确微调或语境学习以匹配个人驾驶员偏好的能力，提供显著改善驾驶体验的个性化帮助。这种个性化的方法丰富了驾驶体验，提供的帮助不仅包含信息，而且与每个驾驶员的独特要求和微妙之处紧密结合。

最近的研究指出了LLMs在驾驶模拟中增强实时个性化的潜力，表明了它们在响应口头命令时适应驾驶行为的能力。由于自动驾驶中基于LLM的个性化技术还不成熟，因此有许多进一步研究的机会。最近的研究大多集中于在仿真环境中使用LLM，而非实车。将LLM融入实际车辆是一个令人兴奋的潜在领域，超越了模拟，影响了真实的驾驶体验。此外，未来的研究还可以探索开发由 LLM 驱动的、符合驾驶员个人偏好的虚拟助手，利用 LLM 增强疲劳检测等安全功能，将这些模型应用于预测性车辆维护，以及根据驾驶员的独特偏好对路线进行个性化设置。此外，LLMs 还具有个性化车载娱乐的潜力，通过学习驾驶员的行为来改善驾驶体验。

自动驾驶的可信度和安全性。另一个重要启示是提高透明度和信任度。当车辆做出复杂决策时，例如在高速双车道高速公路上超车，乘客和驾驶员自然会有疑问或顾虑。在这种情况下，LLM 不仅要执行任务，还要阐明决策过程中每一步背后的原因。通过用通俗易懂的语言提供实时、详细的解释，LLM 解读了车辆的行动和内在逻辑。这不仅满足了人类对自动驾驶系统如何工作的好奇心，还在车辆和乘客之间建立了更高的信任度。此外，在印第安纳州高速路上的复杂超车动作中，“零样本 ”的优势尤为明显。尽管 LLM 之前没有遇到过这种特定的情况--不同的速度、距离，甚至驾驶员的警觉性--但它仍能利用其通用训练，安全高效地生成超车动作的轨迹。通过一些不确定性估计技术，这可以确保即使在动态或边缘情况下，系统也能做出正确的判断，同时让用户了解情况，从而建立起对自主技术的信心。总之，LLM 通过提高安全性、透明度和用户体验，展示了其彻底改变自动驾驶的潜力。在执行超车等复杂指令时，LLM 会考虑来自多个车辆模块的实时数据，从而做出明智的决定，并向驾驶员清楚地说明这些决定。该模型还利用其零样本学习能力来适应新的场景，提供个性化的实时反馈。总体而言，LLM 在建立用户信任和改进自动驾驶汽车决策方面证明是有效的，这也强调了它在未来汽车技术中的实用性。

8 结论

在调查中，本文探讨了将多模态大型语言模型（MLLM）集成到下一代自动驾驶系统中的模式，概述了多模态大型语言模型和自动驾驶的发展。在此之前这两个领域似乎截然不同，但现在两者之间的联系越来越紧密。然后，本文对自动驾驶多模态语言模型的具体算法和应用进行了广泛的文献综述，接着重点研究了将多模态语言模型应用于自动驾驶的研究现状和基准数据集。本文还综合了第一届 LLVM-AD 研讨会的主要见解和发现，如提出新的数据集和改进当前的自动驾驶 MLLMs 算法。最后，就重要的研究课题和增强 MLLMs 在自动驾驶中的应用潜力进行了前瞻性讨论。本文讨论了未来的挑战和机遇，展示了 MLLM 在彻底改变自动驾驶交通格局方面的重要作用和巨大潜力。

参考文献：

[1] Cui C, Ma Y, Cao X, et al. A survey on multimodal large language models for autonomous driving. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2024: 958-979.

[2] [199] Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, and Enhong Chen. A survey on multimodal large language models. arXiv preprint arXiv:2306.13549, 2023. 1, 3

[3] Sai Vemprala, Rogerio Bonatti, Arthur Bucker, and Ashish Kapoor. ChatGPT for Robotics: Design Principles and Model Abilities, July 2023. arXiv:2306.17582 [cs]. 1, 8

[4] On-Road Automated Driving (ORAD) Committee. Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated Driving Systems, 2014. 2, 3, 4

[5] Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, and Ziran Wang. Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles, 2023. arXiv:2310.08034. 2, 3, 5, 7, 12

[6] Ziran Wang, Yougang Bian, Steven E. Shladover, Guoyuan Wu, Shengbo Eben Li, and Matthew J. Barth. A survey on cooperative longitudinal motion control of multiple connected and automated vehicles. IEEE Intelligent Transportation Systems Magazine, 12(1):4–24, 2020. 3

[7] N. N. Sriram, Tirth Maniar, Jayaganesh Kalyanasundaram, Vineet Gandhi, Brojeshwar Bhowmick, and K Madhava Krishna. Talk to the vehicle: Language conditioned autonomous navigation of self driving cars. In 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 5284–5290, 2019. 3

[8] Jiageng Mao, Yuxi Qian, Hang Zhao, and Yue Wang. GPT-Driver: Learning to Drive with GPT, Oct. 2023. arXiv:2310.01415 [cs]. 3, 7, 8

[9] Mohammad Omama, Pranav Inani, Pranjal Paul, Sarat Chandra Yellapragada, Krishna Murthy Jatavallabhula, Sandeep Chinchali, and Madhava Krishna. Alt-pilot: Autonomous navigation with language augmented topometric maps, 2023. 3

[10] Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, and Mingyu Ding. Languagempc: Large language models as decision makers for autonomous driving. arXiv preprint arXiv:2310.03026, 2023. 3, 7, 8

[11] Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, and Pete Florence. PaLM-E: An Embodied Multimodal Language Model, Mar. 2023. arXiv:2303.03378. 3, 5

[12] Takeo Kanade, Chuck Thorpe, and William Whittaker. Autonomous land vehicle project at CMU. In Proceedings of the 1986 ACM fourteenth annual conference on Computer science - CSC ’86, pages 71–80, Cincinnati, Ohio, United States, 1986. ACM Press. 3, 4

[13] Dean A Pomerleau. Alvinn: An autonomous land vehicle in a neural network. Advances in neural information processing systems, 1, 1988. 3

[14] Sorin Grigorescu, Bogdan Trasnea, Tiberiu Cocias, and Gigel Macesanu. A survey of deep learning techniques for autonomous driving. Journal of Field Robotics, 37(3):362386, 2020. 3

[15] Sampo Kuutti, Richard Bowden, Yaochu Jin, Phil Barber, and Saber Fallah. A survey of deep learning applications to autonomous vehicle control. IEEE Transactions on Intelligent Transportation Systems, 22(2):712–733, 2021. 3

[16] Joel Janai, Fatma G ̈ uney, Aseem Behl, and Andreas Geiger. Computer vision for autonomous vehicles: Problems, datasets and state of the art. Foundations and Trends® in Computer Graphics and Vision, 12(1–3):1–308, 2020. 4

[17] Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, and Oscar Beijbom. Pointpillars: Fast encoders for object detection from point clouds, 2019.

[18] Charles R. Qi, Hao Su, Kaichun Mo, and Leonidas J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation, 2017. 4

[19] Peide Cai, Hengli Wang, Yuxiang Sun, and Ming Liu. DQ-GAT: Towards Safe and Efficient Autonomous Driving With Deep Q-Learning and Graph Attention Networks. IEEE Transactions on Intelligent Transportation Systems, 23(11):21102–21112, 2022. 4

[20] Alex Kendall, Jeffrey Hawke, David Janz, Przemyslaw Mazur, Daniele Reda, John-Mark Allen, Vinh-Dieu Lam, Alex Bewley, and Amar Shah. Learning to drive in a day. In 2019 International Conference on Robotics and Automation (ICRA), pages 8248–8254, 2019. 4

[21] Klaus Bengler, Klaus Dietmayer, Berthold Farber, Markus Maurer, Christoph Stiller, and Hermann Winner. Three decades of driver assistance systems: Review and future perspectives. IEEE Intelligent Transportation Systems Magazine, 6(4):6–22, 2014. 4

[22] Long Chen, Yuchen Li, Chao Huang, Bai Li, Yang Xing, Daxin Tian, Li Li, Zhongxu Hu, Xiaoxiang Na, Zixuan Li, Siyu Teng, Chen Lv, Jinjun Wang, Dongpu Cao, Nanning Zheng, and Fei-Yue Wang. Milestones in autonomous driving and intelligent vehicles: Survey of surveys. IEEE Transactions on Intelligent Vehicles, 8(2):1046–1056, 2023. 4

[23] Jin Cui, Lin Shen Liew, Giedre Sabaliauskaite, and Fengjun Zhou. A review on safety failures, security attacks, and available countermeasures for autonomous vehicles. Ad Hoc Networks, 90:101823, 2019. 4

[24] Ekim Yurtsever, Jacob Lambert, Alexander Carballo, and Kazuya Takeda. A survey of autonomous driving: Common practices and emerging technologies. IEEE Access, 8:58443–58469, 2020. 4

[25] Yasasa Abeysirigoonawardena, Florian Shkurti, and Gregory Dudek. Generating adversarial driving scenarios in high-fidelity simulators. In 2019 International Conference on Robotics and Automation (ICRA), pages 8271–8277, 2019. 4

[26] Wenhao Ding, Baiming Chen, Bo Li, Kim Ji Eun, and Ding Zhao. Multimodal safety-critical scenarios generation for decision-making algorithms evaluation. IEEE Robotics and Automation Letters, 6(2):1551–1558, April 2021. 4

[27] Weijie Liu, Shintaro Muramatsu, and Yoshiyuki Okubo. Cooperation of v2i/p2i communication and roadside radar perception for the safety of vulnerable road users. In 2018 16th International Conference on Intelligent Transportation Systems Telecommunications (ITST), pages 1–7, 2018. 4

[28] Ying Ni, Shihan Wang, Liuyan Xin, Yiwei Meng, Juyuan Yin, and Jian Sun. A v2x-based approach for avoiding potential blind-zone collisions between right-turning vehicles and pedestrians at intersections. In 2020 IEEE 23rd International Conference on Intelligent Transportation Systems (ITSC), pages 1–6, 2020. 4

[29] Noam Chomsky. Aspects of the Theory of Syntax. MIT press, 2014. 4

[30] Yehoshua Bar-Hillel. The present status of automatic translation of languages. Advances in computers, 1:91–163, 1960. 4

[31] Anatol W Holt and WJ Turanski. Man-to-machine communication and automatic code translation. In Papers presented at the May 3-5, 1960, western joint IRE-AIEE-ACM computer conference, pages 329–339, 1960. 4

[32] Peter F Brown, Vincent J Della Pietra, Peter V Desouza, Jennifer C Lai, and Robert L Mercer. Class-based n-gram models of natural language. Computational linguistics, 18(4):467–480, 1992. 4

[33] Shai Fine, Yoram Singer, and Naftali Tishby. The hierarchical hidden markov model: Analysis and applications. Machine learning, 32:41–62, 1998. 4

[34] Mike Schuster and Kuldip K Paliwal. Bidirectional recurrent neural networks. IEEE transactions on Signal Processing, 45(11):2673–2681, 1997. 4, 5

[35] Sepp Hochreiter and J ̈ urgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. 4, 5

[36] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013. 4

[37] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555, 2014. 4

[38] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. Advances in neural information processing systems, 27, 2014. 4

[39] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017. 4, 6

[40] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language Models are Few-Shot Learners. In NeurIPS, volume 33, pages 1877–1901, 2020. 5, 6

[41] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. PaLM: Scaling Language Modeling with Pathways, Oct. 2022. arXiv:2204.02311. 5

[42] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open Foundation and Fine-Tuned Chat Models, July 2023. arXiv:2307.09288 [cs]. 5, 7

[43] OpenAI. GPT-4 Technical Report, Mar. 2023. 5, 7

[44] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F. Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions with human feedback. In NeurIPS, volume 35, pages 27730–27744, 2022. 5, 6

[45] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. In NeurIPS, 2022. 5, 8

[46] Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Chuyuan Fu, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan, and Andy Zeng. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances, 2022. arXiv:2204.01691. 5, 8

[47] Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, and Pete Florence. PaLM-E: An Embodied Multimodal Language Model, Mar. 2023. arXiv:2303.03378. 3, 5

[48] Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar. Voyager: An Open-Ended Embodied Agent with Large Language Models, May 2023. arXiv:2305.16291 [cs]. 5, 8

[49] Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, and Li Fei-Fei. VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models, 2023. arXiv:2307.05973 [cs]. 5, 8

[50] Daocheng Fu, Xin Li, Licheng Wen, Pinlong Cai, Botian Shi, and Yu Qiao. Drive like a human: Rethinking autonomous driving with large language models. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 5, 8, 10

[51] Ye Jin, Xiaoxi Shen, Huiling Peng, Xiaoan Liu, Jingli Qin, Jiayang Li, Jintao Xie, Peizhong Gao, Guyue Zhou, and Jiangtao Gong. SurrealDriver: Designing Generative Driver Agent Simulation Framework in Urban Contexts based on Large Language Model, Sept. 2023. arXiv:2309.13193 [cs]. 5, 7, 8

[52] Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, and Ziran Wang. Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles, 2023. arXiv:2310.08034. 2, 3, 5, 7, 12

[53] John Slaney and Sylvie Thi ́ ebaux. Blocks world revisited. Artificial Intelligence, 125(1-2):119–153, 2001. 5

[54] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25, 2012. 5

[55] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision, pages 2425–2433, 2015. 6

[56] Andrej Karpathy and Li Fei-Fei. Deep visual-semantic alignments for generating image descriptions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3128–3137, 2015. 6

[57] Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, and Alan Yuille. Deep captioning with multimodal recurrent neural networks (m-rnn). arXiv preprint arXiv:1412.6632, 2014. 6

[58] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3156–3164, 2015. 6

[59] Youssef Mroueh, Tom Sercu, and Vaibhava Goel. Deep multimodal learning for audio-visual speech recognition. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2130–2134. IEEE, 2015. 6

[60] Relja Arandjelovi ́ c and Andrew Zisserman. Look, listen and learn. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 609–617, 2017. 6

[61] Charles R Qi, Hao Su, Matthias Niessner, Angela Dai, Mengyuan Yan, and Leonidas J Guibas. Volumetric and multi-view cnns for object classification on 3d data. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pages 5648–5656, 2016. 6

[62] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. 5, 6

[63] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1):5485–5551, 2020. 5, 6

[64] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language Models are Few-Shot Learners. In NeurIPS, volume 33, pages 1877–1901, 2020. 5, 6

[65] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training, 2018. 6

[66] Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, and Anurag Arnab. Audiovisual masked autoencoders. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 16144–16154, 2023. 6

[67] Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, et al. Point-bind & point-llm: Aligning point cloud with multi-modality for 3d understanding, generation, and instruction following. arXiv preprint arXiv:2309.00615, 2023. 6

[68] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. In ICML, pages 8748–8763. PMLR, 2021. 6, 7

[69] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. VilBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Advances in Neural Information Processing Systems, 32, 2019. 6

[70] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. VisualBERT: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557, 2019. 6

[71] Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, and Yuan Cao. Simvlm: Simple visual language model pretraining with weak supervision. arXiv preprint arXiv:2108.10904, 2021. 6

[72] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597, 2023. 6

[73] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: a Visual Language Model for Few-Shot Learning. In NeurIPS. arXiv, 2022. arXiv:2204.14198. 6, 7

[74] Linjie Zhu, Jieyu Xu, Yi Yang, and Alexander G Hauptmann. Actbert: Learning global-local video-text representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 87438752, 2020. 6

[75] Jean-Baptiste Alayrac, Adri` a Recasens, Rosalia Schneider, Relja Arandjelovi ́ c, Jason Ramapuram, Jeffrey De Zeeuw, Herv ́ e J ́ egou, and Andrew Zisserman. Self-supervised multimodal versatile networks. In Advances in Neural Information Processing Systems, pages 18718–18730, 2020. 6

[76] Xinyu Han, Jianhui Lai, Kuiyuan Yang, Xiaojuan Li, Yujun Zhang, Dahua Lin, and Hao Zeng. Occuseg: Occupancyaware 3d instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2918–2927, 2020. 6

[77] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International Conference on Machine Learning, pages 8821–8831. PMLR, 2021. 6

[78] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj ̈ orn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022. 6

[79] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023. 6

[80] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023. 6, 7

[81] Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, and Zhifang Sui. A survey for in-context learning. arXiv preprint arXiv:2301.00234, 2022. 6 [39] Danny Driess, Fei Xia, Meh

[82] Jiaxin Ge, Hongyin Luo, Siyuan Qian, Yulu Gan, Jie Fu, and Shanghang Zhang. Chain of thought prompt tuning in vision language models, 2023. 6

[83] Tanmay Gupta and Aniruddha Kembhavi. Visual programming: Compositional visual reasoning without training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14953–14962, 2023. 6

[84] OpenAI. Gpt-4v(ision) system card. https://openai. com/research/gpt-4v-system-card, 2023. 2, 6, 11

[85] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. In ICML, pages 8748–8763. PMLR, 2021. 6, 7

[86] Hang Zhang, Xin Li, and Lidong Bing. Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding. In EMNLP. arXiv, 2023. arXiv:2306.02858 [cs, eess]. 7

[87] Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee. K. Wong, Zhenguo Li, and Hengshuang Zhao. DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model, Oct. 2023. arXiv:2310.01412. 7, 8

[88] Xinpeng Ding, Jianhua Han, Hang Xu, Wei Zhang, and Xiaomeng Li. HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving, 2023. arXiv:2309.05186. 7, 9

[89] Vikrant Dewangan, Tushar Choudhary, Shivam Chandhok, Shubham Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna Murthy Jatavallabhula, and K. Madhava Krishna. Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving, 2023. arXiv:2310.02251. 7

[90] Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado. GAIA-1: A Generative World Model for Autonomous Driving, Sept. 2023. arXiv:2309.17080 [cs]. 7, 9

[91] Mengjiao Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Dale Schuurmans, and Pieter Abbeel. Learning Interactive Real-World Simulators, Oct. 2023. arXiv:2310.06114 [cs]. 7

[92] Jelena Luketina, Nantas Nardelli, Gregory Farquhar, Jakob Foerster, Jacob Andreas, Edward Grefenstette, Shimon Whiteson, and Tim Rockt ̈ aschel. A Survey of Reinforcement Learning Informed by Natural Language, June 2019. arXiv:1906.03926 [cs, stat]. 8

[93] Takeshi Kojima, Shixiang (Shane) Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large Language Models are Zero-Shot Reasoners. In NeurIPS, volume 35, pages 22199–22213, 2022. 8

[94] Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, Pierre Sermanet, Noah Brown, Tomas Jackson, Linda Luu, Sergey Levine, Karol Hausman, and Brian Ichter. Inner Monologue: Embodied Reasoning through Planning with Language Models, 2022. arXiv:2207.05608. 8

[95] Andy Zeng, Maria Attarian, Brian Ichter, Krzysztof Choromanski, Adrian Wong, Stefan Welker, Federico Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, and Pete Florence. Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language, May 2022. arXiv:2204.00598 [cs]. 8

[96] Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, and Andy Zeng. Code as Policies: Language Model Programs for Embodied Control. In ICRA, 2023. 5, 8

[97] Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents, Mar. 2022. arXiv:2201.07207 [cs]. 5, 7, 8

[98] Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, and Li Fei-Fei. VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models, 2023. arXiv:2307.05973 [cs]. 5, 8

[99] Licheng Wen, Daocheng Fu, Xin Li, Xinyu Cai, Tao Ma, Pinlong Cai, Min Dou, Botian Shi, Liang He, and Yu Qiao. Dilu: A knowledge-driven approach to autonomous driving with large language models. arXiv preprint arXiv:2309.16292, 2023. 7, 8

[100] Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, and Ziran Wang. Drive as you speak: Enabling human-like interaction with large language models in autonomous vehicles. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 2, 7, 8, 10, 11, 12

[101] Jinkyu Kim, Anna Rohrbach, Trevor Darrell, John Canny, and Zeynep Akata. Textual explanations for self-driving vehicles. In Proceedings of the European conference on computer vision (ECCV), pages 563–578, 2018. 8, 9, 10

[102] Thierry Deruyttere, Simon Vandenhende, Dusan Grujicic, Luc Van Gool, and Marie-Francine Moens. Talk2Car: Taking Control of Your Self-Driving Car. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2088–2098, 2019. 8, 9, 10

[103] Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee. K. Wong, Zhenguo Li, and Hengshuang Zhao. DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model, Oct. 2023. arXiv:2310.01412. 7, 8

[104] Hao Sha, Yao Mu, Yuxuan Jiang, Li Chen, Chenfeng Xu, Ping Luo, Shengbo Eben Li, Masayoshi Tomizuka, Wei Zhan, and Mingyu Ding. Languagempc: Large language models as decision makers for autonomous driving. arXiv preprint arXiv:2310.03026, 2023. 3, 7, 8

[105] Long Chen, Oleg Sinavski, Jan H ̈ unermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, and Jamie Shotton. Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving, 2023. arXiv:2310.01957. 7, 8

[106] Daocheng Fu, Xin Li, Licheng Wen, Pinlong Cai, Botian Shi, and Yu Qiao. Drive like a human: Rethinking autonomous driving with large language models. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 5, 8, 10

[107] Ali Keysan, Andreas Look, Eitan Kosman, Gonca G ̈ ursun, J ̈ org Wagner, Yu Yao, and Barbara Rakitsch. Can you text what is happening? integrating pre-trained language encoders into trajectory prediction models for autonomous driving, 2023. 8, 9

[108] Yi Yang, Qingwen Zheng, Ci Li, Daniel L.S. Marta, Nazre Batool, and John Folkesson. Human-centric autonomous systems with llms for user command reasoning. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 10

[109] iageng Zhong, Ming Li, Yinliang Chen, Zihang Wei, Fan Yang, and Haoran Shen. Safer vision-based autonomous planning system for quadrotor uavs with dynamic obstacle trajectory prediction. In Proceedings of the IEEE/CVFWinter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 10

[110] SungYeon Park, MinJae Lee, JiHyuk Kang, Hahyeon Choi, Yoonah Park, Juhwan Cho, Adam Lee, and Dong-Kyu Kim. Vlaad: Vision and language assistant for autonomous driving. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 10

[111] Amir Belder, Refael Vivanti, and Ayellet Tal. A game of bundle adjustment-learning efficient convergence. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8428–8437, 2023. 10

[112] Giorgos Zampokas, Christos-Savvas Bouganis, and Dimitrios Tzovaras. Latency driven spatially sparse optimization for multi-branch cnns for semantic segmentation. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 10

[113] Sai Shubodh, Mohammad Omama, Husain Zaidi, Udit Singh Parihar, and Madhava Krishna. Lip-loc: Lidar image pretraining for cross-modal localization. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 10

[114] Yuichi Inoue, Yuki Yada, Kotaro Tanahashi, and Yu Yamaguchi. Nuscenes-mqa: Integrated evaluation of captions and qa for autonomous driving datasets using markup annotations. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Workshops, 2024. 10

有些地方翻译可能不是很准确，感兴趣的同学可以去参考原文。

本文仅为本人学习记录使用，一切权利属于文章原作者。

自动驾驶 GPT 多模态大模型大语言模型

cv34565499

分享至

投诉或建议