UMI:终极机器人搭档!
AI_Fox
编辑于 2024年02月23日 19:04

UMI是斯坦福天才们的杰作,就像机器人数据收集和策略学习的摇滚巨星。想象一下——一个手持夹持器和一些非常炫的界面让数据收集变得轻而易举。

UMI完成了这个疯狂的壮举,它将人类在棘手情境中的操作技能拿过来,嘿!直接转移到机器人身上,不需要人类写一长串的编程指令。别再费心写详细的代码了,朋友们!

但这才是真正的噱头——UMI拥有一套聪明的策略接口组合。我们说的是延迟匹配的巫术和动作表示,让学到的策略不受硬件限制。能够在不同的机器人平台上轻松部署?绝对没问题!

这个家伙UMI提供了一个便携、用户友好、经济实惠的数据收集和策略学习设置。翻译过来就是:它将多样化的人类演示转变为一流的视觉运动策略。完美适用于传统遥控会束手无策的任务——想象一下动态、精准、双手操作和漫长任务。

等等,让我们来分解一下UMI的主打功能:

  1. 技能转移: 想象一下将人类在复杂情境下的操作技能直接转移到机器人身上。无需人类费力写详细的编程。

  2. 数据收集: 通过以人类直接操作的方式,UMI收集机器人学习所需的动态操作数据,包括视觉信息和动作序列。

  3. 多平台魔法: UMI确保机器人学到的操作策略能够在不同的硬件平台上灵活运用。就像是硬件无关性——真正的改变游戏规则。

  4. 提升机器人技能: 有了UMI,机器人可以学习执行更为复杂、精细的操作任务,比如双手协作、精确操控等。

  5. 快速适应新任务: UMI让机器人通过观察人类的操作演示,迅速学习新任务,无需从头开始编程,提高了机器人适应新任务的速度。

  6. 降低机器人学习成本: 通过使用UMI,可以减少机器人学习和部署新任务所需的时间和资源,降低成本。

  7. 推动机器人技术在各领域的应用: UMI的使用不仅是炫耀,还拓宽了机器人在家庭、服务、制造等行业的应用范围,使其能够更好地服务于人类社会。掌声在哪里!🤖✨

UMI关键技术和设计理念简要总结:

  1. 硬件设计:

    • 使用手持夹持器和高质量摄像头(如GoPro)进行任务执行时的视觉数据捕捉。

    • 夹持器采用3D打印平行设计,软指尖提高操作灵活性和安全性。

    • 鱼眼镜头扩大视野,确保收集足够的视觉上下文和关键深度信息。

    • 侧面镜子弥补单目摄像头无法获取深度信息的缺陷,辅助深度估计。

    • 利用GoPro内置的IMU感知追踪,在快速移动下保持稳定追踪。

  1. 硬件无关的数据收集:

    • 使用通用手持夹持器和视觉系统,实现不依赖特定机器人硬件的数据收集。

    • 通过延迟匹配处理不同硬件之间的延迟变化,确保时间匹配。

    • 采用相对轨迹作为动作表示,简化从人类动作到机器人执行动作的转换。

    • 使用扩散策略模型处理多模态动作分布,增强处理复杂演示数据的能力。

  1. 推理时延匹配与相对轨迹动作表示:

    • UMI策略接口实现推理时延匹配和相对轨迹动作表示,确保动作准确性和时间对齐。

  1. 零次射泛化能力:

    • 通过多样化人类演示训练,UMI学到的策略具备零次射泛化能力,能够适应新环境和对象。

项目:

https://umi-gripper.github.io

论文:

https://umi-gripper.github.io/umi.pdf

数据:

https://swanky-sphere-ad1.notion.site/UMI-Data-Collection-Tutorial-4db1a1f0f2aa4a2e84d9742720428b4c?pvs=4

GitHub:

https://github.com/real-stanford/universal_manipulation_interface

硬件:

https://docs.google.com/document/d/1TPYwV9sNVPAi0ZlAupDMkXZ4CA1hsZx7YDMSmcEy6EU/edit?usp=sharing