UMI：终极机器人搭档！

AI_Fox

编辑于 2024年02月23日 19:04

UMI是斯坦福天才们的杰作，就像机器人数据收集和策略学习的摇滚巨星。想象一下——一个手持夹持器和一些非常炫的界面让数据收集变得轻而易举。

UMI完成了这个疯狂的壮举，它将人类在棘手情境中的操作技能拿过来，嘿！直接转移到机器人身上，不需要人类写一长串的编程指令。别再费心写详细的代码了，朋友们！

但这才是真正的噱头——UMI拥有一套聪明的策略接口组合。我们说的是延迟匹配的巫术和动作表示，让学到的策略不受硬件限制。能够在不同的机器人平台上轻松部署？绝对没问题！

这个家伙UMI提供了一个便携、用户友好、经济实惠的数据收集和策略学习设置。翻译过来就是：它将多样化的人类演示转变为一流的视觉运动策略。完美适用于传统遥控会束手无策的任务——想象一下动态、精准、双手操作和漫长任务。

等等，让我们来分解一下UMI的主打功能：

技能转移： 想象一下将人类在复杂情境下的操作技能直接转移到机器人身上。无需人类费力写详细的编程。
数据收集： 通过以人类直接操作的方式，UMI收集机器人学习所需的动态操作数据，包括视觉信息和动作序列。
多平台魔法： UMI确保机器人学到的操作策略能够在不同的硬件平台上灵活运用。就像是硬件无关性——真正的改变游戏规则。
提升机器人技能： 有了UMI，机器人可以学习执行更为复杂、精细的操作任务，比如双手协作、精确操控等。
快速适应新任务： UMI让机器人通过观察人类的操作演示，迅速学习新任务，无需从头开始编程，提高了机器人适应新任务的速度。
降低机器人学习成本： 通过使用UMI，可以减少机器人学习和部署新任务所需的时间和资源，降低成本。
推动机器人技术在各领域的应用： UMI的使用不仅是炫耀，还拓宽了机器人在家庭、服务、制造等行业的应用范围，使其能够更好地服务于人类社会。掌声在哪里！🤖✨

UMI关键技术和设计理念简要总结：

硬件设计：
- 使用手持夹持器和高质量摄像头（如GoPro）进行任务执行时的视觉数据捕捉。
- 夹持器采用3D打印平行设计，软指尖提高操作灵活性和安全性。
- 鱼眼镜头扩大视野，确保收集足够的视觉上下文和关键深度信息。
- 侧面镜子弥补单目摄像头无法获取深度信息的缺陷，辅助深度估计。
- 利用GoPro内置的IMU感知追踪，在快速移动下保持稳定追踪。

硬件无关的数据收集：
- 使用通用手持夹持器和视觉系统，实现不依赖特定机器人硬件的数据收集。
- 通过延迟匹配处理不同硬件之间的延迟变化，确保时间匹配。
- 采用相对轨迹作为动作表示，简化从人类动作到机器人执行动作的转换。
- 使用扩散策略模型处理多模态动作分布，增强处理复杂演示数据的能力。

项目：

https://umi-gripper.github.io

论文：

https://umi-gripper.github.io/umi.pdf

数据：

https://swanky-sphere-ad1.notion.site/UMI-Data-Collection-Tutorial-4db1a1f0f2aa4a2e84d9742720428b4c?pvs=4

GitHub：

https://github.com/real-stanford/universal_manipulation_interface

硬件：

https://docs.google.com/document/d/1TPYwV9sNVPAi0ZlAupDMkXZ4CA1hsZx7YDMSmcEy6EU/edit?usp=sharing

cv31878239

分享至

投诉或建议