capgym.github.io/
CaP-X 是 NVIDIA、UC Berkeley、Stanford 与 CMU 联合推出的开放框架,面向机器人操纵中的 Code-as-Policy / coding agents 进行系统评测与能力增强。其核心包括:用于代码生成式操控的交互环境 CaP-Gym、覆盖不同抽象层级与交互模式的基准 CaP-Bench、无需训练即可通过多轮交互、视觉差分、自动技能合成与集成推理提升鲁棒性的 CaP-Agent0,以及基于可验证环境奖励进行后训练的 CaP-RL。项目结果显示,前沿模型在零样本机器人操纵中已经能取得 30%+ 的平均成功率,但与人类仍有 56 个百分点 差距;在扰动任务上,训练自由的 CaP-Agent0 甚至超过部分 VLA;进一步结合 RL 后,7B coding model 在仿真中可由 20% 提升到 72%,并在真实 Franka 机械臂上实现接近人类水平的表现。这项工作把“会写代码的大模型”真正推进到了具身操控前线,也为机器人领域的 agentic AI 提供了一个可复现、可扩展的新基座。
Website: capgym.github.io/
GitHub: github.com/capgym/cap-x
Paper: arxiv.org/abs/2603.22435