首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统-行至网

这几天，家务活都被机器人抢着干了。

前脚来自斯坦福的会用锅的机器人刚刚登场，后脚又来了个会用咖啡机的机器人 Figure-01 。

只需给它观看示范视频，加上10个小时的训练，Figure-01 就能学会使用咖啡机，放咖啡胶囊到按下启动键，一气呵成。

但是想要让机器人无师自通，第一次见到各式各样的家具家电，就能在没有示范视频的情况下熟练使用。这是个难以解决的问题，不仅需要机器人拥有强大的视觉感知、决策规划能力，更需要精确的操纵技能。

现在，一个三维具身图文大模型系统为以上难题提供了新思路。该系统将基于三维视觉的精准几何感知模型与擅长规划的二维图文大模型结合了起来，无需样本数据，即可解决与家具家电有关的复杂长程任务。

这项研究由斯坦福大学的 Leonidas Guibas 教授、北京大学的王鹤教授团队，与智源人工智能研究院合作完成。

论文链接：https://arxiv.org/abs/2312.01307

项目主页：https://geometry.stanford.edu/projects/sage/

代码：https://github.com/geng-haoran/SAGE

近日，PaLM-E 和 GPT-4V 带动了图文大模型在机器人任务规划中的应用，视觉语言引导下的泛化机器人操控成为了热门研究领域。

以往的常见方法是建立一个两层的系统，上层的图文大模型做规划和技能调度，下层的操控技能策略模型负责物理地执行动作。但当机器人在家务活中面对各种各样从未见过并且需要多步操作的家用电器时，现有方法中的上下两层都将束手无策。

以目前最先进的图文大模型 GPT-4V 为例，虽然它可以对单张图片进行文字描述，但涉及可操作零部件检测、计数、定位及状态估计时，它仍然错误百出。图二中的红色高亮部分是 GPT-4V 在描述抽屉柜、烤箱和立柜的图片时出现的各种错误。基于错误的描述，机器人再进行技能调度，显然不太可靠。

下层的操控技能策略模型负责在各种各样的实际情况中执行上层图文大模型给出的任务。现有的研究成果大部分是基于规则生硬地对一些已知物体的抓取点位和操作方式进行了编码，无法泛应对没见过的新物体类别。而基于端到端的操作模型（如 RT-1，RT-2 等）只使用了 RGB 模态，缺乏对距离的准确感知，对新环境中如高度等变化的泛化性较差。

受王鹤教授团队之前的 CVPR Highlight 工作 GAPartNet [1] 启迪，研究团队将重点放在了各种类别的家用电器中的通用零部件（GAPart）之上。虽然家用电器千变万化，但总有几样零件不可或缺，每个家电和这些通用的零件之间存在相似的几何和交互模式。

由此，研究团队在 GAPartNet [1] 这篇论文中引入了 GAPart 这一概念。GAPart 指可泛化可交互的零部件。GAPart 出现在不同类别的铰接物体上，例如，在保险箱，衣柜，冰箱中都能找到铰接门这种零件。如图 3，GAPartNet [1] 在各类物体上标注了 GAPart 的语义和位姿。

在之前研究的基础上，研究团队创造性地将基于三维视觉的 GAPart 引入了机器人的物体操控系统 SAGE 。SAGE 将通过可泛化的三维零件检测 (part detection)，精确的位姿估计 (pose estimation) 为 VLM 和 LLM 提供信息。新方法在决策层解决了二维图文模型精细计算和推理能力不足的问题；在执行层，新方法通过基于 GAPart 位姿的鲁棒物理操作 API 实现了对各个零件的泛化性操作。

SAGE 构成了首个三维具身图文大模型系统，为机器人从感知、物理交互再到反馈的全链路提供了新思路，为机器人能够智能、通用地操控家具家电等复杂物体探寻了一条可行的道路。

为了方便大家理解整个系统流程，一起来看看在无需样本的情况下，让机械臂使用操作一款没见过的微波炉的例子。

指令解析：从视觉和指令输入到可执行的技能指令

输入指令和 RGBD 图像观测后，解释器首先使用 VLM 和 GAPartNet [1] 生成了场景描述。随后，LLM（GPT-4）将指令和场景描述作为输入，生成语义零件和动作程序。或者也可以在这个环节输入一个特定的用户手册。LLM 将基于输入生成一个可操作零件的目标。

为了更好地协助动作生成，场景描述包含物体信息、零件信息以及一些与互动相关的信息。在生成场景描述之前，SAGE 还将采用专家级 GAPart 模型 [1] 为 VLM 生成专家描述作为提示。这种兼收了两种模型的优点的方法效果良好。

总结

SAGE是首个能够生成通用的家具家电等复杂铰接物体操控指令的三维视觉语言模型框架。它通过在零件级别上连接物体语义和可操作性理解，将语言指令的动作转化为可执行的操控。

此外，文章还研究了将通用的大型视觉 / 语言模型与领域专家模型相结合的方法，以增强网络预测的全面性和正确性，更好地处理这些任务并实现最先进的性能。实验结果表明，该框架具有强大的泛化能力，可以在不同物体类别和任务上展示出优越的性能。此外，文章还为语言指导的铰接物体操作提供了一个新的基准测试。

团队介绍

SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互（EPIC Lab）以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然（共同一作）、北京大学博士生魏松林（共同一作）、斯坦福大学博士生邓丛悦，沈博魁，指导老师为 Leonidas Guibas 教授和王鹤教授。

参考文献：

[1] Haoran Geng，Helin Xu，Chengyang Zhao，Chao Xu，Li Yi，Siyuan Huang，and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272，2022.

[2] Kirillov，Alexander，Eric Mintun，Nikhila Ravi，Hanzi Mao，Chloe Rolland，Laura Gustafson，Tete Xiao et al。”Segment anything.” arXiv preprint arXiv:2304.02643 (2023).

[3] Zhang，Hao，Feng Li，Shilong Liu，Lei Zhang，Hang Su，Jun Zhu，Lionel M。Ni，and Heung-Yeung Shum。”Dino: Detr with improved denoising anchor boxes for end-to-end object detection.” arXiv preprint arXiv:2203.03605 (2022).

[4] Xiang，Fanbo，Yuzhe Qin，Kaichun Mo，Yikuan Xia，Hao Zhu，Fangchen Liu，Minghua Liu et al。”Sapien: A simulated part-based interactive environment.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，pp。11097-11107。2020.

免责声明

发文时比特币价格：$42249

免责声明：

本文不代表行至网立场，且不构成投资建议，请谨慎对待。用户由此造成的损失由用户自行承担，与行至网没有任何关系；

行至网不对网站所发布内容的准确性，真实性等任何方面做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，行至网对项目的真实性，准确性等任何方面均不做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，行至网不对其构成任何投资建议，用户由此造成的损失由用户自行承担，与行至网没有任何关系；

行至区块链研究院声明：行至区块链研究院内容由行至网发布，部分来源于互联网和行业分析师投稿收录，内容为行至区块链研究院加盟专职分析师独立观点，不代表行至网立场。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

团队介绍

相关推荐

评论抢沙发

评论前必须登录！

技术咨询服务

热门专题

热门专题

标签云

服务于区块链创业者

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的区块链世界！

支付宝扫一扫打赏

微信扫一扫打赏

团队介绍

相关推荐

评论 抢沙发

评论前必须登录！

技术咨询服务

热门专题

热门专题

标签云

服务于区块链创业者

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的区块链世界！

支付宝扫一扫打赏

微信扫一扫打赏

评论抢沙发