英伟达专栏

英伟达开发 AI 模型：数据集图像总量逾 15 万，成功率 100%

想象一下，想要将手中的小方块优雅地递给别人，是用手卡住方块的侧面送出？

还是伸出托着方块底部的手？

那么如果对方是机器人，持握小方块的方式是否会影响机器人快速、精确的识别呢？

答案是“会”！

因此，英伟达（Nvidia）研究人员设计了一种人类-机器人递接物品的新方式，当机器人面对人类时，对其持握动作进行判断、分类，进而设计出递接物品的方式。这一方式比基线更流畅，可为协作机器人的设计提供新思路，从而提高仓库工人的生产力。

当地时间 2020 年 3 月 12 日，相关论文 Human Grasp Classification for Reactive Human-to-Robot Handovers（基于人手持握动作分类的人类-机器人递接物品反应）发表于预印本网站 arXiv。

解决物品和人手相互遮挡的问题

雷锋网了解到，如今关注人类-机器人无缝递接物品领域的研究越来越多。就目前而言，绝大多数研究着眼于将物品从机器人转移到人类手中的挑战，假设人类可将物品放置在机器人的抓取器中进行反向操作。

不过，人类-机器人无缝递接物品的一个挑战便是机器人缺少可靠、连续的感知。在递接物品过程中，物品和人手难免会相互遮挡，而且人在递接物品时还经常同时在做其他事情，因此机器人对人手和物品状态、位置的估计并不是很精准。

对此，研究人员提出的一种策略是，通过从计算机视觉社区借用现成的方法估计人手的动作及物品的 6D 状态。然而，这一方法仅仅关注于人手或物品。

基于此，英伟达研究人员做了一系列改进。

将人手持握物品的动作划分类别

首先，研究人员利用微软 Azure Kinect 深度传感器的身体跟踪 SDK（软件开发工具包）获取检测到的以人手为中心的点云，编辑一个数据集，训练 AI 模型。

此外，研究人员展示持握物品的示例图像，并记录 20-60 秒内人手做出的类似动作。在此期间，人可以不断移动身体或手，保证视角多样化。据了解，该研究团队数据集的图像已超过 15 万张。

在此基础上，研究人员将持握动作划分类别，比如手中拿着一个小方块时，动作可以被描述为“手掌张开”、“卡住底部”、“卡住顶部”、“卡住侧面”或“抬起”。

研究人员表示：

目前我们的系统覆盖了 77% 的人手持握物品方式，未来我们还要将其扩展到更大的范围。

随后，研究人员将递接物品任务建模，基于一个「鲁棒动态逻辑系统」（Robust Logical-Dynamical System），设计出递接物品的轨迹，免去了特定种类的抓取器和人手接触的麻烦。

雷锋网了解到，这一系统必须适应人类各种可能的持握动作，才能做出反应，判断接近人类并递接物品的方式。在系统确切地估计出人类将以何种方式持握物品之前，它将始终在原位（“home” position）保持等待状态。

实际上，研究人员在一系列实验中对人手所有可能的位置、动作进行了系统性的回顾，确定了分类模型和任务模型。同时，研究人员也考虑了这一过程中可能涉及的额外操作（下图为按优先级降序排列的可能出现的额外操作）。

递接成功率为 100%

雷锋网注意到，实验中，研究人员用到的是来自德国慕尼黑机器人公司 Franka Amika 的两个不同的「熊猫机器人」（Panda robots），研究人员将其安装在同一张桌子上的不同位置，分别从人类手中接过 4 种不同颜色的物品。

该论文的两位作者表示，与 2 个基线方法（一个不判断人手状态，另一个仅依赖于手和物体的状态）相比，他们的方法提升了人类-机器人无缝递接物品的成功率，并缩短了计划、执行时间——递接成功率为 100%（第二高为 80%），判断成功率为 64.3%（第二高为 29.6%），计划、执行总动作为 17.34 秒（第二短为 36.34 秒）。

不过，研究人员也明确提到了这一系统存在的不足与未来的研究方向：

提升判断成功率将会是未来我们的一个努力方向，这是因为即使系统已经可以处理大部分物品和人手彼此遮挡的场景，但不确定性也更高了，有时机器人不得不重新进行判断。

此外，他们计划让系统从数据中学习不同的持握类型，而不是依赖于人工制定的规则。

参考资料：

https://arxiv.org/pdf/2003.06000.pdf

https://venturebeat.com/2020/03/16/nvidia-researchers-use-ai-to-teach-robots-how-to-hand-objects-to-humans/

https://venturebeat.com/2018/11/26/how-munichs-franka-emika-wants-to-reinvent-industrial-robotic-assistants/

http://wyang.me/handovers/

上一个：NVIDIA叫停GTC大会新闻发布：“安培”还得等下一个：新冠疫情冲击全球科技市场，英伟达为何敢如此乐观？

英伟达专栏

英伟达开发 AI 模型：数据集图像总量逾 15 万，成功率 100%

相关新闻

栏目导航

新闻中心