让机器人感知你的「Here you are」,清华百万场景打造通用人机交接
cac55 2024-09-27 07:05 27 浏览 0 评论
机器之心专栏
机器之心编辑部
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体,为人机交互提供了新的可能性。
随着具身智能(Embodied AI)时代的来临,我们期待智能体能主动与环境进行交互。在这个过程中,让机器人融入人类生活环境、与人类进行交互(Human Robot Interaction)变得至关重要。我们需要思考如何理解人类的行为和意图,以最符合人类期望的方式满足其需求,将人类放在具身智能的中心(Human-Centered Embodied AI)。其中一个关键的技能是可泛化的人机交接(Generalizable Human-to-Robot Handover),它使机器人能够更好地与人类合作,完成各种日常通用任务,如烹饪、居室整理和家具组装等。
大模型的火爆发展预示着海量高质量数据+大规模学习是走向通用智能的一种可能方式,那么能否通过海量机器人数据与大规模策略模仿获取通用人机交接技能?然而,若考虑在现实世界中让机器人与人类进行大规模交互学习是危险且昂贵的,机器很有可能会伤害到人类:
而在仿真环境中(Simulation)进行训练,用人物仿真和动态抓取运动规划来自动化提供海量多样的机器人学习数据,然后将其部署到真实机器人上(Sim-to-Real Transfer),是一种更可靠的基于学习的方法,可以大大拓展机器人与人协作交互的能力。
因此,「GenH2R」框架被提出,分别从仿真(Simulation),示例(Demonstration),模仿(Imitation)三个角度出发,让机器人第一次基于端到端的方式学习对任意抓取方式、任意交接轨迹、任意物体几何的通用交接:1)在「GenH2R-Sim」环境中提供了百万级别的易于生成的各种复杂仿真交接场景,2)引入一套自动化的基于视觉 - 动作协同的专家示例(Expert Demonstrations)生成流程,3)使用基于 4D 信息和预测辅助(点云 + 时间)的模仿学习(Imitation Learning)方法。
相比于 SOTA 方法(CVPR2023 Highlight),GenH2R 的方法在各种测试集上平均成功率提升 14%,时间上缩短 13%,并在真机实验中取得更加鲁棒的效果。
- 论文地址:https://arxiv.org/abs/2401.00929
- 论文主页:https://GenH2R.github.io
- 论文视频:https://youtu.be/BbphK5QlS1Y
方法介绍
A. 仿真环境(GenH2R-Sim)
为了生成高质量、大规模的人手 - 物体数据集,GenH2R-Sim 环境从抓取姿势和运动轨迹两方面对场景建模。
在抓取姿势方面,GenH2R-Sim 从 ShapeNet 中引入了丰富的 3D 物体模型,从中挑选出 3266 个适合交接的日常物体,使用灵巧抓取的生成方法(DexGraspNet),总共生成了 100 万个人手抓住物体的场景。在运动轨迹方面,GenH2R-Sim 使用若干控制点生成多段光滑的 Bézier 曲线,并引入人手和物体的旋转,模拟出手递物体的各种复杂运动轨迹。
GenH2R-Sim 的 100 万场景中,不仅在运动轨迹(1 千 vs 100 万)、物体数量(20 vs 3266)两方面远超之前最新工作,此外,还引入了接近真实情境的互动信息(如机械臂足够靠近物体时,人会配合停止运动,等待完成交接),而非简单的轨迹播放。尽管仿真生成的数据不能完全逼真,但实验结果表明,相比小规模的真实数据,大规模的仿真数据更有助于学习。
B. 大规模生成利于蒸馏的专家示例
基于大规模的人手和物体运动轨迹数据,GenH2R 自动化地生成了大量专家示例。GenH2R 寻求的 “专家” 是经过改进后的 Motion Planner(如 OMG Planner),这些方法是非学习、基于控制优化的,不依赖于视觉的点云,往往需要一些场景状态(比如物体的目标抓取位置)。为了确保后续的视觉策略网络能够蒸馏出有益于学习的信息,关键在于确保 “专家” 提供的示例具有视觉 - 动作相关性(Vision-action correlation)。规划时如果知道最后落点,那么机械臂可以忽略视觉而直接规划到最终位置 “守株待兔”,这样可能会导致机器人的相机无法看到物体,这种示例对于下游的视觉策略网络并没有任何帮助;而如果频繁地根据物体位置进行重新规划,可能会导致机械臂动作不连续,出现奇怪的形态,无法完成合理的抓取。
为了生成出利于蒸馏(Distillation-friendly)的专家示例,GenH2R 引入了 Landmark Planning。人手的运动轨迹会按照轨迹光滑程度和距离被分成多段,以 Landmark 作为分割标记。在每一段中,人手轨迹是光滑的,专家方法会朝着 Landmark 点进行规划。这种方法可以同时保证视觉 - 动作相关性和动作连续性。
C. 以预测为辅助的 4D 模仿学习网络
基于大规模专家示例,GenH2R 使用模仿学习的方法,构建 4D 策略网络,对观察到的时序点云信息进行几何和运动的分解。对于每一帧点云,通过迭代最近点算法(Iterative Closest Point)计算和上一帧点云之间的位姿变换,以估计出每个点的流(flow)信息,使得每一帧点云都具有运动特征。接着,使用 PointNet++ 对每一帧点云编码,最后不仅解码出最终需要的 6D egocentric 动作,还会额外输出一个物体未来位姿的预测,增强策略网络对未来手和物体运动的预测能力。
不同于更加复杂的 4D Backbone(例如 Transformer-based),这种网络架构的推理速度很快,更适用于交接物体这种需要低延时的人机交互场景,同时它也能有效地利用时序信息,做到了简单性和有效性的平衡。
实验
A. 仿真环境实验
GenH2R 和 SOTA 方法进行了各种设定下的比较,相比于使用小规模真实数据训练的方法,在 GenH2R-Sim 中使用大规模仿真数据进行训练的方法,可以取得显著的优势(在各种测试集上成功率平均提升 14%,时间上缩短 13%)。
在真实数据测试集 s0 中,GenH2R 的方法可以成功交接更复杂的物体,并且能够提前调整姿势,避免在夹爪靠近物体时再频繁进行姿势调整:
在仿真数据测试集 t0(GenH2R-sim 引入)中,GenH2R 的方法可以能够预测物体的未来姿势,以实现更加合理的接近轨迹:
在真实数据测试集 t1(GenH2R-sim 从 HOI4D 引入,比之前工作的 s0 测试集增大约 7 倍)中,GenH2R 的方法可以泛化到没有见过的、具有不同几何形状的真实世界物体。
B. 真机实验
GenH2R 同时将学到的策略部署到现实世界中的机械臂上,完成 “sim-to-real“的跳跃。
对于更复杂的运动轨迹(例如旋转),GenH2R 的策略展示出更强的适应能力;对于更复杂的几何,GenH2R 的方法更可以展现出更强的泛化性:
GenH2R 完成了对于各种交接物体的真机测试以及用户调研,展示出很强的鲁棒性。
了解更多实验、方法内容,请参考论文主页。
团队介绍
该论文来自清华大学 3DVICI Lab、上海人工智能实验室和上海期智研究院,论文的作者为清华大学学生汪子凡(共同一作)、陈峻宇(共同一作)、陈梓青和谢鹏威,指导老师是弋力和陈睿。
清华大学三维视觉计算与机器智能实验室(简称 3DVICI Lab),是清华大学交叉信息研究院下的人工智能实验室,由弋力教授组建和指导。3DVICI Lab 瞄准人工智能最前沿的通用三维视觉与智能机器人交互问题,研究方向涵盖具身感知、交互规划与生成、人机协作等,与机器人、虚拟现实、自动驾驶等应用领域密切联系。团队研究目标是使智能体具备理解并与三维世界交互的能力,成果发表于各大顶级计算机会议、期刊上。
相关推荐
- 花十几万配的顶级电脑:遭遇诡异Bug无法开机!机主绝望发帖求助
-
快科技7月1日消息,一位3D图形工作者在组装了一台价值约2万美元(约合14.3万元人民币)的顶级DIY电脑后,遭遇了令人头疼的问题。Reddit用户joel_motion介绍,他的这台电脑配备了AMD...
- 麒麟系统笔记本电脑问题及解决方法
-
最近配发了麒麟系统的笔记本电脑,WPS、微信、QQ等软件倒是都有,日常办公还行,但也发现了一些问题,如:1、(网络打印机问题)据到场的技术人员讲,直接USB口连接的常见打印机都有相应的驱动程序,可以正...
- 电脑驱动问题修复方法全总结(电脑驱动坏了怎么修复不成功呢)
-
在电脑使用过程中,驱动程序出现问题可能导致设备无法正常工作,影响用户体验。下面为您详细总结不同场景下修复电脑驱动问题的多种解决方案,涵盖从基础到进阶,再到系统级的操作方法,以及硬件排查和预防建议。一、...
- 电脑总是莫名其妙出故障,立即检查这个设置!
-
不久前贴吧看到过这么一个帖子:有个做设计的狠人,仗着自己32G内存条,非说虚拟内存是微软的智商税。结果呢?Photoshop渲染到99%直接闪退,3D建模文件当场“灰飞烟灭”。电脑操作系统可不像人懂得...
- 网友被很简单的一个电脑问题折腾了几个月还没弄好,挺感慨的
-
昨天晚上,一个网友询问一个型号的电脑主机买了不合适可不可以退,我挺奇怪的,就问他具体怎么回事,他说他的电吉它总是连不上电脑,无法调音,请人重装了几次系统,又请人折腾数次,几个月一直没搞定,怀疑是电脑本...
- 一次诡异的电脑重启故障(电脑出现异常重启)
-
在公司的日常运营中,设备的稳定运行至关重要。近日,公司里一台用于检测设备的电脑出现了异常状况,着实让我费了一番周折才解决问题。那天,我接到同事反馈,说这台检测设备电脑莫名地重启。我立刻放下手中的工作,...
- 德国所有机场突发电脑系统故障 大量航班受影响
-
当地时间1月3日,德国所有机场突发电脑系统故障,导致大范围航班运行受影响。据德国联邦警察发言人证实,机场边检及相关系统无法正常运行,旅客需面临长时间排队和等待的状况。△资料图多个机场出现严重技术故障据...
- 电脑维修入门基本知识大全(电脑维修入门基本知识大全图解)
-
以下是电脑维修入门基本知识的系统整理,结合硬件维护、故障排查及使用习惯三大核心方向,帮助新手快速掌握关键要点:一、硬件基础与识别1.核心组件认知主板:硬件连接中枢,故障易导致开机无反应。CPU/内存/...
- 电脑上网常用故障及其解决方法(电脑网络故障怎么修复)
-
干了这么多年的网络,今天我就来总结一下,经常出现的网络故障及其解决的方法,看看有没有哪些故障是你遇见过的?怎么解决的?下面我们从这几个点来分析:一、IP地址问题显示IP地址冲突,我们怎么办?Windo...
- 维修电脑常用的7个方法(维修电脑常用的7个方法是什么)
-
今天介绍维修电脑常用的7个解决方法,平时电脑开不了机,按开机键没反应,或者电源指示灯闪烁,屏幕不亮,显示无信号,或者开机主板有警报声,电脑缺少各种系统文件,或者开机蓝屏等使用以下这7个方法,可以修好8...
- 突然崩了!很多人以为电脑坏了!官方紧急回应
-
QQ崩了这事儿真挺逗。上午十一点多正干活呢,桌面QQ突然闪退报错,反复登录就是进不去。第一反应绝对是骂电脑不争气,有人甚至把系统重装了。结果热搜跳出来"QQ崩了",合着白忙活半天。腾讯...
- 电脑网络连不上网?10个步骤轻松排查故障,小白也能自己修!
-
大家有没有遇到过这种情况?正追剧到关键时刻,突然提示"网络连接失败";急着要交的文档传不上网盘,急得直冒汗。别慌!今天教大家10个小白都能操作的排查方法,不用拆电脑也不用求人,跟着做就...
- 电脑开机花屏肯定不是电脑的问题(电脑开机花屏是怎么回事)
-
文章最后,了解更多,领取红包。世界上这么多人,每天运用电脑的人就更是数不计数,所以每天世界上的每个角落都有很多人在面临着不一样的电脑问题。小编我今天就来说说,当电脑出现开机花屏的时候,应该怎么搞定。所...
- 电脑没有声音怎么办?不是电脑的问题,是你不知道怎么设置的问题
-
电脑没有声音怎么办?了解这几招快速解决!有没有碰到过这样的经历,电脑用着突然没有声音了;或者重启电脑之后,电脑没声音了。然后绞尽脑汁尝试各种办法,搞了好久也没有解决这个问题,今天小编给大家介绍几种方法...
- 《电脑故障不求人,这些维修技巧要掌握!》
-
电脑故障不求人,这些维修技巧要掌握!电脑罢工别慌!掌握基础排查逻辑,80%小问题可自救。以下分场景拆解实用技巧,让你秒变“修机达人”。一、开机无反应:先查“供电三件套”1.电源检查-按机箱电源键,...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)