在具身智能狂飙突进的今天,让机器人像人一样在复杂场景中灵活交互,已成为学术界与工业界的共同愿景。其中的核心挑战在于人体 - 场景交互建模,这需要深入理解人体运动、空间布局以及交互的稳定性。从图像或视频中重建人体 - 场景交互(HSI),不仅能提供高保真的监督信号,还能帮助构建可扩展的、仿真就绪(Simulation-ready)的数据集。

然而,现有方法普遍存在 “感知 - 仿真鸿沟”(Perception–Simulation Gap):许多在视觉上极其逼真的人体交互重建结果,一旦丢进物理仿真器,就会因为违背物理定律(如身体穿透物体、重心不稳等)而瞬间崩塌。这一鸿沟很大程度上源于人体与环境建模的分离。现有研究很少捕捉两者间明确的物理耦合,而是分为三个独立方向:1)3D 场景重建(如 NeRF, 3DGS),侧重环境几何而忽视人体动力学;2)人体动作估计,虽具鲁棒性但在隔离状态下重建,缺乏物理接触或环境约束;3)交互建模,通常受限于规模和物理验证不足。尽管近期出现了一些统一框架,但仍主要在 2D 图像空间优化,优先考虑视觉对齐而非几何与物理的有效性。因此,重建结果缺乏尺度和接触精度,无法用于仿真部署。

为了弥合这一鸿沟,来自南洋理工大学 S-Lab,ACE Robotics,和上海人工智能实验室的研究团队推出了 HSImul3R—— 一个仿真就绪的人体 - 场景交互 3D 重建框架。该框架将重建表述为一个双向物理感知优化问题。物理仿真器充当 “主动监督者”,实现人体运动与场景几何之间的闭环优化。

此外,他们采集构建了 HSIBench 数据集,包含 19 类物体、50 多个运动序列及 300 个独特交互实例。



想深入了解 HSImul3R 的技术细节?我们已经为你准备好了完整的论文、项目主页!



方法



以日常采集到的视频或图片作为输入,HSImul3R 通过 Physics-in-the-loop 的优化管线实现了模拟就绪的人体 - 场景交互重建。本文以图片输入的情况作为讲解。首先,他们提出了在重建管线中注入显式 3D 生成先验,以实现更优的人体 - 场景对齐。随后:(1)在正向优化中,作者提出了场景针对性强化学习,通过优化人体运动来提高在仿真器中的交互稳定性。(2)在反向优化中,作者引入了直接仿真奖励优化(DSRO),利用仿真器关于稳定性的反馈来精细化场景几何。

具体而言,他们根据仿真的稳定性反馈定义了四种结果类型:第一类:物体在重力作用下无法保持自稳;第二类:物体在人体交互过程中失去平衡;第三类:物体虽能达到稳定状态,但不能和人体产生有意义的交互;第四类:物体和人体实现了稳定的交互。

人体 - 场景交互重建与对齐



通过显式 3D 结构先验进行对齐:尽管完成了上述初步对齐,两个关键问题依然存在:

(1) 重建的场景几何常包含结构错误,如组件断开、表面缺失或非封闭拓扑;

(2) 人体 - 场景对齐仅依赖于基于 2D 投影的监督,缺乏 3D 几何感知且易受遮挡影响。

这些缺陷不可避免地导致物理仿真器中的物理不稳定和漂移。为解决这些挑战,作者利用预训练生成模型的 3D结构先验来修正场景几何,并施加更稳健的交互约束。















正向优化:基于场景的人体动作优化

在完成人体 - 场景交互的初始 3D 重建和对齐后,下一步是确保其在物理仿真器中具有稳定的动力学表现。一种直接的方法是采用运动跟踪技术将重建的人体姿态重定向并放到仿真器中。然而,这样直接仿真原始重建结果的做法往往无法产生稳定的交互。在许多情况下,人形机器人会无意中碰撞附近的物体,导致物体与身体分离并独立静置于地面。这种不稳定性是因为传统的 3D 重建未考虑重力与交互力,无法验证姿态与物体放置在物理上是否可实现。

为解决此问题,作者在基于强化学习的运动跟踪中引入了针对场景的监督信号







反向优化:仿真器引导的物体精细化

尽管带有场景针对性强化学习的正向优化增强了仿真稳定性,作者仍观察到稳定性比例尚不理想。研究发现,该问题很大程度上源于显式 3D 生成先验的质量不一,主要原因有二:(1) 生成的物体常包含结构缺陷(尤其是细长几何体),例如桌椅缺失腿部,导致其在无交互的情况下也无法在仿真器中自稳;(2) 输入图像中人体造成的严重遮挡常导致生成的物体出现表面畸变或异常凸起。这些局限使得人形机器人在仿真中难以建立稳定且符合物理规律的接触。

直接仿真奖励优化 (DSRO):受 DSO 启发,他们提出了直接仿真奖励优化(DSRO),这是一种利用物理仿真反馈作为监督信号来精细化 3D 显式物体生成的创新方法。不同于依赖人工标注或 3D 真值的方法,DSRO 直接利用仿真结果来评估生成物体及其与人体交互的物理合理性。

形式上,我们将 DSRO 目标定义为:





稳定性由三个标准判定:(1) 物体必须在模拟器重力作用下保持直立和物理稳定;(2) 重建场景必须达到稳定的最终状态;(3) 交互必须包含实际接触,而非物体独立静置于地面。

HSIBench 数据集及仿真实验



为了支持本框架的训练与基准测试,作者们构建了一个专门针对人体 - 场景交互的数据集 ——HSIBench。该数据集通过系统性地采集交互场景构建而成,邀请了三名志愿者(两男一女)与多种物体进行交互,包括 8 把椅子、3 张桌子和 3 个沙发。

HSIBench 共记录了300 个独特的 HSI 案例,每个案例均从16 个不同视角进行拍摄,以提供丰富的多视图监督信号。上图中,作者提供了部分数据的示例图和仿真结果。

真机实验



除了仿真模拟之外,作者们基于 HSImul3R 优化的人体运动轨迹,实现了 sim-to-real 的真机实验。其中,他们首先利用 GMR 将人体动作重定向至 宇树 G1 人形机器人的形态。这些重定向后的动作随后被用作扩散引导强化学习(Diffusion-guided RL)的先验,在 IsaacGym 仿真器中训练全身控制策略。该框架允许智能体在强化学习训练阶段利用扩散模型的生成先验来学习稳健的平衡能力。训练完成后,生成的控制策略通过 Unitree SDK 直接部署到 G1 人形机器人硬件上。

如上图所示,该策略在 宇树 G1 真机上的成功部署表明,HSImul3R 精细化后的动作能够实现稳定的机器人 - 场景交互。该框架为利用 YouTube 等平台的海量低成本数据来增强大规模具身智能模型的训练数据提供了可扩展的基础。

总结

本文介绍了 HSImul3R,一个能够从非校准稀疏视角中重建仿真就绪人体 - 场景交互的框架。该方法方法集成了:(1)接触感知交互模型,旨在缓解 3D 重建中的人与场景穿模的问题;(2)场景针对性强化学习策略,用以提升仿真器内的交互稳定性;(3)直接仿真奖励优化(DSRO)方案,利用仿真反馈微调图生 3D 生成模型,从而提高仿真成功率。此外,作者们采集了 HSIBench 数据集以支持训练与评估。实验证明,HSImul3R 在稳定仿真与高质量 3D 重建方面均达到了高保真效果,性能显著优于现有最先进方法。

尽管 HSImul3R 在仿真就绪重建领域迈出了第一步,但仍存在以下局限:

1.成功率仍有提升空间:尤其是在涉及复杂交互或多物体(超过三个)的场景下;

2.交互深度不足:在部分失败案例中,人体与物体趋向于各自独立站立,而非产生有意义的实质性交互;

3.模型偏见:微调后的图生 3D 模型不可避免地继承了原始 MIDI 数据集及 HSIBench 的偏见,这可能限制其在域外场景的泛化能力。