近日,华中科技大学电信学院与北京通用人工智能研究院(简称“北通院”)携手,在人工智能领域顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI,影响因子20.6)在线发表了题为“M2Diffuser: Diffusion-based Trajectory Optimization for Mobile Manipulation in 3D Scenes”的重要研究成果。该成果为机器人在复杂三维场景下实现高效、精准的移动操作提供了全新的解决方案。论文第一作者为华中科技大学电信学院“通计划”2024级联合培养博士生鄢思旭。电信学院王兴刚教授与北通院刘航欣研究员为论文共同通讯作者。

图1 T-PAMI论文首页截图
在当今科技飞速发展的时代,人工智能与机器人技术的融合不断带来令人惊叹的成果。然而,在移动操作这一关键领域,传统方法长期以来面临着诸多挑战,例如高维动作空间、复杂环境交互以及严格的物理约束等。这些难题如同一道道难以逾越的高山,阻碍着机器人技术迈向更高层次的发展。M2Diffuser,全称为“Mobile Manipulation Diffuser”,是一种基于扩散模型的场景条件生成模型。它首次结合了学习方法与传统规划方法的优势,直接从机器人中心的3D扫描数据中生成高效、协调的全身运动轨迹。这一创新方法不仅能够灵活地适应各种复杂的任务目标,还能在每次去噪步骤中以完全可微分的方式减少物理违规和执行错误,确保机器人的动作既安全又精准。

图2 三维场景下移动操作挑战
在过去,无论是基于学习的自回归规划方法,都依赖于完美环境知识的传统规划方法,难以在复杂的真实世界环境中实现高效、可靠的移动操作。学习方法虽然能够从数据中学习到复杂的技能,但在模型推理过程中往往难以完全消除物理约束的违反;而传统规划方法则因对环境建模的严格要求和对目标的过度依赖,难以在实际应用中实现广泛的扩展。
为了突破这些瓶颈,研究团队首先开发了 M3Bench ——一个涵盖 30000 个物体操作任务的移动操作基准测试平台,覆盖 119 种多样化的家庭场景。该平台不仅提供了丰富的专家演示数据,还配备了元数据采集接口,构建了从基础抓取到复杂场景操作的任务谱系。M3Bench 的开发为 M2Diffuser 提供了高质量的训练数据,确保了模型在复杂三维环境下的高效学习和优化能力。这一平台的出现,不仅解决了移动操作研究中缺乏标准化测试平台的问题,还为全身运动规划研究提供了系统化的评估框架,支持对运动生成算法进行全面验证。

图3 M3Bench移动操作测试平台
M2Diffuser利用扩散模型的强大能力,直接学习运动轨迹的概率分布。在推理过程中,M2Diffuser 将物理约束和任务目标建模为可微分的成本和能量函数,引导优化过程,确保生成的轨迹既符合物理规律,又能精准完成任务目标。这一过程中,M2Diffuser 不仅能够处理复杂的全身运动轨迹,还能在多种任务之间灵活切换,展现出极高的适应性和泛化能力

图4 M2Diffuser模型架构
实验结果表明,M2Diffuser相较于基线方法在所有性能指标上实现了质的提升(平均提升26%)。它不仅在熟悉和未知场景中均展现出更高的成功率,还通过优化机制大幅降低了碰撞率,并生成了更平滑、更符合关节限制的运动轨迹。此外,M2Diffuser凭借其迭代去噪过程和全局优化能力,能够生成更接近全局最优解的运动轨迹,有效避免了短视规划问题。更重要的是,它首次实现了从仿真到真实世界的无缝迁移,直接将基于模仿学习的神经运动规划器应用于真实家庭环境中的移动操作任务,并成功处理了未见过的环境和物体,充分证明了其在复杂真实场景中的泛化能力和鲁棒性。

图5 M2Diffuser仿真测试

图6 M2Diffuser真机测试
M2Diffuser有望赋能机器人技术进入一个全新的时代——一个机器人能够在复杂环境中自主、高效地完成各种任务的时代,为智能工厂、家庭服务机器人、物流配送等领域带来革命性的变革,极大地提高生产效率和生活质量。该成果的取得也是华中科技大学与北京通用人工智能研究院围绕“通计划”开展合作研究取得的重要成果之一。
全文链接:https://ieeexplore.ieee.org/document/10937276