智元机器人 投稿在具身智能领域,如何让机器人在任务指引和实时观测的基础上规划未来动作,是一项备受关注的核心课题。这一问题的复杂性主要源于以下两大挑战:模态对齐:需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。数据稀缺:缺乏大规模、多模态且带有动作标签的数据集。近期,一些研究尝试将视频生成与动作规划相结合,利用无动作标签的海量视频数据进行训练,取得了一定的进展。然而,这些方法大多仅将现有通用视频生成模型简单应用于具身场景,未充分考虑具身任务的特殊需求。为此,智元机器人具身算法团队推出了...
智元机器人 投稿在具身智能领域,如何让机器人在任务指引和实时观测的基础上规划未来动作,是一项备受关注的核心课题。这一问题的复杂性主要源于以下两大挑战:模态对齐:...