近期,科技界迎来了一项革命性的突破,星动纪元公司正式推出了其端到端原生机器人大模型ERA-42,这款被命名为“纪元原生机器人大模型”的创新成果,象征着对宇宙奥秘无尽探索的精神,同时展示了与自研五指灵巧手星动XHAND1协同作业的卓越能力。ERA-42已成功掌握了超过100种复杂精细的操作技能,且仍在不断扩展其技能库,如使用工具拧紧螺钉、精准敲击钉子、扶正水杯并倒水等。
依托ERA-42的强大能力,星动XHAND1能够灵活应对多种新任务,实现了五指灵巧手如人手般的多样工具操作能力。这一成就标志着业界首次通过单一具身大模型,完成了上百种复杂精细的操作任务,凸显了ERA-42在通用性和灵巧操作方面的行业领先地位。无需任何预编程,仅凭其出色的泛化和自适应能力,ERA-42能在极短时间内,通过少量数据收集学会新技能。
星动XHAND1与ERA-42的结合,展现了超过100种精细化、智能化的五指灵巧手操作任务,标志着具身大模型通用灵巧操作新时代的到来。ERA-42不仅是全球首个真正的五指灵巧手具身大模型,更是开启了具身智能体通用灵巧操作的大门。
要实现真正的具身大模型,需满足三大核心要素:统一的模型泛化能力、端到端的处理流程以及规模化的发展潜力。首先,通过构建融合视觉、语言、触觉和身体姿态等多模态信息的统一原生模型,实现对不同任务和环境的广泛适应性。其次,从接收全模态数据到生成最终输出,通过一个简洁的神经网络链路完成,无需人为干预,显著提升具身智能体的灵活性和开发效率。最后,真正的端到端算法允许模型通过持续的数据积累实现自我完善,数据量增长的同时,性能提升,并在未知任务中展现卓越的自适应和泛化能力。
星动纪元ERA-42作为国内首个真正意义上的端到端原生机器人大模型,其性能与世界领先水平比肩。早期,星动纪元与Physical Intelligence(PI)几乎同时采用端到端算法提升原生机器人大模型性能,PI推出的π0模型通过结合大规模视觉-语言预训练与机器人操作数据集,实现了机器人在人类环境中自主执行多种复杂任务的能力,这是具身大模型领域的重要里程碑。星动纪元的研究成果与PI不谋而合,其论文HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers在CoRL2024上发表。
星动纪元随后探索了另一条训练道路,采用大规模视频数据学习策略,涵盖无标注视频、各类形态机器人数据、人类活动数据及遥操作数据等。不同于直接模仿视频中的行为,星动纪元学习行动产生的结果,降低了数据收集成本,解决了数据消耗巨大的行业难题。星动纪元将世界模型融入原生机器人大模型中,使模型不仅具备行动能力,还具备了对物理世界的理解能力,能够预测未来行动轨迹,并迅速响应外部干扰,在任务执行过程中持续自适应优化行为,提升执行任务的高效性和准确性。
相比传统的夹爪,星动XHAND1基于ERA-42的能力,能够完成更多样化、更复杂、更精细的操作任务。五指灵巧手像人手一样使用多种工具,实现了更高的通用性和灵巧性。同时,ERA-42具备对物理世界的理解和未来预测的能力,显著提升了泛化能力和任务成功率。通过大规模视频数据的预训练,ERA-42在短时间内通过少量数据就能学会新的操作任务,展现出强大的泛化和自适应能力。融合世界模型后,ERA-42在单任务和长序列任务上都展现出了业内领先的抗干扰能力。
研究结果显示,随着模型规模的扩大,任务成功率明显提升,初步体现了与大语言模型训练中类似的“Scaling效应”。这一发现进一步证明了模型规模与性能之间的正相关性。为实现通用具身智能体的产业化落地,星动纪元不仅打造了ERA-42这样的先进模型,还推出了为AI定义的全新硬件平台,如自研的五指灵巧手星动XHAND1。这款灵巧手具备12个主动自由度,全自主五指关节驱动,高精度作业能力,以及高分辨率触觉阵列传感器,为复杂灵巧操作任务奠定了基础。
依托ERA-42和星动XHAND1的协同进化,星动纪元通用人形机器人执行任务的通用性和泛化性将得到大幅提升。结合此前发布的复杂地形稳定行走和奔跑的运动性能,以及上下肢协同作业能力,星动纪元的原生通用具身智能体将拥有更广泛的应用场景,真正实现产业化落地。