当前位置: 华闻网 - 资讯

星海图构建具身智能VLA模型,引领机器人智能新方向

时间:2025-04-10 09:44    作者:李信   来源:中国广告网    阅读量:4859   会员投稿

星海图助力构建具身智能VLA模型,开启机器人智能发展新征程

在过去两年,机器人智能领域成绩斐然。斯坦福大学成功让桌面级机器人完成双臂系鞋带、操作透明物体等精细动作。凭借模仿学习技术,机器人已能处理家庭日常事务,甚至在医疗领域执行精细的缝线操作。

2025 年 3 月 13 日,在第三届具身智能机器人产业发展论坛上,星海图首席科学家赵行指出,将高质量真实数据与模仿学习相结合,是推动通用机器人智能发展的关键路径。在数据金字塔结构里,高质量真实数据处于顶端,数量虽少但质量极高;中间层是仿真数据,虽能借助计算机高效生成,却与真实世界有差距;底层的互联网数据容易获取,然而质量参差不齐且常缺乏动作相关信息。所以,合理获取和运用不同层级的数据,对机器人智能发展至关重要。

星海图借助模仿学习,运用高质量数据,让自家机器人完成了诸多复杂又有趣的任务,比如自动清理桌面垃圾、精准调配果汁等。全球不少机构,像斯坦福大学的一个课题组,都采购了星海图的机器人,用于衣物整理、货架摆放、家庭清洁等家务工作。

星海图是一家提供本体制造、智能研发及解决方案的全栈具身智能公司。发展过程中,常被问到三个问题:数据方面,该用真实数据、仿真数据还是互联网数据?算法上,开发模块化、端到端还是大模型算法?作为创业公司,如何获取数据并提升算法效率以控制成本?

这些问题的答案,藏在星海图的两项主要工作里。先看数据选择,过去两年,机器人具身智能领域技术突破不断,如斯坦福大学的 Aloha 系统让桌面级机器人双臂实现精细动作,还有机器人能完成家庭任务、医疗缝线等操作。从中可以看出,模仿学习和高质量真实数据结合,是通向通用具身智能的重要路径,也是目前业内认可度和技术收敛度较高的技术路线。

在具身智能的数据体系中,高质量真机采集数据质量最佳但数量稀少,处于数据金字塔顶端;中部的仿真数据生成效率高,可与真实世界有明显差距;底层的互联网数据获取容易,却质量不一且缺少动作信息。理想情况是获取顶端的高质量数据,星海图就通过模仿学习,利用高质量数据,让机器人完成桌面清扫、冲泡果汁等任务。

很多研究团队采购了星海图的机器人,斯坦福大学李飞飞课题组就用其完成一系列家务,这都借助端到端模型和高质量数据采集实现。

构建具身智能基础模型十分必要。一方面,具身智能机器人任务多样,需要一个统一架构的模型来集成各种任务,就像语言模型领域的 GPT、视频生成领域的相关模型一样;另一方面,模型能力应随数据质量和数量提升,在人工智能尤其是大语言模型范畴,模型规模、计算量和数据量能推动性能提升,不再依赖工程师手动调参或修改架构;再者,具身基础模型要具备广泛泛化能力,与传统机器人不同,能在全新环境和面对新物体时展现泛化效果,涵盖物体类内、类间、组合及跨任务泛化等。

星海图的具身基础模型分两个阶段。当前开发的第一阶段是基于模仿学习的 VOA 全身智能模型,类似大语言模型的预训练和后训练。预训练时,采用统一的 EOA 模型架构,用海量真机数据和自有 RSR 数据辅助;后训练针对特定垂直领域任务,只需少量真机数据,大幅降低单任务编辑数据成本。第二阶段,通过模仿学习和强化学习联合优化,实现全身智能和全自由度联合控制,完成更复杂任务并实现近乎零样本泛化。

除模型研发,星海图还关注空间智能。具身智能与传统视觉 AI 不同,机器人在物理世界作业,要理解三维空间和时间规律,为此推出业界首个具身智能的 Real to Seem to Real 引擎,即 RSR 引擎。RSR 引擎采用纯视觉方案进行数字孪生重建,数据采集仅用消费级设备,成本仅为专业设备的 1%。例如用手机在清华大学校园拍摄后进行三维重建,在 Real to Seem 环节,以纯视觉输入,运用基于 Gaussian Splatting 的算法进行三维重建,完成后能实现新视角渲染、几何结构重构以及语义和实例分割;seem to real 阶段则重构场景,生成新数据训练机器人操作和导航模型,提升其性能。

星海图的空间智能引擎 RSR 也分两个阶段。第一阶段利用 Gaussian Splatting 技术进行视觉孪生,重建机器人作业场景,还原精度达厘米级,构建大规模物体库和场景库,提升具身感知与导航操作能力;第二阶段采用泛化的三维视觉世界模型,重建开放场景,对动态、柔性物体建模,通过众包构建物体库和场景库,实现泛化的场景和空间理解,提高 EFM 数据利用效率。

空间智能与具身基础模型是星海图具身智能研发的关键工作。具身智能基础模型用于在线推理,构建数据闭环提升能力;具身智能引擎 RSR 是云端离线数据引擎,基于海量作业场景数据,进行高质量三维重建等工作,助力机器人实现高效泛化。通过空间智能引擎重构数字孪生场景或数据增广,还能解决真实世界高质量数据获取成本高的问题 。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

星海图构建具身智能VLA模型,引领机器人智能新方向

资讯精选

相关内容